我开发了一个免费的OCR工具网站
✅ 完全免费|无需注册|支持 PDF & 图片|结构化 Markdown 输出|100+ 语言支持
🌐 立即体验 → https://deepseekocr.io
最近两个月,两个国产开源 OCR 模型横空出世,几乎霸榜全球 OCR 评测榜单——
- DeepSeek-OCR:从 LLM 视角重构视觉编码,实现“上下文感知光学压缩”,在复杂文档理解上惊艳四座;
- PaddleOCR-VL:仅 0.9B 参数的超轻量 VLM,却在 OmniDocBench v1.5 总分第一,公式识别精度甚至超越 Mathpix(见 PaddleOCR-VL 技术报告)
作为科研党和程序员,经常使用markdown记录LaTeX公式笔记。对于论文或者博客里面的一大串公式,使用mathpix截图识别出latex可以节省很大的时间。mathpix是一款很优秀的公式识别助手,就是免费版经常限流。
于是,我做了 deepseekocr.io这个网站:一个完全免费、无需注册,不限次数的在线 OCR 工具,底层由DeepSeek OCR 和 PaddleOCR-VL双引擎驱动。该工具网站专为科研党,学生,办公族,程序员打造。
为什么它值得你试试#
✨ 核心能力:
- ✅ 高精度识别:PaddleOCR-VL 在 OmniDocBench v1.0/v1.5 总分第一;其公式识别甚至超过 Mathpix(见 技术报告)
- ✅ 结构化 Markdown 输出:自动还原标题、表格、公式(LaTeX)、图片位置
- ✅ 排版感知:文字与图像分块保留原布局(PaddleOCR-VL 的 NaViT 视觉编码器加持)
- ✅ 支持 图片 & PDF,覆盖 100+ 语言
- ✅ 免费无门槛(仅轻量 Turnstile 防刷)
无论是拍一张黑板公式转成 LaTeX、扫描手写笔记整理成 Markdown、提取 PDF 论文中的多栏表格,还是识别餐馆菜单、购物小票、发票、护照、身份证、驾照等证件,它都能高精度还原内容与排版,让杂乱图像秒变结构化文本。
对我而言,日常任务用 PaddleOCR-VL(仅 0.9B)已足够精准又高效;DeepSeek OCR 是在runpod gpu服务器上个人部署的,速度有点慢,只是略作尝鲜。
实测效果:典型OCR任务场景#
场景一:一个复杂的多行公式
原图|量子引力拉格朗日量
识别结果:

$$ \begin{aligned}\mathcal{L}_{\mathrm{Q G}}=&\underbrace{\frac{1}{2\kappa^{2}}R}_{\text{Einstein--Hilbert}}-\underbrace{\frac{1}{4}F_{\mu\nu}^{a}F^{a\mu\nu}}_{\text{Yang--Mills}}\\&+\underbrace{\bar{\psi}\gamma^{\mu}\left(\nabla_{\mu}-i g A_{\mu}^{a}T^{a}\right)\psi}_{\text{Dirac--gauge coupling}}\\&+\underbrace{\lambda\left(\phi^{\dagger}\phi-v^{2}\right)^{2}}_{\text{Higgs potential}}\\&+\underbrace{\xi R\phi^{\dagger}\phi}_{\text{non-minimal coupling}}\\&+\underbrace{\frac{1}{\sqrt{-g}}\partial_{\mu}\left(\sqrt{-g}K^{\mu\nu\rho\sigma}\nabla_{\nu}R_{\rho\sigma}\right)}_{\text{higher-derivative gravity}}\end{aligned} $$
PaddleOCR-VL 在长公式、多行嵌套、特殊符号(如
\mathcal,\alpha,\cdots)上表现很稳,无乱码、无遗漏。
*场景二:手写公式笔记转markdown + latex
原图|混有中文、公式、草图的手写笔记

识别结果:

✅ 手写汉字 + 公式 + 草图分区识别——这对传统 OCR 是“地狱级”挑战,但 PaddleOCR-VL 的 NaViT 动态分辨率编码器轻松应对,这种效果还是比mathpix要好一些
场景三:双栏论文识别
原图|双栏+公式

识别结果:

✅ 不是“文本搬运工”,而是“文档理解助手”。
场景四:小票识别
原图|密集排版、倾斜拍摄、低光照

识别结果:

✅ 数值对齐、项目归类,自动以三列table方式输出
保持原结构输出
原图:

识别结果:
底部的二维码也是按照原结构输出的。由PaddleOCR-VL 的 NaViT 视觉编码器加持,会把文档中的图片截取出来,同时保持原结构输出。

多模型驱动#
| 模型 | 定位 | 适用场景 |
|---|---|---|
| PaddleOCR-VL(0.9B) | ✅ 主力引擎 | 95% 日常任务:公式 / 小票 / 文档 / 多语言 |
| DeepSeek-OCR(~3B) | 🌟 精度旗舰 | 技术展示、复杂布局兜底 |
- 主流量走 PaddleOCR-VL API(百度 AI Studio 提供)
- DeepSeek-OCR 由我个人部署于 runpod,虽贵且慢,但作为“技术门面”——既吸引高要求用户,也展示前沿能力;
- 后续将推出更多OCR模型,比如OlmOCR v2(7B)
💡 网站域名
deepseekocr.io是 DeepSeek-OCR 发布时抢注的——虽然后来 PaddleOCR-VL其参数量更小,评分更高, 表现更优,但懒得维护这么多域名了
🌍 下一步计划#
- 多语言界面(中/英/日/韩等)
- Pro 会员系统:PDF 多页解析、10MB 文件支持、无验证、高优队列
- API 服务上线(RapidAPI / Apify,供开发者集成)
🔗 相关链接#
- GitHub(DeepSeek-OCR):https://github.com/deepseek-ai/DeepSeek-OCR
- GitHub(PaddleOCR):https://github.com/PaddlePaddle/PaddleOCR
- PaddleOCR-VL 论文:https://arxiv.org/abs/2510.14528
- 体验入口:https://deepseekocr.io
- 首发于个人博客:https://yeekal.com/indie-dev/free-ai-ocr-tool