Yeekal Logo Yeekal

我开发了一个免费的OCR工具网站

By Yeekal | Tue Nov 18 2025
views | comments
我开发了一个免费的OCR工具网站

完全免费|无需注册|支持 PDF & 图片|结构化 Markdown 输出|100+ 语言支持
🌐 立即体验 → https://deepseekocr.io

最近两个月,两个国产开源 OCR 模型横空出世,几乎霸榜全球 OCR 评测榜单——

  • DeepSeek-OCR:从 LLM 视角重构视觉编码,实现“上下文感知光学压缩”,在复杂文档理解上惊艳四座;
  • PaddleOCR-VL:仅 0.9B 参数的超轻量 VLM,却在 OmniDocBench v1.5 总分第一,公式识别精度甚至超越 Mathpix(见 PaddleOCR-VL 技术报告

作为科研党和程序员,经常使用markdown记录LaTeX公式笔记。对于论文或者博客里面的一大串公式,使用mathpix截图识别出latex可以节省很大的时间。mathpix是一款很优秀的公式识别助手,就是免费版经常限流。

于是,我做了 deepseekocr.io这个网站:一个完全免费、无需注册,不限次数的在线 OCR 工具,底层由DeepSeek OCRPaddleOCR-VL双引擎驱动。该工具网站专为科研党,学生,办公族,程序员打造。

为什么它值得你试试#

✨ 核心能力:

  • 高精度识别:PaddleOCR-VL 在 OmniDocBench v1.0/v1.5 总分第一;其公式识别甚至超过 Mathpix(见 技术报告
  • 结构化 Markdown 输出:自动还原标题、表格、公式(LaTeX)、图片位置
  • 排版感知:文字与图像分块保留原布局(PaddleOCR-VL 的 NaViT 视觉编码器加持)
  • ✅ 支持 图片 & PDF,覆盖 100+ 语言
  • ✅ 免费无门槛(仅轻量 Turnstile 防刷)

无论是拍一张黑板公式转成 LaTeX扫描手写笔记整理成 Markdown提取 PDF 论文中的多栏表格,还是识别餐馆菜单、购物小票、发票、护照、身份证、驾照等证件,它都能高精度还原内容与排版,让杂乱图像秒变结构化文本。

对我而言,日常任务用 PaddleOCR-VL(仅 0.9B)已足够精准又高效;DeepSeek OCR 是在runpod gpu服务器上个人部署的,速度有点慢,只是略作尝鲜。

实测效果:典型OCR任务场景#

场景一:一个复杂的多行公式

原图|量子引力拉格朗日量 量子引力(Quantum Gravity)的拉格朗日量 识别结果:

量子引力(Quantum Gravity)的拉格朗日量公式识别结果

$$ \begin{aligned}\mathcal{L}_{\mathrm{Q G}}=&\underbrace{\frac{1}{2\kappa^{2}}R}_{\text{Einstein--Hilbert}}-\underbrace{\frac{1}{4}F_{\mu\nu}^{a}F^{a\mu\nu}}_{\text{Yang--Mills}}\\&+\underbrace{\bar{\psi}\gamma^{\mu}\left(\nabla_{\mu}-i g A_{\mu}^{a}T^{a}\right)\psi}_{\text{Dirac--gauge coupling}}\\&+\underbrace{\lambda\left(\phi^{\dagger}\phi-v^{2}\right)^{2}}_{\text{Higgs potential}}\\&+\underbrace{\xi R\phi^{\dagger}\phi}_{\text{non-minimal coupling}}\\&+\underbrace{\frac{1}{\sqrt{-g}}\partial_{\mu}\left(\sqrt{-g}K^{\mu\nu\rho\sigma}\nabla_{\nu}R_{\rho\sigma}\right)}_{\text{higher-derivative gravity}}\end{aligned} $$ 

PaddleOCR-VL 在长公式、多行嵌套、特殊符号(如 \mathcal, \alpha, \cdots)上表现很稳,无乱码、无遗漏

*场景二:手写公式笔记转markdown + latex

原图|混有中文、公式、草图的手写笔记 手写笔记

识别结果:

手写笔记识别结果

✅ 手写汉字 + 公式 + 草图分区识别——这对传统 OCR 是“地狱级”挑战,但 PaddleOCR-VL 的 NaViT 动态分辨率编码器轻松应对,这种效果还是比mathpix要好一些

场景三:双栏论文识别

原图|双栏+公式 研究论文样例

识别结果:

研究论文识别结果

✅ 不是“文本搬运工”,而是“文档理解助手”。

场景四:小票识别

原图|密集排版、倾斜拍摄、低光照
小票样例

识别结果:

小票识别结果

✅ 数值对齐、项目归类,自动以三列table方式输出

保持原结构输出

原图: 文档样例

识别结果:

底部的二维码也是按照原结构输出的。由PaddleOCR-VL 的 NaViT 视觉编码器加持,会把文档中的图片截取出来,同时保持原结构输出。

文档识别结果

多模型驱动#

模型定位适用场景
PaddleOCR-VL(0.9B)主力引擎95% 日常任务:公式 / 小票 / 文档 / 多语言
DeepSeek-OCR(~3B)🌟 精度旗舰技术展示、复杂布局兜底
  • 主流量走 PaddleOCR-VL API(百度 AI Studio 提供)
  • DeepSeek-OCR 由我个人部署于 runpod,虽贵且慢,但作为“技术门面”——既吸引高要求用户,也展示前沿能力;
  • 后续将推出更多OCR模型,比如OlmOCR v2(7B)

💡 网站域名 deepseekocr.io 是 DeepSeek-OCR 发布时抢注的——虽然后来 PaddleOCR-VL其参数量更小,评分更高, 表现更优,但懒得维护这么多域名了

🌍 下一步计划#

  1. 多语言界面(中/英/日/韩等)
  2. Pro 会员系统:PDF 多页解析、10MB 文件支持、无验证、高优队列
  3. API 服务上线(RapidAPI / Apify,供开发者集成)

🔗 相关链接#

我开发了一个免费的OCR工具网站
https://yeekal.com/indie-dev/free-ai-ocr-tool
作者 Yeekal
Published at November 18, 2025
Comment seems to stuck. Try to refresh?✨