OCR PDF

打开PDF按Ctrl+F，什么都找不到——因为那只是张图片。OCR（光学字符识别）工具会逐页分析PDF里的图像，识别每个字符，并在原始页面上方生成一层看不见的文字。

处理后文件外观完全不变，但你可以选取文字、复制段落、用Ctrl+F搜索关键词。旧合同、档案扫描件、以图片形式收到的PDF，都能变得真正可用。

OCR选项

文档语言

选择文档的主要语言以获得最佳OCR准确度。

OCR处理大型文档可能需要几分钟时间。生成的PDF外观相同，但文本可搜索和选择。

最佳效果： 高分辨率扫描（300+ DPI）、白底黑字、标准打印字体。

OCR PDF

扫描的PDF里文字选不了、搜不到？OCR在原图上叠加文字层，外观不变，但从此可以搜索、复制、选取内容。

拖放您的PDF文件到这里

或点击浏览（最大10MB）

OCR处理PDF的原理

OCR逐页分析PDF中的图像，识别其中的字符、词语和段落，然后在原始图像正上方生成一层不可见的文字层。你看到的还是扫描图，但图层下面是真实可操作的文本。

在OCR处理过的PDF里选取文字时，实际上是在操作那个隐藏的文字层。搜索时，PDF阅读器也是扫描这一层。由于每个字符的位置与图像中完全一致，选取高亮会精准对齐扫描的文字，不会错位。

识别精度主要取决于扫描质量。300 DPI以上、白底黑字、常见印刷字体的条件下，精度可达95%—99%。图像模糊、纸张泛黄、特殊字体或页面歪斜都会影响识别率。手写字体尤其难处理，标准OCR对此并不擅长。

操作步骤

上传扫描PDF — 将文件拖入上传区，支持含扫描页或图片页的任意PDF。
选择语言 — 选择文档的主要语言，帮助OCR引擎更准确地识别字符。
执行OCR — 工具逐页分析，识别文字，构建可搜索的文字层。
下载结果 — 外观与原件相同，但文字现在可选取、可搜索。

支持的语言

不同语言的识别精度有差异，以下是大致情况：

精度优秀

• 英语
• 德语
• 法语
• 西班牙语
• 意大利语
• 葡萄牙语

精度良好

• 荷兰语
• 波兰语
• 俄语
• 中文（简体）
• 日语
• 韩语

已支持

• 阿拉伯语
• 印地语
• 泰语
• 越南语
• 希腊语
• 希伯来语

常见使用场景

档案数字化

扫描的历史文件、旧合同、纸质记录变得可检索。数千页里找一个词，几秒搞定，不用逐页翻阅。

法律文书处理

扫描的法律文件变得可搜索。查人名、日期、特定条款，不用一页一页地读。

学术研究

扫描的期刊论文、旧书可以直接引用。选中段落复制即可，不必重新录入。

企业文档管理

以扫描件形式收到的发票、收据、合同可以被索引和检索，方便财务归档和合规管理。

无障碍访问

扫描PDF对屏幕阅读器来说是空白。经过OCR处理后，视障用户才能正常访问文档内容。

数据提取

文字可选取后，就能复制到Excel、Word等工具里用。扫描的表格、表单数据不用手动录入了。

影响识别精度的因素

效果最好的条件

• 扫描分辨率300 DPI以上
• 白底黑字
• 常见印刷字体
• 页面平整无歪斜
• 纸张干净无污迹
• 整体对比度良好

影响精度的情况

• 低分辨率（200 DPI以下）
• 彩色或有花纹的背景
• 装饰性或特殊字体
• 页面歪斜或旋转
• 污渍、折痕或破损
• 手写文字

处理后PDF有什么变化

OCR处理完成后，PDF同时包含原始扫描图像和新增的文字层。文件体积会略微增大，根据每页文字密度大约增加10%—30%。视觉外观完全不变，变化的是可用性：

文字可以被选取和复制
Ctrl+F可以在任意页面检索关键词
PDF阅读器可以对内容建立索引
屏幕阅读器可以朗读文档
可用其他工具提取文本内容

技术规格

OCR引擎： Tesseract 5.x（内置LSTM神经网络）
输出格式： 带不可见文字层的PDF（兼容PDF/A）
处理方式： 逐页分析，多线程并行
语言支持： 100余种语言
文件大小： 因文字层增加约10%—30%
原始画质： 扫描图像不作任何修改

OCR常见问题

探索类似工具

重新排列PDF页面

按需重排PDF页面。移动单页、倒序整篇文档或调换整个章节，输入页码即可完成，无需软件。

重新排列页面

删除PDF页面

精准删掉PDF里多余的页面——空白页、过期内容、不该外传的页面，其他页面完全不受影响。

删除页面

PDF扁平化

把PDF中的交互元素转成静态内容。锁定已填表单、固定注释、准备印刷文件，都能用这个工具搞定。

扁平化PDF

转换为PDF/A

把PDF转成PDF/A格式，几十年后打开还是原来的样子。适合合同、病历、法院文书等需要长期保存的文件。

转换为PDF/A

从PDF提取图片

把PDF里的图片原样取出来。照片、图表、logo、示意图，每张单独保存，直接下载。

提取图片

保护PDF

给PDF加密码，用256位AES加密保护。精确控制谁能打开、打印、复制或编辑文件。

保护PDF

快速访问

浏览分类

菜单

OCR PDF

OCR选项

OCR PDF

拖放您的PDF文件到这里

OCR处理PDF的原理

操作步骤

支持的语言

精度优秀

精度良好

已支持

常见使用场景

档案数字化

法律文书处理

学术研究

企业文档管理

无障碍访问

数据提取

影响识别精度的因素

效果最好的条件

影响精度的情况

处理后PDF有什么变化

技术规格

OCR常见问题

探索类似工具

重新排列PDF页面

删除PDF页面

PDF扁平化

转换为PDF/A

从PDF提取图片

保护PDF