OCR PDF
PDFを開いてCtrl+Fを押しても何も見つからない、あの不便さ。スキャンPDFは画像なので、テキストとして認識されていないのです。OCR(光学文字認識)ツールはPDF内の画像をページごとに解析し、文字を認識して元の画像の上に見えないテキストレイヤーを生成します。
見た目はスキャン前とまったく同じ。でも今はテキストを選択したり、段落をコピーしたり、Ctrl+Fで単語を検索したりできます。古い契約書、スキャンした資料、画像として受け取ったPDFを活用したいときに役立ちます。
OCRオプション
最適なOCR精度を得るために、ドキュメントの主要言語を選択してください。
OCR処理には大きなドキュメントの場合、数分かかる場合があります。結果のPDFは同じ見た目ですが、検索・選択可能なテキストになります。
最良の結果を得るには: 高解像度スキャン(300+ DPI)、白い背景に黒いテキスト、標準的な印刷フォント。
OCR PDF
スキャンPDFのテキストが選択できなくて困っていませんか?OCRを使えば、見た目はそのままで文字を検索・コピーできるようになります。
PDF ファイルをここにドラッグ&ドロップ
またはクリックして参照(最大10MB)
変換を開始しています...
PDFにおけるOCRの仕組み
OCRはPDF内の各ページ画像を解析し、文字・単語・段落を認識したうえで、元の画像にぴったり重なるよう見えないテキストレイヤーを生成します。スキャン画像はそのまま表示されますが、その下には実際に選択・検索できるテキストが存在しています。
OCR処理済みPDFでテキストを選択するとき、実際には隠れたレイヤーから選んでいます。検索を実行するとPDFリーダーがそのレイヤーをスキャンします。各文字が視覚的な位置と完全に対応しているため、選択した範囲のハイライトがスキャン内のテキストとずれません。
精度はスキャンの品質に大きく左右されます。300DPI以上で白地に黒い印刷テキストであれば95〜99%の精度が出ます。ただし、かすれた文書・珍しいフォント・傾いたページは認識率を下げます。手書き文字は特に苦手で、OCRの設計対象外です。
使い方:PDFにOCRをかける手順
- スキャンPDFをアップロード — ファイルをアップロードエリアにドラッグしてください。スキャンページや画像ベースのページを含むPDFであれば何でも処理できます。
- 言語を選択 — 文書の主要言語を選ぶことで、OCRエンジンが文字をより正確に認識できます。
- OCRを実行 — ツールがページを順番に解析し、検索可能なテキストレイヤーを構築します。
- ダウンロード — 見た目はオリジナルのまま、テキストの選択・検索ができるPDFが完成します。
対応言語
言語によって認識精度が異なります。各カテゴリの目安は以下のとおりです:
高精度
- • 英語
- • ドイツ語
- • フランス語
- • スペイン語
- • イタリア語
- • ポルトガル語
良好な精度
- • オランダ語
- • ポーランド語
- • ロシア語
- • 中国語(簡体字)
- • 日本語
- • 韓国語
対応言語
- • アラビア語
- • ヒンディー語
- • タイ語
- • ベトナム語
- • ギリシャ語
- • ヘブライ語
主な活用シーン
文書アーカイブのデジタル化
スキャンした歴史的文書や古い契約書を検索可能にすれば、数千ページの中から一瞬で目的の語句を見つけられます。
法務・契約書管理
スキャンした法的文書を検索可能にすると、名前・日付・特定の条項への言及を手で読まずに素早く探せます。
学術研究
スキャンした論文や古い書籍を引用可能にできます。必要な箇所を直接選択してコピーでき、転記ミスもなくなります。
ビジネス文書
スキャンで受け取った請求書・領収書・契約書をインデックス化して検索できます。経理や記録保管のコンプライアンス対応にも役立ちます。
アクセシビリティ対応
スキャンPDFはスクリーンリーダーで読み取れません。OCRを適用することで視覚障害のある方もコンテンツにアクセスでき、アクセシビリティ要件の遵守にもつながります。
データ抽出
テキストが選択可能になれば、ExcelやWordなど他のツールにコピーできます。スキャンした表やフォームから手入力せずにデータを取り出せます。
認識精度に影響する要因
高精度になる条件
- • 300DPI以上の解像度
- • 白地に黒いテキスト
- • 一般的な印刷フォント
- • 傾きのないまっすぐなページ
- • 汚れのない清潔な紙
- • 全体的に良好なコントラスト
精度が下がる条件
- • 低解像度(200DPI未満)
- • 色付き・柄物の背景
- • 装飾的または特殊なフォント
- • 傾いたり回転したりしているページ
- • シミ・折り目・破損
- • 手書き文字
OCR処理後のPDFについて
処理後のPDFには元のスキャン画像と新しいテキストレイヤーの両方が含まれます。テキストデータが加わる分だけファイルサイズは若干増えます(テキスト量により10〜30%程度)。見た目はまったく変わりません。変わるのは操作性です:
- テキストを選択・コピーできる
- Ctrl+Fで任意のページの単語を検索できる
- PDFリーダーがコンテンツをインデックス化できる
- スクリーンリーダーが文書を読み上げられる
- 他のツールでテキストを抽出できる
技術仕様
- OCRエンジン: Tesseract 5.x(LSTMニューラルネットワーク搭載)
- 出力形式: 不可視テキストレイヤー付きPDF(PDF/A互換)
- 処理方式: ページごとに順次解析、マルチスレッド対応
- 対応言語: 100言語以上
- ファイルサイズ: テキストレイヤーにより約10〜30%増加
- 画質: 元のスキャン品質を変更しない