OCR PDF

PDFを開いてCtrl+Fを押しても何も見つからない、あの不便さ。スキャンPDFは画像なので、テキストとして認識されていないのです。OCR(光学文字認識)ツールはPDF内の画像をページごとに解析し、文字を認識して元の画像の上に見えないテキストレイヤーを生成します。

見た目はスキャン前とまったく同じ。でも今はテキストを選択したり、段落をコピーしたり、Ctrl+Fで単語を検索したりできます。古い契約書、スキャンした資料、画像として受け取ったPDFを活用したいときに役立ちます。

OCRオプション

最適なOCR精度を得るために、ドキュメントの主要言語を選択してください。

OCR処理には大きなドキュメントの場合、数分かかる場合があります。結果のPDFは同じ見た目ですが、検索・選択可能なテキストになります。

最良の結果を得るには: 高解像度スキャン(300+ DPI)、白い背景に黒いテキスト、標準的な印刷フォント。

OCR PDF

スキャンPDFのテキストが選択できなくて困っていませんか?OCRを使えば、見た目はそのままで文字を検索・コピーできるようになります。

PDF ファイルをここにドラッグ&ドロップ

またはクリックして参照(最大10MB)

PDFにおけるOCRの仕組み

OCRはPDF内の各ページ画像を解析し、文字・単語・段落を認識したうえで、元の画像にぴったり重なるよう見えないテキストレイヤーを生成します。スキャン画像はそのまま表示されますが、その下には実際に選択・検索できるテキストが存在しています。

OCR処理済みPDFでテキストを選択するとき、実際には隠れたレイヤーから選んでいます。検索を実行するとPDFリーダーがそのレイヤーをスキャンします。各文字が視覚的な位置と完全に対応しているため、選択した範囲のハイライトがスキャン内のテキストとずれません。

精度はスキャンの品質に大きく左右されます。300DPI以上で白地に黒い印刷テキストであれば95〜99%の精度が出ます。ただし、かすれた文書・珍しいフォント・傾いたページは認識率を下げます。手書き文字は特に苦手で、OCRの設計対象外です。

使い方:PDFにOCRをかける手順

  1. スキャンPDFをアップロード — ファイルをアップロードエリアにドラッグしてください。スキャンページや画像ベースのページを含むPDFであれば何でも処理できます。
  2. 言語を選択 — 文書の主要言語を選ぶことで、OCRエンジンが文字をより正確に認識できます。
  3. OCRを実行 — ツールがページを順番に解析し、検索可能なテキストレイヤーを構築します。
  4. ダウンロード — 見た目はオリジナルのまま、テキストの選択・検索ができるPDFが完成します。

対応言語

言語によって認識精度が異なります。各カテゴリの目安は以下のとおりです:

高精度

  • • 英語
  • • ドイツ語
  • • フランス語
  • • スペイン語
  • • イタリア語
  • • ポルトガル語

良好な精度

  • • オランダ語
  • • ポーランド語
  • • ロシア語
  • • 中国語(簡体字)
  • • 日本語
  • • 韓国語

対応言語

  • • アラビア語
  • • ヒンディー語
  • • タイ語
  • • ベトナム語
  • • ギリシャ語
  • • ヘブライ語

主な活用シーン

文書アーカイブのデジタル化

スキャンした歴史的文書や古い契約書を検索可能にすれば、数千ページの中から一瞬で目的の語句を見つけられます。

法務・契約書管理

スキャンした法的文書を検索可能にすると、名前・日付・特定の条項への言及を手で読まずに素早く探せます。

学術研究

スキャンした論文や古い書籍を引用可能にできます。必要な箇所を直接選択してコピーでき、転記ミスもなくなります。

ビジネス文書

スキャンで受け取った請求書・領収書・契約書をインデックス化して検索できます。経理や記録保管のコンプライアンス対応にも役立ちます。

アクセシビリティ対応

スキャンPDFはスクリーンリーダーで読み取れません。OCRを適用することで視覚障害のある方もコンテンツにアクセスでき、アクセシビリティ要件の遵守にもつながります。

データ抽出

テキストが選択可能になれば、ExcelやWordなど他のツールにコピーできます。スキャンした表やフォームから手入力せずにデータを取り出せます。

認識精度に影響する要因

高精度になる条件

  • • 300DPI以上の解像度
  • • 白地に黒いテキスト
  • • 一般的な印刷フォント
  • • 傾きのないまっすぐなページ
  • • 汚れのない清潔な紙
  • • 全体的に良好なコントラスト

精度が下がる条件

  • • 低解像度(200DPI未満)
  • • 色付き・柄物の背景
  • • 装飾的または特殊なフォント
  • • 傾いたり回転したりしているページ
  • • シミ・折り目・破損
  • • 手書き文字

OCR処理後のPDFについて

処理後のPDFには元のスキャン画像と新しいテキストレイヤーの両方が含まれます。テキストデータが加わる分だけファイルサイズは若干増えます(テキスト量により10〜30%程度)。見た目はまったく変わりません。変わるのは操作性です:

  • テキストを選択・コピーできる
  • Ctrl+Fで任意のページの単語を検索できる
  • PDFリーダーがコンテンツをインデックス化できる
  • スクリーンリーダーが文書を読み上げられる
  • 他のツールでテキストを抽出できる

技術仕様

  • OCRエンジン: Tesseract 5.x(LSTMニューラルネットワーク搭載)
  • 出力形式: 不可視テキストレイヤー付きPDF(PDF/A互換)
  • 処理方式: ページごとに順次解析、マルチスレッド対応
  • 対応言語: 100言語以上
  • ファイルサイズ: テキストレイヤーにより約10〜30%増加
  • 画質: 元のスキャン品質を変更しない

OCRについてよくある質問

他のおすすめツール

PDFページ削除

PDFから特定のページだけを削除。空白ページ、古い内容、見せたくないページを、他のページをそのままにして取り除けます。

ページを削除
1 2 3

PDFページの並べ替え

PDFのページ順序をまとめて変更できます。1ページだけ移動する場合も、章まるごと入れ替える場合も、番号を入力するだけで完了です。

ページを並べ替え
90

PDF回転

横向きスキャンや逆さまのページ、数秒で直せます。90°・180°・270°回転、品質やレイアウトはそのまま。

PDFを回転

PDFフラット化

PDFのインタラクティブな要素を静的コンテンツに変換します。記入済みフォームのロック、注釈の固定、印刷用ファイルの仕上げに使えます。

PDFをフラット化

PDFを保護

PDFに256ビットAES暗号化でパスワードをかけられます。誰が開けて、印刷・コピー・編集できるかを自分で決められます。

PDFを保護

PDFから画像を抽出

PDFに入っている画像を、元の状態のまますべて取り出せます。写真、グラフ、ロゴ、図解――それぞれ個別のファイルとしてダウンロードできます。

画像を抽出