OCR PDF

PDFを開いてCtrl+Fを押しても何も見つからない、あの不便さ。スキャンPDFは画像なので、テキストとして認識されていないのです。OCR（光学文字認識）ツールはPDF内の画像をページごとに解析し、文字を認識して元の画像の上に見えないテキストレイヤーを生成します。

見た目はスキャン前とまったく同じ。でも今はテキストを選択したり、段落をコピーしたり、Ctrl+Fで単語を検索したりできます。古い契約書、スキャンした資料、画像として受け取ったPDFを活用したいときに役立ちます。

OCRオプション

ドキュメント言語

最適なOCR精度を得るために、ドキュメントの主要言語を選択してください。

OCR処理には大きなドキュメントの場合、数分かかる場合があります。結果のPDFは同じ見た目ですが、検索・選択可能なテキストになります。

最良の結果を得るには： 高解像度スキャン（300+ DPI）、白い背景に黒いテキスト、標準的な印刷フォント。

OCR PDF

スキャンPDFのテキストが選択できなくて困っていませんか？OCRを使えば、見た目はそのままで文字を検索・コピーできるようになります。

PDF ファイルをここにドラッグ&ドロップ

またはクリックして参照（最大10MB）

PDFにおけるOCRの仕組み

OCRはPDF内の各ページ画像を解析し、文字・単語・段落を認識したうえで、元の画像にぴったり重なるよう見えないテキストレイヤーを生成します。スキャン画像はそのまま表示されますが、その下には実際に選択・検索できるテキストが存在しています。

OCR処理済みPDFでテキストを選択するとき、実際には隠れたレイヤーから選んでいます。検索を実行するとPDFリーダーがそのレイヤーをスキャンします。各文字が視覚的な位置と完全に対応しているため、選択した範囲のハイライトがスキャン内のテキストとずれません。

精度はスキャンの品質に大きく左右されます。300DPI以上で白地に黒い印刷テキストであれば95〜99%の精度が出ます。ただし、かすれた文書・珍しいフォント・傾いたページは認識率を下げます。手書き文字は特に苦手で、OCRの設計対象外です。

使い方：PDFにOCRをかける手順

スキャンPDFをアップロード — ファイルをアップロードエリアにドラッグしてください。スキャンページや画像ベースのページを含むPDFであれば何でも処理できます。
言語を選択 — 文書の主要言語を選ぶことで、OCRエンジンが文字をより正確に認識できます。
OCRを実行 — ツールがページを順番に解析し、検索可能なテキストレイヤーを構築します。
ダウンロード — 見た目はオリジナルのまま、テキストの選択・検索ができるPDFが完成します。

対応言語

言語によって認識精度が異なります。各カテゴリの目安は以下のとおりです：

高精度

• 英語
• ドイツ語
• フランス語
• スペイン語
• イタリア語
• ポルトガル語

良好な精度

• オランダ語
• ポーランド語
• ロシア語
• 中国語（簡体字）
• 日本語
• 韓国語

対応言語

• アラビア語
• ヒンディー語
• タイ語
• ベトナム語
• ギリシャ語
• ヘブライ語

主な活用シーン

文書アーカイブのデジタル化

スキャンした歴史的文書や古い契約書を検索可能にすれば、数千ページの中から一瞬で目的の語句を見つけられます。

法務・契約書管理

スキャンした法的文書を検索可能にすると、名前・日付・特定の条項への言及を手で読まずに素早く探せます。

学術研究

スキャンした論文や古い書籍を引用可能にできます。必要な箇所を直接選択してコピーでき、転記ミスもなくなります。

ビジネス文書

スキャンで受け取った請求書・領収書・契約書をインデックス化して検索できます。経理や記録保管のコンプライアンス対応にも役立ちます。

アクセシビリティ対応

スキャンPDFはスクリーンリーダーで読み取れません。OCRを適用することで視覚障害のある方もコンテンツにアクセスでき、アクセシビリティ要件の遵守にもつながります。

データ抽出

テキストが選択可能になれば、ExcelやWordなど他のツールにコピーできます。スキャンした表やフォームから手入力せずにデータを取り出せます。

認識精度に影響する要因

高精度になる条件

• 300DPI以上の解像度
• 白地に黒いテキスト
• 一般的な印刷フォント
• 傾きのないまっすぐなページ
• 汚れのない清潔な紙
• 全体的に良好なコントラスト

精度が下がる条件

• 低解像度（200DPI未満）
• 色付き・柄物の背景
• 装飾的または特殊なフォント
• 傾いたり回転したりしているページ
• シミ・折り目・破損
• 手書き文字

OCR処理後のPDFについて

処理後のPDFには元のスキャン画像と新しいテキストレイヤーの両方が含まれます。テキストデータが加わる分だけファイルサイズは若干増えます（テキスト量により10〜30%程度）。見た目はまったく変わりません。変わるのは操作性です：

テキストを選択・コピーできる
Ctrl+Fで任意のページの単語を検索できる
PDFリーダーがコンテンツをインデックス化できる
スクリーンリーダーが文書を読み上げられる
他のツールでテキストを抽出できる

技術仕様

OCRエンジン： Tesseract 5.x（LSTMニューラルネットワーク搭載）
出力形式： 不可視テキストレイヤー付きPDF（PDF/A互換）
処理方式： ページごとに順次解析、マルチスレッド対応
対応言語： 100言語以上
ファイルサイズ： テキストレイヤーにより約10〜30%増加
画質： 元のスキャン品質を変更しない

OCRについてよくある質問

他のおすすめツール

PDFページの並べ替え

PDFのページ順序をまとめて変更できます。1ページだけ移動する場合も、章まるごと入れ替える場合も、番号を入力するだけで完了です。

ページを並べ替え

PDFページ削除

PDFから特定のページだけを削除。空白ページ、古い内容、見せたくないページを、他のページをそのままにして取り除けます。

ページを削除

PDFフラット化

PDFのインタラクティブな要素を静的コンテンツに変換します。記入済みフォームのロック、注釈の固定、印刷用ファイルの仕上げに使えます。

PDFをフラット化

PDF/Aに変換

PDFをPDF/A形式に変換して、何十年後も確実に開けるファイルにしましょう。裁判所提出書類や医療記録など、長期保存が必要な場面で活躍します。

PDF/Aに変換

PDFから画像を抽出

PDFに入っている画像を、元の状態のまますべて取り出せます。写真、グラフ、ロゴ、図解――それぞれ個別のファイルとしてダウンロードできます。

画像を抽出

PDFを保護

PDFに256ビットAES暗号化でパスワードをかけられます。誰が開けて、印刷・コピー・編集できるかを自分で決められます。

PDFを保護

クイックアクセス

カテゴリを参照

メニュー

OCR PDF

OCRオプション

OCR PDF

PDF ファイルをここにドラッグ&ドロップ

PDFにおけるOCRの仕組み

使い方：PDFにOCRをかける手順

対応言語

高精度

良好な精度

対応言語

主な活用シーン

文書アーカイブのデジタル化

法務・契約書管理

学術研究

ビジネス文書

アクセシビリティ対応

データ抽出

認識精度に影響する要因

高精度になる条件

精度が下がる条件

OCR処理後のPDFについて

技術仕様

OCRについてよくある質問

他のおすすめツール

PDFページの並べ替え

PDFページ削除

PDFフラット化

PDF/Aに変換

PDFから画像を抽出

PDFを保護