無料サンドボックス Beta

OCR PDF オンライン — スキャンPDFからテキストを抽出

インテリジェントな言語検出機能を備えた高度なOCR技術を使用して、スキャンしたPDFや画像からテキストを抽出します。検索不可能なドキュメントを検索可能なPDFに変換したり、テキスト、hOCR、TSVとしてエクスポートしたりできます。

🌍 45カ国以上の言語に対応
🔍 真の検索可能PDF作成
📊 多彩な出力形式(Text, PDF, hOCR, TSV)
🔒 100% プライベート — サーバー送信なし
🆓 無料 — ベータ期間中は無制限
スタジオを起動 🚀

当社のPDF OCRツールが選ばれる理由

完全なプライバシー

ドキュメントがデバイスから離れることはありません。LocalPDFはTesseract.jsをローカルで実行するため、最高のプライバシーが保証されます。

インテリジェントな言語検出

日本語、英語、ドイツ語、フランス語、中国語、韓国語など45カ国以上の言語を自動的に識別します。

本物の検索可能PDF

単なるテキスト抽出ではなく、元の画像の見た目を維持しながら、テキスト検索が可能なレイヤーを埋め込んだPDFを作成します。

多彩なエクスポート形式

プレーンテキスト (.txt)、検索可能PDF、hOCR (.html)、TSV (.tsv) の4つの形式に対応。

インターネット接続不要

一度読み込めばオフラインで使用可能。社外秘ドキュメントや法的書類に最適です。

ページ数制限なし

ページ数に関係なく、大容量のドキュメントも制限なしで処理できます。

処理の最適化

言語モデルの再利用により、複数ページの処理や言語切り替えが格段に高速です。

永久無料

有料プランやクレジット制限はありません。必要なだけ何度でもOCR処理を行えます。

主な機能

自動言語検出(45カ国以上の言語)
不可視テキストレイヤー付き検索可能PDFの作成
4つの形式(Text, PDF, hOCR, TSV)へのエクスポート
スキャンPDFおよび画像(JPG, PNG)からのテキスト抽出
日本語、中国語、韓国語、英語、欧州・中東言語への対応
ワーカーの最適化による高速な複数ページ処理
抽出テキストをクリップボードにコピー
保存前にテキストを修正可能

利用手順

1
上の「ツールを開く」ボタンをクリック
2
スキャンしたPDFまたは画像(JPG, PNG)を選択
3
言語が自動検出されるか、45カ国以上から選択
4
出力形式(Text, PDF, hOCR, TSV)を選択
5
OCR処理が完了するまで待機(1ページ10〜30秒)
6
必要に応じて抽出されたテキストを編集
7
選択した形式でダウンロード
🔒

100% プライバシー保護: ファイルがデバイス外に送信されることはありません。すべての処理はブラウザの安全なメモリ内で行われます。

よくある質問

OCRの認識精度はどのくらいですか?

最新のTesseract.jsエンジンを使用しており、標準的なフォントやクリアなスキャンに対して高い精度を発揮します。最良の結果を得るには、300 DPIでのスキャンを推奨します。

どの言語に対応していますか?

日本語、英語、中国語、韓国語、ドイツ語、フランス語、ロシア語など45カ国以上の言語に対応しています。自動的にドキュメントの主要言語を検出することも可能です。

OCR処理はプライベートですか?

はい。他の多くのオンラインOCRツールとは異なり、処理はすべてお客様のブラウザ内で行われます。ドキュメントがサーバーに送信されることはないため、機密データの処理に最適です。

「検索可能PDF」とは何ですか?

検索可能PDFとは、元のスキャン画像の上に不可視のテキストレイヤーを正確に配置したPDFです。見た目を維持したまま、テキストの検索、ハイライト、コピーが可能になります。

技術アーキテクチャ: 仕組みについて

ゼロ知識アーキテクチャ

データが他人に閲覧されることのないように設計されています。処理はブラウザの安全なメモリ空間内で行われます。

WebAssemblyによる高速処理

高性能なWebAssemblyモジュールを使用することで、デスクトップアプリ並みのPDF処理速度をブラウザ上で直接実現しています。