エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
GASとGoogle ColabでPDFのOCR - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
GASとGoogle ColabでPDFのOCR - Qiita
はじめに たくさんのPDFをデータ化したいことがあり、ある程度は手動で補正する必要が出てくるのは許容... はじめに たくさんのPDFをデータ化したいことがあり、ある程度は手動で補正する必要が出てくるのは許容しつつできるだけ楽にテキストを取り出したいということでOCRしました。 前提 ちゃんとドキュメントとして認識されている(PDFリーダーで文字選択できる)PDFあり。 画像として認識されているPDFもあり。 上記2つが混ざっているPDFもあり。 流れ PDFはGoogleドライブに保存 PythonでPDFを画像化(ドキュメントとして認識されているものも画像に寄せる) GASでOCR これだけです。 画像化は別にローカル環境でも良いのですが、あんまり環境あっち行ったりこっち行ったりしたくないということでGoogleアカウント内で完結できるようGoogle Colabを使用しました。 ちなみにGASを使ったのは初めてでした。 また1ファイルずつ手動で良ければGoogleドキュメントに読ませるとテ