PDFファイルをテキスト化 半日かかってできた
先回のブログでPDFをテキスト化する方法を調べました。
出来た方法はこちら。
【OCR】無料で画像やPDFから文字を読み取ってくれるサービス! - NAVER まとめ
一つ目のやり方を検証
・Google Docsでのテキスト化
結論から言うとこの方法ではできませんでした。
まず、リンク先のGoogle Docsがなかった。
Google Docs がGoogle ドキュメントになっていました。そこまでは簡単に突き止めたのですが。で?さて?どこからできるのか・・・?
・・・その後数分格闘しましたが、結局ここではOCR機能を見つけられず断念。
もしかしたらアドオンでどうにかなるのかもしれませんが、今回はそこまで深く探しませんでした。
・Google Driveでのテキスト化
ここで格闘すること小一時間。
寄り道(他の方法で検証したり)したのですが結果的にはこれで行えました。
やり方は簡単にこちらにまとめておきます。
まずは、方法を検索。
Google ドキュメントの光学式文字認識について - ドライブ ヘルプ
Googleドライブのヘルプに方法が載っていました。
すぐにできるじゃん♪余裕余裕。
ふむふむ。向きは合わせる、テキストは左から右。。。この条件なら大丈夫そうです。
と思っていたのが間違いでした・・・
ヘルプを見ると、
・[設定] メニュー →[アップロード設定] の順にクリックする
・アップロードの進行状況を示すボックス内の [設定] プルダウン メニューをクリック
と、書いてあるのに、画面が違う。
設定メニューにアップロード設定がない。
アップロード時にボックスが出ない。
ここで延々悩みました。その間、あきらめてソフトを使うことも考えたのですがソフトのほうも一つ、二つ見てできず。
google ドライブへ戻り再度確認中・・・・見つけました。
”以前のドライブに戻す”
・・・ドライブ?って、もしかして、画面が変わっている?
どうやらUIが変わっていて、以前の記事やヘルプの通りにはできなかったよう。
以前のドライブに戻してヘルプ通りやってみたところ、あっさり解決。
心配していたOCRの精度もばっちりで500文字くらいの原稿中、1文字(才 ⇒ 丈オ)がおかしかったくらいでした。
画面が違う=新画面に変更したことに気が付けられれば時間の無駄はなかったはず。。。
そしてここまでやった挙句に、次回の原稿からはテキストでいただけることになり、この作業は今回限り。
まぁ、今後使用しないとも限らないし、ブログの記事もできたから。
良しとしよう(T T