PDFファイルをテキスト化 意外な落とし穴
こんにちは、JIVE 中の人です。
今日、お取引先の方がメールで原稿をくださりWebに上げる作業がありました。
が、その原稿がPDF。
しかも画像として保存されているわけでもなさそうなのに、テキストの選択ができず。
ワードでエンコードして取り込みもうまくいかず。メモ帳でも文字化け。
今後も継続して必要なことかもしれない・・・ということで、作業の簡略化のため、PDFのOCRを考えました。
OCR・・・おぷてぃかるきゃらくたーりーだー。
(読みは覚えてたけど、スペルは忘れてました)
文字の形を読み込んでテキスト化する技術ですね。
調べてみたらお金をかけずにしかも簡単に出来そうです。
【OCR】無料で画像やPDFから文字を読み取ってくれるサービス! - NAVER まとめ
結果、半日かかり出来ました。
実際の文章はペラ紙1枚なので遠回り感が半端ないです・・・。
次回、どうして遠回りしたか、どうやったらできたかをお伝えします。