PDFファイルをテキスト化　意外な落とし穴

こんにちは、JIVE　中の人です。

今日、お取引先の方がメールで原稿をくださりWebに上げる作業がありました。

が、その原稿がPDF。

しかも画像として保存されているわけでもなさそうなのに、テキストの選択ができず。

ワードでエンコードして取り込みもうまくいかず。メモ帳でも文字化け。

今後も継続して必要なことかもしれない・・・ということで、作業の簡略化のため、PDFのOCRを考えました。

自動で文字を読んで

OCR・・・おぷてぃかるきゃらくたーりーだー。

（読みは覚えてたけど、スペルは忘れてました）

文字の形を読み込んでテキスト化する技術ですね。

調べてみたらお金をかけずにしかも簡単に出来そうです。

【OCR】無料で画像やPDFから文字を読み取ってくれるサービス！ - NAVER まとめ

結果、半日かかり出来ました。

実際の文章はペラ紙1枚なので遠回り感が半端ないです・・・。

次回、どうして遠回りしたか、どうやったらできたかをお伝えします。

<a href="http://jivejp.com/index.html" data-mce-href="http://jivejp.com/index.html">ECコンサル｜ページ作成｜受注管理｜システム｜楽天・ヤフー・Amazonの売上アップ株式会社 JIVE(ジャイブ)</a>jivejp.com

じゃいぶろぐ

楽天、アマゾン、Yahooなどの販売代行、アプリ・システム開発をしているJIVEの日々移転しました→https://jivejp.com/blog0/

PDFファイルをテキスト化　意外な落とし穴