TeX Alchemist Online

TeX のこと,フォントのこと,Mac のこと

macOS のデフォルト状態でコマンドラインからPDFのテキスト抽出を行う

前回の記事では,macOS のデフォルト状態でコマンドラインからPDFや画像ファイルに対してOCR処理を行いテキストを取り出す方法を解説しました。

doratex.hatenablog.jp

一方,OCRではなく,「PDFに埋め込まれたテキスト情報をそのまま読み込んで標準出力に表示する」だけなら,もっと簡単なコードで済みます。

完成形のシェルスクリプト

使い方

$ ./pdf2text.sh input1.pdf input2.pdf input3.pdf

のように引数に1つまたは複数のPDFを指定すると,PDFに埋め込まれたテキスト情報を抽出し,標準出力に出力します。

ただし……

PDFからのテキスト抽出というのは,なかなか思うようにゆかず,得てして期待通りの結果が得られないものです。実際のところ,テキスト情報が埋め込まれたPDFであっても,前回の記事のスクリプトによって,あえてOCR処理にかけた方が,まだまともに使える情報が得られることも珍しくありません。

PDFからのテキスト抽出が難しい技術的な理由は,次の記事で解説されています。

www.antenna.co.jp

golden-lucky.hatenablog.com

golden-lucky.hatenablog.com

golden-lucky.hatenablog.com

golden-lucky.hatenablog.com

golden-lucky.hatenablog.com

golden-lucky.hatenablog.com