トップ 一覧 置換 検索 ヘルプ RSS ログイン

PDFからテキストを抽出するの変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
xpdf の pdftotext
http://www.foolabs.com/xpdf/
を利用する

!!!Windows
!!インストール
!ダウンロードと解凍
http://www.foolabs.com/xpdf/
から
 xpdf-xxxxx-win32.zip
をダウンロードし、任意の場所に解凍する。
{{ref xpdf-3.02pl4-win32.zip}}

!!2.日本語対応
!ダウンロードと解凍
http://www.foolabs.com/xpdf/
から
xpdf-japanese.tar.gz
をダウンロードし、解凍。


以下のディレクトリ構成になるようにファイルを移動する。
 xpdf root
 │  ....
 │  pdftotext.exe
 │  ....
 └─japanese
     │  add-to-xpdfrc
     │  Adobe-Japan1.cidToUnicode
     │  EUC-JP.unicodeMap
     │  ISO-2022-JP.unicodeMap
     │  README
     │  Shift-JIS.unicodeMap
     │  Shift-JIS.unicodeMap_bak
     │
     └─CMap

!設定ファイルの準備
 add-to-xpdfrc
を pdftotext.exe と同じ階層へ移動して、
 xpdfrc
へファイル名を変更する。

・ディレクトリ構成
 xpdf root
 │  ....
 │  pdftotext.exe
 │  xpdfrc
 │  ....


!設定ファイルの編集
xpdfrc を
  #----- begin Japanese support package (2004-jul-27)
  cidToUnicode	Adobe-Japan1	"D:\Program Files\xpdf-3.02pl4-win32\japanese\Adobe-Japan1.cidToUnicode"
  unicodeMap	ISO-2022-JP	"D:\Program Files\xpdf-3.02pl4-win32\japanese\ISO-2022-JP.unicodeMap"
  unicodeMap	EUC-JP		"D:\Program Files\xpdf-3.02pl4-win32\japanese\EUC-JP.unicodeMap"
  unicodeMap	Shift-JIS	"D:\Program Files\xpdf-3.02pl4-win32\japanese\Shift-JIS.unicodeMap"
  cMapDir		Adobe-Japan1	"D:\Program Files\xpdf-3.02pl4-win32\japanese\CMap"
  toUnicodeDir			"D:\Program Files\xpdf-3.02pl4-win32\japanese\CMap"
  #displayCIDFontTT	Adobe-Japan1	/usr/..../kochi-mincho.ttf
  #----- end Japanese support package
のように各ファイルへのパスを絶対パスで指定する。
パスにスペースを含む場合は、必ずダブルクォーテーションで括る。

!!!Linux
!!インストール
基本的には
 yum install xpdf
でOK.

バイナリやソースは
http://www.foolabs.com/xpdf/
からダウンロード出来る。
{{ref xpdf-3.02.tar.gz}}
{{reff xpdf-3.02pl4-linux.tar.gz}}

!!日本語対応
 yum install xpdf
でインストールした場合は、設定済みなのでこの作業はしなくて良い。

!ダウンロードと解凍
自分でコンパイルした場合は、
http://www.foolabs.com/xpdf/
から
xpdf-japanese.tar.gz
をダウンロードし、任意の場所に解凍。
{{ref xpdf-japanese.tar.gz}}

!設定ファイルの準備
 add-to-xpdfrc
を ホームディレクトリへコピーして
 .xpdfrc
へファイル名を変更する。

!設定ファイルの編集
.xpdfrc を add-to-xpdfrc を参考にパスを編集。


!!!実行
 pdftotext -enc Shift-JIS test.pdf
でテキストが抽出できる。
また、
 -cfg
オプションで 設定ファイルを指定出来る。

!!!半角が全角になってしまう
標準の動作だが気に入らないときは
 Shift-JIS.unicodeMap
を書き換える。具体的には
  0020 8140
  0021 8149
  0022 8168
  0023 8194
  0024 8190
  0025 8193
  0026 8195
  0027 8166
  0028 0029 8169
  002a 8196
  002b 817b
  002c 8143
  002d 815d
  002e 8144
  002f 815e
  0030 0039 824f
  003a 003b 8146
  003c 8183
  003d 8181
  003e 8184
  003f 8148
  0040 8197
  0041 005a 8260
  005b 816d
  005c 818f
  005d 816e
  005e 814f
  005f 8151
  0060 8165
  0061 007a 8281
  007b 816f
  007c 8162
  007d 8170
  007e 8160
を
 0020 007e 20
に変える。

{{ref Shift-JIS.unicodeMap}}

{{category2 ツール,PDF}}