タグ

ブックマーク / reservoir.hatenablog.com (1)

  • pdftotextで PDFからのテキスト抜き出し - reservoirのブログ

    UNIX MAGAZINE Classic with DVDを手に入れたので、 PDFからのテキスト抽出と全文検索を試みてみる。 pdftotextを探したが発見できず、googleさまにお伺いを立てると、 FreeBSD Portsの xpdfの中に含まれるパッケージのようだ。 xpdfを portsから入れて、pdftotextをゲットする。 しかし、ユニマガのPDFからうまくテキストを抜けないので何でかなあと思い、 とりあえず何も考えずエンコードを EUC-JP, Shift-JISなどと変えてみるが、やっぱりダメ。 ここに至ってしょーがなくエラーを読む(ぉぃ Unknown CMap '90ms-RKSJ-V' for character collection 'Adobe-Japan1' というエラーで探すと、ハマっている人が他にもいた。 次に、別のpdfで、 Error: Co

    pdftotextで PDFからのテキスト抜き出し - reservoirのブログ
    cu39
    cu39 2013/04/22
  • 1