自然言語処理くわしいやつきて
■ このスレッドは過去ログ倉庫に格納されています
ワードとかpdfとかのデータ食わせたいんだけど
邪魔なもの取り除く以外にどんなことすればいいの pdfとかいうテキストもまともに取り出せない欠陥形式 pdfのヘッダー風情報とフッダー風情報楽に消せないの あるいはオススメ本とか入門ページ的なのおしえてくれるとうれしいかもかも LinuxとかだとpdftkっていうコマンドラインでPDFをいじくれるツールがあるな
後はpandocとか?
そこら辺でどうにかできないなら他は知らない >>5
そのへんの情報なかったからたすかる
どうやって仕入れてるの
たまたま知ってた感じ? ■ このスレッドは過去ログ倉庫に格納されています