0001以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:06:38.601ID:tqWwSYZIM
ワードとかpdfとかのデータ食わせたいんだけど
邪魔なもの取り除く以外にどんなことすればいいの
0002以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:07:59.681ID:5v3mYiVH0
pdfとかいうテキストもまともに取り出せない欠陥形式
0003以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:08:44.610ID:tqWwSYZIM
pdfのヘッダー風情報とフッダー風情報楽に消せないの
0004以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:10:27.563ID:tqWwSYZIM
あるいはオススメ本とか入門ページ的なのおしえてくれるとうれしいかもかも
0005以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:12:44.174ID:5v3mYiVH0
LinuxとかだとpdftkっていうコマンドラインでPDFをいじくれるツールがあるな
後はpandocとか?
そこら辺でどうにかできないなら他は知らない
0006以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:14:09.169ID:tqWwSYZIM
>>5
そのへんの情報なかったからたすかる
どうやって仕入れてるの
たまたま知ってた感じ? 0007以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:15:09.490ID:5v3mYiVH0
0008以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:16:51.287ID:tqWwSYZIM
0010以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:21:53.174ID:tqWwSYZIM
0011以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:23:33.146ID:tqWwSYZIM
0012以下、5ちゃんねるからVIPがお送りします2023/06/23(金) 18:24:46.484ID:jSE3X+gXM
PDFはパースするところで躓きそう