自然言語処理くわしいやつきて

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:06:38.601

ワードとかpdfとかのデータ食わせたいんだけど
邪魔なもの取り除く以外にどんなことすればいいの

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:07:59.681

pdfとかいうテキストもまともに取り出せない欠陥形式

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:08:44.610

pdfのヘッダー風情報とフッダー風情報楽に消せないの

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:10:27.563

あるいはオススメ本とか入門ページ的なのおしえてくれるとうれしいかもかも

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:12:44.174

LinuxとかだとpdftkっていうコマンドラインでPDFをいじくれるツールがあるな
後はpandocとか？
そこら辺でどうにかできないなら他は知らない

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:14:09.169

>>5
そのへんの情報なかったからたすかる
どうやって仕入れてるの
たまたま知ってた感じ？

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:15:09.490

>>6
LinuxとMacOSX長いから知ってた

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:16:51.287

>>7
さんくす

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:18:21.276

(´・ω・｀)てっさらくとゆうのう

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:21:53.174

>>9
にほんごでおけ

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:23:33.146

>>9
ひらがなでもぐぐったらててきた
さんくす

**以下、5ちゃんねるからVIPがお送りします** · 2023/06/23(金) 18:24:46.484

PDFはパースするところで躓きそう