X



自然言語処理くわしいやつきて
■ このスレッドは過去ログ倉庫に格納されています
0001以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:06:38.601ID:tqWwSYZIM
ワードとかpdfとかのデータ食わせたいんだけど
邪魔なもの取り除く以外にどんなことすればいいの
0002以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:07:59.681ID:5v3mYiVH0
pdfとかいうテキストもまともに取り出せない欠陥形式
0003以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:08:44.610ID:tqWwSYZIM
pdfのヘッダー風情報とフッダー風情報楽に消せないの
0004以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:10:27.563ID:tqWwSYZIM
あるいはオススメ本とか入門ページ的なのおしえてくれるとうれしいかもかも
0005以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:12:44.174ID:5v3mYiVH0
LinuxとかだとpdftkっていうコマンドラインでPDFをいじくれるツールがあるな
後はpandocとか?
そこら辺でどうにかできないなら他は知らない
0006以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:14:09.169ID:tqWwSYZIM
>>5
そのへんの情報なかったからたすかる
どうやって仕入れてるの
たまたま知ってた感じ?
0007以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:15:09.490ID:5v3mYiVH0
>>6
LinuxとMacOSX長いから知ってた
0008以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:16:51.287ID:tqWwSYZIM
>>7
さんくす
0010以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:21:53.174ID:tqWwSYZIM
>>9
にほんごでおけ
0011以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:23:33.146ID:tqWwSYZIM
>>9
ひらがなでもぐぐったらててきた
さんくす
0012以下、5ちゃんねるからVIPがお送りします
垢版 |
2023/06/23(金) 18:24:46.484ID:jSE3X+gXM
PDFはパースするところで躓きそう
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況