X



プログラミングの大先生たすけて!

■ このスレッドは過去ログ倉庫に格納されています
0001以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:47:38.840ID:2SsLeghrM
3800ページあるPDFを高速でCSVにしたいんだがいい方法ない?
PyMuPDFでやると40分近くかかる
pdftotextでうまくやろうとおもったけどセル内改行があるから難しい
どうしたらいいんだ?
0002以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:47:57.364ID:9QzjE1770
Chatgptに投げる
0003以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:49:07.021ID:2SsLeghrM
>>2
聞いたけどこれ以上の答えは言ってくれないのよ
0004以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:50:33.614ID:3VQ/G5760
文字だけ?
0005以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:50:49.828ID:Vlgpeygg0
自分でWordに打ち込む

パソコンを超えろ
0006以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:50:50.364ID:2SsLeghrM
>>4
文字だけ
0007以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:50:51.415ID:qM4ACrCaM
40分VIP見てれば良い
0008以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:51:30.731ID:AIWPTshN0
from pdfminer.high_level import extract_text
import pandas as pd

# PDFからテキストを抽出
text = extract_text("your_pdf_file.pdf")

# テキストを行単位で分割し、データフレームに変換
lines = text.split('\n')
df = pd.DataFrame(lines, columns=["text"])

# CSVに書き出し
df.to_csv("output.csv", index=False)
0009以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:52:30.977ID:JbxjDiBY0
chat GPTしゅげええええええええええええ
visual studio codeまで備え付けられてるうううううう


https://imgur.com/rrsLqrh.jpg
0010以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:54:17.042ID:2SsLeghrM
>>9
そうそうプログラミング学ぶにはめちゃくちゃ便利なんだよな
0011以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 14:57:30.101ID:2SsLeghrM
>>8
だからテキスト化だとセル内改行に対応できないからtableでとってくるしかできないんだよね…
0012以下、5ちゃんねるからVIPがお送りします
垢版 |
2024/05/26(日) 15:02:40.784ID:briEszqGH
オンラインツール使ったら?
0013 警備員[Lv.33]
垢版 |
2024/05/26(日) 15:05:54.206ID:3LOQcJhGd
そのうちググレカスがgptrksになんかな
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況