プログラミングの大先生たすけて！

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:47:38.840

3800ページあるPDFを高速でCSVにしたいんだがいい方法ない？
PyMuPDFでやると40分近くかかる
pdftotextでうまくやろうとおもったけどセル内改行があるから難しい
どうしたらいいんだ？

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:47:57.364

Chatgptに投げる

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:49:07.021

>>2
聞いたけどこれ以上の答えは言ってくれないのよ

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:50:33.614

文字だけ？

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:50:49.828

自分でWordに打ち込む

パソコンを超えろ

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:50:50.364

>>4
文字だけ

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:50:51.415

40分VIP見てれば良い

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:51:30.731

from pdfminer.high_level import extract_text
import pandas as pd

# PDFからテキストを抽出
text = extract_text("your_pdf_file.pdf")

# テキストを行単位で分割し、データフレームに変換
lines = text.split('\n')
df = pd.DataFrame(lines, columns=["text"])

# CSVに書き出し
df.to_csv("output.csv", index=False)

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:52:30.977

chat GPTしゅげええええええええええええ
visual studio codeまで備え付けられてるうううううう

https://imgur.com/rrsLqrh.jpg

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:54:17.042

>>9
そうそうプログラミング学ぶにはめちゃくちゃ便利なんだよな

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 14:57:30.101

>>8
だからテキスト化だとセル内改行に対応できないからtableでとってくるしかできないんだよね…

**以下、5ちゃんねるからVIPがお送りします** · 2024/05/26(日) 15:02:40.784

オンラインツール使ったら？

警備員[Lv.33] · 2024/05/26(日) 15:05:54.206

そのうちググレカスがgptrksになんかな