プログラミングの大先生たすけて!
■ このスレッドは過去ログ倉庫に格納されています
3800ページあるPDFを高速でCSVにしたいんだがいい方法ない?
PyMuPDFでやると40分近くかかる
pdftotextでうまくやろうとおもったけどセル内改行があるから難しい
どうしたらいいんだ? >>2
聞いたけどこれ以上の答えは言ってくれないのよ from pdfminer.high_level import extract_text
import pandas as pd
# PDFからテキストを抽出
text = extract_text("your_pdf_file.pdf")
# テキストを行単位で分割し、データフレームに変換
lines = text.split('\n')
df = pd.DataFrame(lines, columns=["text"])
# CSVに書き出し
df.to_csv("output.csv", index=False) chat GPTしゅげええええええええええええ
visual studio codeまで備え付けられてるうううううう
https://imgur.com/rrsLqrh.jpg >>9
そうそうプログラミング学ぶにはめちゃくちゃ便利なんだよな >>8
だからテキスト化だとセル内改行に対応できないからtableでとってくるしかできないんだよね… ■ このスレッドは過去ログ倉庫に格納されています