X



プログラミングでウェブスクレイピング詳しいやついる?
■ このスレッドは過去ログ倉庫に格納されています
0001以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:25:15.023ID:scrKPYUR0
ブラウザのF12で見れるHTMLにはあるタグがスクレイピングしたHTMLで見つからないんだが?
0002以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:26:06.531ID:pNHf4BWg0
JavaScriptで動的に作られるページなんでしょ
0003以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:26:28.757ID:scrKPYUR0
>>2
というと?
0004以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:27:40.074ID:vR4zk0Kd0
seleniumでも使ってろってコト
0005以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:28:06.459ID:2dWW2Efb0
UserAgentで表示するサイト切り替えてるんだよ
0006以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:29:36.491ID:scrKPYUR0
>>4
Seleniumって商用利用できるの?
0007以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:33:07.982ID:vdmvD/Qa0
ソースのHTMLとデベロッパーツールのElementsには違いが出る場合がある
最初に読み込まれた文書の構成がjsで書き換わるような場合は
単純なスクレイピングではjsが実行されず参照したい要素が存在しないことがある
0008以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:57:27.362ID:cDBr1sFWr
動的生成されるやつだよ
クライアントサイドレンダリングだとjs実行しなきゃレンダリングされない
0009以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 20:59:04.822ID:CPRIcDk80
つまりjsの機能を呼び出さないといけないってことか…
0010以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/08/24(水) 21:25:45.393ID:WVTizL29r
クライアントサイドレンダリングの場合JSONやらなんやらでデータのやり取りしてたりするしネットワークタブでJSONやり取りしてるところ見つけてそこからリソース引っ張ったほうがはやい
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況