X



AWSに詳しいやつちょっと来いや
■ このスレッドは過去ログ倉庫に格納されています
0001以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:51:16.861ID:FSumjIyH0
200万/月のwebページを保存して分析したいんだが何使うべき?
0002以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:53:50.773ID:FSumjIyH0
選択肢としてはこんなもんかなぁと

1.lambdaでhtmlを取ってきてS3に保存
2.lambdaでhtml取ってきて加工して必要な部分だけDynamodbに保存
3.ec2とauroraで頑張ってaurora に保存
0003以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:54:31.023ID:nGzRa78H0
HTMLというかテキストだけでいいの?
0004以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:56:44.838ID:FSumjIyH0
>>3
そうだね
イメージ的にはTwitterのツイートをユーザー、文章、投稿日、いいね数、リツイート数、、、を取ってきて後で分析したいみたいなイメージ
0005以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:57:57.468ID:FSumjIyH0
ちなみにhtmlの容量は全て20KBぐらいに揃ってる
0006以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 02:58:52.584ID:FSumjIyH0
最初、全部取ってきてS3突っ込んどけばええやろって思ってlambda書いてS3に打ち込んでたらめっちゃ課金されたから改善したい
0007以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 03:00:34.802ID:FSumjIyH0
よく考えると2000万 × 20KB = 400GBなんだよなぁ
これに加えてS3のput_objectはいっばいやると課金もエグい
0008以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/11/18(金) 03:03:50.929ID:jPW0wSxB0
直接TwitterのAPI叩けばいいじゃん
できんのか知らんけど
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況