強化学習について考えてる

**以下、5ちゃんねるからVIPがお送りします** · 2023/07/20(木) 11:47:42.622

投資をAにやらせたいけど取引のタイミングを学ばせるのがむずい
取引の善し悪しって各取引のタイミングで分かるわけじゃなくて、総合的に儲かったか否かで決まるから
一連の取引が全体として良かったか悪かったかしか分からんのよね

**以下、5ちゃんねるからVIPがお送りします** · 2023/07/20(木) 11:51:51.504

たしかに

**以下、5ちゃんねるからVIPがお送りします** · 2023/07/20(木) 11:51:55.344

将棋と同じだろ
一連でよかったか悪かったかスコア決めて10年前出たdqnなんかにぶちこめば簡単に作れる
俺はそれでつくったAIで負けたｗ

**以下、5ちゃんねるからVIPがお送りします** · 2023/07/20(木) 11:55:40.454

たしかにそういうゲームと同じだな…
ただしマルコフ過程じゃないからDQN系列の手法は使えないが
AlphaGoとか調べてみる価値はありそうだな
モンテカルロ法とか使うんだっけか