強化学習について考えてる
■ このスレッドは過去ログ倉庫に格納されています
投資をAにやらせたいけど取引のタイミングを学ばせるのがむずい
取引の善し悪しって各取引のタイミングで分かるわけじゃなくて、総合的に儲かったか否かで決まるから
一連の取引が全体として良かったか悪かったかしか分からんのよね 将棋と同じだろ
一連でよかったか悪かったかスコア決めて10年前出たdqnなんかにぶちこめば簡単に作れる
俺はそれでつくったAIで負けたw たしかにそういうゲームと同じだな…
ただしマルコフ過程じゃないからDQN系列の手法は使えないが
AlphaGoとか調べてみる価値はありそうだな
モンテカルロ法とか使うんだっけか ■ このスレッドは過去ログ倉庫に格納されています