>>12
・ブラウザUI起動
・ブラウザに入力されたマイク音声を文字起こし
・websocketサーバに送信
・受信したテキストをログ用DBに保存
一定数のレコードが溜まったら分析して、ナレッジ抽出と対話ユーザーの傾向等ステータスの分析
・ユーザーステータスとマイク入力、会話ログ、ナレッジを元に「このユーザーに最も適した応答を生成」
・生成された応答をブラウザに返して、TextToSpeechで再生

こんな感じかなー