OpenAIのChatGPTは、2022年11月のローンチ以来、驚異的な精度で世界を席巻しました。しかし、2023年3月から6月の間に、ChatGPTが簡単な数学を解く精度やセンシティブな話題に対する思慮深さが劇的に低下していたことが、アメリカ・スタンフォード大学の調べにより判明しました。

2023年の半ばから、AIユーザーの間でChatGPTの回答の質が低下していることが話題に上がるようになりました。例えば、ソーシャルニュースサイトのHacker Newsでは「AIサーチエンジンのPhindのGPT-4が、同じくGPT-4を利用したChatGPTよりも優れた結果を出してくれました。両方のGPT-4の速度の違いは体感できるほどで、Phindの方が遅い代わりに正確でした」との指摘が2023年5月に投稿されています。

スタンフォード大学の研究チームは、プレプリントサーバー・arXivで公開した論文の中で、2023年3月と6月の2回に分けて、GPT-3.5とGPT-4の2つのモデルに「数学の問題」「コード生成」「視覚的推論」「センシティブな質問」の4つのタスクを与え、その回答の早さや正確さを分析する研究を行いました。その結果、「17077は素数ですか?」という単純な質問に対するGPT-4の回答の精度が97.6%から2.4%へと低下していることがわかりました。

https://gigazine.net/news/20230724-chatgpts-accuracy-declined-math/