Googleの実験的なモデル「Gemini 1.5 Pro」が、OpenAIの「GPT-4o」を生成AIベンチマークで上回りました。
過去1年間、OpenAIのGPT-4oとAnthropicのClaude-3がこの分野で主導権を握っていました。しかし、最新バージョンのGemini 1.5 Proがリードを奪ったようです。
AIコミュニティで広く認知されているベンチマークの1つに「LMSYS Chatbot Arena」があります。このベンチマークは、さまざまなタスクにおけるモデルの性能を評価し、総合的な能力スコアを割り当てます。このリーダーボードで、GPT-4oは1,286点、Claude-3は1,271点を獲得しました。以前のGemini 1.5 Proのバージョンは1,261点でした。
しかし、Gemini 1.5 Proの実験版(Gemini 1.5 Pro 0801)は、最も近いライバルを上回り、1,300点という印象的なスコアを達成しました。この大幅な改善は、Googleの最新モデルが競合他社よりも優れた全体的な能力を持っている可能性を示唆しています。
ただし、ベンチマークはAIモデルの性能について貴重な洞察を提供する一方で、必ずしも現実世界でのアプリケーションにおけるその能力や限界を完全に表しているわけではありません。
Gemini 1.5 Proが現在利用可能であるにもかかわらず、初期リリースやテスト段階とされていることから、Googleが安全性や適合性の理由でモデルを調整したり、撤回したりする可能性があることが示唆されています。
この発展は、テクノロジー大手間でのAI覇権争いにおける重要な節目を示しています。GoogleがOpenAIやAnthropicをベンチマークスコアで上回ったことは、この分野の急速なイノベーションと、これらの進展を促進する激しい競争を示しています。
AI分野が進化し続ける中、OpenAIとAnthropicがこのGoogleからの挑戦にどう応じるかが注目されます。彼らは再びリーダーボードのトップに立つことができるのか、それともGoogleが新しい生成AI性能の標準を確立したのか、今後の動向が興味深いです。