AnthropicとGoogle：AIハルシネーションの対策はどちらが優れている？

企業向けの生成AIを開発するリーディング企業、ガリレオは、最新の「Hallucination Index（幻覚指数）」を発表しました。

この評価フレームワークは、主に「Retrieval Augmented Generation（RAG）」に焦点を当て、OpenAI、Anthropic、Google、Metaなどの主要プレイヤーからの22の主要な生成AI LLM（大規模言語モデル）を評価しました。今年のインデックスは大幅に拡大され、過去8か月間におけるオープンソースおよびクローズドソースのLLMの急速な成長を反映し、11の新しいモデルが追加されました。

ガリレオのCEO兼共同創設者であるヴィクラム・チャッヴィクラム・チャッタジ氏のコメント
「今日の急速に進化するAIの世界では、開発者や企業は、生成AIの力を活用しながら、コスト、精度、信頼性のバランスを取るという重大な課題に直面しています。現在のベンチマークは、学術的なユースケースに基づくことが多く、実際のアプリケーションを反映していないことが多いです」と語っています。

このインデックスは、ガリレオの独自の評価指標である「コンテキストの適合性」を使用して、1,000から100,000トークンにわたるさまざまな入力長の出力の不正確さを検査しました。このアプローチは、企業がAI実装における価格とパフォーマンスのバランスを考慮して意思決定を行うのを助けることを目的としています。

主要な調査結果

AnthropicのClaude 3.5 Sonnet は、短、中、長のコンテキストシナリオ全体で一貫してほぼ完璧なスコアを記録し、総合的に最も優れたモデルとして浮上しました。
GoogleのGemini 1.5 Flash は、コストパフォーマンスの面で最高のパフォーマンスを発揮し、すべてのタスクで優れた結果を出しました。
AlibabaのQwen2-72B-Instruct は、特に短中のコンテキストシナリオで卓越しており、オープンソースモデルの中で最も優れたモデルとして評価されました。

LLMの動向

オープンソースモデルは、コストを抑えつつ、クローズドソースのモデルに匹敵する性能を持つようになってきています。
現在のRAG LLMは、コンテキストの長さに対応する能力が向上し、品質や精度を犠牲にすることなく長いコンテキストを処理できるようになっています。
小規模なモデルが大型モデルを上回ることもあり、効率的な設計が規模以上に重要であることが示されています。
米国外の強力なパフォーマーの出現（例：MistralのMistral-largeやAlibabaのqwen2-72b-instruct）は、LLM開発における世界的な競争の激化を示しています。

クローズドソースモデル（Claude 3.5 SonnetやGemini 1.5 Flash）の独自のトレーニングデータのおかげでリードを維持している一方で、インデックスは急速に進化する風景を浮き彫りにしています。特にGoogleのパフォーマンスは注目に値し、オープンソースモデルであるGemma-7bは不調だったのに対し、クローズドソースモデルであるGemini 1.5 Flashは一貫してトップにランクインしました。

生成AI製品の実用化において主要な障害となっている「ハルシネーション」に業界が取り組んでいる中、ガリレオの「Hallucination Index」は、企業が特定のニーズと予算制約に合ったモデルを採用するための貴重な洞察を提供しています。