Meta社がマルチモーダル処理や音楽生成などのための5つのAIモデルを発表

Metaは、テキストと画像の両方を処理できるマルチモーダルシステム、次世代の言語モデル、音楽生成、AI音声検出、およびAIシステムの多様性向上に向けた取り組みを含む5つの新しい主要なAIモデルと研究を発表しました。

これらのリリースは、Metaの基礎AI研究（FAIR）チームからのものであり、FAIRは10年以上にわたりオープンな研究と協力を通じてAIの進展に取り組んでいます。AIが急速に革新する中で、Metaは世界中のコミュニティと協力することが重要であると考えています。

「この研究を公に共有することで、改良が促進され、最終的には責任ある形でAIを進展させる手助けになることを期待しています」とMetaは述べています。

Contents

発表の中には、研究ライセンスの下で提供されるMetaの「カメレオン」モデルの主要コンポーネントが含まれています。カメレオンは、テキストと画像を同時に理解し生成できるマルチモーダルモデルのファミリーであり、通常の大規模言語モデルは単一モーダルです。

「人間が言葉と画像を同時に処理できるのと同様に、カメレオンはテキストと画像の両方を同時に処理し提供することができます」とMetaは説明しています。「カメレオンは、テキストと画像の任意の組み合わせを入力として受け取り、テキストと画像の任意の組み合わせを出力することができます。」

創造的なキャプションの生成から、テキストと画像を用いた新しいシーンの提示まで、利用可能なケースはほぼ無限です。

Metaはまた、コード補完のための事前訓練されたモデルを非商用研究ライセンスの下でリリースしました。これらのモデルは「マルチトークン予測」を使用しており、伝統的な言語モデル訓練が次の単語だけを予測するのに対し、複数の未来の単語を同時に予測してより高速に訓練します。

「[一語予測]アプローチはシンプルでスケーラブルですが、効率が悪いです。子供が同じ程度の言語流暢さを学ぶのに必要なテキストよりも何桁も多くのテキストを必要とします」とMetaは述べています。

創造的な面では、MetaのJASCOはテキストから音楽クリップを生成することができ、コードやビートなどの入力を受け入れてより多くの制御を提供します。

「既存のテキストから音楽へのモデルであるMusicGenが主にテキスト入力に依存して音楽を生成するのに対し、JASCOはコードやビートなどのさまざまな入力を受け入れて生成される音楽出力の制御を向上させることができます」とMetaは説明しています。

Metaは、AudioSealがAI生成音声を検出するために設計された最初のオーディオウォーターマーキングシステムであると主張しています。これは、以前の方法よりも485倍の速度で大規模なオーディオクリップ内のAI生成部分を特定することができます。

「AudioSealは商用ライセンスの下でリリースされています。これは、生成AIツールの誤用を防ぐために共有された責任ある研究の一部に過ぎません」とMetaは述べています。

もう一つの重要なリリースは、地理的および文化的なバイアスを示すことが多いテキストから画像へのモデルの多様性を向上させることを目的としています。

Metaは地理的な格差の可能性を評価するための自動指標を開発し、世界中の人々が地理的表現をどのように認識するかを理解するために65,000件以上の注釈研究を実施しました。

「これにより、AI生成画像の多様性と表現が向上します」とMetaは述べています。関連するコードと注釈は、生成モデル全体の多様性を向上させるために公開されています。

Meta unveils five AI models for multi-modal processing, music generation, and more