【AI】アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表 [田杉山脈★]
at BIZPLUS
1:田杉山脈 ★
24/03/18 21:16:10.90 5Z1R3/oj.net
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。
一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮
複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。
各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などのベンチマークで強力なパフォーマンスを示している。
また、両モデルはMoE(Mixture-of-Experts:複数の専門家モデルを組み合わせ、効率的に処理ができるアーキテクチャ)モデルも試されており、いずれも通常のモデルよりも優れた性能を発揮している。
さらに、300億パラメーターモデルでは、VQAv2(画像理解)ベンチマークにおいてグーグルの「Gemini Pro」「Gemini Ultra」、そしてOpenAIの「GPT-4V」に勝るスコアを示している。
URLリンク(ascii.jp)
レスを読む最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
39日前に更新/2587 Bytes
担当:undef