【AI】アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表 [田杉山脈★] at BIZPLUS
[2ch|▼Menu]
1:田杉山脈 ★
24/03/18 21:16:10.90 5Z1R3/oj.net
 アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。

一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮
 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。

各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などのベンチマークで強力なパフォーマンスを示している。

 また、両モデルはMoE(Mixture-of-Experts:複数の専門家モデルを組み合わせ、効率的に処理ができるアーキテクチャ)モデルも試されており、いずれも通常のモデルよりも優れた性能を発揮している。

 さらに、300億パラメーターモデルでは、VQAv2(画像理解)ベンチマークにおいてグーグルの「Gemini Pro」「Gemini Ultra」、そしてOpenAIの「GPT-4V」に勝るスコアを示している。
URLリンク(ascii.jp)


レスを読む
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

39日前に更新/2587 Bytes
担当:undef