- 1 名前:すらいむ ★ [2020/11/26(木) 12:45:24.36 ID:CAP_USER.net]
- LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で
飯塚 直 LINEは11月25日、NAVERと共同で日本語に特化した超巨大言語モデル(膨大なデータから生成された汎用言語モデル)の開発を発表した。 日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとしている。 特化型言語モデルなど、従来の言語モデルでは、各ユースケース(Q&A、対話など)に対して自然言語処理エンジニアが個別に学習する必要があった一方、汎用言語モデルは、AIでより自然な言語処理・言語表が可能。 同モデルは、OpenAIが開発した「GPT」やGoogleの「T5」などが代表例となる。 新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、コンテキストを設定するFew-Shot learning(ブログの書き出しやプログラミングコードの一部などを与えること)を実行すると、対話、翻訳、入力補完、文書生成、プログラミングコードといったさまざまな言語処理により、個々のユースケースを実現できるとしている。 同社では、日本語に特化した独自の汎用言語モデルを開発。 1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用する予定という。 現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものであり、パラメーター量と学習量については、今後も拡大するとしている。 (以下略、続きはソースでご確認下さい) Cnet 2020年11月25日 17時53分 https://japan.cnet.com/article/35162922/
|
|