【機械学習】GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法が登場、一体どんな手法なのか? [oops★] at SCIENCEPLUS
[2ch|▼Menu]
1:oops ★
23/06/04 11:42:27.35 bbCOHysW.net
GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。

(中略)

ファインチューニングの際にはモデル全体をメモリに配置する必要があるのはもちろん、トレーニング対象のパラメーターごとに調整のための計算結果をメモリに保存する必要があり、全てのパラメーターを調整対象にする従来のファインチューニングでは元のモデルの何倍ものサイズのメモリを必要とします。例えば、650億(65B)パラメーターのモデルであれば、パラメーター1つにつき16bitで量子化するとモデルをメモリのロードするだけで650億×16bitの130GB分メモリを消費してしまう上に、トレーニングの手法次第ではあるものの650GB程度の計算結果を保存する必要があり、ファインチューニングを行うには合計で780GB分のGPUメモリが必要でした。
こうしたメモリ消費問題を解決するために考案されたのがLoRAというファインチューニングの手法です。LoRAでは、元のモデルのパラメーター行列を低ランク近似した新たな行列をトレーニング対象にすることで、トレーニングに必要なメモリの消費量を削減しています。

(以下略)

※記事全文はソース元にて
2023年06月03日 12時00分
URLリンク(gigazine.net)
■論文
QLoRA: Efficient Finetuning of Quantized LLMs
URLリンク(arxiv.org)
■ソースコード
QLoRA: Efficient Finetuning of Quantized LLMs
URLリンク(github.com)


レスを読む
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

298日前に更新/2310 Bytes
担当:undef