- 1 名前:oops ★ [2023/06/04(日) 11:42:27.35 ID:bbCOHysW.net]
- GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく増加してしまいます。そんな中、メモリの消費量を激減させつつ少ないデータでトレーニングできる手法「QLoRA」が登場しました。
(中略) ファインチューニングの際にはモデル全体をメモリに配置する必要があるのはもちろん、トレーニング対象のパラメーターごとに調整のための計算結果をメモリに保存する必要があり、全てのパラメーターを調整対象にする従来のファインチューニングでは元のモデルの何倍ものサイズのメモリを必要とします。例えば、650億(65B)パラメーターのモデルであれば、パラメーター1つにつき16bitで量子化するとモデルをメモリのロードするだけで650億×16bitの130GB分メモリを消費してしまう上に、トレーニングの手法次第ではあるものの650GB程度の計算結果を保存する必要があり、ファインチューニングを行うには合計で780GB分のGPUメモリが必要でした。 こうしたメモリ消費問題を解決するために考案されたのがLoRAというファインチューニングの手法です。LoRAでは、元のモデルのパラメーター行列を低ランク近似した新たな行列をトレーニング対象にすることで、トレーニングに必要なメモリの消費量を削減しています。 (以下略) ※記事全文はソース元にて 2023年06月03日 12時00分 https://gigazine.net/news/20230603-qlora-finetuning-llm/ ■論文 QLoRA: Efficient Finetuning of Quantized LLMs https://arxiv.org/abs/2305.14314 ■ソースコード QLoRA: Efficient Finetuning of Quantized LLMs https://github.com/artidoro/qlora
|
|