複数ノードを用いた言語モデルの構築とドメイン適応

Author

鈴木 雅弘, and 坂地 泰紀
Conference

研究報告知能システム (ICS)
Abstract

BERTやLLaMAなどの言語モデルの構築は,GPUを利用した大規模な計算資源が必要である.本稿では,複数ノードを使用してBERT,DeBERTaV2とLLaMAの事前学習やインストラクションチューニングを行うための環境の実例を紹介する.高速なネットワークや分散ファイルシステム,及びノードごとに異なるバッチサイズでの学習のための実装などの複数の方策により,より効率的な学習が可能となる.これらの知見は研究室内部のみに蓄積されることが多く,広く共有されることが少ない傾向にある.研究室単位で実施可能な言語モデルの構築およびチューニングのための施策やインフラ基盤について整理することで,本稿が有用な情報源となることが期待される.
Paper

PDF
Bibtex
@inproceedings{Suzuki-2024-ics,
  jtitle = {{複数ノードを用いた言語モデルの構築とドメイン適応 }},
  title = {{Language Model Construction and Domain Adaptation using Multiple Nodes}},
  jauthor = {鈴木, 雅弘 and 坂地, 泰紀},
  author = {Suzuki, Masahiro and Sakaji, Hiroki},
  jbooktitle = {研究報告知能システム (ICS)},
  booktitle = {Intelligent Computing Systems (ICS)},
  volume = {213},
  number = {2},
  year = {2024},
  pages = {1-6},
}