金融文書を用いた追加事前学習言語モデルの構築と検証

Author

鈴木 雅弘, 坂地 泰紀, 和泉 潔, and 石川 康
Conference

言語処理学会 第28回年次大会 (NLP2022)
Abstract

本研究では,汎用言語コーパスを用いて事前学習を行ったBERTモデルに対し,金融コーパスを用いて追加で事前学習(追加事前学習)を行う方が有用であるか検証を行う.追加事前学習を行ったモデルを2つの金融テキストを用いたタスクに適用し,追加事前学習を行うことで,汎用言語コーパスによる事前学習モデルを上回る性能を持つことを示す.また,Tokenizerを構築する際のコーパスの比較を行った.追加事前学習モデルのTokenizerに用いるコーパスにおいて,汎用言語コーパスのみによるモデルと金融コーパスを用いたモデルの間に性能差は見られなかった.
Paper

PDF
Bibtex
@inproceedings{Suzuki-2022-nlp,
  jtitle = {{金融文書を用いた追加事前学習言語モデルの構築と検証}},
  title = {{Construction and Validation of Additional Pre-Training Language Model using Financial Documents}},
  jauthor = {鈴木, 雅弘 and 坂地, 泰紀 and 和泉, 潔 and 石川, 康},
  author = {Suzuki, Masahiro and Sakaji, Hiroki and Izumi, Kiyoshi and Ishikawa, Yasushi},
  jbooktitle = {言語処理学会 第28回年次大会 (NLP2022)},
  booktitle = {28th Annual Meeting of the Association for Natural Language Processing (NLP)},
  year = {2022},
  pages = {588-592},
}