異なる単語分割システムによる日本語事前学習言語モデルの性能評価

Author

鈴木 雅弘, 坂地 泰紀, and 和泉 潔
Conference

言語処理学会 第29回年次大会 (NLP2023)
Abstract

日本語で構築された事前学習言語モデルでは,入力文を形態素解析器などを用いて単語に分割してからトークン分割を行うことが多い.しかし,End-to-Endで学習を行う近年の事前学習言語モデルにおいて,人為性の高い単語分割を行うことはモデルの効率性を下げる可能性がある.本研究では,異なる単語分割システムから構築した日本語の事前学習言語モデルが,下流の評価タスクの性能に及ぼす影響について検証する.JGLUE ベンチマークによる評価の結果,単語分割システムを用いず構築した言語モデルが,単語分割システムを用いて構築した言語モデルより高い精度を示した.
Paper

PDF
Bibtex
@inproceedings{Suzuki-2023-nlp,
  jtitle = {{異なる単語分割システムによる日本語事前学習言語モデルの性能評価}},
  title = {{Performance Evaluation of Japanese Pre-trained Language Models with Different Word Segmentation Systems}},
  jauthor = {鈴木, 雅弘 and 坂地, 泰紀 and 和泉, 潔},
  author = {Suzuki, Masahiro and Sakaji, Hiroki and Izumi, Kiyoshi},
  jbooktitle = {言語処理学会 第29回年次大会 (NLP2023)},
  booktitle = {29th Annual Meeting of the Association for Natural Language Processing (NLP)},
  year = {2023},
  pages = {894-898},
}