TeluguNER: Leveraging Multi-Domain Named Entity Recognition with Deep Transformers
Named Entity Recognition(NER)は、リソースの利用可能性により、英語で成功し、よく研究された問題です。トランスフォーマーモデル、特にマスク言語モデル(MLM)は、最近のNERで驚異的なパフォーマンスを示しています。さまざまなオンラインプラットフォームで成長するデータに対応するため、他の言語でもNERが必要です。リソースとツールの不足により、NERはインドの言語で未開拓のままです。本論文の貢献は、(i)複数のドメインでテルグ語の2つの注釈付きNERデータセット:ニュースワイヤーデータセット(ND)と医療データセット(MD)を組み合わせて、結合データセット(CD)を形成したこと、(ii)ファインチューニングされたテルグ語の事前学習済みトランスフォーマーモデル(BERT-Te、RoBERTa-Te、ELECTRA-Te)と他のベースラインモデル(CRF、LSTM-CRF、BiLSTM-CRF)の比較、(iii)テルグ語の事前学習済みトランスフォーマーモデルと多言語モデルmBERT、XLM-R、IndicBERTのパフォーマンスのさらなる調査です。事前学習済みのテルグ語モデル(BERT-Te、RoBERTa)は、NERで既存の事前学習済みの多言語およびベースラインモデルを上回るパフォーマンスを発揮しています。 38,363の文の大規模なデータセット(CD)では、BERT-Teは高いF1スコア(エンティティレベル)0.80および(トークンレベル)0.75を達成しています。さらに、これらの事前学習済みのテルグ語モデルは、さまざまな既存のテルグ語NERデータセットで最先端のパフォーマンスを発揮しています。私たちは、データセット、事前学習済みモデル、およびコードをオープンソース化しています。
https://aclanthology.org/2022.acl-srw.20/