Findings of the Association for Computational Linguistics: ACL 2022

Findings of the Association for Computational Linguistics: ACL 2022
1. Natural language processing (NLP) is a field of study that focuses on the interaction between human language and computers. 自然言語処理(NLP)は、人間の言語とコンピュータの相互作用に焦点を当てた研究分野です。 2. NLP has become increasingly important in recent years due to the growth of digital data and the need to extract meaningful information from it. デジタルデータの増加と、その中から意味のある情報を抽出する必要性の高まりにより、NLPは近年ますます重要になっています。 3. NLP techniques are used in a variety of applications, including machine translation, sentiment analysis, and speech recognition. 機械翻訳、感情分析、音声認識など、NLP技術はさまざまなアプリケーションで使用されています。 4. Despite significant progress in NLP, there are still many challenges to be addressed, such as understanding the nuances of human language and developing more accurate models. NLPにおける重要な進展があるにもかかわらず、人間の言語の微妙なニュアンスを理解することや、より正確なモデルを開発することなど、解決すべき課題はまだ多くあります。
https://aclanthology.org/2022.findings-acl.0/
“Is Whole Word Masking Always Better for Chinese BERT?”: Probing on Chinese Grammatical Error Correction
全単語マスキング(WWM)は、一度に単語に対応するすべてのサブワードをマスクするため、英語のBERTモデルをより良くします。しかし、中国語では、各トークンが原子文字であるため、サブワードは存在しません。中国語における単語の意味は、複数の文字から構成される合成単位である点が異なります。このような違いから、WWMが中国語BERTの文脈理解能力を向上させるかどうかを調査することにしました。このために、文法エラー修正に関連する2つのプロービングタスクを導入し、事前学習モデルにマスクされた言語モデリングの方法でトークンを修正または挿入するように求めます。19,075トークンのラベルを含む10,448の文を含むデータセットを構築します。標準的な文字レベルマスキング(CLM)、WWM、およびCLMとWWMの組み合わせの3つの中国語BERTモデルをトレーニングします。主な発見は次のとおりです。まず、1つの文字を挿入または置換する必要がある場合、CLMでトレーニングされたモデルが最も優れています。第二に、複数の文字を処理する必要がある場合、WWMがより良いパフォーマンスの鍵です。最後に、文レベルのダウンストリームタスクで微調整される場合、異なるマスキング戦略でトレーニングされたモデルのパフォーマンスは同等です。
https://aclanthology.org/2022.findings-acl.1/
Compilable Neural Code Generation with Compiler Feedback
自然言語記述を用いたコンパイル可能なプログラムの自動生成は、計算言語学と自動ソフトウェアエンジニアリングにおける基準的な問題である。既存の深層学習アプローチは、コード生成をテキスト生成としてモデル化し、デコーダー内の文法構造によって制約されるか、大規模なコードコーパス(CodeGPT、PLBART、CodeT5など)の事前学習言語モデルによって駆動される。しかし、これらのアプローチのほとんどは、生成されたプログラムのコンパイル可能性を考慮していない。本論文では、生成されたプログラムのコンパイル可能性を向上させるために、コンパイラのフィードバックを利用した3段階のパイプラインであるCOMPCODERを提案する。このパイプラインは、言語モデルの微調整、コンパイル可能性の強化、およびコンパイル可能性の識別を含む。2つのコード生成タスクに対する包括的な実験は、提案手法の効果を示し、CodeGPTと比較して、コード補完におけるコンパイル成功率を平均で44.18から89.18に、テキストからコード生成においては70.3から96.2に向上させた。
https://aclanthology.org/2022.findings-acl.2/
Towards Unifying the Label Space for Aspect- and Sentence-based Sentiment Analysis
アスペクトベースの感情分析(ABSA)は、文中に出現する対象アスペクト用語に対する感情極性を決定する微細なタスクです。ABSAタスクの開発は、注釈付きデータの不足によって非常に妨げられています。これを解決するために、以前の研究では、主に事前学習またはマルチタスク学習を介して、感情分析(SA)データセットをABSAモデルのトレーニングに利用する可能性を研究してきました。本稿では、このラインに従い、初めて擬似ラベル(PL)法を適用して、2つの同質なタスクを統合することに成功しました。2つの高度に関連するタスクのこのラベルの粒度の統一の場合に生成された擬似ラベルを使用することは簡単に思えますが、本稿ではその主要な課題を特定し、デュアル粒度擬似ラベリング(DPL)と呼ばれる新しいフレームワークを提案します。さらに、PLと同様に、DPLを文献中の他の先行方法を組み合わせることができる一般的なフレームワークと見なしています。広範な実験により、DPLは、先行研究を大幅に上回る標準ベンチマークで最先端のパフォーマンスを達成しました。
https://aclanthology.org/2022.findings-acl.3/
Input-specific Attention Subnetworks for Adversarial Detection
セルフアテンションヘッドはTransformerモデルの特徴であり、解釈性と剪定についてよく研究されています。本研究では、アテンションヘッドの全く異なる用途、すなわち敵対的検出について示します。具体的には、入力固有のアテンションサブネットワーク(IAS)を構築する方法を提案し、真正と敵対的な入力を区別するために3つの特徴を抽出します。その結果、BERTエンコーダーに対する10のNLUデータセットと11種類の敵対的攻撃タイプに対する最新の敵対的検出精度を7.5%以上改善する検出器が得られました。また、本手法が(a)より大きなモデルに対してより正確であり、偽の相関がより多く存在し、敵対的攻撃に対して脆弱である可能性があること、および(b)敵対的な例のわずかなトレーニングセットでも良好な性能を発揮することを示しました。
https://aclanthology.org/2022.findings-acl.4/
RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction
関係抽出は知識の構築と表現において重要であるにもかかわらず、未知の関係タイプに一般化する研究は少ない。我々は、低リソースの関係抽出手法に関するさらなる研究を促進するために、Zero-Shot Relation Triplet Extraction (ZeroRTE)のタスク設定を紹介する。入力文が与えられた場合、各抽出されたトリプレットは、ヘッドエンティティ、関係ラベル、およびテールエンティティから構成され、関係ラベルはトレーニング段階で見られない。ZeroRTEを解決するために、言語モデルをプロンプトして構造化されたテキストを生成することにより、関係例を合成することを提案する。具体的には、言語モデルのプロンプトと構造化されたテキストのアプローチを統一して、構造化されたプロンプトテンプレートを設計し、関係ラベルプロンプトに条件付けるときに合成関係サンプルを生成する(RelationPrompt)。文中の複数の関係トリプレットを抽出する制限を克服するために、新しいTriplet Search Decoding方法を設計する。FewRelとWiki-ZSLデータセットでの実験は、RelationPromptがZeroRTEタスクとゼロショット関係分類において有効であることを示している。我々のコードとデータはgithub.com/declare-lab/RelationPromptで利用可能である。
https://aclanthology.org/2022.findings-acl.5/
Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation?
mBARTのような事前学習済みの多言語シーケンス・ツー・シーケンスモデルは、低リソース言語の翻訳にどのような貢献をすることができるのか?我々は、10の言語で5つの要因を考慮して、徹底的な実験を行い、そのことを確認する。それらの要因は、(1)ファインチューニングデータの量、(2)ファインチューニングデータのノイズ、(3)モデルの事前学習データの量、(4)ドメインの不一致の影響、および(5)言語のタイポロジーである。実験は、いくつかのヒューリスティックを生み出すだけでなく、機械翻訳システムのデータ感度を評価するためのフレームワークを形成する。mBARTはドメインの違いに対して堅牢であるが、未知の言語やタイポロジー的に遠い言語の翻訳は3.0 BLEU以下にとどまる。我々のタイトルの質問に答えると、mBARTは低リソースの万能薬ではないため、新しいモデルよりも新しいデータに重点を置くことを推奨する。
https://aclanthology.org/2022.findings-acl.6/
Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation
推薦システムの説明を生成することは、特定の推薦を受け取った理由を理解したいというユーザーの要望に応えるために、透明性を向上させるために不可欠である。従来の方法は主に生成品質の向上に焦点を当てていたが、ユーザーとアイテムの特定の詳細を組み込まない一般的な説明を生成することが多かった。この問題を解決するために、私たちはMulti-Scale Distribution Deep Variational Autoencoders(MVAE)を提案する。これらは、入力の意味のある信号を保持しながらノイズを除去する事前ネットワークを持つ深層階層VAEであり、事前ネットワークの学習をガイドする情報源として機能する認識ネットワークが組み合わされている。さらに、マルチスケール分布学習フレームワーク(MLF)とターゲットトラッキングクルバック・ライブラー分散(TKL)メカニズムを提案し、より効果的な学習のために異なるスケールで複数のKL分散を使用する。広範な実験により、私たちの方法が具体的な入力固有の内容を持つ説明を生成できることが示された。
https://aclanthology.org/2022.findings-acl.7/
Dual Context-Guided Continuous Prompt Tuning for Few-Shot Learning
プロンプトベースのパラダイムは、多くのNLPタスクで競争力のあるパフォーマンスを示しています。しかし、その成功はプロンプトの設計に大きく依存し、効果はモデルとトレーニングデータによって異なります。本論文では、新しいデュアルコンテキストガイドの連続プロンプト(DCCP)チューニング方法を提案します。言語構造の豊富な文脈情報を探索し、離散的なプロンプトチューニングと連続的なプロンプトチューニングのギャップを埋めるために、DCCPは2つの補助トレーニング目的を導入し、入力をペアワイズで構築します。実験結果は、当社の方法が多くのNLPタスクに適用可能であり、フューショット設定では既存のプロンプトチューニング方法を大幅に上回ることがよく示されています。
https://aclanthology.org/2022.findings-acl.8/
Extract-Select: A Span Selection Framework for Nested Named Entity Recognition with Generative Adversarial Training
ネストされた固有表現認識(NER)は、固有表現が互いに重複する可能性があるタスクです。スパンベースのアプローチは、ネストされたNERを2段階のスパン列挙と分類タスクとして扱うため、このタスクを処理するための本来の能力を持っています。しかし、エラー伝播、スパン境界の無視、長いエンティティ認識の困難さ、大規模な注釈付きデータの要件などの問題に直面しています。本論文では、これらの問題に対処するために、ネストされたNERのスパン選択フレームワークであるExtract-Selectを提案します。まず、入力カテゴリが異なるネストされたエンティティが抽出器によって別々に抽出されるスパン選択フレームワークを導入し、2段階のスパンベースのアプローチにおけるエラー伝播を自然に回避します。推論フェーズでは、トレーニングされた抽出器が、与えられたエンティティカテゴリに特化した最終結果を選択します。次に、スパン境界を最大限に活用するだけでなく、長いエンティティ認識の能力を向上させるハイブリッド選択戦略を抽出器に提案します。第三に、抽出結果を評価するディスクリミネータを設計し、生成的対抗トレーニング(GAT)で抽出器とディスクリミネータの両方をトレーニングします。GATの使用により、データセットサイズに対するストレスが大幅に軽減されます。4つのベンチマークデータセットでの実験結果は、Extract-Selectが競合するネストされたNERモデルを上回り、最先端の結果を得ることを示しています。提案されたモデルは、ラベル付きデータが少ない場合でも良好なパフォーマンスを発揮し、GATの有効性を証明しています。
https://aclanthology.org/2022.findings-acl.9/
Controlled Text Generation Using Dictionary Prior in Variational Autoencoders
変分オートエンコーダー(VAE)は、テキスト生成タスクで広く使用されていますが、不十分な表現能力と制御性の低さという2つの課題に直面しています。前者は事後崩壊と制限的な仮定によるもので、より良い表現学習を妨げます。後者は、従来の定式化における連続的な潜在変数がVAEの解釈性と制御性を妨げるために発生します。本論文では、表現力と制御性の利点を持つ新しいデータ駆動型の事前分布であるDictionary Prior(DPrior)を提案します。DPriorを使用した制御されたテキスト生成を容易にするために、潜在空間をいくつかの部分に分割するために対比学習を使用することを提案します。言語モデリングと制御されたテキスト生成の両方における広範な実験は、提案手法の有効性を示しています。
https://aclanthology.org/2022.findings-acl.10/
Challenges to Open-Domain Constituency Parsing
ニュースドメインのベンチマークにおいて、ニューラル構成解析器は実用的な性能を達成しています。しかし、他のドメインへの一般化能力は弱いままです。クロスドメイン構成解析に関する既存の研究結果は、限られた数のドメインにしか適用されていません。この問題に対処するため、私たちは5つのドメインを含む高品質の構成木バンクを手動で注釈しました。私たちは、さまざまな強力な構成解析器に対して、言語的特徴のセットを用いて、オープンドメインの構成解析に対する課題を分析しました。主に、私たちは以下のことを発見しました。1)BERTは、ドメイン固有の特徴に対する解析器の感度を低下させることにより、解析器のクロスドメイン性能を大幅に向上させます。2)単語分布やOOV率などの単一のメトリックと比較して、オープンドメインの構成解析に対する課題は、クロスドメインの語彙や構成要素の変化などの複雑な特徴から生じます。
https://aclanthology.org/2022.findings-acl.11/
Going “Deeper”: Structured Sememe Prediction via Transformer with Tree Attention
セメム知識ベース(SKB)は、単語に最小の意味単位(すなわちセメム)を注釈付けすることで、多くのNLPタスクに有益であることが証明されています。SKBの構築は非常に時間がかかり、労力が必要です。そのため、いくつかの研究では、注釈のない単語のセメムを予測することによって、構築プロセスを自動化しようと試みています。しかし、すべての既存のセメム予測研究は、セメムの階層構造を無視しています。この階層構造は、セメムベースの意味記述システムにおいて重要です。本研究では、階層構造を持つセメムツリーを予測することを目的とした、構造化されたセメム予測問題に初めて取り組みます。私たちは、調整されたアテンションメカニズムを持つTransformerに基づくセメムツリー生成モデルを設計し、実験でベースラインよりも優れた性能を示しました。また、モデルの有効性に関する一連の定量的および定性的分析を行いました。本論文のすべてのコードとデータは、https://github.com/thunlp/STGで入手可能です。
https://aclanthology.org/2022.findings-acl.12/
Table-based Fact Verification with Self-adaptive Mixture of Experts
表ベースの事実検証タスクは最近広く注目されており、非常に困難な問題であることがまだ残っています。それは、自然言語に関する情報的推論と、表上の異なる数値的および論理的推論(例:数え上げ、最上級、比較)を組み合わせた推論が本質的に必要です。そのような状況を考慮して、我々は専門家の混合を利用し、新しい手法である自己適応型専門家混合ネットワーク(SaMoE)を提案します。具体的には、専門家の複数のネットワークから構成される混合専門家ニューラルネットワークを開発し、推論のための意味の特定の部分を処理する各専門家があり、管理モジュールが各専門家ネットワークの貢献を決定するように適用されます。外部の知識なしに、異なる専門家の結果をより効率的に組み合わせるための自己適応型方法が開発されています。実験結果は、当社のフレームワークがベンチマークデータセットTabFactで85.1%の精度を達成し、以前の最先端モデルと比較可能であることを示しています。当社のフレームワークが表ベースの検証の新しいベースラインとして機能することを望みます。当社のコードはhttps://github.com/THUMLP/SaMoEで利用可能です。
https://aclanthology.org/2022.findings-acl.13/
Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics
現在のメトリック評価の実践は、例えばWMT Metrics Shared Taskの毎年のNewstestデータセットなど、1つのデータセットに焦点を当てています。しかし、本論文では、メトリックのパフォーマンスがデータに敏感であることを定性的・定量的に示しました。評価が異なるデータセットで実施されると、メトリックのランキングが変化します。その後、本論文では、データの分散の問題に責任を負う可能性がある、つまり無視できないデータポイントとi.i.d仮定の偏差を調査しました。結論として、自動翻訳メトリックを評価する際には、研究者はデータの分散を考慮し、信頼性の低いデータセットでの結果を報告する際には注意が必要です。そうしないと、他のほとんどのデータセットと一致しない不一致な結果につながる可能性があります。
https://aclanthology.org/2022.findings-acl.14/
Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal Information
言語学において、セメムは言語の最小意味単位と定義されています。セメム知識ベース(KB)は、セメムを手動で注釈付けすることによって構築され、さまざまなNLPタスクに成功裏に適用されています。しかし、既存のセメムKBはわずかな言語しかカバーしておらず、セメムの広範な利用を妨げています。この問題に対処するために、BabelNetシンセットのセメム予測タスク(SPBS)が提示され、多言語百科事典辞書であるBabelNetに基づく多言語セメムKBの構築を目指しています。BabelNetシンセットの自動的なセメム予測により、シンセット内の多言語の単語が同時にセメム注釈を取得することができます。しかし、以前のSPBS方法は、BabelNetの豊富な情報を十分に活用していませんでした。本論文では、BabelNetの多言語シノニム、多言語グロス、および画像をSPBSに利用します。我々は、多モーダル情報融合モデルを設計して、この情報をセメム予測のためにエンコードおよび結合します。実験結果は、我々のモデルが以前の方法に比べて大幅に優れていることを示しています(約10 MAPおよびF1スコア)。本論文のすべてのコードとデータは、https://github.com/thunlp/MSGIから入手できます。
https://aclanthology.org/2022.findings-acl.15/
Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding
イベント抽出は、イベントタイプと引数ロールを原子的なシンボルとして扱い、多クラス分類問題としてモデル化されることが一般的である。これらのアプローチは通常、事前定義されたタイプのセットに限定されている。我々は、イベントタイプと引数ロールを自然言語クエリとして使用し、入力テキストから候補トリガーと引数を抽出する新しいイベント抽出フレームワークを提案する。クエリの豊富な意味により、我々のフレームワークは、イベントタイプまたは引数ロールと入力テキストの間の意味的相関をよりよく捉えるための注意機構の恩恵を受ける。さらに、クエリと抽出の形式により、我々のアプローチは、さまざまなオントロジーから利用可能なすべてのイベント注釈を統一モデルとして活用することができる。ACEおよびEREの実験により、我々のアプローチは、各データセットで最先端の性能を発揮し、ゼロショットイベント抽出において既存の手法を大幅に上回ることが示された。
https://aclanthology.org/2022.findings-acl.16/
LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
事実を認識することは、判断を下す上で最も基本的なステップであり、法的ケース分析タスクにおいては、法的文書内のイベントを検出することが重要です。しかし、既存の法的イベント検出(LED)データセットは、不十分なイベントタイプに関するものであり、注釈付きデータが限られているため、LED方法およびその下流アプリケーションの開発を制限しています。これらの問題を緩和するために、私たちはLEVENを提案します。これは、8,116の法的文書と108のイベントタイプにおいて150,977の人間による注釈付きイベントメンションを持つ、大規模な中国の法的イベント検出データセットです。LEVENは、充電関連のイベントだけでなく、法的ケース理解に重要であるが既存のLEDデータセットで無視されている一般的なイベントもカバーしています。私たちの知る限り、LEVENは最大のLEDデータセットであり、他のデータスケールの数十倍を持っており、LED方法のトレーニングと評価を大幅に促進することができます。広範な実験の結果、LEDは困難であり、さらなる努力が必要であることが示されました。さらに、私たちは法的イベントを副次的な情報として利用して、下流アプリケーションを促進しました。この方法により、低リソース判断予測において平均2.2ポイントの精度向上、および非監視型ケース検索において平均1.5ポイントの平均精度向上が達成され、LEDの基本性が示されました。ソースコードとデータセットは、https://github.com/thunlp/LEVENから入手できます。
https://aclanthology.org/2022.findings-acl.17/
Analyzing Dynamic Adversarial Training Data in the Limit
広範なテスト入力に対して堅牢なモデルを作成するためには、トレーニングデータセットには多様な現象をカバーする例が含まれる必要があります。動的な敵対的データ収集(DADC)は、改善し続けるモデルに挑戦する例を作成するアプローチとして、多様なトレーニングセットを生成するための有望な方法です。以前の研究では、1〜3ラウンドのDADCを実行することで、モデルが一部のエラータイプを修正するのに役立つことが示されていますが、敵対的なテストデータを超えたより良い一般化を必ずしももたらすわけではありません。私たちは、DADCを多数のラウンドで実行することで、タスクに関連する多くの現象をカバーできるため、トレーニング時間の利点を最大化すると主張しています。私たちは、敵対的および非敵対的なアプローチの両方で、一連の前提段落のNLI例を20ラウンド収集する長期的なDADCの最初の研究を発表します。DADCの例でトレーニングされたモデルは、非敵対的なデータでトレーニングされたモデルに比べて、専門家が作成したテストセットで26%少ないエラーを生成します。私たちの分析は、DADCが非敵対的な例に比べて、より困難で、より語彙的および構文的に多様で、注釈のアーティファクトが少ない例を生成することを示しています。
https://aclanthology.org/2022.findings-acl.18/
AbductionRules: Training Transformers to Explain Unexpected Inputs
トランスフォーマーは、最近、自然言語で表現された事実やルールに対して論理的推論を信頼性高く実行できることが示されていますが、予期しない観察の最良の説明に対する推論である帰納的推論は、科学的発見、常識的推論、モデルの解釈可能性に重要な応用があるにもかかわらず、未だに十分に探究されていません。本論文では、自然言語の知識ベース上で一般化可能な帰納的推論を訓練およびテストするために設計されたAbductionRulesというグループのデータセットを提供します。これらのデータセットを使用して、事前学習されたトランスフォーマーを微調整し、その性能について議論し、モデルが一般化可能な帰納的技術を学習したこと、また、データの構造を利用することも学習したことを発見しました。最後に、この帰納的推論のアプローチの実現可能性と、今後の改善方法について議論します。
https://aclanthology.org/2022.findings-acl.19/
On the Importance of Data Size in Probing Fine-tuned Models
いくつかの研究は、通常プロービングのレンズを通して、ファインチューニングの効果的な理由を調査してきた。しかし、これらの研究はしばしば、モデルがファインチューニングされるデータセットのサイズの役割を無視しています。本論文では、この要因の重要性と、プロービングのパフォーマンスにおけるその否定できない役割を強調します。我々は、エンコードされた言語知識の範囲がファインチューニングサンプルの数に依存することを示します。分析はまた、より大きなトレーニングデータが主に上位層に影響を与え、この変化の程度がトレーニングサンプルの多様性ではなく、ファインチューニング中にモデルを更新する反復回数の要因であることを明らかにします。最後に、一連の実験を通じて、ファインチューニングデータサイズがモデルの言語知識に対する変更の回復性に影響を与えることを示します。
https://aclanthology.org/2022.findings-acl.20/
RuCCoN: Clinical Concept Normalization in Russian
私たちは、医療専門家によって手動で注釈付けされたロシア語の臨床概念正規化のための新しいデータセットであるRuCCoNを提供します。それには、UMLSオントロジーのロシア語部分から2,409のユニークな概念に手動でリンクされた16,028以上のエンティティメンションが含まれています。我々は、異なる設定(層別、ゼロショット、およびCUIレス)のトレイン/テスト分割を提供し、SapBERTなどの最新のモデルで得られた強力なベースラインを示します。現在、ロシアの医療NLPは、データセットとトレーニングされたモデルの両方が不足しており、この作業をこのギャップを埋めるための重要な一歩と見なしています。私たちのデータセットと注釈ガイドラインは、https://github.com/sberbank-ai-lab/RuCCoNで利用可能です。
https://aclanthology.org/2022.findings-acl.21/
A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive Learning Framework for Sentence Embeddings
対照学習は、SimCSE(引用)などの教師なしの文埋め込みタスクで大きな可能性を示しています。しかし、これらの既存の解決策は、文の長さや構文構造などの表面的な特徴に強く影響を受けます。本論文では、文の長さや構文などの表面的な特徴の影響を排除しながら、文の擬似トークン空間(つまり、潜在的な意味空間)表現を探索することができる、文埋め込みのための意味に敏感な対照学習フレームワークであるPseudo-Token BERT(PT-BERT)を提案します。具体的には、BERTエンコーダーとは独立した追加の擬似トークン埋め込み層を導入して、各文を固定長の擬似トークンのシーケンスにマップします。これらの擬似シーケンスを活用して、注意機構に基づいて同じ長さの正例と負例のペアを構築し、対照学習を実行します。さらに、勾配更新エンコーダーとモーメンタム更新エンコーダーの両方を活用して、インスタンスをエンコードしながら、文埋め込みの表現を格納する追加のキューを動的に維持することで、エンコーダーの負例の学習性能を向上させます。実験の結果、本モデルは、6つの標準的な意味的テキスト類似性(STS)タスクで最先端のベースラインを上回ることが示されました。さらに、アラインメントと均一性の損失、および異なる文の長さと構文を持つハードな例に対する実験は、本手法の有効性を一貫して検証しています。
https://aclanthology.org/2022.findings-acl.22/
Eider: Empowering Document-level Relation Extraction with Efficient Evidence Extraction and Inference-stage Fusion
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のエンティティペア間の意味的な関係を抽出することを目的としています。典型的なDocRE方法は、ドキュメント全体を入力として取りますが、証拠として注目されるドキュメント内の一部の文は、人間がエンティティペアの関係を予測するのに十分であることがよくあります。本論文では、証拠を効率的に抽出し、推論で抽出された証拠を効果的に融合することによって、DocREを強化するEiderというフレームワークを提案します。まず、軽量な証拠抽出モデルとREモデルを共同でトレーニングし、メモリとランタイムの両方で効率的な証拠モデルを作成します。実験的には、ヒューリスティックルールによって構築されたシルバーラベルで証拠モデルをトレーニングしても、REパフォーマンスが向上することがあります。さらに、抽出された証拠とドキュメント全体の両方でRE予測を行い、ブレンドレイヤーを介して予測を融合するシンプルで効果的な推論プロセスを設計します。これにより、Eiderは重要な文に焦点を当てながら、ドキュメントの完全な情報にアクセスできるようになります。広範な実験により、Eiderが3つのベンチマークデータセット(例えば、DocREDのIgn F1 / F1で1.37 / 1.26)で最先端の方法を上回ることが示されました。
https://aclanthology.org/2022.findings-acl.23/
Meta-XNLG: A Meta-Learning Approach Based on Language Clustering for Zero-Shot Cross-Lingual Transfer and Generation
最近、NLPコミュニティでは、高リソース言語(HRL)から低リソース言語(LRL)への監視の転送が行われる多言語およびクロスリンガル転送研究において急速な進歩が見られています。しかし、クロスリンガル転送は、特にゼロショット設定において、言語によって一様ではありません。この目標に向けて、限られた注釈付きデータを用いて複数のタスク間で共有可能な構造を学習することが有望な研究方向の1つです。多言語アプリケーションは、世界中のほとんどの言語が低リソースであり、他の言語といくつかの構造を共有しているため、このような学習セットアップから利益を得ることができます。本論文では、メタ学習と言語クラスタリングに基づく多様な言語から共有可能な構造を学習するための新しいメタ学習フレームワーク(Meta-XNLG)を提案します。これは、未知の言語に対する一様なクロスリンガル転送に向けた一歩です。まず、言語表現に基づいて言語をクラスタリングし、各クラスターの重心言語を特定します。次に、メタ学習アルゴリズムをすべての重心言語でトレーニングし、ゼロショット設定で他の言語で評価します。本研究では、2つのNLGタスク(抽象的テキスト要約と質問生成)、5つの人気のあるデータセット、30の多様な言語でこのモデリングの効果を実証します。強力なベースラインに対する一貫した改善は、提案されたフレームワークの有効性を示しています。モデルの慎重な設計により、ゼロショットクロスリンガルNLGタスクで顕著な問題である偶発的な翻訳問題に対して、このエンドツーエンドのNLGセットアップはより脆弱ではありません。
https://aclanthology.org/2022.findings-acl.24/
MR-P: A Parallel Decoding Algorithm for Iterative Refinement Non-Autoregressive Translation
非自己回帰翻訳(NAT)は、すべての目標トークンを並列に予測し、推論プロセスを大幅に高速化します。条件付きマスク言語モデル(CMLM)は、NATの強力なベースラインです。CMLMは、マスク-予測アルゴリズムでデコードされ、出力を反復的に洗練します。CMLMに関する多くの研究は、モデル構造とトレーニング目的に焦点を当てています。しかし、デコードアルゴリズムも同様に重要です。私たちは、MaskRepeat-Predict(MR-P)と呼ぶ、シンプルで効果的で実装が容易なデコードアルゴリズムを提案します。MR-Pアルゴリズムは、次の反復のためにマスクするトークンを選択する際に、連続した繰り返しトークンに優先度を与え、目標トークンが収束した後に反復を停止します。私たちは、データサイズを変えた6つの翻訳方向で広範な実験を行いました。その結果、MR-Pは同じモデルパラメータで性能を大幅に向上させることが示されました。特に、WMT'14 En-De翻訳タスクでBLEUスコアが1.39ポイント向上しました。
https://aclanthology.org/2022.findings-acl.25/
Open Relation Modeling: Learning to Define Relations between Entities
エンティティ間の関係は、例えば両方のエンティティを含む文や知識グラフ(KG)の事実など、異なるインスタンスによって表現されることがあります。しかし、これらのインスタンスは、エンティティ間の一般的な関係をうまく捉えることができない場合があり、人間には理解しにくい場合があり、知識源の不完全性のために見つからない場合があります。本論文では、2つのエンティティが与えられた場合、それらの間の関係を説明する一貫した文を生成するOpen Relation Modeling問題を紹介します。この問題を解決するために、我々は機械に定義的な関係記述を生成することを教えることを提案します。具体的には、抽出されたエンティティペアに条件付けられた定義を生成するために、事前学習済み言語モデル(PLMs)を微調整することを提案します。PLMsがエンティティ間を推論し、Open Relation Modelingのための追加の関係知識を提供するために、KG内の推論パスを組み込み、推論パス選択メカニズムを含めます。実験結果は、我々のモデルが、エンティティの代表的な特徴を捉えた簡潔で情報量の多い関係記述を生成できることを示しています。
https://aclanthology.org/2022.findings-acl.26/
A Slot Is Not Built in One Utterance: Spoken Language Dialogs with Sub-Slots
スロット値は、特に電話番号や名前などの重要な情報について、複数のターンの対話でセグメントごとに提供されることがあります。これは日常生活でよくある現象ですが、以前の研究ではあまり注目されていませんでした。この論文では、Sub-Slot based Task-Oriented Dialog(SSTOD)という新しいタスクを定義し、SSTODの研究を促進するために中国語の対話データセットSSDを構築します。データセットには、中国語の名前、電話番号、ID番号、ナンバープレート番号の4つの異なるドメインから合計40Kの対話と500Kの発話が含まれています。データは、サブスロット値、スロット値、対話状態、アクションでよく注釈が付けられています。SSTODで新しい言語現象や対話方法が見つかり、タスクのための対話エージェントの構築に重要な課題が生じています。SSTODで3つの最新の対話モデルをテストし、4つのドメインのいずれでもタスクをうまく処理できないことがわかりました。また、プラグイン方式でスロット知識を組み込んだ改良モデルを調査しました。現実のアプリケーションで広く存在するSSTODから生じる新しい課題に対応するために、さらなる研究が必要です。データセットとコードは、https://github.com/shunjiu/SSTODを通じて公開されています。
https://aclanthology.org/2022.findings-acl.27/
Towards Transparent Interactive Semantic Parsing via Step-by-Step Correction
従来の意味解析に関する研究は、自然言語の発話を1回のターンで論理形式(LF)にマッピングすることに焦点を当てています。しかし、自然言語には曖昧さや変動性が含まれるため、これは困難な課題です。本研究では、予測されたLFを自然言語でステップバイステップで説明し、ユーザーが個々のステップに対して自然言語のフィードバックを通じて修正できる対話型意味解析フレームワークを調査します。我々は、知識ベース上の質問応答(KBQA)をフレームワークの具体例として重視し、解析プロセスの透明性を高め、ユーザーが最終的な回答を信頼できるようにすることを目的としています。我々は、ComplexWebQuestionsデータセットから派生したクラウドソーシング対話データセットINSPIREDを構築します。実験の結果、このフレームワークは全体的な解析精度を大幅に向上させる可能性があることが示されました。さらに、クラウドソーシングの努力をさらに必要とせずに、最新のKBQAモデルのさまざまな観点からフレームワークを評価するための対話シミュレーションパイプラインを開発しました。その結果、我々のフレームワークは、そのようなモデル全般にわたって効果的であることが示されました。
https://aclanthology.org/2022.findings-acl.28/
MINER: Multi-Interest Matching Network for News Recommendation
個人化されたニュース推薦は、ユーザーが興味を持つニュースを見つけるのを支援するための重要な技術です。ユーザーの興味と候補ニュースを正確にマッチングすることがニュース推薦の鍵です。既存の多くの方法は、ユーザーの過去の行動から単一のユーザー埋め込みを学習して、読書の興味を表現します。しかし、ユーザーの興味は通常多様であり、単一のユーザー埋め込みで十分にモデル化されない場合があります。本論文では、ポリアテンションスキームを提案し、各ユーザーに複数の興味ベクトルを学習させ、ユーザーの異なる興味の側面をエンコードします。さらに、学習された興味ベクトルをより多様にするための不一致正則化を提案します。さらに、ニュースカテゴリ情報を明示的な興味信号としてアテンションメカニズムに組み込むカテゴリ意識のアテンション重み付け戦略を設計します。MINDニュース推薦ベンチマークでの広範な実験により、当社のアプローチが既存の最先端の方法を大幅に上回ることが示されました。
https://aclanthology.org/2022.findings-acl.29/
KSAM: Infusing Multi-Source Knowledge into Dialogue Generation via Knowledge Source Aware Multi-Head Decoding
知識強化手法は、対話応答の生成において人間と機械の間のギャップを埋める役割を果たしています。しかし、以前の研究では、ほとんどの場合、単一の情報源からの知識のみを求めており、そのため、単一の情報源のカバー範囲が不十分であるために利用可能な知識を得ることができないことがしばしばありました。このため、複数の情報源からの知識を注入することがトレンドとなっています。本論文では、複数の情報源からの知識をより効率的に対話生成に注入するための新しいアプローチであるKnowledge Source Aware Multi-Head Decoding(KSAM)を提案しています。KSAMは、従来の単一のデコーダーパラダイムに従うのではなく、複数の独立した情報源に対応したデコーダーヘッドを使用して、複数の情報源からの知識を注入する際に生じる3つの課題、すなわち、異なる知識源の多様性、不確定な知識の整列問題、そして知識の使用における十分な柔軟性/スケーラビリティの欠如を緩和します。中国語の複数の情報源に整列したデータセットでの実験により、KSAMがさまざまな競合手法に優れた性能を発揮することが示されました。
https://aclanthology.org/2022.findings-acl.30/
Towards Responsible Natural Language Annotation for the Varieties of Arabic
NLPモデルを構築する際、文化的および(社会)言語的ニュアンスを見落とし、より広範なカバレッジを目指す傾向がある。本論文では、特にデータセット注釈における文化的および言語的ニュアンスへの注意と、プロセスに文化的および言語的専門知識を含めることの重要性を主張する。また、多言語、多方言の言語に対する責任あるデータセット作成のためのプレイブックを提供する。この研究は、ソーシャルメディアコンテンツのアラビア語注釈に関する研究に基づいている。
https://aclanthology.org/2022.findings-acl.31/
Dynamically Refined Regularization for Improving Cross-corpora Hate Speech Detection
ヘイトスピーチ分類器は、ソースと異なるデータセットで評価されると、大幅な性能低下を示す。これは、訓練コーパスからのヘイトスピーチラベルと必ずしも関連しない単語間の虚偽の相関関係を学習するためである。これまでの研究では、事前定義された静的辞書から特定の用語を正則化することで、この問題を緩和しようとしてきた。これにより、分類器の汎用性が向上することが示されているが、その方法のカバレッジは限られており、辞書は人間の専門家による定期的な更新が必要である。本論文では、動的な用語リストの精緻化による帰属方法を使用して、虚偽の相関関係を自動的に特定し、正則化することを提案する。我々のアプローチは柔軟であり、事前定義された辞書と独立または組み合わせて、クロスコーポラのパフォーマンスを改善する。
https://aclanthology.org/2022.findings-acl.32/
Towards Large-Scale Interpretable Knowledge Graph Reasoning for Dialogue Systems
現在、音声アシスタントとのやり取りをするユーザーは、適切な応答を引き出すために非常に特定の方法でリクエストを表現する必要があります。これはユーザー体験を制限し、対話プラットフォームの推論能力の欠如と、広範な手作業が必要な手作りのルールの一部によるものです。デザイナーの手作業を軽減し、ユーザー体験を改善するための1つの可能な解決策は、ユーザーの発話を知覚しながら推論を行うことができるエンドツーエンドの対話システムを構築することです。本研究では、知識推論能力を対話システムによりスケーラブルかつ汎用的に組み込むための新しい手法を提案します。提案された手法により、単一のトランスフォーマーモデルが大規模な知識グラフを直接歩くことで応答を生成できます。私たちの知る限り、これはトランスフォーマーモデルが微分可能な知識グラフを推論して応答を生成する最初の研究です。提案された手法の推論能力を、タスク指向型およびドメイン固有の雑談対話の両方で調査します。実験結果は、この手法が完全に解釈可能な推論パスを持つ知識グラフを対話システムに効果的かつ効率的に組み込むことができることを示しています。
https://aclanthology.org/2022.findings-acl.33/
MDERank: A Masked Document Embedding Rank Approach for Unsupervised Keyphrase Extraction
キーフレーズ抽出(KPE)は、コアコンテンツの簡潔な要約を提供する文書内のフレーズを自動的に抽出し、下流の情報検索およびNLPタスクに利益をもたらします。従来の最先端の方法は、候補キーフレーズと文書の学習表現の類似性に基づいて候補キーフレーズを選択します。しかし、シーケンスの長さの不一致によるキーフレーズ候補の表現と文書の不一致により、長い文書で性能が低下することがあります。本研究では、マスク戦略を活用してソース文書の埋め込みとマスクされた文書の埋め込みの類似性によって候補をランキングする、新しい非教師あり埋め込みベースのKPEアプローチ、Masked Document Embedding Rank(MDERank)を提案して、この問題に対処します。さらに、MDERankに適した新しい自己教師あり対照学習方法を提案することで、KPE指向のBERT(KPEBERT)モデルを開発します。6つのKPEベンチマークでの包括的な評価により、提案されたMDERankは、平均1.80 F1@15の改善により、最先端の非教師ありKPEアプローチを上回ることが示されました。MDERankは、KPEBERTからの利益をさらに得て、SIFRankに比べて平均3.53 F1@15の改善を達成しました。
https://aclanthology.org/2022.findings-acl.34/
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance
Probingは、よく訓練された深層ニューラルモデルが言語情報を捉えることができるかどうかを分析するために人気がありますが、エンコードされた言語情報の変化がタスクのパフォーマンスにどのように影響するかを答えるのは難しいです。このため、Pareto Optimalityの観点から、エンコードされた言語情報とタスクパフォーマンスの動的な関係を研究します。その主要なアイデアは、両方の目的においてPareto最適なモデルのセットを取得することです。この観点から、マルチオブジェクティブ最適化問題として形式化することで、Pareto最適なモデルを最適化する方法を提案します。機械翻訳と言語モデリングという2つの人気のあるNLPタスクで実験を行い、いくつかの種類の言語情報とタスクパフォーマンスの関係を調査します。実験結果は、提案された方法がベースライン方法よりも優れていることを示しています。私たちの経験的な知見は、いくつかの構文情報がNLPタスクに役立つことを示唆していますが、より多くの構文情報をエンコードすることが必ずしもより良いパフォーマンスにつながるわけではなく、モデルアーキテクチャも重要な要因であることを示唆しています。
https://aclanthology.org/2022.findings-acl.35/
Efficient Argument Structure Extraction with Transfer Learning and Active Learning
引数構造の自動抽出には、(1)包括的な理解を促進するために長期的な文脈をエンコードすることと、(2)高品質の引数構造を構築するのに時間がかかるため、データ効率を改善することの2つの課題がある。本研究では、特徴に依存するモデルまたは限られた文脈のみをエンコードするモデルよりも、5つの異なるドメインで優れた性能を発揮する、新しいコンテキストに敏感なTransformerベースの引数構造予測モデルを提案する。データ注釈の難しさに対処するために、既存の注釈付きデータを活用して新しいターゲットドメインでモデルの性能を向上させる転移学習と、注釈付きサンプルを戦略的に特定するためのアクティブラーニングの2つの補完的な方法を検討する。さらに、多様なドメインに一般化できるモデル非依存のサンプル取得戦略を提案する。広範な実験により、シンプルで効果的な取得戦略が3つの強力な比較に対して競争力のある結果を生み出すことを示す。転移学習と組み合わせることで、アクティブラーニングの初期イテレーションでドメイン間でF1スコアが5〜25向上する。
https://aclanthology.org/2022.findings-acl.36/
Plug-and-Play Adaptation for Continuously-updated QA
言語モデル(LMs)は、暗黙の知識ベース(KBs)として大きな潜在能力を示しています。そして、実用的な利用のためには、LMsの知識は定期的に更新する必要があります。しかし、既存のLMsのKBとしての有効性を評価するタスクは、複数の大規模な更新を十分に考慮していません。このため、まず、複数の大規模な更新がLMsに行われ、既存の知識を保持しながら知識を追加および更新する成功に関して測定される新しいタスク「Continuously-updated QA(CuQA)」を提案します。次に、更新を効果的に処理するプラグインモジュールを備えたLMsを提供します。 zsRE QAおよびNQデータセットで実施された実験は、当社の方法が既存のアプローチを上回ることを示しています。ファインチューニングベースラインと比較して、当社の方法は更新/忘却比で4倍効果的であることがわかりました。
https://aclanthology.org/2022.findings-acl.37/
Reinforced Cross-modal Alignment for Radiology Report Generation
医療画像は臨床的な意思決定に広く使用されており、放射線学報告書の作成は、医師の負担を軽減するための自動化ソリューションによって強化される可能性のあるアプリケーションです。一般的に、放射線学報告書の生成は、画像とテキストのタスクであり、画像とテキストの間のクロスモーダルマッピングが高品質の報告書の生成に重要な役割を果たします。以前の研究では、教師あり設定下で共同注意メカニズムを介してアライメントを容易にすることを試みましたが、このようなアライメントの注釈がないため、有効で正確な対応が欠けています。本論文では、放射線学報告書の生成のために視覚的およびテキスト的特徴をより適切に整列させるためのクロスモーダルメモリ(CMM)上の強化学習(RL)を提案します。詳細には、共有メモリを使用して視覚的およびテキスト情報のマッピングを記録し、提案された強化アルゴリズムを実行して、報告書からの信号を学習してクロスモーダルアライメントを誘導します。このような報告書は、画像とテキストがどのようにマッピングされるかに直接関係していないため、このアプローチは画期的な結果を達成しました。IU X-RayおよびMIMIC-CXRの2つの英語放射線学報告書データセットでの実験結果は、アプローチの有効性を示しています。さらに、人間の評価と事例研究を実施し、アプローチの強化アルゴリズムの妥当性を確認しました。
https://aclanthology.org/2022.findings-acl.38/
What Works and Doesn’t Work, A Deep Decoder for Neural Machine Translation
ディープラーニングは、ニューラルマシン翻訳(NMT)を含む広範な自然言語処理タスクで性能の優位性を示しています。Transformer NMTモデルは通常、より深いエンコーダ層によって強化されますが、デコーダ層を深くすると通常失敗します。本論文では、まずTransformerモデルの深いデコーダの失敗の原因を特定します。この発見にインスパイアされ、モデル構造とモデルトレーニングに関するアプローチを提案し、深いデコーダをNMTで実用的にすることを目指します。具体的には、モデル構造に関して、クロスアテンションドロップメカニズムを提案し、デコーダ層がそれぞれ異なる役割を果たすことができるようにし、深いデコーダの学習の難しさを減らします。モデルトレーニングに関しては、崩壊を減らすトレーニングアプローチを提案し、深いデコーダのトレーニングの安定性と効果を改善します。提案されたTransformer NMTモデル構造の変更と新しいトレーニング方法をいくつかの人気のある機械翻訳ベンチマークで実験的に評価しました。その結果、デコーダ層の数を増やすことによってNMTモデルを深化させることで、深いデコーダが無条件の言語モデルに劣化するのを防ぐことができました。エンコーダのNMTモデルを深化させる従来の研究とは対照的に、私たちの方法はエンコーダとデコーダの両方でモデルを深化させ、より深いモデルと改善された性能を実現することができます。
https://aclanthology.org/2022.findings-acl.39/
SyMCoM - Syntactic Measure of Code Mixing A Study Of English-Hindi Code-Mixing
コードミキシングは、バイリンガルスピーカーが会話中に2つ以上の言語を切り替える言語現象である。コンピュータ上でのコードミキシングに関する最近の研究では、ソーシャルメディアのコードミックステキストを利用してNLPモデルを訓練している。コーパス内外のコードミキシングの多様性を捉えるために、言語ID(LID)タグベースの尺度(CMI)が提案されている。コードミキシングの構文的な多様性/パターンと、それらの関係については、コンピュータモデルのパフォーマンスに対する影響が未だに探究されていない。本研究では、英語(en)-ヒンディー語(hi)のコードミックスデータセットの構文的な観点から、直感的な理論的境界を持つSyMCoMという構文的多様性の指標を提案する。93.4%の正確性を持つSoTA en-hi PoSタガーを訓練して、コーパス上でPoSタグを信頼性高く計算し、SyMCoMの有用性をデータセットの様々な構文的カテゴリに適用して、尺度を用いてデータセットを比較する。
https://aclanthology.org/2022.findings-acl.40/
HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on Tabular and Textual Data
現在の対話システムにおける重要な課題は、異なるモダリティに分散された情報に関してユーザーと成功裏に会話することです。以前のマルチターン対話システムの研究は、主にテキストまたは表情報に焦点を当てていました。より現実的なシナリオでは、両方の共通理解が重要であり、知識は通常、構造化されていない形式と構造化された形式の両方に分散されているためです。私たちは、Wikipediaのテキストと表に基づくクラウドソーシングされた自然な会話からなる新しい対話データセット、HybriDialogueを提供します。複雑なマルチホップの質問を単純で現実的なマルチターンの対話インタラクションに分解して会話を作成します。私たちは、データセットのための検索、システム状態追跡、および対話応答生成タスクを提案し、それぞれのベースライン実験を実施します。私たちの結果は、改善の余地がまだ十分にあることを示しており、テーブルとテキストに基づく情報検索対話の複雑な設定に対して推論できるより強力な対話システムの構築の重要性を示しています。
https://aclanthology.org/2022.findings-acl.41/
NEWTS: A Corpus for News Topic-Focused Summarization
テキスト要約モデルは、人間の忠実度に近づいています。既存のベンチマークコーパスは、Web、ニュース、または専門コンテンツの完全版と要約版の一致するペアを提供しています。これまで、すべての要約データセットは、すべての要約ニーズを反映していない一般的なパラダイムで動作しています。最近提案されたいくつかのモデル(例:プラグアンドプレイ言語モデル)は、生成された要約を所望のテーマの範囲に応じて条件付ける能力を持っています。これらの能力は、専用のデータセットがないため、ほとんど使用されず、評価されていません。本論文では、よく知られたCNN / Dailymailデータセットに基づく最初のトピカル要約コーパスNEWTSを紹介し、オンラインクラウドソーシングによって注釈を付けます。各ソース記事には、ソースドキュメントの異なるテーマに焦点を当てた2つの参照要約がペアになっています。我々は、代表的な既存の技術の範囲を評価し、異なるプロンプト方法の効果を分析します。
https://aclanthology.org/2022.findings-acl.42/
Classification without (Proper) Representation: Political Heterogeneity in Social Media and Its Implications for Classification and Behavioral Analysis
Redditは、幅広い政治活動の場であり、ユーザーは自己宣言からコミュニティ参加まで、複数の方法で政治的所属を示しています。頻繁に、計算機的な研究では、政治的ユーザーを単一のブロックとして扱い、政治的傾向を推測するモデルの開発や政治的行動の研究においても同様です。ここでは、政治的ユーザーのこの仮定を検証し、一般的に使用される政治的推論モデルが一般化しないことを示し、異質なタイプの政治的ユーザーが存在することを示します。これらのモデルは、どのデータソースや方法を使用しても、ほとんどのユーザーに対して最高でも不正確なままです。14年間の縦断的分析を行い、政治的ユーザーの定義の選択が行動分析に重要な影響を与えることを示します。複数の要因を制御した結果、政治的ユーザーはプラットフォーム上でより有害であり、党派間の相互作用はさらに有害ですが、すべての政治的ユーザーがこのように行動するわけではありません。最後に、政治的所属を繰り返し変更する政治的ユーザーのサブセットを特定し、これらのユーザーが最も物議を醸し、より頻繁に政治を持ち出し、禁止、停止、または削除される可能性が高いことを示します。
https://aclanthology.org/2022.findings-acl.43/
Toward More Meaningful Resources for Lower-resourced Languages
このポジションペーパーでは、低資源言語の意味のあるリソースが、その言語を話す人々との関係性を持って開発されるべきであるという私たちの見解について説明します。この立場を進める前に、言語技術開発に使用される2つの大規模多言語リソースを調べ、その有用性を制限する欠点を特定します。また、Wikidataに保存されている名前の内容をいくつかの低資源言語で調べ、多くの名前が実際には主張されている言語ではないことがわかり、修正には非常に努力が必要であることを発見します。WikiAnnに存在する品質問題について議論し、手動注釈付きデータの有用な補完になるかどうかを評価します。そして、低資源言語の注釈付けを、言語話者を開発プロセスの一部として考慮した思慮深く倫理的な方法で行うことの重要性について議論します。最後に、リソース開発のための推奨ガイドラインをまとめます。
https://aclanthology.org/2022.findings-acl.44/
Better Quality Estimation for Low Resource Corpus Mining
品質評価(QE)モデルは、機械翻訳モデルを評価し、おそらくトレーニングする方法を変える可能性があります。しかし、これらのモデルはまだ堅牢性に欠けており、一般的な採用を達成することができません。我々は、最先端のQEモデルが、パラレルコーパスマイニング(PCM)設定でテストされた場合、ドメイン外の例に対する堅牢性の欠如のために予期せぬほど悪いパフォーマンスを発揮することを示します。我々は、マルチタスクトレーニング、データ拡張、コントラスティブラーニングの組み合わせを提案し、より良く、より堅牢なQEパフォーマンスを実現します。我々は、MLQEチャレンジでのQEパフォーマンスを大幅に改善し、パラレルコーパスマイニング設定でテストされた場合のQEモデルの堅牢性を示します。PCMの精度を0.80以上向上させ、モデルをトレーニングするために数百万の文ペアを使用する最先端のPCM方法と同等にします。比較すると、我々は合計7Kの並列文を使用し、新しい低リソースPCM方法を提案します。
https://aclanthology.org/2022.findings-acl.45/
End-to-End Segmentation-based News Summarization
本論文では、ニュース記事を複数のセクションに分割し、各セクションに対応する要約を生成するタスクを紹介することで、ニュースコンテンツの新しい消化方法を提供する。この新しいタスクに向けて、2つの貢献を行う。第一に、27,000件のニュース記事と、セクションと見出しスタイルのセクション要約が整列したデータセット「SegNews」を作成し、公開する。第二に、事前学習された言語モデルから適応された新しいセグメンテーションベースの言語生成モデルを提案し、文書を分割し、各セクションの要約を同時に生成する。SegNews上の実験結果は、この新しいタスクに対して、いくつかの最先端のシーケンス・トゥ・シーケンス生成モデルよりも、我々のモデルが優れていることを示している。
https://aclanthology.org/2022.findings-acl.46/
Fast Nearest Neighbor Machine Translation
最近の近傍機械翻訳(kNN-MT)(引用)は、標準的なニューラルMTシステムよりも大幅な性能向上をもたらすことが証明されていますが、最近傍探索のデータストアとして参照コーパス全体を使用するため、実行速度が非常に遅くなっています。つまり、ビームサーチの各ステップごとに、参照コーパス全体を検索する必要があります。kNN-MTは、バニラMTモデルよりも2桁遅く、特にオンラインサービスなどの実世界のアプリケーションに適用するのが困難です。本研究では、この問題に対処するために、高速kNN-MTを提案しています。高速kNN-MTは、最近傍探索のためのはるかに小さなデータストアを構築します。ソース文の各単語について、高速kNN-MTはまず、クエリトークンと同じトークンに限定された最近傍トークンを選択します。そして、各デコーディングステップでは、データストア全体を使用する代わりに、検索空間は以前に選択された参照ソーストークンに対応するターゲットトークンに限定されます。この戦略により、最近傍探索を全体的に検索する必要がなく、デコーディング効率が大幅に向上します。高速kNN-MTは、性能を損なうことなく、kNN-MTよりも2桁速く、標準的なNMTモデルよりも2倍遅くなります。高速kNN-MTにより、実世界のMTアプリケーションでkNN-MTシステムを実用的に使用することができます。コードはhttps://github.com/ShannonAI/fast-knn-nmtで入手できます。
https://aclanthology.org/2022.findings-acl.47/
Extracting Latent Steering Vectors from Pretrained Language Models
制御可能なテキスト生成に関する以前の研究は、訓練可能なデコーディング、スマートプロンプトデザイン、または望ましい目的に基づく微調整を通じて、言語モデルを制御する方法を学ぶことに焦点を当ててきました。私たちは、モデルを目標文を生成するように誘導するために必要な情報がすでにモデルにエンコードされていると仮定しています。そのため、私たちは全く異なるアプローチを探求しています:事前学習された言語モデルデコーダーから潜在ベクトルを直接抽出することで、微調整を行わずに。実験の結果、様々なドメインの英語の文に対して、隠れ状態に追加されたステアリングベクトルによって、ほぼ完璧に(> 99 BLEU)目標文が生成されることが示されました。ベクトル演算を使用して、Yelp感情ベンチマークでの教師なし感情転送に使用でき、このタスクに特化したモデルと同等の性能を発揮することが示されました。モデルのプールされた隠れ状態を上回り、テキスト類似性ベンチマーク(STS-B)で評価されたときに、ステアリングベクトル間の距離が文の類似性を反映することがわかりました。最後に、ステアリングベクトルの固有の特性に関する分析を提示します。これらの結果から、凍結された言語モデルは、その潜在的なステアリング空間を介して効果的に制御できることが示唆されています。
https://aclanthology.org/2022.findings-acl.48/
Domain Generalisation of NMT: Fusing Adapters with Leave-One-Domain-Out Training
未知のドメインに一般化することは、ニューラル機械翻訳において未開拓であり、課題である。事前学習モデルからのパラメータ効率の高い転移学習の最近の研究に着想を得て、本論文では、ドメイン固有のパラメータを組み合わせることを学習する融合ベースの一般化手法を提案する。テストドメインをトレーニング時に知らないという課題に対処するために、ドメインを1つ除外するトレーニング戦略を提案する。3つの言語ペアにおける実験結果は、提案された融合手法が平均で+0.8 BLEUスコアを上回ることを示している。
https://aclanthology.org/2022.findings-acl.49/
Reframing Instructional Prompts to GPTk’s Language
言語モデル(LMs)にとって、どのような指示が従いやすいのか?我々は、成功した指示の重要な特徴を明らかにするために、広範な経験的分析を行うことで、この問いに取り組んでいます。具体的には、複数のより効果的な指示に手動で再構成するためのいくつかのリフレーミング技術のクラスを研究しています。例えば、複雑なタスク指示を複数のより単純なタスクに分解する、または指示を順序付けされたステップに分類するなどがあります。我々の実験は、6つのカテゴリーにまたがる12のNLPタスクで、リフレームされた指示で促されたLMのゼロショットおよびフューショットのパフォーマンスを比較します。オリジナルの指示と比較して、我々のリフレームされた指示は、異なるサイズのLMに対して有意な改善をもたらします。例えば、同じリフレームされた指示は、すべてのタスクの平均で、GPT3シリーズとGPT2シリーズのフューショットパフォーマンスをそれぞれ12.5%と6.7%向上させます。さらに、リフレームされた指示は、フューショット設定でLMを促すために必要な例の数を減らします。これらの経験的に駆動された技術が、より効果的な将来の促進アルゴリズムへの道を開くことを望んでいます。
https://aclanthology.org/2022.findings-acl.50/
Read Top News First: A Document Reordering Approach for Multi-Document News Summarization
抽出型マルチドキュメントニュース要約の一般的な手法は、すべてのドキュメントを単一のメタドキュメントとして連結することにより、単一ドキュメント要約問題として再定式化することです。しかし、この手法はドキュメントの相対的な重要性を無視しています。私たちは、ドキュメントを相対的な重要性に従って並べ替え、それらを連結して要約するための簡単なアプローチを提案します。並べ替えにより、要約モデルが重要なコンテンツをより簡単に学習できるようになります。実験の結果、私たちのアプローチは、より複雑なアーキテクチャを持つ以前の最先端の手法を上回る性能を発揮しました。
https://aclanthology.org/2022.findings-acl.51/
Human Language Modeling
自然言語は人間によって生成されますが、従来の言語モデリングでは単語や文書を独立に生成されたものとして扱っています。ここでは、人間の状態が変化することによって人間の言語が調整されるという概念を捉え、文書のシーケンスを接続する人間レベルが存在する言語モデリング問題の階層的拡張である人間言語モデリング(HuLM)を提案します。我々は、約10万人のソーシャルメディアユーザーで事前学習された大規模なトランスフォーマーモデルであるHaRTを導入し、ソーシャルメディアの言語モデリング(パープレキシティ)と文書レベルおよびユーザーレベルをカバーする4つのダウンストリームタスクのファインチューニングにおいて、その効果を示します。すべてのタスクにおいて、現在の最先端を上回る結果が得られました。
https://aclanthology.org/2022.findings-acl.52/
Inverse is Better! Fast and Accurate Prompt for Few-shot Slot Tagging
プロンプト手法は、最近のfew-shot学習において印象的な成功を収めています。これらの手法は、プロンプト文の断片で入力サンプルを変更し、ラベルトークンをデコードしてサンプルを対応するラベルにマッピングします。しかし、このようなパラダイムは、スロットタギングのタスクに対して非常に効率的ではありません。スロットタギングのサンプルは、文中の複数の連続した単語であり、プロンプト手法はすべての可能なスロットを見つけるためにすべてのn-gramトークンスパンを列挙する必要があり、予測を大幅に遅らせます。これを解決するために、私たちはプロンプトの逆パラダイムを導入します。古典的なプロンプトがトークンをラベルにマッピングするのに対して、逆プロンプトはスロットタイプが与えられた場合にスロット値を逆に予測します。この逆プロンプトは、各スロットタイプに対して1回の予測しか必要とせず、予測を大幅に高速化します。さらに、私たちは新しい反復予測戦略を提案し、モデルが異なるスロットタイプ間の関係を考慮して予測を改善する方法を学習します。私たちは、驚くべきことに、提案された方法が予測を高速化するだけでなく、効果を大幅に改善し(10-shot設定で6.1 F1スコア以上の改善)、新しい最先端のパフォーマンスを達成することがわかりました。
https://aclanthology.org/2022.findings-acl.53/
Cross-Modal Cloze Task: A New Task to Brain-to-Word Decoding
非侵襲的な脳活動から言語を解読することは、神経科学と自然言語処理の両方の研究者からますます注目されています。脳の記録のノイズのため、既存の研究では、脳信号を対応する単語と誤った単語の間で識別する二値分類タスクとして脳から単語をデコードすることが簡略化されています。しかし、このペアワイズ分類タスクは、テストセット内のすべてのペアワイズの組み合わせを列挙する必要があるため、大規模な語彙で単語を予測するのに効率的ではありません。また、完璧なペアワイズデコーダーでも、直接分類の性能を保証することはできません。これらを克服し、現実的なニューラルデコーダーに一歩進むために、我々は新しいクロスモーダルクローズ(CMC)タスクを提案します。このタスクは、プロンプトとしての文脈でニューラルイメージにエンコードされたターゲット単語を予測することです。さらに、このタスクに対処するために、我々は事前学習された言語モデルを活用してターゲット単語を予測する一般的なアプローチを提案します。我々の方法を検証するために、2つの脳画像データセットから20人以上の参加者で実験を行いました。我々の方法は、すべての参加者を平均したトップ1精度28.91%、トップ5精度54.19%を達成し、いくつかのベースラインを大幅に上回りました。この結果は、我々のモデルがCMCタスクの最先端のベースラインとして機能することができることを示しています。さらに重要なことに、これは、大規模な語彙からそのニューラル脳活動を介して特定の単語をデコードすることが可能であることを示しています。
https://aclanthology.org/2022.findings-acl.54/
Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal
言語モデルは、一貫したテキストの生成に優れており、知識蒸留などのモデル圧縮技術により、リソース制約のある環境でも使用できるようになっています。しかし、これらのモデルには、男性と女性の性別を中立的な職業に関連付ける根拠のない偏見が含まれることがあります。したがって、公平性の制約なしでの知識蒸留は、教師モデルの偏見を蒸留されたモデルに保存または誇張する可能性があります。このため、私たちは、知識蒸留中に公平なモデルを学習することによって、テキスト生成における性差を緩和する新しいアプローチを提案します。私たちは、カウンターファクトロールリバーサルに基づくベースの知識蒸留に対して、教師の確率を変更する2つの変更とトレーニングセットを拡張することを提案します。私たちは、生成されたオープンエンドテキストから得られた蒸留されたGPT-2モデルとファインチューニングされたモデルにおける職業ごとの性別極性を評価し、公平性の大幅な低下とわずかな妥協による効用の低下を示します。最後に、言語モデルが言語生成における性別極性を低下させても、埋め込みの公平性やダウンストリームの分類の公平性は改善されないことを観察します。
https://aclanthology.org/2022.findings-acl.55/
Domain Representative Keywords Selection: A Probabilistic Approach
私たちは、自然言語処理における多くの下流タスクにとって重要な、候補セットからターゲットドメインの代表的なキーワードのサブセットを選択する確率的アプローチを提案します。ターゲットドメインとコンテキストドメインを対比するために、2つのコンポーネント混合モデルの概念を適応して、候補キーワードの分布を生成します。これにより、コンテキストドメインと対比して、ターゲットドメインの特徴的なキーワードにより重要性を与えます。選択されたキーワードがターゲットドメインに対して代表的であることをサポートするために、生成された候補分布からサブセットを選択するための最適化アルゴリズムを導入します。最適化アルゴリズムは、近似保証によりほぼ最適な実装が可能であることを示しました。最後に、複数のドメインでの広範な実験により、キーワードサマリー生成とトレンドキーワード選択のタスクにおいて、他のベースラインよりも私たちのアプローチの優位性が示されました。
https://aclanthology.org/2022.findings-acl.56/
Hierarchical Inductive Transfer for Continual Dialogue Learning
事前学習済みモデルは、対話タスクにおいて優れた性能を発揮しています。しかし、オンラインの雑談シナリオが増加し続けるにつれて、これらのモデルを直接ファインチューニングして新しいタスクごとに使用すると、埋め込みデバイス上の対話システムの容量が爆発的に増加するだけでなく、事前学習済みモデルの知識の忘却や多様な対話タスク間の知識干渉を引き起こします。本研究では、階層的帰納転移フレームワークを提案し、対話スキルを継続的かつ効率的に学習・展開することを目的としています。まず、事前学習済みモデルにアダプターモジュールを導入して新しい対話タスクを学習します。唯一のトレーニング可能なモジュールであるため、埋め込みデバイス上の対話システムが追加パラメータを無視できる程度に新しい対話スキルを習得するのに役立ちます。次に、タスク間の知識干渉を緩和しつつ、それらの間の正則化に利益をもたらすために、新しいタスクがタスク固有のアダプターの多様な知識に惑わされることなく、ベースアダプターの一般的な知識を利用できるようにする階層的帰納転移をさらに設計します。実証評価と分析により、我々のフレームワークが展開に適したモデル容量で同等の性能を発揮することが示されました。
https://aclanthology.org/2022.findings-acl.57/
Why Exposure Bias Matters: An Imitation Learning Perspective of Error Accumulation in Language Generation
現在の言語生成モデルは、繰り返し、不一致、幻覚などの問題に苦しんでいます。この生成モデルの脆弱性の原因として、トレーニングと生成手順の不一致、すなわち露出バイアスがあるという仮説がしばしば唱えられています。本論文では、模倣学習の観点から露出バイアスを分析することで、この仮説を検証します。露出バイアスが生成中にエラーの蓄積を引き起こすこと、パープレキシティがこのエラーの蓄積を捉えることができない理由を分析し、この蓄積が生成品質の低下につながることを実証します。
https://aclanthology.org/2022.findings-acl.58/
Question Answering Infused Pre-training of General-Purpose Contextualized Representations
私たちは、一般的な文脈表現を学習するための質問応答(QA)に基づく事前学習目的を提案します。これは、文中のフレーズの表現が、文脈においてフレーズが答えることができるすべての質問をエンコードするべきであるという直感に基づいています。このために、パッセージと質問を独立してエンコードするバイエンコーダQAモデルをトレーニングし、より正確なクロスエンコーダモデルの予測に一致させます。バイエンコーダのトークンレベル表現は、QA関連情報をエンコードすることにより、広範な(または一部の場合は全くない)ファインチューニングなしに、非QA下流タスクに有用です。私たちは、4つのデータセットでのゼロショットおよびフューショットの言い換え検出、2つのデータセットでのフューショットの固有表現認識、および3つのデータセットでのゼロショットの感情分析において、RoBERTa-largeおよび以前の最先端の結果に比べて大幅な改善を示します。
https://aclanthology.org/2022.findings-acl.59/
Automatic Song Translation for Tonal Languages
この論文は、音声言語に対する自動歌詞翻訳(AST)を開発し、単語の音調を歌のメロディに合わせるという独自の課題に取り組み、元の意味を伝えることに加えて歌唱可能性と理解可能性の3つの効果的なASTの基準を提案し、これらの基準のためのメトリックを設計します。英語-中国語の歌詞翻訳のための新しいベンチマークを開発し、事前トレーニングと3つのデコーディング制約を組み合わせた自己学習型ASTシステム、Guided AliGnment for Automatic Song Translation(GagaST)を開発します。自動評価と人間の評価の両方が、GagaSTが意味と歌唱可能性をバランスよく保っていることを示しています。
https://aclanthology.org/2022.findings-acl.60/
Read before Generate! Faithful Long Form Question Answering with Machine Reading
長文質問応答(LFQA)は、与えられた質問に対して段落レベルの回答を生成することを目的としています。現在、大規模な事前学習モデルを使用したLFQAの現在の研究は、流暢でやや関連性のあるコンテンツを生成するのに効果的ですが、主な課題の1つは、幻想的なコンテンツが少ない忠実な回答を生成する方法です。私たちは、回答生成と機械読み取りを共同モデル化する新しいエンドツーエンドのフレームワークを提案します。主なアイデアは、忠実な事実に重点を置いた、細かい粒度の回答関連の顕著な情報を生成モデルに追加することです。ELI5とMS MARCOの2つのLFQAデータセットでの最新の結果は、自動評価および人間の評価指標において強力なベースラインと比較して、私たちの方法の効果を示しています。詳細な分析は、私たちの方法が流暢で関連性があり、より忠実な回答を生成する能力を証明しています。
https://aclanthology.org/2022.findings-acl.61/
A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
Few-Shot Relation Extractionは、各関係についてわずかなラベル付き例を使用してトレーニングすることにより、文のエンティティのペアの関係を予測することを目的としています。最近のいくつかの研究では、プロトタイプネットワークに基づくモデル学習を支援するために、関係情報(つまり、関係ラベルまたは説明)を導入しています。しかし、これらのほとんどは、複雑なネットワーク構造を設計することによって、一般的に関係情報を暗黙的に各関係クラスのプロトタイプに制約を課しています。ハイブリッド特徴の生成、対照的な学習や注意ネットワークの組み合わせなどが含まれます。私たちは、関係情報をモデルにより明示的かつ効果的に導入できると主張します。したがって、本論文では、関係情報を導入するための直接的な追加アプローチを提案しています。具体的には、各関係クラスについて、関係表現はまず2つのビューの関係(つまり、[CLS]トークン埋め込みとすべてのトークンの埋め込みの平均値)を連結して生成され、元のプロトタイプに直接追加されます。トレーニングと予測の両方に対してです。ベンチマークデータセットFewRel 1.0での実験結果は、私たちの提案手法の有効性を示し、最新技術と同等の結果を達成することができます。さらに、さらなる分析により、直接追加が関係表現と元のプロトタイプを統合するよりもはるかに効果的な方法であることが確認されました。
https://aclanthology.org/2022.findings-acl.62/
MIMICause: Representation and automatic extraction of causal relation types from clinical notes
臨床ノートで伝えられる因果関係の物語を理解することは、個人に合わせた医療に向けた進歩につながる。臨床ノートから抽出された因果関係の情報は、患者の人口統計、診断、および薬剤などの構造化されたEHRデータと組み合わせることができる。これにより、医療提供者は臨床ノートで伝えられる患者の物語の側面を特定し、より情報を得た上で意思決定を行うことができる。本研究では、注釈のガイドラインを提案し、注釈付きコーパスを開発し、臨床ノートでのバイオメディカルコンセプトのペア間の因果関係のタイプと方向を特定するためのベースラインスコアを提供する。これらは、単一の文または複数の文で明示的または暗黙的に伝えられたものである。2018年のn2c2共有タスクデータセットからサンプリングされた2714の匿名化された例を注釈し、4つの異なる言語モデルベースのアーキテクチャをトレーニングする。私たちのガイドラインに基づく注釈は、高い間注釈者一致度であるFleiss' kappa(𝜅)スコア0.72を達成し、因果関係の特定のためのモデルはテストデータでマクロF1スコア0.56を達成した。臨床テキストの高い間注釈者一致度は、私たちの注釈のガイドラインの質を示し、提供されたベースラインF1スコアは、臨床テキストの物語を理解するための将来の研究の方向性を示している。
https://aclanthology.org/2022.findings-acl.63/
Compressing Sentence Representation for Semantic Retrieval via Homomorphic Projective Distillation
高度にコンパクトで効果的な文表現を学ぶ方法は何か?事前学習された言語モデルは、多くのNLPタスクで効果的である。しかし、これらのモデルはしばしば巨大で、大きな文の埋め込みを生成する。さらに、大きなモデルと小さなモデルの性能には大きな差がある。本論文では、ホモモーフィックプロジェクティブディスティレーション(HPD)を提案し、圧縮された文の埋め込みを学習する。我々の方法は、学習可能な射影層を持つ小さなTransformerエンコーダーモデルを拡張し、大きな事前学習された言語モデルを模倣して文表現の品質を維持しながら、コンパクトな表現を生成する。我々は、異なるモデルサイズで意味的テキスト類似性(STS)および意味的検索(SR)タスクで我々の方法を評価する。実験結果は、同じサイズの以前の最高表現と比較して、STSタスクで2.7〜4.5ポイントの性能向上を達成することを示している。SRタスクでは、我々の方法は、最新の大規模モデルと比較して検索速度(8.2倍)とメモリ使用量(8.0倍)を改善する。我々の実装は、https://github.com/XuandongZhao/HPDで利用可能である。
https://aclanthology.org/2022.findings-acl.64/
Debiasing Event Understanding for Visual Commonsense Tasks
私たちは、視覚的な常識的なタスクに向けた重要なステップとして、イベント理解を研究しています。一方で、現在のオブジェクトベースのイベント理解は純粋に尤度に基づいており、イベントとオブジェクトの間のバイアスのある相関により、誤ったイベント予測につながると主張しています。私たちは、因果関係研究で提案されたdo-calculusによってそのようなバイアスを緩和することを提案しますが、関連性に基づく予測と最適化された集計によって、限られた堅牢性を克服します。私たちは、生成されたイベントとグラウンドトゥルースのイベント注釈を比較することによって、私たちのアプローチの効果を内在的に示し、下流の常識的なタスクによって外在的に示します。
https://aclanthology.org/2022.findings-acl.65/
Fact-Tree Reasoning for N-ary Question Answering over Knowledge Graphs
現在の知識グラフに関する質問応答(KGQA)タスクは、主に二元事実を持つKG上での回答推論に焦点を当てています。しかし、2つ以上のエンティティを含むn-ary事実は無視されています。本研究では、より困難で未開拓のタスクであるn-ary KGQA、つまりn-ary KG上でのn-ary事実の質問に答えることに焦点を当てます。しかし、二元KGQAタスクで一般的なマルチホップ推論フレームワークは、n-ary KGQAに直接適用することはできません。私たちは2つの実現可能な改善策を提案します:1)基本的な推論ユニットをエンティティまたは関係から事実にアップグレードすること、2)推論構造をチェーンからツリーにアップグレードすること。したがって、私たちは新しい事実ツリー推論フレームワーク、FacTreeを提案します。FacTreeは、質問を事実ツリーに変換し、事実ツリー上で反復的な事実推論を実行して正しい答えを推論します。私たちが構築したn-ary KGQAデータセットと2つの二元KGQAベンチマークでの実験結果は、FacTreeが最先端の方法と比較して効果的であることを示しています。
https://aclanthology.org/2022.findings-acl.66/
DeepStruct: Pretraining of Language Models for Structure Prediction
私たちは、言語モデルの構造理解能力を向上させる方法を紹介します。タスク固有の拡張を用いてモデルを微調整する従来の手法とは異なり、私たちはタスクに依存しないコーパスの集合で言語モデルを事前学習し、テキストから構造を生成する方法を提案します。この構造事前学習により、モデルが構造タスクについて学んだ知識をゼロショットで転移することができます。私たちは、オープン情報抽出、共同エンティティおよび関係抽出、固有表現認識、関係分類、意味役割ラベリング、イベント抽出、共参照解決、事実的プローブ、意図検出、および対話状態追跡を含む10の構造予測タスクをカバーする28のデータセットで、この手法の性能を調査します。さらに、タスク固有のトレーニングセットで事前学習を強化します。私たちは、10Bパラメータの言語モデルがほとんどのタスクに対して非自明に転移し、評価した28のデータセットのうち21のデータセットで最先端の性能を発揮することを示します。私たちのコードとデータセットは公開されます。
https://aclanthology.org/2022.findings-acl.67/
The Change that Matters in Discourse Parsing: Estimating the Impact of Domain Shift on Parser Error
談話分析により、文単位を超えたテキスト文書の推論を得ることができます。現在の談話モデルの性能は、トレーニング分布の範囲外のテキストに対して非常に低く、既存のモデルの実用性を低下させています。これらのサンプルが異なる分布から抽出される場合、モデルがトレーニングからテストサンプルにどの程度一般化するかを知らせることができる尺度が必要です。これは分布シフトによって推定できますが、これは分類器の観測されたエラーの変化と直接相関しないと主張します(つまり、エラーギャップ)。したがって、私たちは、エラーギャップに直接関連付けることができる理論的ドメイン適応文献からの統計量を使用することを提案します。私たちは、理論的におよびニュース、バイオメディカルテキスト、TEDトーク、Reddit投稿、フィクションなどのドメインからの6つの談話データセットに対する2400以上の実験の大規模な経験的研究を通じて、この統計量のバイアスをエラーギャップの推定器として研究します。私たちの結果は、私たちの提案を動機付け、その限界を理解するのに役立ち、ドメイン適応における性能を向上させる談話モデルとデータセットの特性についての洞察を提供します。たとえば、トレーニングセットとテストセットが非常に異なる場合、ニュース以外のデータセットはニュースデータセットよりもやや転送しやすいことがわかりました。私たちのコードと関連するPythonパッケージは、実践者がより情報を得てモデルとデータセットを選択できるようにするために利用可能です。
https://aclanthology.org/2022.findings-acl.68/
Mukayese: Turkish NLP Strikes Back
言語Xに十分なリソースがあると、その言語はリソース不足の言語クラスから抜け出すことができますが、必ずしも未研究のクラスから抜け出すわけではありません。本論文では、トルコ語における整理されたベンチマークの不在の問題に取り組みます。トルコ語のような言語は、NLPアプリケーションの最新技術から遅れをとっていることを示します。その解決策として、トルコ語のためのNLPベンチマークである「Mukayese」を提案します。Mukayeseには、いくつかのNLPタスクを含むNLPベンチマークの1つ以上のデータセットに取り組み、2つ以上のベースラインを提示します。さらに、言語モデリング、文のセグメンテーション、スペルチェックのための4つの新しいベンチマークデータセットをトルコ語で提示します。すべてのデータセットとベースラインは、https://github.com/alisafaya/mukayeseで利用可能です。
https://aclanthology.org/2022.findings-acl.69/
Virtual Augmentation Supported Contrastive Learning of Sentence Representations
深い成功にもかかわらず、対照的表現学習は、ドメイン固有の知識を使用した注意深く設計されたデータ拡張に依存しています。自然言語処理では、自然言語の離散的な性質のため、データ拡張のための一般的なルールは存在しません。私たちは、文の表現の対比学習を仮想拡張支援によって行うことで、この課題に取り組んでいます。データ拡張は、基本的に各トレーニングインスタンスの近傍を構築するものであるという解釈から、私たちは近傍を利用して効果的なデータ拡張を生成することができます。対照的学習の大規模なトレーニングバッチサイズを活用し、表現空間内のK最近傍のバッチ内隣人によってインスタンスの近傍を近似します。そして、近傍に関するインスタンス識別タスクを定義し、仮想拡張を敵対的なトレーニング方法で生成します。私たちは、VaSCLの性能を幅広い下流タスクで評価し、非監督学習の文表現学習において新たな最高水準を設定しました。
https://aclanthology.org/2022.findings-acl.70/
MoEfication: Transformer Feed-forward Layers are Mixtures of Experts
最近の研究では、事前学習されたトランスフォーマーのフィードフォワードネットワーク(FFN)が、さまざまな言語的および事実的な知識を格納する重要なコンポーネントであることが示されています。しかし、FFNの計算パターンはまだ不明です。本研究では、FFNの計算パターンを研究し、ほとんどの入力がFFNのごく一部のニューロンしか活性化しない現象を観察しました。この現象は、人間の脳の疎性に似ており、人間の脳の機能的な分割に関する研究を推進しています。FFNでも機能的な分割が現れるかどうかを検証するために、モデルを同じパラメータでMoEバージョンに変換することを提案します。具体的には、MoEficationは2つのフェーズから構成されます:(1)FFNのパラメータを複数の機能的なパーティション(エキスパート)に分割し、(2)各入力に使用されるエキスパートを決定するエキスパートルーターを構築します。実験結果は、MoEficationが、さまざまな下流タスクの異なるモデルに対して、元のパフォーマンスを95%以上維持しながら、条件付きでFFNパラメータの10%から30%を使用できることを示しています。さらに、MoEficationには2つの利点があります:(1)推論のFLOPSを大幅に削減し、FFNパラメータの25%で2倍の高速化を実現し、(2)FFNの内部メカニズムを詳細に研究するための細かい視点を提供します。本論文のソースコードは、https://github.com/thunlp/MoEficationから入手できます。
https://aclanthology.org/2022.findings-acl.71/
DS-TOD: Efficient Domain Specialization for Task-Oriented Dialog
最近の研究では、大規模な会話データセットに対する自己教師ありの対話特化の事前学習が、従来の言語モデリング(LM)事前学習に比べて、タスク指向の対話(TOD)において大幅な改善をもたらすことが示されています。しかしながら、これらのアプローチは一般的な対話コーパス(例:Reddit)を利用しており、具体的なTODドメインに有用なドメイン固有の知識を信頼性良く埋め込むことができないと考えられます。本研究では、TODのための事前学習済み言語モデル(PLMs)のドメイン特化の効果を調査しています。DS-TODフレームワーク内で、まず自動的に顕著なドメイン固有語句を抽出し、それらを利用してDomainCCとDomainRedditを構築し、それぞれマスクされた言語モデリング(MLM)と応答選択(RS)の目的に基づくドメイン特化のために活用します。さらに、ドメインアダプターを用いたリソース効率的かつモジュール化されたドメイン特化を提案しています。我々の実験は、MultiWOZベンチマークからの5つのドメインを含む、対話状態追跡(DST)と応答検索(RR)の主要なTODタスクについて、DS-TODの有効性を示しています。さらに、軽量アダプターによる特化は、(1)単一ドメインのセットアップにおいて完全なファインチューニングと同等の性能を発揮し、(2)コンピュータリソースの利用効率が高く、特にマルチドメイン特化に適していることを示しています。
https://aclanthology.org/2022.findings-acl.72/
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model
最近、事前学習言語モデル(PrLMs)の頑健性の問題が増加している。最新の敵対的攻撃に関する研究では、PrLMsに対して高い攻撃成功率を達成し、PrLMsが頑健でないと主張している。しかし、PrLMsが失敗する敵対的サンプルは、ほとんどが非自然で現実には現れないことがわかった。これらの非自然な敵対的サンプルに基づくPrLMsの頑健性の現在の評価の妥当性を疑問視し、より自然な敵対的サンプルでPrLMsの頑健性を評価する異常検出器を提案する。また、異常検出器の2つの応用について調査する:(1)データ拡張では、異常検出器を使用して、非自然と区別される拡張データを生成することで、PrLMsの精度をより向上させる。 (2)異常検出器を防御フレームワークに適用して、PrLMsの頑健性を向上させる。これはすべての種類の攻撃を防御するために使用でき、他の防御フレームワークよりも敵対的サンプルと準拠サンプルの両方でより高い精度を達成することができる。
https://aclanthology.org/2022.findings-acl.73/
Learning Adaptive Axis Attentions in Fine-tuning: Beyond Fixed Sparse Attention Patterns
私たちはTransformerモデルにおける疎な注意パターンの包括的な研究を提供します。まず、疎な注意を前処理する必要性に疑問を投げかけ、効率的なファインチューニングのみのアプローチがわずかに劣るが競争力のあるモデルを生み出すことを示す実験を行います。次に、広く使用されているローカルな注意パターンと、あまり研究されていないグローバルな注意パターンを比較し、グローバルなパターンにはいくつかの独自の利点があることを示します。また、モデルの異なるレイヤーごとに異なるパターンを持つ柔軟なアテンションアプローチがいくつかのタスクにとって有益であることを示します。この洞察に基づき、私たちは新しい適応軸アテンション法を提案します。この方法は、ファインチューニング中に、ダウンストリームタスクに応じて各Transformerレイヤーごとに異なる注意パターンを学習します。固定された注意パターンを選択するのではなく、適応軸アテンション法は、各タスクとモデルレイヤーに重要なトークンを特定し、それらに注意を集中させます。疎なパターンを収容するための前処理は必要なく、リソースを消費する固定された疎な注意パターンに対して競争力のある、そして時にはより優れたパフォーマンスを示します。
https://aclanthology.org/2022.findings-acl.74/
Using Interactive Feedback to Improve the Accuracy and Explainability of Question Answering Systems Post-Deployment
質問応答に関するほとんどの研究は、展開前の段階、つまり展開に正確なモデルを構築することに焦点を当てています。本論文では、次の問いを投げかけます。ユーザーの相互作用に基づいてQAシステムを展開後にさらに改善できるでしょうか?私たちは、2つの種類の改善に焦点を当てます。1つは、QAシステム自体の性能を向上させること、もう1つは、回答の正誤を説明する能力をモデルに与えることです。私たちは、ユーザーからの対話的なフィードバックを含む検索ベースのQAデータセット、FeedbackQAを収集します。私たちは、ベースのQAシステムをクラウドワーカーに展開し、システムとやり取りして回答の品質についてフィードバックを提供してもらうことで、このデータセットを収集します。フィードバックには、構造化された評価と非構造化の自然言語の説明が含まれます。私たちは、このフィードバックデータでニューラルモデルをトレーニングし、説明を生成し、回答候補を再スコアリングできるようにします。フィードバックデータが、展開されたQAシステムの精度だけでなく、他のより強力な非展開システムの精度も向上することを示します。生成された説明は、回答の正誤についての情報を提供し、ユーザーが情報を得て判断を下すのに役立ちます。
https://aclanthology.org/2022.findings-acl.75/
To be or not to be an Integer? Encoding Variables for Mathematical Text
自然言語推論(NLI)手法を大規模なテキストコーパスに適用することで、科学的発見を促進し、現在の研究と利用可能な大規模な科学的知識の間のギャップを縮めることができます。しかし、現代のNLIモデルは、数学的知識を自然言語で書かれたものから解釈することにまだ限界があります。数学は多くの学問分野において科学的論証の不可欠な部分であるにもかかわらずです。数学的言語理解に向けた基本的な要件の1つは、変数を意味のある方法で表現できるモデルを作成することです。この問題は特に難しいものであり、変数の意味はその定義されたタイプからのみ割り当てられるべきであり、つまり、変数の表現はその文脈から来るべきです。最近の研究では、抽象的な数学的タイプと変数の理解のためのベンチマークである変数のタイピングタスクが形式化されました。本研究では、変数スロットベースのアプローチであるVarSlotを提案し、変数のタイピングタスクにおいて最先端の結果を提供するだけでなく、変数の文脈に基づいた表現を作成することができます。
https://aclanthology.org/2022.findings-acl.76/
GRS: Combining Generation and Revision in Unsupervised Sentence Simplification
私たちは、テキスト生成とテキスト修正を組み合わせた教師なしアプローチであるGRSを提案します。入力文を明示的な編集操作を用いて修正する反復フレームワークから始め、パラフレーズを新しい編集操作として追加します。これにより、生成型アプローチと修正型アプローチの利点を組み合わせることができます。パラフレーズは複雑な編集操作を捉え、反復的に明示的な編集操作を使用することで、制御性と解釈性を提供します。私たちは、NewselaとASSETのデータセットにおいて、GRSのこれらの利点を既存の手法と比較して示します。
https://aclanthology.org/2022.findings-acl.77/
BPE vs. Morphological Segmentation: A Case Study on Machine Translation of Four Polysynthetic Languages
形態豊かな多合成言語は、データのまばらさによりNLPシステムにとって課題を提供し、この問題に対処する一般的な戦略は、サブワード分割を適用することです。私たちは、4つの多合成言語(ナワトル語、ララムリ語、シピボ・コニボ語、ウィシャリカ語)に対して、様々な教師あり・教師なしの形態論的分割手法を調査しました。そして、スペイン語との翻訳において、形態論に着想を得た分割手法とByte-Pair Encodings(BPE)を比較しました。私たちは、ナワトル語を除くすべての言語ペアにおいて、教師なしの形態論的分割アルゴリズムが一貫してBPEを上回ることを示し、教師ありの方法は分割スコアが良くなるものの、MTの課題では性能が低下することを示しました。最後に、私たちはララムリ語とシピボ・コニボ語の2つの形態論的分割データセットと、ララムリ語-スペイン語の並列コーパスを貢献しました。
https://aclanthology.org/2022.findings-acl.78/
Distributed NLI: Learning to Predict Human Opinion Distributions for Language Reasoning
私たちは、自然言語推論の人間の判断の分布を予測することを目的とした新しいNLUタスクである分散NLIを紹介する。Monte Carlo(MC)Dropout、Deep Ensemble、Re-Calibration、Distribution Distillationという追加の分布推定手法を適用することで、モデルがソフトマックスベースラインよりも人間の判断分布をより効果的に捉えることができることを示す。MC Dropoutは分布注釈なしでもまずまずの性能を発揮できる一方、Re-Calibrationは追加の分布注釈によりさらなる改善が可能であり、1つの例に対して複数の注釈を使用することが人間の判断分布のモデリングにおいて有用であることを示唆している。これらの改善にもかかわらず、最高の結果はまだ推定された人間の上限よりも遥かに低く、人間の判断分布を予測することはまだ改善の余地が大きい、開かれた課題であることを示している。MC DropoutとRe-Calibrationの一般的なエラーを紹介し、異なるデータの利用可能性のレベルに応じたこれらの手法の使用に関するガイドラインを提供し、言語推論のための人間の意見分布のモデリングに関する将来の研究を促す。
https://aclanthology.org/2022.findings-acl.79/
Morphological Processing of Low-Resource Languages: Where We Are and What’s Next
自動形態処理は、低資源言語に特に有用であり、絶滅危惧言語の言語文書化の助けとなることができます。長年にわたり多言語を扱ってきた計算形態論の分野は、注釈付きリソースが最小限または存在しない言語に適したアプローチに向かっています。まず、低資源言語に焦点を当てて、計算形態論の最近の発展を調査します。次に、次の論理的な課題に取り組む準備が整っていると主張します。つまり、生のテキストから言語の形態を理解することです。私たちは、真に非監視のパラダイム完了タスクの実証的研究を行い、既存の最先端モデルが2つの新しい提案モデルによって橋渡しされても、まだ改善の余地があることを示します。このタスクを解決することは、形態リソースの言語カバレッジを数倍に増やすことになります。
https://aclanthology.org/2022.findings-acl.80/
Learning and Evaluating Character Representations in Novels
小説の文字の固定長ベクトル表現の学習問題に取り組みます。単語の埋め込みの最近の進歩は、短いテキストからエンティティ表現を学習するのに成功していますが、長いドキュメントでは完全な書籍レベルの情報を捉えることができないため、不十分です。このようなテキストベースの埋め込みの弱点を克服するために、私たちは2つの新しい方法を提案しています:(i)全体的なコーパスベースの文字ネットワークからのグラフニューラルネットワークベースの埋め込み;および(ii)各小説の文字の出現パターンから構築された低次元の埋め込み。私たちは、12の異なるタスクを包括する文字表現を評価するための新しいベンチマークスイートを使用して、これらの文字埋め込みの品質をテストします。私たちは、テキストベースの埋め込みと組み合わせた表現技術が、4つのタスクでテキストベースの埋め込みを上回る最高の文字表現を導くことを示します。私たちのデータセットと評価スクリプトは、この分野での追加の作業を刺激するために公開されます。
https://aclanthology.org/2022.findings-acl.81/
Answer Uncertainty and Unanswerability in Multiple-Choice Machine Reading Comprehension
機械読解(MRC)は、自然言語を理解するシステムの能力を評価する手法として注目されています。通常、システムは文脈のある段落が与えられた質問に対して正しい答えを選択することに焦点を当てます。しかし、多肢選択式MRCシステムの多くのアプリケーションには、2つの追加の考慮事項があります。多肢選択式試験では、誤った答えにペナルティが課せられる場合があります。MRCシステムにとっては、予測された答えの不確実性を把握する必要があります。2つ目の考慮事項は、多くの多肢選択問題には、適用可能な答えがないことを示す「全くない」(NOA)オプションがあることです。これは、常に選択肢のリストに正しい答えがあるわけではないことを意味します。本論文では、予測的な不確実性を利用して、これらの問題の両方を調査します。システムが答えを提案すべきかどうかは、答えの不確実性の直接的な適用です。NOAオプションを考慮する場合、2つの可能性があります。最も単純な方法は、このオプションを含むデータ上にシステムを明示的に構築することです。また、他のオプションに正しい答えが含まれているかどうかを検出するために不確実性を適用することもできます。システムが十分に自信を持っていない場合、NOAを選択します。これらのトピックを調査するための標準的なコーパスがないため、ReClorコーパスは、可能な答えのサブセットから正しい答えを除去することによって修正されます。高性能なMRCシステムを使用して、これらの状況で答えの不確実性を適用できるかどうかを評価します。不確実性によって、システムが自信を持っていない質問が検出できることが示されます。さらに、不確実性は、明示的にNOAオプションを持つシステムよりも優れた性能を発揮することが示されています。
https://aclanthology.org/2022.findings-acl.82/
Measuring the Language of Self-Disclosure across Corpora
言語から自己開示を信頼性高く推定することは、友情や親密さの重要な要素であるため、多くの心理学研究において重要である。我々は、5つの自己開示コーパスに対して単一タスクモデルを構築したが、これらのモデルは一般化が不十分であることがわかった。最も優れたパフォーマンスを発揮したモデルの予測メッセージレベルの自己開示のドメイン内精度(平均ピアソン相関係数=0.69)は、それぞれのデータセット間の精度(平均ピアソン相関係数=0.32)よりもはるかに高い。これは、コーパスの変動(例:医療対一般的なトピック)やラベリング指示(ターゲット変数:自己開示、感情開示、親密さ)の両方によるものである。しかし、ネガティブな感情の表現や「私」などの一人称代名詞の使用など、いくつかの語彙的特徴は、コーパスを横断して自己開示を信頼性高く予測することができる。我々は、より良い結果をもたらすマルチタスクモデルを開発し、コーパス外予測の平均ピアソン相関係数が0.37となった。
https://aclanthology.org/2022.findings-acl.83/
When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data Augmentation
データ拡張(DA)は、深層ニューラルネットワークの汎化性能を向上させることが知られています。既存のDA技術の多くは、追加される拡張サンプルの品質や追加される計算コストを考慮せずに、ある一定数の拡張サンプルを単純に追加します。この問題に対処するため、いくつかの最先端のDA方法で採用されている一般的な戦略は、トレーニング中にタスク目的に応じて拡張サンプルを適応的に生成または再重み付けすることです。しかし、これらの適応型DA方法は、(1)計算コストが高く、サンプル効率が悪く、(2)特定の設定にしか対応していません。本研究では、これらの両方の問題を克服するための汎用的なDA技術であるGlitterを提案します。Glitterは、どのDA方法にもプラグインでき、パフォーマンスを犠牲にすることなくトレーニングのサンプル効率を高めることができます。事前に生成された拡張サンプルのプールから、Glitterは最大損失を持つ最悪のケースのサブセットを適応的に選択し、敵対的なDAに類似した方法で最適化できます。トレーニング戦略を変更することなく、選択されたサブセットでタスク目的を最適化できます。GLUEベンチマーク、SQuAD、およびHellaSwagの徹底的な実験により、一貫性トレーニング、自己蒸留、および知識蒸留を含む3つの広く使用されているトレーニングセットアップで、Glitterは強力なベースラインと比較して、トレーニングが大幅に速く、競争力のあるパフォーマンスを発揮することが示されました。
https://aclanthology.org/2022.findings-acl.84/
Explaining Classes through Stable Word Attributions
最近、入力注目度の手法は、NLPにおける深層学習モデルの予測を説明するための人気のあるツールになっています。しかし、予測レベルの説明をクラスレベルに集約する方法や、そのようなクラス説明を評価するためのフレームワークはほとんど研究されていません。本研究では、XLM-RとIntegrated Gradients入力帰属法に基づく説明を探求し、1)テキスト分類タスクのクラスのキーワードリストを抽出するためのStable Attribution Class Explanation method(SACX)を提案し、2)キーワードリストの体系的な評価のためのフレームワークを提案します。個々の予測の説明はノイズに影響されやすいことがわかりましたが、繰り返しトレーニングと説明を行うことで安定した説明を効果的に特定できることがわかりました。Web登録データで評価し、クラス説明が言語的に意味があり、クラスを区別することができることを示しました。
https://aclanthology.org/2022.findings-acl.85/
What to Learn, and How: Toward Effective Learning from Rationales
「理由から学ぶ」は、人間によって注釈付けされた理由(つまり、選択されたラベルを正当化する入力トークンのサブセット)を使用して、モデルの予測精度を向上させることを目的としています。これは直感的な考えですが、実際には難しいことがわかっています。経験的な分析により、人間の理由について2つの観察結果が得られました。1)理由の監視精度を最大化することが、モデルの精度を向上させるために必ずしも最適な目的ではないこと。2)人間の理由は、モデルが予測に利用するための十分な情報を提供するかどうかによって異なること。これらの洞察に基づいて、いくつかの新しい損失関数と学習戦略を提案し、人間の理由が付与された3つのデータセットでその効果を評価しました。結果は、ラベルと理由の両方の精度において、ベースラインに比べて一貫して改善が見られ、MultiRCでは3%の精度向上が確認されました。本研究は、人間の説明の特性を理解し、モデルのトレーニングに適切に活用することの重要性を強調しています。
https://aclanthology.org/2022.findings-acl.86/
Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments
現在の多言語憎悪表現(例:Ousidhoum et al.(2019))および憎悪表現削減(例:Sap et al.(2020))に関する現在の研究に基づき、ブラジル、ドイツ、インド、ケニアからの20,297のソーシャルメディアの文章を含む新しい憎悪表現データセットであるXTREMESPEECHを提供します。主な新規性は、企業や政府が憎悪表現を定義し、対処することに対して、影響を受けるコミュニティを直接データの収集と注釈付けに関与させることです。この包括的なアプローチにより、実際に発生するオンラインスピーチをより代表的なデータセットにすることができ、マージナライズドコミュニティが最も有害と見なすソーシャルメディアコンテンツの削除を容易にする可能性があります。XTREMESPEECHに基づいて、新しいタスクとそれに付随するベースラインを確立し、文化的な違いのためにクロスカントリートレーニングが一般的に不可能であることを証明し、BERTの予測の解釈可能性分析を実行します。
https://aclanthology.org/2022.findings-acl.87/
Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists
自然言語処理(NLP)モデルは、トレーニングデータ内の特定の用語に過剰適合するリスクがあり、その結果、パフォーマンス、公平性、汎用性が低下します。例えば、ニューラルヘイトスピーチ検出モデルは、ゲイや女性などのアイデンティティ用語に強く影響を受け、偽陽性、深刻な意図しないバイアス、および低いパフォーマンスを引き起こします。多くの緩和技術は、トレーニング中のアイデンティティ用語のリストまたはターゲットドメインからのサンプルを使用します。しかし、このアプローチは事前知識を必要とし、重要な用語が無視される場合にさらなるバイアスを導入します。代わりに、我々は知識フリーのエントロピーベースのアテンション正則化(EAR)を提案し、トレーニング固有の用語への過剰適合を抑制します。追加の目的関数は、自己アテンションエントロピーが低いトークンを罰します。我々はEARを介してBERTを微調整し、英語とイタリア語の3つのベンチマークコーパスでのヘイトスピーチ分類とバイアスメトリックの最新のパフォーマンスに合致またはそれを上回るモデルを得ました。EARはまた、過剰適合用語、つまりバイアスを引き起こす可能性が最も高い用語を明らかにし、モデル、タスク、および予測に与える影響を特定するのに役立ちます。
https://aclanthology.org/2022.findings-acl.88/
From BERT‘s Point of View: Revealing the Prevailing Contextual Differences
BERTファミリーの大規模事前学習言語モデルは、研究や産業で成功を収めているものの、まだ完全に理解されていない。BERTologyの分野で特定の知識がレイヤー活性化から抽出できるかどうかを調べる研究が多く行われている一方、我々は一般的なプロービングデザインを反転させ、BERTの高次元空間における主要な違いとクラスターを分析する。マスクされたトークン表現から粗い特徴を抽出し、部分情報のみにアクセスできるプロービングモデルで予測することにより、我々は「BERTの視点」からの変動を把握することができる。我々の新しい方法論を異なるデータセットに適用することで、違いがどの程度構文によって説明できるかを示すと同時に、最も単純な位置情報によって大きく形成されていることをさらに示す。
https://aclanthology.org/2022.findings-acl.89/
Learning Bias-reduced Word Embeddings Using Dictionary Definitions
事前学習された単語埋め込み(GloVeなど)には、望ましくない性別、人種、宗教的な偏りがあることが示されています。この問題に対処するため、我々はDD-GloVeを提案します。これは、辞書定義を活用して単語埋め込みを学習するトレーニング時の偏り除去アルゴリズムです。我々は、比較的中立的な辞書定義表現に似るように単語埋め込みを促す辞書ガイドの損失関数を導入します。既存の偏り除去アルゴリズムは、偏りの方向を表すシードワードの事前コンパイルされたリストが必要です。このリストを作成するには主観的な判断が必要であり、一部の偏りについては入手が困難かもしれません。我々はシードワードを見つけるプロセスを自動化しています。アルゴリズムは、単一の初期シードワードのペアから始まり、同様の属性特性を示す定義を持つ単語を自動的に見つけます。ベンチマーク評価と実証分析により、我々のアプローチの効果を示します。我々のコードはhttps://github.com/haozhe-an/DD-GloVeで利用可能です。
https://aclanthology.org/2022.findings-acl.90/
Knowledge Graph Embedding by Adaptive Limit Scoring Loss Using Dynamic Weighting Strategy
知識グラフ埋め込みは、エンティティと関係を低次元ベクトルとして表現することを目的としており、知識グラフ内の欠落しているリンクを予測するための効果的な方法です。強力で効果的な損失フレームワークを設計することは、正しい三つ組と誤った三つ組を区別するために知識グラフ埋め込みモデルにとって不可欠です。古典的なマージンベースのランキング損失は、正と負の三つ組のスコアを適切なマージンに制限することで、スコアを制限します。最近提案されたリミットベースのスコアリング損失は、正と負の三つ組のスコアの範囲を独立して制限します。しかし、これらの損失フレームワークは、正と負のサンプルペアのスコアを減らすために等しいまたは固定のペナルティ項を使用するため、最適化において柔軟性に欠けます。私たちの直感は、三つ組のスコアが最適値から大きく逸脱する場合、それを強調する必要があるということです。このため、私たちは適応的リミットスコアリング損失を提案し、単純に各三つ組に重みを付けて最適化されていない三つ組のスコアを強調します。私たちは、この損失フレームワークをTransE、TransH、ComplExなどのいくつかの知識グラフ埋め込みモデルに適用しました。リンク予測と三つ組分類の実験結果は、私たちの提案手法が最先端の性能に匹敵する性能を発揮したことを示しています。
https://aclanthology.org/2022.findings-acl.91/
OCR Improves Machine Translation for Low-Resource Languages
私たちは、現在のOCRシステムが低リソース言語や低リソーススクリプトに対してどのような性能を発揮するかを調査することを目的としています。私たちは、実際のデータと合成データをノイズで豊かにした、OCR4MTという新しいベンチマークを導入し、60の低リソース言語を対象にしました。私たちは、最新のOCRシステムを私たちのベンチマークで評価し、最も一般的なエラーを分析しました。OCR単一言語データが、バックトランスレーションで使用される場合、機械翻訳モデルの性能を向上させることができる貴重なリソースであることを示します。その後、OCRエラーが機械翻訳の性能にどのように影響するかを調査し、単一言語データが機械翻訳に有用であるために必要な最小のOCR品質を決定するために、削除研究を実施します。
https://aclanthology.org/2022.findings-acl.92/
CoCoLM: Complex Commonsense Enhanced Language Model with Discourse Relations
大規模な事前学習言語モデルは強力な知識表現能力を示しています。しかし、最近の研究では、これらの巨大なモデルが豊富な常識的な知識(例えば、鳥は飛べる、魚は泳げるなど)を含んでいるにもかかわらず、複数の出来事を含む複雑な常識的な知識(動詞中心のフレーズ、例えば、「ジムがボブに叫ぶ」と「ボブが悲しい」との関係を特定することなど)に苦戦することがあると指摘されています。この問題に対処するため、本論文では、事前学習言語モデルが複雑な常識的な知識をより良く統合できるようにすることを提案します。直接のファインチューニングアプローチとは異なり、特定のタスクに焦点を当てず、CoCoLMという一般的な言語モデルを提案します。大規模な出来事知識グラフASERを用いた慎重なトレーニングにより、我々は事前学習言語モデル(BERTとRoBERTa)に対して、出来事間の豊富なマルチホップの常識的な知識を教えることに成功しました。出来事の正しい理解を必要とする複数の常識的なタスクにおける実験は、CoCoLMの有効性を示しています。
https://aclanthology.org/2022.findings-acl.93/
Learning to Robustly Aggregate Labeling Functions for Semi-supervised Data Programming
教師あり機械学習における重要なボトルネックは、大量のラベル付きデータが必要であり、入手するのに高価で時間がかかることです。少量のラベル付きデータはモデルのトレーニングに使用できませんが、人間が解釈可能なラベリング関数(LF)の生成に効果的に使用できます。これらのLFは、データプログラミングとして一般的に言及されるパラダイムで、大量の追加のノイズのあるラベル付きデータを生成するために使用されています。以前のLF生成方法は、与えられたラベル付きデータをさらにモデルのトレーニングに使用しようとは試みていないため、パフォーマンスを向上させる機会を逃しています。さらに、LFは自動的に生成されるため、ノイズが含まれる可能性があり、これらのLFを単純に集約すると、最適な結果にならないことがあります。本研究では、これら2つの重要な制限を解決するために、LFベースの2段階最適化フレームワークWISDOMを提案します。WISDOMは、LF誘導に使用される(同じ)ラベル付きデータセットと、半教師ありの方法で任意のラベルなしデータを使用して、共同モデルを学習し、より重要なことに、ロバストな2段階最適化アルゴリズムを使用して、各LFの良さに応じて重み付けし、半教師あり損失への寄与を影響させます。WISDOMがいくつかのテキスト分類データセットで以前のアプローチよりも優れたパフォーマンスを発揮することを示します。
https://aclanthology.org/2022.findings-acl.94/
Multi-Granularity Semantic Aware Graph Model for Reducing Position Bias in Emotion Cause Pair Extraction
感情原因ペア抽出(ECPE)タスクは、文書から感情と原因をペアで抽出することを目的としています。私たちは、典型的なECPEデータセットにおける感情と原因の相対距離分布が非常に不均衡であることを観察しました。既存の方法は、隣接する節間の関係を捉えるために固定サイズのウィンドウを設定しています。しかし、彼らは遠い節間の効果的な意味的つながりを無視し、位置に関係ないデータに対する一般化能力が低下することにつながります。この問題を緩和するために、私たちは、距離制限を考慮せずに、細かい粒度と粗い粒度の意味的特徴を共同で組み込む新しいMulti-Granularity Semantic Aware Graphモデル(MGSAG)を提案します。特に、まず、文書から抽出された節とキーワード間の意味的依存関係を探索し、細かい粒度の意味的特徴を伝えるキーワード強化節表現を得ます。さらに、節グラフも確立され、節間の粗い粒度の意味的関係をモデル化します。実験結果は、MGSAGが既存の最先端のECPEモデルを上回っていることを示しています。特に、MGSAGは、位置に関係ないデータの条件下で他のモデルよりも優れた性能を発揮します。
https://aclanthology.org/2022.findings-acl.95/
Cross-lingual Inference with A Chinese Entailment Graph
述語の含意検出は、テキストからの質問応答にとって重要なタスクであり、以前の研究では、型付きオープン関係トリプルから含意グラフの非教示学習が探求されてきた。本論文では、新しい高再現率のオープン関係抽出(ORE)手法とFIGERタイプオントロジーの下での最初の中国語細分化エンティティタイピングデータセットを含む、中国語含意グラフの構築のための最初のパイプラインを提案する。Levy-Holtデータセットでの実験により、中国語含意グラフの強さを検証し、クロスリンガル補完性を明らかにする。並列Levy-Holtデータセットでは、中国語と英語の含意グラフのアンサンブルが両方の単一言語グラフを上回り、非教示学習SOTAを4.7 AUCポイント引き上げることが示された。
https://aclanthology.org/2022.findings-acl.96/
Multi-task Learning for Paraphrase Generation With Keyword and Part-of-Speech Reconstruction
過去数年間、深層学習を用いた言語処理において、言い換え生成は研究の焦点となってきた。以前の研究は異なる観点からこの問題に取り組んできたが、言い換え生成の本質は、ソース文の主要な意味を保持し、残りの内容を書き換えることである。この観察に着想を得て、我々はキーワードと品詞再構築を用いた言い換え生成のための新しい二段階モデル、PGKPRを提案する。理論的背景は、ソース文の可能なキーワードとそれらの関係を同時に捉え、書き換えを容易にすることである。第一段階では、予測属性技術を用いて、可能なキーワードを特定する。属性スコアが高い単語ほど、キーワードである可能性が高い。第二段階では、マルチタスク学習を用いて、キーワードと品詞タグの再構築を行い、言い換え生成のためのトランスフォーマーベースのモデルをトレーニングする。学習されたエンコーディングは、言い換えを生成するためにデコードされる。我々は、2つの一般的に使用されるデータセットで実験を行い、PGKPRが複数の評価指標において比較モデルよりも優れた性能を示すことを示した。
https://aclanthology.org/2022.findings-acl.97/
MDCSpell: A Multi-task Detector-Corrector Framework for Chinese Spelling Correction
中国語のスペル修正(CSC)は、中国語のテキスト内のスペルミスを検出して修正するタスクです。CSCは、多くの中国語の文字が視覚的または音韻的に似ているが、意味がかなり異なるため、課題があります。最近の多くの研究では、BERTベースの言語モデルを使用して、入力文の各文字を直接修正する方法が使用されています。しかし、これらの方法は、誤字が影響を受けやすい文脈だけで文の各文字を修正するため、サブオプティマルな場合があります。他の一部の研究では、エラー検出器を使用して、検出されたエラーをマスキングして修正をガイドすることを提案しています。しかし、これらの方法は、修正に重要な視覚的または音韻的特徴を抑制するため、誤字が重要な場合があります。本研究では、新しい一般的な検出器-修正器マルチタスクフレームワークを提案し、修正器はBERTを使用して、生の文の各文字から視覚的および音韻的特徴をキャプチャし、検出器の隠れた状態と融合する遅延融合戦略を使用して、誤字からのネガティブな影響を最小限に抑えます。ベンチマークでの包括的な実験は、提案された方法がCSCタスクで最先端の方法を大幅に上回ることを示しています。
https://aclanthology.org/2022.findings-acl.98/
S2SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers
自然言語の質問を実行可能なSQLクエリに変換するタスクであるtext-to-SQLは、意味解析の重要な分野の1つである。最新のグラフベースのエンコーダーはこのタスクで成功を収めているが、質問の構文をうまくモデル化していない。本論文では、S2SQLという、Text-to-SQLパーサーのための質問スキーマグラフエンコーダーに構文を注入することで、質問の構文依存情報を効果的に活用し、パフォーマンスを向上させる手法を提案する。また、多様な関係エッジ埋め込みを誘発するために、デカップリング制約を採用し、ネットワークのパフォーマンスをさらに向上させる。Spiderとロバストネス設定Spider-Synでの実験結果は、提案手法が事前学習モデルを使用する場合には、既存のすべての手法を上回り、Spiderリーダーボードで1位のパフォーマンスを発揮することを示している。
https://aclanthology.org/2022.findings-acl.99/
Constructing Open Cloze Tests Using Generation and Discrimination Capabilities of Transformers
この論文では、性能を向上させるために生成と識別能力を利用するオープンクローズテストを生成するための最初の多目的トランスフォーマーモデルを提案します。さらに、損失関数を微調整し、後処理の再ランキングアルゴリズムを適用することで、モデルをさらに強化し、全体的なテスト構造を改善します。自動評価と人間の評価を使用した実験により、専門家によると82%の精度を達成し、以前の研究やベースラインを上回ることが示されました。また、将来のベンチマークとして役立つ高品質のオープンクローズテストのコレクションと、サンプルシステム出力と人間の注釈を公開します。
https://aclanthology.org/2022.findings-acl.100/
Co-training an Unsupervised Constituency Parser with Weak Supervision
私たちは、文の特定のスパンを支配するノードがあるかどうかを識別するためにブートストラップ分類器を利用する非監視型パーシングの方法を紹介します。内部分類器と外部分類器の2種類の分類器があります。内部分類器はスパンに作用し、外部分類器は特定のスパン以外のすべてに作用します。自己トレーニングと2つの分類器の共同トレーニングにより、両者の相互作用が両方の精度を向上させ、効果的にパースすることができることを示します。シードブートストラップ技術は、これらの分類器をトレーニングするためのデータを準備します。また、既知の言語の先行分岐知識(左/右分岐)と最小限のヒューリスティックを使用した弱い監視を組み合わせたこのアプローチが、強力な帰納バイアスをパーサーに注入し、英語(PTB)テストセットで63.1 F1を達成することを分析によってさらに検証します。さらに、中国語(CTB)と日本語(KTB)のツリーバンクで評価することにより、アーキテクチャの効果を示し、新しい最先端の結果を達成します。
https://aclanthology.org/2022.findings-acl.101/
HiStruct+: Improving Extractive Text Summarization with Hierarchical Structure Information
トランスフォーマーベースの言語モデルは通常、テキストを線形のシーケンスとして扱います。しかし、ほとんどのテキストには階層的な構造があり、テキストの一部はこの階層構造に基づいて識別できます。さらに、セクションのタイトルは、それぞれの文の共通のトピックを示します。我々は、事前学習されたエンコーダーのみのトランスフォーマー言語モデルに基づく抽出型要約モデルに階層構造情報を明示的に定式化、抽出、エンコード、注入する新しいアプローチを提案します(HiStruct+モデル)。このモデルは、PubMedとarXivの抽出型要約のSOTA ROUGEsを大幅に改善します。CNN/DailyMail、PubMed、arXivの3つのデータセットでさまざまな実験設定を使用して、HiStruct+モデルは、階層構造情報が注入されていない強力なベースラインと比較して、集合的に優れたパフォーマンスを発揮します。また、データセットによって階層構造がより顕著であるほど、我々の手法がより大きな改善を得ることが観察されます。削除実験は、階層的な位置情報が我々のモデルのSOTAパフォーマンスの主要な貢献者であることを示しています。
https://aclanthology.org/2022.findings-acl.102/
An Isotropy Analysis in the Multilingual BERT Embedding Space
多言語プレトレーニングモデル(多言語BERTなど)の様々な利点について、多数の研究が行われてきた。しかし、その限界についてはあまり注目されていない。本論文では、単一言語モデルの既知の2つの問題、すなわち異方性の埋め込み空間と外れ値次元について、多言語BERTを調査する。我々は、単一言語の対応物とは異なり、多言語BERTモデルは表現に外れ値次元を持たず、高度に異方性のある空間を持つことを示す。単一言語BERTには、異方性分布に高い寄与を持ついくつかの次元があるが、多言語BERTにはそのような次元は存在しない。さらに、実験結果は、多言語空間の等方性を増加させることが、単一言語CWRの意味的類似性タスクにおいて観察されたものと同様に、表現力と性能を大幅に向上させることを示している。我々の分析は、異なる退化方向を持つにもかかわらず、さまざまな言語の埋め込み空間が、その構造に関して部分的に類似している傾向があることを示唆している。
https://aclanthology.org/2022.findings-acl.103/
Multi-Stage Prompting for Knowledgeable Dialogue Generation
既存の知識に基づく対話システムは、通常、事前学習済み言語モデル(LM)と大規模な知識ベースの微調整バージョンを使用しています。これらのモデルは、通常、知識ベース外のトピックについて一般化できず、微調整が必要なたびに別々の可能性のある大規模なチェックポイントを維持する必要があります。本論文では、事前学習済みLMに内在する知識と強力な生成能力を活用して、これらの制限に対処することを目的としています。我々は、単一の事前学習済みLMから知識豊富な応答を生成するためのマルチステージのプロンプティングアプローチを提案します。まず、対話コンテキストに基づいてLMに知識を生成するようにプロンプトを与えます。次に、対話コンテキストと以前に生成された知識に基づいて応答を生成するようにさらにプロンプトを与えます。結果は、知識の関連性と正確性を組み合わせた場合、当社の知識ジェネレーターが最先端の検索ベースのモデルよりも5.8%優れていることを示しています。さらに、当社のマルチステージのプロンプティングは、応答の知識性とエンゲージメントに関して、それぞれ最大で10%と5%優れています。さらに、当社のモデルを5300億のパラメータにスケールアップし、大規模なLMは生成の正確性スコアを最大で10%、応答の関連性、知識性、エンゲージメントを最大で10%向上させることを示しています。当社のコードは、https://github.com/NVIDIA/Megatron-LMで入手できます。
https://aclanthology.org/2022.findings-acl.104/
DuReadervis: A Chinese Dataset for Open-domain Document Visual Question Answering
オープンドメインの質問応答は、通常、さまざまな形式のドキュメント(Webページ、PDF、またはWordドキュメントなど)から抽出されたクリーンなテキストを情報源として使用するWeb検索や企業検索などの広範なアプリケーションで使用されています。しかし、異なるテキスト抽出アプローチを設計することは時間がかかり、スケーラブルではありません。QAシステムの人的コストを削減し、スケーラビリティを向上させるために、私たちはオープンドメインのドキュメントビジュアル質問応答(オープンドメインDocVQA)タスクを提案し、研究しています。このタスクは、レイアウトと視覚的な特徴を追加して、ドキュメントテキストだけでなく、ドキュメント画像のコレクションに基づいて質問に答えることを必要とします。このために、私たちは、Baidu検索エンジンから約15Kの質問応答ペアと158Kのドキュメント画像を含む、最初の中国語のオープンドメインDocVQAデータセットであるDuReadervisを紹介します。DuReadervisには、3つの主要な課題があります:(1)長いドキュメントの理解、(2)ノイズのあるテキスト、および(3)複数のスパン回答の抽出。広範な実験により、データセットが難しいことが示されました。さらに、レイアウトと視覚的な特徴を組み込んだシンプルなアプローチを提案し、実験結果は提案されたアプローチの有効性を示しています。データセットとコードは、https://github.com/baidu/DuReader/tree/master/DuReader-visで公開されます。
https://aclanthology.org/2022.findings-acl.105/
Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive Bias to Sequence-to-sequence Models
単語間の関係は、線形の順序ではなく階層的な構造によって支配されています。シーケンス・トゥ・シーケンス(seq2seq)モデルは、下流の自然言語処理(NLP)アプリケーションでの成功にもかかわらず、文の形式を変換する際に階層的な感度を一般化することができないことが多い。しかし、seq2seqモデルの文法的評価は、自然言語データに事前にトレーニングされていないモデルのみを観察しており、プレトレーニングが言語モデルに階層的な言語一般化を誘発することがわかっているにもかかわらず、seq2seqモデルの文法的能力は大幅に過小評価されている可能性がある。本研究では、プレトレーニングされたseq2seqモデルT5とBART、およびその多言語バリアントmT5とmBARTを使用して、2つの言語(英語とドイツ語)で2つの変換(疑問文形成と受動態化)において、階層的に一般化するかどうかを評価します。私たちは、文法的変換を行うためにゼロからトレーニングされたモデルではなく、プレトレーニングされたseq2seqモデルを使用することで、このギャップに対処します。その結果、プレトレーニングされたseq2seqモデルは、文法的変換を行う際に階層的に一般化することができる一方、ゼロから文法的変換をトレーニングしたモデルはそうではありません。この結果は、非注釈の自然言語テキストから階層的な文法情報を学習することができることを示すと同時に、seq2seqモデルが文法的一般化を行うことができることを示していますが、人間の学習者が受け取る言語データよりもはるかに多くの曝露が必要です。
https://aclanthology.org/2022.findings-acl.106/
C3KG: A Chinese Commonsense Conversation Knowledge Graph
既存の常識知識ベースは、共通の会話モデルが次のステップを計画するために不十分な孤立した方法でタプルを組織化しています。このギャップを埋めるために、私たちは大規模な多回転人間書き込み会話コーパスをキュレーションし、社会的な常識知識と対話フロー情報の両方を組み込んだ最初の中国の常識会話知識グラフを作成しました。私たちのグラフの可能性を示すために、グラフ-会話マッチングアプローチを開発し、2つのグラウンドされた会話タスクをベンチマークにしました。この作品のすべてのリソースは、将来の研究を促進するためにリリースされます。
https://aclanthology.org/2022.findings-acl.107/
Graph Neural Networks for Multiparallel Word Alignment
単語アラインメントに対する関心は、類型研究、クロスリンガル注釈投影、機械翻訳などの領域での有用性から再び増加しています。一般的に、アラインメントアルゴリズムはビットキストのみを使用し、多数の並列コーパスが存在することを考慮していません。ここでは、すべての言語ペアを考慮して高品質の単語アラインメントを計算することにより、複数の言語ペア間で単語アラインメントを行います。最初に、マルチパラレル単語アラインメントグラフを作成し、すべてのバイリンガル単語アラインメントペアを1つのグラフに結合します。次に、グラフニューラルネットワーク(GNN)を使用してグラフ構造を活用します。私たちのGNNアプローチは、(i)入力単語の意味、位置、言語に関する情報を利用し、(ii)複数の並列文から情報を取り込み、(iii)初期アラインメントからエッジを追加および削除し、(iv)トレーニング文を超えて一般化できる予測モデルを生成します。コミュニティ検出アルゴリズムがマルチパラレル単語アラインメントに有用な情報を提供できることを示します。私たちの方法は、3つの単語アラインメントデータセットおよび下流タスクで以前の研究を上回る結果を示します。
https://aclanthology.org/2022.findings-acl.108/
Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors
多様な感情分析は注目を集め、多くのモデルが提案されている。しかし、最新のモデルの性能は、実際の世界で展開されると急激に低下することがわかっている。その主な理由は、実際の世界のアプリケーションは、モデル容量の制限によりエラーが発生する可能性がある自動音声認識(ASR)モデルのテキスト出力にしかアクセスできないためである。ASRの出力をさらに分析することで、テキストモダリティの主要な感情要素である感情語が他の単語として認識される場合があることがわかった。これにより、テキストの感情が変化し、多様な感情分析モデルの性能が直接的に損なわれる。この問題に対処するために、我々は感情語に注意を払った多様な感情洗練モデル(SWRM)を提案する。このモデルは、多様な感情の手がかりを活用して、誤った感情語を動的に洗練することができる。具体的には、感情語の位置検出モジュールを使用して、テキスト内の感情語の最も可能性の高い位置を取得し、多様な感情語の洗練モジュールを利用して、感情語の埋め込みを動的に洗練する。洗練された埋め込みは、多様な特徴融合モジュールのテキスト入力として取り込まれ、感情ラベルを予測する。MOSI-Speechbrain、MOSI-IBM、MOSI-iFlytekを含む実世界のデータセットで広範な実験を行い、我々のモデルの有効性を示し、3つのデータセットで現在の最新のモデルを上回ることを示した。さらに、我々のアプローチは、他の多様な特徴融合モデルに簡単に適応できる。
https://aclanthology.org/2022.findings-acl.109/
A Novel Framework Based on Medical Concept Driven Attention for Explainable Medical Code Prediction via External Knowledge
臨床ノートからの医療コード予測は、自動的に医療コードを臨床ノートに関連付けることを目的としています。医療コード予測において、低頻度の医療コードであるレアコード問題が顕著です。最近の研究では、深層ニューラルネットワークと外部知識を用いてこれを解決しています。しかし、このようなアプローチには、医療アプリケーションにおいて重要な問題である解釈可能性が欠けています。また、長くノイズの多い臨床ノートのため、このようなアプローチは満足できる結果を得ることができません。そこで、本論文では、外部知識を組み込んだ解釈可能な医療コード予測のための医療コンセプト駆動型アテンションに基づく新しいフレームワークを提案します。具体的には、トピックモデリングを使用して、臨床ノートとWikipedia文書をトピック空間に整列させ、医療コンセプトを抽出します。そして、医療コンセプト駆動型アテンションメカニズムを適用して、医療コードに関連するコンセプトを明らかにし、医療コード予測の説明を提供します。ベンチマークデータセット上の実験結果は、提案されたフレームワークがいくつかの最先端のベースラインよりも優れていることを示しています。
https://aclanthology.org/2022.findings-acl.110/
Effective Unsupervised Constrained Text Generation based on Perturbed Masking
教師なし制約付きテキスト生成は、監視されたデータなしで与えられた制約の下でテキストを生成することを目的としています。現在の最先端の方法は、編集位置とアクションを確率的にサンプリングするため、不必要な検索ステップを引き起こす可能性があります。本論文では、各ステップで最適な編集位置とアクションを検索することにより、効果を改善するPMCTGを提案します。具体的には、PMCTGは、最も不一致なトークンを編集するために効果的に検索するために、摂動マスキング技術を拡張します。その後、検索の難易度をさらに低減するために、4つの多面的スコアリング関数を導入して編集アクションを選択します。PMCTGは監視されたデータを必要としないため、異なる生成タスクに適用することができます。本研究では、教師なし設定下で、PMCTGが代表的な2つのタスク、すなわちキーワードから文の生成と言い換えにおいて、新しい最先端の結果を達成することを示します。
https://aclanthology.org/2022.findings-acl.111/
Combining (Second-Order) Graph-Based and Headed-Span-Based Projective Dependency Parsing
グラフベースの手法は、依存構造木のスコアを依存弧のスコアに分解するもので、依存解析において数十年にわたって広く用いられている。最近、(引用)は、依存構造木のスコアをヘッド付きスパンのスコアに分解するヘッド付きスパンベースの手法を提案した。彼らは、一次グラフベースの手法よりも改善された結果を示している。しかし、彼らの手法は依存弧のスコアを全く評価せず、依存弧は彼らの三次時間アルゴリズムによって暗黙的に導出されるため、依存弧をモデル化することが直感的に有用であるため、最適でない可能性がある。本研究では、グラフベースとヘッド付きスパンベースの手法を組み合わせ、アークスコアとヘッドスパンスコアの両方をモデルに組み込むことを目的としている。まず、O(n4)の解析複雑度で直接組み合わせる方法を示す。複雑度を減らすために、古典的なヘッド分割トリックに着想を得て、一次および二次グラフベースとヘッド付きスパンベースの手法を組み合わせるためのO(n3)の動的プログラミングアルゴリズムを2つ示す。PTB、CTB、UDでの実験では、一次グラフベースとヘッド付きスパンベースの手法を組み合わせることが効果的であることを示した。また、深層学習時代における二次グラフベースの解析の効果も確認したが、二次グラフベースとヘッド付きスパンベースの手法を組み合わせた場合、わずかな改善または改善が見られなかった。
https://aclanthology.org/2022.findings-acl.112/
End-to-End Speech Translation for Code Switched Speech
コードスイッチング(CS)は、異なる言語から単語やフレーズを交換して使用する現象を指します。CSは、基盤となるシステムがしばしば単一言語であるため、NLPにおいて重要な精度の課題を提起することがあります。本研究では、スピーチ翻訳(ST)のタスクにおいて、英語/スペイン語の会話のCSに焦点を当て、トランスクリプトと翻訳の両方を生成して評価します。このタスクにおけるモデルのパフォーマンスを評価するために、既存の公開データセットから派生した新しいSTコーパスを作成します。我々は、トランスクライブしてから翻訳するカスケード型と、トランスクライブと翻訳を同時に行うエンドツーエンド型、および単方向(ソース->ターゲット)と双方向(ソース<->ターゲット)の2つの次元で、さまざまなSTアーキテクチャを探索します。我々は、CSスピーチにおいて、特に双方向エンドツーエンドアーキテクチャにおいて、CSトレーニングデータが使用されていない場合でも、我々のSTアーキテクチャが良好なパフォーマンスを発揮することを示します。
https://aclanthology.org/2022.findings-acl.113/
A Transformational Biencoder with In-Domain Negative Sampling for Zero-Shot Entity Linking
最近のエンティティリンキングに関する関心は、テスト時にトレーニング中に見たことがないエンティティメンションをラベル付けするゼロショットシナリオに焦点を当てています。または、ソースドメインと異なるドメインに属する場合があります。現在の作業は、事前にトレーニングされたBERTを活用し、ソースとターゲットのドメイン分布のギャップを埋めるという暗黙の前提に基づいています。しかし、異なるドメインで適用する場合、ファインチューニングされたBERTはゼロショットでかなりの低性能を示します。私たちは、変換バイエンコーダを提案して、トレーニング中にソースドメインからのゼロショット転送を実行するためにBERTに変換を組み込み、この問題を解決します。以前の作業と同様に、負のエンティティに依存して、トレーニング中にゴールデンエンティティを識別するようにモデルを促します。これらの負のエンティティを生成するために、私たちは、ゴールデンエンティティのドメインを考慮に入れたシンプルで効果的な戦略を提案します。ベンチマークデータセットZeshelでの実験結果は、私たちのアプローチの有効性を示し、新しい最高の状態に達成します。
https://aclanthology.org/2022.findings-acl.114/
Finding the Dominant Winning Ticket in Pre-Trained Language Models
「Lottery Ticket Hypothesis」は、過剰パラメータ化されたモデルに対して、バックボーンアーキテクチャと競合する性能を発揮する小さなサブネットワークが存在するという仮説です。本論文では、事前学習された言語モデルに対して、パラメータを微調整して下流タスクで良好な性能を発揮する「勝ち組の抽選券」が存在するかどうかを調査します。これを実現するために、L1距離で微調整プロセスを正則化し、サブネットワーク構造(「優勝チケット」と呼ぶ)を探索します。実証的に、(a)優勝チケットは、完全パラメータモデルと同等の性能を発揮できること、(b)優勝チケットは、異なるタスク間で転移可能であること、(c)優勝チケットは、各パラメータ行列内に自然な構造を持っていることを示します。驚くべきことに、パラメータの0.05%を占める優勝チケットでも十分な性能を発揮できることがわかり、PLMは微調整中に大幅に縮小可能であることを示しています。
https://aclanthology.org/2022.findings-acl.115/
Thai Nested Named Entity Recognition Corpus
この論文では、タイ語のネストされた固有表現認識(N-NER)データセットが初めて提案された。タイ語N-NERは、ニュース記事とレストランレビューのドメインから得られた4,894の文書から、264,798のメンション、104のクラス、最大8層の深さで構成されている。これは、英語以外の最大のN-NERデータセットであり、細かいクラスを持つ最初の英語以外のデータセットでもある。提案されたデータセットがもたらす新しい課題を理解するために、最新の英語N-NERモデルと、よく知られた言語モデルアーキテクチャに基づくベースライン手法について実験的研究を行った。実験結果から、2つの主要な発見が得られた。まず、すべてのモデルがクラス分布のテール領域で低いF1スコアを示した。これらのモデルは、タイのデータセットに対してベースライン手法と比較してほとんどまたは全く性能改善を提供しないことが示された。これらの結果から、異なる言語間でうまく機能する多言語N-NERソリューションを作成するために、さらなる調査が必要であることが示唆された。
https://aclanthology.org/2022.findings-acl.116/
Two-Step Question Retrieval for Open-Domain QA
リトリーバー・リーダー・パイプラインは、オープンドメインQAで有望なパフォーマンスを示していますが、非常に遅い推論速度に苦しんでいます。最近提案された質問検索モデルは、質問-回答ペアをインデックス化し、類似した質問を検索することで、この問題に対処しています。これらのモデルは、リトリーバー・リーダー・モデルと比較してQAパフォーマンスが低下する代わりに、推論速度が大幅に向上しています。本論文では、2段階の質問検索モデル、SQuID(Sequential Question-Indexed Dense retrieval)と遠隔監視によるトレーニングを提案します。SQuIDは、質問検索のために2つのバイエンコーダを使用します。第1段階のリトリーバーは、トップkの類似した質問を選択し、第2段階のリトリーバーは、トップkの質問から最も類似した質問を見つけます。SQuIDのパフォーマンスと計算効率を評価します。結果は、SQuIDが既存の質問検索モデルのパフォーマンスを著しく向上させ、推論速度の損失がほとんどないことを示しています。
https://aclanthology.org/2022.findings-acl.117/
Semantically Distributed Robust Optimization for Vision-and-Language Inference
ビジョン・アンド・ランゲージ・モデルの分析により、言い換え、否定、テキストの含意、同義語または反意語による単語の置換などの言語現象に対する脆弱性が明らかになっています。これらの失敗モードに対処するためにデータ拡張技術が設計されていますが、この知識をトレーニングパイプラインに統合する方法は未だに十分に探求されていません。本論文では、分散ロバスト最適化設定で一連の言語変換を利用するモデル非依存のSDROを提案し、推論中にこれらの変換を活用するアンサンブル技術を使用します。画像(NLVR2)およびビデオ(VIOLIN)のベンチマークデータセットでの実験により、性能向上と敵対的攻撃に対する堅牢性が示されました。バイナリVQAの実験では、この方法の他のV&Lタスクへの汎用性を探求しました。
https://aclanthology.org/2022.findings-acl.118/
Learning from Missing Relations: Contrastive Learning with Commonsense Knowledge Graphs for Commonsense Inference
常識推論は、特定のイベントの物理的、社会的、因果関係を推論することに独自の課題を提供します。既存の常識推論アプローチは、常識知識グラフを学習する大規模言語モデルである常識トランスフォーマーを利用しています。しかし、グラフのカバレッジと表現的多様性に欠けており、表現品質の低下を引き起こしています。本論文では、常識知識グラフの欠落した関係に対処し、SOLARと呼ばれる新しい対照的学習フレームワークを提案します。我々のフレームワークは、意味的に類似したイベントと類似しないイベントのセットを対比し、既存のアプローチよりも豊富な推論的知識を学習します。実験結果は、SOLARが多様な常識知識グラフの常識推論において有効であることを示しています。具体的には、SOLARは、ConceptNetによる常識推論において、8つの自動評価メトリックの平均で、最先端の常識トランスフォーマーを1.84%上回ります。SOLARの詳細な分析は、常識知識グラフの学習に利用される欠落した関係の影響を明らかにします。
https://aclanthology.org/2022.findings-acl.119/
Capture Human Disagreement Distributions by Calibrated Networks for Natural Language Inference
自然言語推論(NLI)のデータセットには、主観的な性質により非常に曖昧なラベルの例が含まれています。最近、曖昧さの存在を認め、人間の不一致分布を捉える方法を探るためのいくつかの取り組みが行われています。私たちは、特別なリソースに頼らずに、ゴールドの曖昧なラベルから直接学習する代わりに、モデルがキャリブレーションされている限り、人間の曖昧さの分布を自然に捉えていると主張します。つまり、予測確率が真の正解の可能性を反映できる場合です。私たちの実験は、ラベルスムージングまたは温度スケーリングによってモデルが適切にキャリブレーションされている場合、予測確率と真の人間の意見分布の間の発散スコアと精度の両方で、先行研究と競合する性能を発揮することを示しています。これは、NLIネットワークをキャリブレーションする方法を広く解決することにより、ゴールドの曖昧なラベルを収集するオーバーヘッドを削減できることを示しています。
https://aclanthology.org/2022.findings-acl.120/
Efficient, Uncertainty-based Moderation of Neural Networks Text Classifiers
テキスト分類器の精度を最大化し、全体的な受け入れを増やすために、分類器の出力を効率的に操作するためのフレームワークを提案します。当社のフレームワークは、現代のニューラルネットワーク分類器のF1スコア(約90%)が実際には適用できないユースケースに焦点を当てています。私たちは、予測の不確実性を使用して、自信がなく、おそらく不正確な分類を人間のモデレーターに渡す半自動的なアプローチを提案しています。作業量を最小限に抑えるために、精度の向上が飽和し、さらなる人間の努力が実質的な改善につながらない地点まで、人間がモデレートするデータを制限します。3つの異なるデータセットと3つの最新の分類器に基づく一連のベンチマーク実験により、当社のフレームワークは、分類のF1スコアを5.1〜11.2%(約98〜99%)向上させ、ランダムなモデレーションに比べてモデレーションの負荷を最大73.3%削減できることが示されました。
https://aclanthology.org/2022.findings-acl.121/
Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?
自動要約タスクの評価には、長い間ROUGEメトリックが使用されてきました。過去のいくつかの研究でROUGEの限界が強調されてきましたが、より良い代替案についての研究者の合意には今でも苦労しています。従来のROUGEメトリックの主な制限の1つは、意味理解の欠如です(n-gramの直接的な重複に依存しています)。本論文では、抽出型要約タスクに焦点を当て、このタスクを評価するための意味理解に基づくnCG(正規化累積利得)ベースの評価メトリック(Sem-nCGと呼ばれる)を提案します。本論文の基本的な貢献の1つは、追加の人間の介入なしに、より信頼性の高い意味理解に基づくグラウンドトゥルースを生成する方法を示すことです。私たちの知る限り、この研究はそのようなものとして初めてです。広く使用されているCNN / DailyMailデータセットを使用して、この新しいメトリックを用いた詳細な実験を行いました。実験結果は、新しいSem-nCGメトリックが実際に意味理解に基づいており、人間の判断とより高い相関を示し、オリジナルのROUGEメトリックと多数の不一致を示すことを示しています(ROUGEがしばしば不正確な結論に導くことを人間によっても確認されています)。
https://aclanthology.org/2022.findings-acl.122/
Open Vocabulary Extreme Classification Using Generative Models
極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツにタグ付けすることを目的としています。ラベル語彙は通常、ドメインの専門家によって事前に定義され、必要なすべてのタグをキャプチャすることが想定されています。しかし、現実のシナリオでは、このラベルセットは大きいにもかかわらず、不完全であり、専門家は頻繁にそれを改善する必要があります。このプロセスを簡素化するシステムを開発するために、私たちはオープンボキャブラリーXMC(OXMC)のタスクを紹介します。つまり、コンテンツが与えられた場合、既知のタグセットの外側にあるラベルのセットを予測します。したがって、ゼロショット分類の場合と同様に、いくつかのラベルに対するトレーニングデータがないため、モデルはラベルを即座に発明する必要があります。私たちは、OXMCのための微調整されたseq2seqモデルであるGROOVを提案し、ラベルセットをフラットなシーケンスとして生成し、予測されたラベルの順序に依存しない新しい損失を使用してトレーニングされます。私たちは、GROOVが与えられた語彙外の意味のあるラベルを予測できることを示し、既知のラベルに対する最先端のソリューションと同等のパフォーマンスを発揮する人気のあるXMCデータセットで実験を行います。
https://aclanthology.org/2022.findings-acl.123/
Decomposed Meta-Learning for Few-Shot Named Entity Recognition
Few-shot named entity recognition (NER) systemsは、わずかなラベル付きの例に基づいて新しいクラスの名前付きエンティティを認識することを目的としています。本論文では、メタ学習を用いた分解アプローチを提案し、メタ学習を用いてfew-shot span detectionとfew-shot entity typingの問題に順次対処します。特に、few-shot span detectionをシーケンスラベリング問題として扱い、モデルアグノスティックメタ学習(MAML)アルゴリズムを導入して、新しいエンティティクラスに迅速に適応できる良好なモデルパラメータ初期化を見つけるためにスパン検出器をトレーニングします。few-shot entity typingについては、MAML-ProtoNet、つまりMAML-enhanced prototypical networksを提案し、異なるエンティティクラスからのテキストスパン表現をよりよく区別できる良好な埋め込み空間を見つけます。さまざまなベンチマークでの広範な実験により、当社のアプローチが従来の方法よりも優れた性能を発揮することが示されました。
https://aclanthology.org/2022.findings-acl.124/
TegTok: Augmenting Text Generation via Task-specific and Open-world Knowledge
自然言語処理において、自然で情報量の多いテキストを生成することは長年の問題である。知識グラフやウィキペディアなどのオープンワールドの知識を事前学習済み言語モデル(PLMs)に組み込むことに多くの努力が注がれてきたが、タスク固有の知識にアクセスして操作する能力は依然として限られており、この種の知識は通常PLMsで十分にカバーされておらず、取得が困難である。この問題に対処するため、我々は統一されたフレームワークでタスク固有の知識とオープンワールドの知識を組み合わせたテキスト生成を提案する(TegTok)。我々のモデルは、密な検索によって2種類の知識源から知識エントリを選択し、PLMsに基づいて入力エンコーディングと出力デコーディングの段階でそれらを注入する。これら2種類の知識の助けを借りて、我々のモデルは何を生成するか、どのように生成するかを学習することができる。対話生成と質問生成の2つのテキスト生成タスクと2つのデータセットでの実験結果は、我々の方法が様々なベースラインモデルよりも優れた性能を発揮することを示している。
https://aclanthology.org/2022.findings-acl.125/
EmoCaps: Emotion Capsule based Model for Conversational Emotion Recognition
会話における感情認識(ERC)は、話者の状態を分析し、会話における感情を特定することを目的としています。ERCにおける最近の研究は、文脈モデリングに焦点を当てていますが、文脈的な感情傾向の表現を無視しています。効果的にマルチモーダル情報と発話の感情傾向を抽出するために、私たちはEmoformerという新しい構造を提案し、異なるモダリティからマルチモーダル感情ベクトルを抽出し、文ベクトルと融合して感情カプセルにします。さらに、Emoformer構造を介して感情ベクトルを抽出し、文脈分析モデルから感情分類結果を取得するエンドツーエンドERCモデルであるEmoCapsを設計しました。2つのベンチマークデータセットでの実験により、私たちのモデルは既存の最先端モデルよりも優れた性能を示しました。
https://aclanthology.org/2022.findings-acl.126/
Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text
テキストの論理的推論には、テキスト内の重要な論理構造を特定し、それらに対して推論を行う必要があります。従来の論理的推論の方法は、主にテキストの文脈的意味に焦点を当てており、論理的推論プロセスを明示的にモデル化することに苦労しています。本論文では、論理駆動のコンテキスト拡張フレームワークを提案すると同時に、論理駆動のデータ拡張アルゴリズムを提案します。前者は3段階の推論パラダイムに従い、各段階はそれぞれ論理式を基本的な推論単位として抽出し、同値法則に従って暗黙の式を象徴的に推論し、オプションを検証するためにコンテキストを拡張します。後者は、文字通り似ているが論理的に異なるインスタンスを拡張し、対比学習を組み込んで論理的情報、特に論理的否定および条件付き関係をより正確に捉えます。我々は、2つのベンチマークデータセット、ReClorとLogiQAで実験を行いました。その結果、当社の方法は両方のデータセットで最先端の性能を発揮し、ReClorデータセットでは人間の性能を超えることさえあります。
https://aclanthology.org/2022.findings-acl.127/
Transfer Learning and Prediction Consistency for Detecting Offensive Spans of Text
有害スパン検出は、テキストスニペット内の攻撃的なスパンを認識するタスクです。以前は、テキストスニペットを攻撃的か否かに分類する研究がありましたが、テキストの有害性に責任があるスパンを認識するタスクはまだ探求されていません。本研究では、オフェンシブな単語と意見フレーズを同時に予測することで相互依存関係を活用し、性能を向上させるための新しいマルチタスクフレームワークを提案します。さらに、有害スパン検出の類似した入力に対するモデルの予測の一貫性を促す新しい正則化メカニズムを導入します。広範な実験により、提案されたモデルが強力なベースラインと比較して効果的であることが示されました。
https://aclanthology.org/2022.findings-acl.128/
Learning Reasoning Patterns for Relational Triple Extraction with Mutual Generation of Text and Graph
関係トリプル抽出は、知識グラフを構築するための重要なタスクです。既存の方法は、明示的な関係メンションからテキストパターンを学習することに焦点を当てています。しかし、彼らは通常、関係推論パターンを無視するため、暗黙的に示唆されたトリプルを抽出することに失敗しました。幸いなことに、文の関係トリプルのグラフ構造は、多段階の推論パスを見つけるのに役立ちます。さらに、パスのコンポジット関係の現実世界の概念的な意味を表す文の補足的な関係表現によって、パスを通じたタイプ推論ロジックを捉えることができます。本論文では、このタスクのための関係推論パターンを学習するための統一されたフレームワークを提案します。多段階推論パスを特定するために、文から関係グラフを構築し(テキストからグラフ生成)、それに多層グラフ畳み込みを適用します。パスの関係タイプ推論ロジックを捉えるために、自己教師ありの方法で関係グラフから文を再構築することによって、ラベルなしの概念的な表現を理解することを提案します(グラフからテキスト生成)。いくつかのベンチマークデータセットでの実験結果は、我々の方法の有効性を示しています。
https://aclanthology.org/2022.findings-acl.129/
Document-Level Event Argument Extraction via Optimal Transport
イベント引き出しのサブタスクの1つであるイベント引き出しのイベント引数抽出(EAE)は、特定のイベントトリガーに対する各エンティティメンションの役割を認識することを目的としています。文レベルのEAEにおける先行研究の成功にもかかわらず、ドキュメントレベルの設定はあまり探求されていません。特に、文の構文構造が文レベルのEAEに有効であることが示されている一方、先行のドキュメントレベルのEAEモデルは、ドキュメントの構文構造を完全に無視しています。したがって、本研究では、ドキュメントレベルのEAEにおける構文構造の重要性を研究します。具体的には、最適輸送(OT)を使用して、文レベルの構文構造に基づいて文書の構造を誘導し、EAEタスクに合わせます。さらに、関連のないコンテキスト単語の貢献を明示的に制限する新しい正則化技術を提案します。RAMSというベンチマークドキュメントレベルのEAEデータセットでの広範な実験を行い、最先端のパフォーマンスを達成します。さらに、ACE 2005データセットでの実験により、提案されたモデルが文レベルのEAEにおいて新しい最先端の結果を確立することが示されました。
https://aclanthology.org/2022.findings-acl.130/
N-Shot Learning for Augmenting Task-Oriented Dialogue State Tracking
自然言語処理に関する論文の要約を日本語に翻訳してください。 豊富に注釈された構造にもかかわらず、タスク指向の対話の拡張は、バックトランスレーション、単語レベルの操作、言い換えなどのプレーンテキストに使用される標準的な方法に従って行われてきました。本研究では、信念状態の注釈を利用して、さまざまな対話からターンをマッチングし、ボトムアップの方法で新しい合成対話を形成する拡張フレームワークを紹介します。他の拡張戦略とは異なり、5つの例だけでも動作します。TRADEモデルとTOD-BERTモデルでの評価において、当社の拡張戦略は、DSTモデルを新しいドメインに適応させる場合や、DSTタスクに言語モデルを適応させる場合に、大幅な改善をもたらします。さらなる分析により、当社のモデルはトレーニング中に見られる値でより良いパフォーマンスを発揮し、未知の値に対してもより堅牢であることが示されました。信念状態の注釈を利用することで、対話の拡張が向上し、nショットトレーニングシナリオで改善されたモデルが得られることが結論づけられました。
https://aclanthology.org/2022.findings-acl.131/
Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation
ドキュメントレベルの関係抽出(DocRE)は、文レベルの対応物に比べてより困難なタスクです。複数の文から関係を抽出することを目的としています。本論文では、3つの新しいコンポーネントを持つ半教師ありフレームワークを提案します。まず、エンティティペア間の相互依存関係を学習するために軸方向の注意モジュールを使用し、2ホップ関係のパフォーマンスを向上させます。次に、DocREのクラス不均衡問題に対処するために適応的フォーカル損失を提案します。最後に、知識蒸留を使用して、人間による注釈付きデータと遠隔監視データの間の違いを克服します。2つのDocREデータセットで実験を行いました。当社のモデルは、強力なベースラインを常に上回り、DocREDリーダーボードで以前のSOTAを1.36 F1と1.46 Ign_F1スコアで超えるパフォーマンスを発揮しました。
https://aclanthology.org/2022.findings-acl.132/
Calibration of Machine Reading Systems at Scale
通常の機械学習システムでは、予測の確率の推定値を使用して、システムの予測に対する信頼度を評価します。この信頼度の測定は通常、キャリブレーションされていません。つまり、システムの予測に対する信頼度が、予測された出力の真の確率に一致しない場合があります。本論文では、オープン設定の機械読解システム(オープンドメインの質問応答や主張の検証システムなど)のキャリブレーションについて調査を行いました。私たちは、離散的な検索と深い読解コンポーネントを含むこのような複雑なシステムをキャリブレーションすることが困難であり、現在のキャリブレーション技術がこれらの設定にスケールしないことを示しました。私たちは、既存のキャリブレーション手法に簡単な拡張を提案し、これらの設定に適応させることができるようにしました。実験結果は、このアプローチがうまく機能し、質問応答システムが回答できないまたはトレーニング分布外の質問が提示された場合に、回答を選択的に予測するのに役立つことを示しています。
https://aclanthology.org/2022.findings-acl.133/
Towards Adversarially Robust Text Classifiers by Learning to Reweight Clean Examples
既存の防御手法のほとんどは、いくつかの敵対的な例を含むトレーニングセットにモデルを適応させることで、敵対的な堅牢性を向上させています。しかし、拡張された敵対的な例は自然ではない場合があり、トレーニング分布を歪め、クリーンな精度と敵対的な堅牢性の両方で劣った性能を引き起こす可能性があります。本研究では、再重み付けメカニズムを導入してトレーニング分布を調整し、堅牢なモデルを得ることの実現可能性を探求します。我々は、クリーンな例とその敵対的な例を混合した検証セットの損失を最小化するように例の重みを学習するサンプル再重み付け法によってテキスト分類器をトレーニングすることを提案します。広範な実験により、敵対的な例をトレーニングセット全体に作成する必要がなく、再重み付けメカニズムを使用してモデルを敵対的な攻撃からより堅牢にすることができることを示します。
https://aclanthology.org/2022.findings-acl.134/
Morphosyntactic Tagging with Pre-trained Language Models for Arabic and its Dialects
私たちは、事前に調整されたトランスフォーマー言語モデルを使用して、異なるアラビア語のバリエーションにわたる形態・構文タグ付けの最新の結果を発表します。私たちのモデルは、現代標準アラビア語と私たちが研究したすべてのアラビア語方言で既存のシステムを常に上回り、現代標準アラビア語で前回の最新技術に比べて2.6%、湾岸で2.8%、エジプトで1.6%、レバントで8.3%の絶対的な改善を達成しました。私たちは、事前に調整されたトランスフォーマー言語モデルの微調整のための異なるトレーニングセットアップを探索しました。これには、トレーニングデータサイズ、外部言語リソースの使用、および低リソースシナリオで他の方言からの注釈付きデータの使用が含まれます。私たちの結果は、他の高リソース方言からのデータセットを使用した戦略的な微調整が、低リソース方言にとって有益であることを示しています。さらに、高品質の形態論解析器を外部言語リソースとして使用することが、特に低リソース設定で有益であることを示しています。
https://aclanthology.org/2022.findings-acl.135/
How Pre-trained Language Models Capture Factual Knowledge? A Causal-Inspired Analysis
最近、Pre-trained Language Models(PLMs)によって捉えられた事実知識を調査する傾向がある。多くの研究は、PLMsが「ダンテは[MASK]で生まれた」といったクローズ形式のプロンプトで欠落した事実語を補完する能力を示している。しかし、PLMsが正確な結果を生成する方法はまだ謎である。有効な手がかりに依存するのか、ショートカットパターンに依存するのか?本研究では、PLMsが欠落した単語を生成するために依存する単語レベルのパターンを定量的に測定・評価する因果関係に着想を得た分析によってこの問いに答えようとする。欠落した単語と3つの典型的な関連性を持つ単語をチェックする:知識に依存する、位置的に近い、高頻度で共起する。分析の結果、(1) PLMsは、知識に依存する単語よりも位置的に近く、高頻度で共起する単語によって欠落した事実語を生成することが多いことがわかった。(2) 知識に依存する単語への依存は、位置的に近く、高頻度で共起する単語よりも効果的であることがわかった。したがって、PLMsは、不適切な関連性に依存するため、事実知識を効果的に捉えていないと結論付けられる。
https://aclanthology.org/2022.findings-acl.136/
Metadata Shaping: A Simple Approach for Knowledge-Enhanced Language Models
一般的な言語モデル(LM)は、まれな事実やエンティティに関する知識を捉えるのが困難です。検索やパーソナルアシスタントなどの広く使用されているシステムは、ユーザーが問い合わせるエンティティの長尾をサポートする必要があるため、これらの基本的なLMを事実知識で強化するための大きな努力がなされています。提案された方法は、通常、ベースのLMとエンティティメタデータで注釈付けされたデータを使用して開始し、モデルを変更してエンティティ知識をよりよく捉えるためにアーキテクチャを変更したり、補助的な損失項を導入したりします。本研究では、この典型的なプロセスに疑問を投げかけ、単純な代替案であるベースのLMを使用してデータのみを変更することで、モデルの変更の質をどの程度一致させることができるかを問い合わせます。我々は、相互情報に基づいてトレーニングと推論時に、利用可能なエンティティメタデータ(例:タイプや説明)に対応するサブストリングを例に挿入するメタデータシェーピングという方法を提案します。この方法は、シンプルでありながら非常に効果的です。知識強化LMの標準的な評価ベンチマークでは、この方法はベースLMベースラインを平均4.3 F1ポイント上回り、最先端の結果を達成します。さらに、利益は、テール対人気エンティティを含む例のスライスに対して平均4.4倍大きいことを示します。
https://aclanthology.org/2022.findings-acl.137/
Enhancing Natural Language Representation with Large-Scale Out-of-Domain Commonsense
私たちは、テキストの常識を通じてテキスト表現を強化する方法を研究しています。私たちは、常識がドメインの不一致の性質を持つことを指摘します。つまり、常識は異なるデータ形式を持ち、下流のタスクからドメインに依存しない性質を持っています。この性質は、一般的なテキスト理解タスクに常識を導入する際に課題をもたらします。テキスト知識を導入する典型的な方法は、常識コーパス上での事前学習を継続することです。しかし、ドメインの不一致により、下流のタスクに対して壊滅的な忘却を引き起こす可能性があります。さらに、テキスト記述を追加の入力情報として直接使用する以前の方法は、大規模な常識には適用できません。本論文では、大規模なドメイン外常識を使用してテキスト表現を強化することを提案します。常識を効果的に統合するために、私たちはOK-Transformer(ドメイン外知識強化トランスフォーマー)を提案しました。OK-Transformerは、常識の説明を効果的に統合し、それらをターゲットのテキスト表現に強化します。さらに、OK-Transformerは、大規模な非監視コーパスでの事前学習なしに、Transformerベースの言語モデル(例:BERT、RoBERTa)に自由に適応できます。私たちは、常識推論、一般的なテキスト分類、および低リソースの常識設定など、複数のアプリケーションでOK-Transformerの有効性を検証しました。
https://aclanthology.org/2022.findings-acl.138/
Weighted self Distillation for Chinese word segmentation
最近の研究によると、多基準リソースとn-gram特徴は中国語の単語分割(CWS)に有益であることが示されています。しかし、これらの方法は上記の追加情報に大きく依存し、モデル自体にはあまり焦点を当てていません。そこで、私たちは新しいニューラルフレームワーク「Weighted self Distillation for Chinese word segmentation(WeiDC)」を提案します。このフレームワークは、ユニグラム特徴のみを必要とし、4つの手作りの重みモジュールと2つの教師モデル構成を備えた自己蒸留技術を採用しています。実験結果は、WeiDCが文字特徴を利用して文脈的な知識を学習し、SIGHAN Bakeoffベンチマークデータセットの厳密な閉鎖テスト設定において最新技術または競争力のあるパフォーマンスを達成できることを示しています。さらに、さらなる実験と分析もWeiDCの堅牢性を示しています。本論文のソースコードはGithubで入手可能です。
https://aclanthology.org/2022.findings-acl.139/
Sibylvariant Transformations for Robust Text Classification
自然言語処理におけるほとんどのテキスト変換技術は、元のクラスラベルを保持する制約を暗黙的に持っているため、入力空間のカバレッジを拡大する能力に限界がある。本研究では、ラベル保持制約を緩和し、期待されるクラスを明確に変化させ、より多様な入力分布をもたらすより広範な変換の概念であるsibylvariance(SIB)を提案する。我々は、2つのタイプのSIBを含むすべてのデータ変換を組織するための統一されたフレームワークを提供する:(1)Transmutationsは1つの離散的な種類を別の種類に変換する、(2)Mixture Mutationsは2つ以上のクラスを混合する。NLP内でsibylvarianceの役割を探るために、Concept2SentenceやSentMixなどのいくつかの新しい技術を含む41のテキスト変換を実装した。Sibylvarianceは、最も混乱するクラスペアの新しい入力混合物を生成する独自の形式の適応的トレーニングも可能にし、学習者により微妙な差異を区別するように挑戦する。6つのベンチマークデータセットでの実験は、sibylvarianceが一般化性能、欠陥検出、および敵対的な堅牢性に対する有効性を強く支持している。
https://aclanthology.org/2022.findings-acl.140/
DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine Translation
ニューラル機械翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、新しいドメインに適応された一般的なNMTモデルの事前学習に依存しています。これには、ドメイン内並列データのサンプルが必要です。並列データがない場合、DAの潜在的な利益や必要な並列サンプルの量を推定する方法はありません。しかし、これはデータセット作成にリソースを投資する前にMT実践者が情報を得ることができる望ましい機能です。本研究では、ソース言語のドメイン内単一言語サンプルに基づいて将来のDAパフォーマンスを予測するドメイン適応学習曲線予測(DaLC)モデルを提案します。当社のモデルは、NMTエンコーダ表現とさまざまなインスタンスおよびコーパスレベルの特徴を組み合わせています。本研究では、以前の研究で提案されたコーパスレベルのフレームワークと比較して、インスタンスレベルが異なるドメインをより区別できることを示します。最後に、結果の詳細な分析を行い、アプローチの限界を強調し、将来の研究の方向性を提供します。
https://aclanthology.org/2022.findings-acl.141/
Hey AI, Can You Solve Complex Tasks by Talking to Agents?
複雑なタスクごとに巨大なモデルをゼロからトレーニングすることは、リソースとデータの効率が悪い。既存のシステムを活用できるモデルを開発するために、我々は新しい課題を提案する:既存のエージェント(またはモデル)と自然言語でコミュニケーションをとることによって複雑なタスクを解決することを学ぶ。我々は、既存のQAエージェントとコミュニケーションをとることで解決するために設計された3つの複雑な推論タスク(明示的、暗黙的、数値)を備えた合成ベンチマーク、CommaQAを設計する。例えば、「アメリカから最も長いやり投げをしたのは誰ですか?」のような質問に対して、テキストと表のQAエージェントを使用して回答する。我々は、黒箱モデルがこのタスクをゼロから学習するのに苦戦することを示し(正確性が50%以下)、各エージェントの知識とゴールドファクトの監視にアクセスできても同様です。対照的に、エージェントとコミュニケーションをとることを学ぶモデルは、黒箱モデルを上回り、ゴールド分解監視が与えられた場合には100%のスコアを達成することを示します。しかし、補助的な監視やデータに頼らずに既存のエージェントとコミュニケーションをとって複雑なタスクを解決することを学ぶという課題は、まだ非常に難しいことが示されています。我々は、この方向性の研究を進めるために、CommaQAと構成的な一般化テスト分割をリリースする予定です。
https://aclanthology.org/2022.findings-acl.142/
Modality-specific Learning Rates for Effective Multimodal Additive Late-fusion
マルチモーダル機械学習において、加算的なレイトフュージョンは、異なるモダリティからの特徴表現を組み合わせるための簡単なアプローチであり、最終的な予測は単一モダルの予測の合計として定式化されます。複雑なマルチモーダルインタラクティブモデルと比較して、特定のレイトフュージョンモデルが低い計算コストで競争力のあるパフォーマンスを発揮できることがわかっていますが、良いレイトフュージョンモデルを効果的に探索する方法はまだオープンな問題です。さらに、異なるモダリティに対して、最適な単一モダルモデルは、モダリティの性質やモデルの計算フローのために、大幅に異なる学習率で動作する可能性があるため、レイトフュージョンモデルのグローバルな学習率を選択すると、一部のモダリティに対して勾配消失が発生する可能性があります。これらの問題に対処するために、私たちはモダリティ固有の学習率(MSLR)方法を提案し、ファインチューニングされた単一モダルモデルから効果的にレイトフュージョンマルチモーダルモデルを構築することを提案します。私たちは、異なるモダリティに学習率を割り当てるための3つの異なる戦略を調査しました。私たちの実験は、MSLRが複数のタスクや設定でグローバルな学習率よりも優れたパフォーマンスを発揮し、モデルが各モダリティを効果的に学習できるようにすることを示しています。
https://aclanthology.org/2022.findings-acl.143/
BiSyn-GAT+: Bi-Syntax Aware Graph Attention Network for Aspect-based Sentiment Analysis
アスペクトベースの感情分析(ABSA)は、アスペクト固有の感情極性推論のためにアスペクトと対応する感情を整合させる微細な感情分析タスクです。文には複数のアスペクトや複雑な(条件付き、調整、対立など)関係が含まれるため、課題があります。最近では、グラフニューラルネットワークを用いた依存構文情報の利用が最も一般的なトレンドとなっています。成功しているにもかかわらず、依存構文ツリーに重点を置く方法は、依存構文ツリーが関係のない関連のノイズ信号を提供する可能性があるため、アスペクトと感情を示す単語の整合性を正確にモデル化することに課題があります(例えば、図2の「great」と「dreadful」の間の「conj」関係)。本論文では、この問題を緩和するために、Bi-Syntax aware Graph Attention Network(BiSyn-GAT+)を提案します。具体的には、BiSyn-GAT+は、文の構成ツリーの構文情報(フレーズのセグメンテーションや階層構造など)を完全に活用して、各アスペクトの感情に敏感な文脈(intra-context)とアスペクト間の感情関係(inter-context)をモデル化して学習します。4つのベンチマークデータセットでの実験結果は、BiSyn-GAT+が常に最先端の方法を上回っていることを示しています。
https://aclanthology.org/2022.findings-acl.144/
IndicBART: A Pre-trained Model for Indic Natural Language Generation
本論文では、関連する言語グループ、特にインド諸言語に焦点を当て、事前学習されたシーケンス・ツー・シーケンス・モデルを研究します。我々は、11のインド諸言語と英語に焦点を当てた多言語シーケンス・ツー・シーケンス・事前学習モデルであるIndicBARTを提案します。IndicBARTは、インド諸言語間の表記の類似性を利用して、類似するインド諸言語間の転移学習を改善します。我々は、ニューラル機械翻訳(NMT)と極端な要約の2つのNLGタスクでIndicBARTを評価します。NMTと極端な要約の実験結果は、IndicBARTのような関連する言語に特化したモデルが、大規模な事前学習モデルであるmBART50と同等の性能を発揮することを示しています。また、事前学習や微調整に含まれていない非常に低資源の翻訳シナリオでも良好な性能を発揮します。表記の共有、多言語トレーニング、限られたモデル容量のより良い活用が、コンパクトなIndicBARTモデルの良好な性能に貢献しています。
https://aclanthology.org/2022.findings-acl.145/
Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models
私たちは、言語処理タスクに広く有用な文の埋め込みを、テキストからテキストへのトランスフォーマー(T5)から初めて探索し、エンコーダを11Bパラメータにスケーリングすることの影響を含めました。T5は言語タスクで印象的なパフォーマンスを発揮しますが、エンコーダ・デコーダモデルから文の埋め込みを生成する方法は不明です。私たちは、T5エンコーダのみを利用する2つの方法と、完全なT5エンコーダ・デコーダを使用する1つの方法を調査し、Sentence-T5(ST5)モデルを構築するための3つの方法を調査しました。私たちは、SentEvalツールキットをGLUEベンチマークの9つのタスクに拡張した新しい文表現転送ベンチマーク、SentGLUEを確立しました。私たちのエンコーダのみのモデルは、セマンティックテキスト類似度(STS)を含むSentEvalとSentGLUE転送タスクの両方で、以前の最高のモデルを上回りました。ST5を数百万から数十億のパラメータにスケーリングすることが、一貫してパフォーマンスを向上させることが示されました。最後に、私たちのエンコーダ・デコーダ法は、文の埋め込みを使用したSTSの新しい最高水準を達成しました。
https://aclanthology.org/2022.findings-acl.146/
Improving Relation Extraction through Syntax-induced Pre-training with Dependency Masking
関係抽出(RE)は、2つの与えられたエンティティ間の関係を予測する重要な自然言語処理のタスクであり、文脈情報の良好な理解が優れたモデルのパフォーマンスを達成するために必要です。異なるタイプの文脈情報の中で、自動生成された構文情報(すなわち、単語の依存関係)は、このタスクにおいて有効性を示しています。しかし、既存の研究の多くは、構文情報を活用するために既存のベースラインアーキテクチャを変更する必要があります(例えば、エンコーダの上にGCNなどの新しいコンポーネントを追加するなど)。代替案を提供するために、我々は構文情報を活用してREを改善するために、依存関係マスキングを介して自動解析されたデータ上で構文誘導エンコーダをトレーニングすることを提案します。具体的には、構文誘導エンコーダは、第1、第2、第3の順序でマスクされた依存関係の接続とタイプを回復することによってトレーニングされます。これは、既存の研究が依存関係パスに沿ってコンテキスト単語を予測することによって言語モデルや単語埋め込みをトレーニングするのとは大きく異なります。英語の2つのベンチマークデータセット、すなわちACE2005ENとSemEval 2010 Task 8データセットでの実験結果は、我々のアプローチがREにおいて有効であることを示しており、我々のアプローチは強力なベースラインを上回り、両方のデータセットで最先端の結果を達成しています。
https://aclanthology.org/2022.findings-acl.147/
Striking a Balance: Alleviating Inconsistency in Pre-trained Models for Symmetric Classification Tasks
自然言語処理において、下流の分類のために事前学習されたモデルを微調整することが従来のパラダイムであるが、タスク固有の微妙なニュアンスが結果のモデルに捉えられないことがある。特に、2つの入力を受け取り、出力が入力の順序に不変である必要があるタスクでは、予測されたラベルや信頼スコアに不一致がしばしば観察される。本研究では、このモデルの欠点を強調し、対称的な分類における不一致を緩和するための一貫性損失関数を適用する。結果として、3つの言い換え検出データセットにおいて予測の一貫性が向上し、精度スコアの大幅な低下は見られなかった。また、対称的および非対称的な6つのデータセットの分類性能を検討し、アプローチの強みと限界を示した。
https://aclanthology.org/2022.findings-acl.148/
Diversifying Content Generation for Commonsense Reasoning with Mixture of Knowledge Graph Experts
自然言語処理における生成的常識推論(GCR)は、一貫したテキストを生成しながら常識について推論することです。近年、GCRタスクの生成品質を向上させることに関心が高まっています。しかし、これらのアプローチは、現実世界の状況に対する代替説明を生成するか、すべての可能な結果を予測することを目的とするGCRタスクの多様性をほとんど調査していません。GCRの多様性を実現することは、意味的に異なるだけでなく、常識的な知識に基づいた複数の出力を生成することを期待するため、課題があります。本論文では、常識知識グラフ(KG)上の専門家の混合(MoE)戦略によって、MoKGEという新しい方法を提案して、生成的推論を多様化します。一連の知識専門家は、KG上で多様な推論を求め、さまざまな生成出力を促進します。実験的な実験では、MoKGEが両方の自動評価と人間の評価に基づく2つのGCRベンチマークで、正確性に対して同等のパフォーマンスを達成しながら、多様性を大幅に向上させることが示されました。
https://aclanthology.org/2022.findings-acl.149/
Dict-BERT: Enhancing Language Model Pre-training with Dictionary
事前学習言語モデル(PLMs)は、大規模なコーパスで自己教示トレーニングタスクを実行することにより、普遍的な言語表現を学習することを目的としています。 PLMsは、異なる文脈で単語の意味を捉えるため、単語表現の品質は単語の頻度に大きく依存し、通常は事前トレーニングコーパスで重尾分布に従います。したがって、テール上のレアな単語の埋め込みは通常、最適化が不十分です。本研究では、辞書(例:Wiktionary)のレアな単語の定義を活用して言語モデルの事前学習を強化することに焦点を当てています。レアな単語の定義を入力の一部として取り込むために、辞書からその定義を取得し、入力テキストシーケンスの末尾に追加します。マスクされた言語モデリング目的でトレーニングするだけでなく、入力テキストシーケンスとレアな単語の定義との単語および文レベルのアラインメントに関する2つの新しい自己教示事前トレーニングタスクを提案し、辞書を用いた言語モデリング表現を強化します。提案されたDict-BERTモデルを言語理解ベンチマークGLUEおよび8つの専門分野ベンチマークデータセットで評価します。広範な実験により、Dict-BERTがレアな単語の理解を大幅に改善し、さまざまなNLP下流タスクのモデルパフォーマンスを向上させることが示されました。
https://aclanthology.org/2022.findings-acl.150/
A Feasibility Study of Answer-Agnostic Question Generation for Education
私たちは、教科書の文章に対して回答に関係ない質問生成モデルの適用可能性についての実現可能性調査を行いました。私たちは、このようなシステムにおける重大なエラーの多くが、関係のないまたは解釈できない質問をすることから生じることを示し、要約された入力を提供することでこれらのエラーを改善できることを示しました。私たちは、人間が書いた要約を元のテキストの代わりにこれらのモデルに与えることで、生成された質問の受容性が専門家の注釈者によって決定された場合に有意な増加があることを発見しました(33%→83%)。また、人間が書いた要約がない場合、自動要約は良い中間地点として機能することがわかりました。
https://aclanthology.org/2022.findings-acl.151/
Relevant CommonSense Subgraphs for “What if...” Procedural Reasoning
外部の常識的な知識が必要な場合に、「もし...」という質問に答えるために手順的なテキスト上で因果推論を学習する課題を研究します。私たちは、大規模な知識グラフから最も関連性の高い情報を持つ常識的なサブグラフを効率的に抽出するための新しいマルチホップグラフ推論モデルを提案し、質問と文脈の相互作用と常識的なサブグラフから得られた表現を推論することで因果的な答えを予測します。私たちはWIQAベンチマークでモデルを評価し、最近のモデルと比較して最先端の性能を達成しました。
https://aclanthology.org/2022.findings-acl.152/
Combining Feature and Instance Attribution to Detect Artifacts
自然言語処理において主導的な深層ニューラルネットワークを訓練するには、大規模なデータセットが必要です。これらは自動的に収集されるか、クラウドソーシングを通じて収集されることが多く、系統的なバイアスや注釈アーティファクトを示す場合があります。ここで言う注釈アーティファクトとは、特徴とクラスの間に一般的に保持されている因果関係を表さない入出力間の偽の相関を指します。このような相関を利用するモデルは、特定のタスクをうまく実行するように見えるかもしれませんが、サンプル外のデータでは失敗する可能性があります。本論文では、トレーニングデータのアーティファクトの特定を支援するための異なる属性付与方法の使用を評価します。私たちは、重要な入力特徴を強調するサリエンシーマップと、特定の予測に影響を与えるトレーニングサンプルを取得するインスタンス属性付与方法を組み合わせた新しいハイブリッドアプローチを提案します。私たちは、この提案されたトレーニング特徴属性が、チャレンジングな検証セットが利用可能な場合に、トレーニングデータのアーティファクトを効率的に発見するために使用できることを示します。また、これらの方法がNLP研究者にとって実用的であるかどうかを評価するために、小規模なユーザースタディを実施し、有望な結果を得ました。本論文で使用されたすべての方法と実験のコードを公開します。
https://aclanthology.org/2022.findings-acl.153/
Leveraging Expert Guided Adversarial Augmentation For Improving Generalization in Named Entity Recognition
Named Entity Recognition(NER)システムは、イン・ディストリビューション・データにおいては優れたパフォーマンスを示すが、シフトした分布から抽出された例ではパフォーマンスが低下することが多い。NERモデルの汎化能力を評価する方法の1つは、敵対的な例を使用することである。この敵対的な例では、名前付きエンティティに関連する特定の変化はほとんど考慮されない。このため、エキスパートによるヒューリスティックスを活用して、エンティティトークンとその周囲の文脈を変更し、敵対的攻撃としてエンティティタイプを変更することを提案する。エキスパートによるヒューリスティックスを使用して、CoNLL 2003テストセットを拡張し、手動で注釈を付けて高品質なチャレンジングセットを構築した。CoNLL 2003トレーニングデータでトレーニングされた最新のNERシステムは、私たちのチャレンジングセットでパフォーマンスが劇的に低下することがわかった。敵対的に拡張されたトレーニング例でトレーニングし、正則化のためにmixupを使用することで、チャレンジングセットでのパフォーマンスを大幅に改善し、OntoNotesデータを使用して評価したドメイン外の汎化能力も改善することができた。私たちは、https://github.com/GT-SALT/Guided-Adversarial-Augmentationでデータセットとコードを公開しています。
https://aclanthology.org/2022.findings-acl.154/
Label Semantics for Few Shot Named Entity Recognition
私たちは、固有表現認識のフューショット学習の問題を研究しています。具体的には、ラベルの名前に含まれる意味情報を、モデルに追加の信号と豊富な事前知識を与える方法として活用しています。私たちは、2つのBERTエンコーダーからなるニューラルアーキテクチャを提案しています。1つはドキュメントとそのトークンをエンコードし、もう1つは自然言語形式で各ラベルをエンコードします。私たちのモデルは、最初のエンコーダーによって計算された固有表現の表現を、2番目のエンコーダーによって計算されたラベルの表現と一致させることを学習します。ラベルの意味信号は、複数のフューショットNERベンチマークで改良された最新の結果をサポートし、標準ベンチマークでは同等のパフォーマンスを発揮することが示されています。私たちのモデルは、低リソース環境で特に効果的です。
https://aclanthology.org/2022.findings-acl.155/
Detection, Disambiguation, Re-ranking: Autoregressive Entity Linking as a Multi-Task Problem
私たちは、2つの補助タスクでトレーニングされ、推論時に生成されたサンプルを再ランクすることを学習する自己回帰エンティティリンキングモデルを提案します。私たちの提案する新機能は、文献の2つの弱点に対処しています。第1に、最近の方法は、メンション検出を学習し、エンティティ候補の選択を行いますが、事前に定義された候補セットに依存します。私たちは、この必要性をバイパスするために、エンコーダー・デコーダー自己回帰エンティティリンキングを使用し、代わりに補助タスクとしてメンション検出をトレーニングすることを提案します。第2に、以前の研究では、再ランキングが予測エラーを修正するのに役立つと示唆されています。私たちは、再ランキングを学習するための新しい補助タスクであるマッチ予測を追加します。知識ベースや候補セットを使用せずに、私たちのモデルは、バイオメディカルドメインのCOMETAとニュースドメインのAIDA-CoNLLの2つのベンチマークデータセットで新しい最高水準を設定します。私たちは、削除研究を通じて、2つの補助タスクがパフォーマンスを向上させ、再ランキングがその増加の重要な要因であることを示します。最後に、私たちの低リソースの実験結果は、主要なタスクのパフォーマンスが、追加のトレーニングデータだけでなく、補助タスクで学習された知識からも利益を得ることを示唆しています。
https://aclanthology.org/2022.findings-acl.156/
VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator
フォトリアルな環境をナビゲートするインタラクティブロボットは、ビジョン・アンド・ランゲージ・ナビゲーション(VLN)に潜む課題に加え、ダイナミックな対話の性質を効果的に活用し、処理するためにトレーニングする必要があります。本論文では、協調ビジョン・アンド・ダイアログ・ナビゲーション(CVDN)に固有のインタラクティブなレジメに適したマルチモーダルTransformerベースのナビゲータであるVISITRONを提案します。VISITRONは、i)環境と対話履歴のオブジェクトレベルの概念と意味を識別および関連付けること、ii)バイナリ分類ヘッドの模倣学習によるインタラクトするかナビゲートするかを識別することにトレーニングされています。VISITRONを用いた広範な事前トレーニングと微調整の実験により、経験的な洞察を得て、CVDNのパフォーマンスを改善しました。VISITRONのインタラクトするタイミングを識別する能力により、Romanら(2020)によって導入されたゲームプレイモードの自然な一般化が可能になり、このようなモデルを異なる環境で使用することができます。VISITRONは、静的CVDNリーダーボード上のモデルと競合し、パス長による成功重み付け指標(SPL)メトリックで最先端のパフォーマンスを達成しています。
https://aclanthology.org/2022.findings-acl.157/
Investigating Selective Prediction Approaches Across Several Tasks in IID, OOD, and Adversarial Settings
自然言語処理システムに「選択的予測」能力を備えさせるために、いくつかのタスク固有のアプローチが提案されている。しかし、これらのアプローチがどのタスクで最も効果的であるか、あるいは最も単純なベースラインであるMaxProbを常に上回るかどうかは、まだ探究されていない。このため、我々は17のデータセットを対象に、複数のNLPタスクにおける大規模なセットアップで選択的予測を系統的に研究した。IID、OOD、ADVの3つの設定下で包括的な実験を行い、追加のリソース(保持されたデータ/計算)を活用しても、既存のアプローチのいずれもが3つの設定すべてでMaxProbを一貫してかつ著しく上回ることはないことを示した。さらに、これらのアプローチの性能はタスク間でうまく転用されない。たとえば、モンテカルロドロップアウトは重複検出データセットで他のアプローチよりも優れているが、OOD設定下では特にNLIデータセットではうまくいかない。したがって、将来の選択的予測アプローチは、その能力を信頼できるように評価するために、タスクと設定を横断的に評価することを推奨する。
https://aclanthology.org/2022.findings-acl.158/
Unsupervised Natural Language Inference Using PHL Triplet Generation
トランスフォーマーベースのモデルは、それぞれのトレーニングデータセットでトレーニングされた場合、多数の自然言語推論(NLI)ベンチマークで印象的なパフォーマンスを発揮します。しかし、特定の場合においては、トレーニングサンプルが利用できない場合や、それらを収集することが時間とリソースを消費する場合があります。本研究では、上記の課題に取り組み、人間による注釈付きトレーニングサンプルが利用できないパラダイムである非監視型NLIについての探索的研究を行います。我々は、学習に利用可能な未ラベルデータの範囲によって異なるPH、P、およびNPHの3つの設定で調査を行います。解決策として、文の変換のセットを活用してPHL(前提、仮説、ラベル)トリプレットを収集する手順的なデータ生成アプローチを提案し、人間による注釈付きトレーニングデータの必要性を回避します。複数のNLIデータセットでの包括的な実験により、提案手法は、PH、P、およびNPHの設定において、それぞれ最大66.75%、65.9%、65.39%の精度を示し、すべての既存の非監視型ベースラインを上回ります。さらに、人間によるトレーニングデータセット(500インスタンス)のわずか0.1%である場合でも、モデルをゼロからトレーニングした場合よりも12.2%高い精度を発揮することができることを示しました。この優れたパフォーマンスを支持することにより、高品質のタスク固有データの収集を推奨する結論を出します。
https://aclanthology.org/2022.findings-acl.159/
Data Augmentation and Learned Layer Aggregation for Improved Multilingual Language Understanding in Dialogue
多様なドメイン、タスク、言語に対応する対話システムのスケーリングには、異なるドメイン-タスク-言語構成のための高価で時間のかかるデータ注釈が必要です。注釈作業は、ゼロショットおよびフューショットシナリオで一般化する方法によって大幅に削減される可能性があり、また外部の未注釈データソース(例:Webスケールのコーパス)を効果的に活用することもできます。我々は、この目的のために2つの方法を提案し、複数の言語で改善された対話自然言語理解(NLU)を提供します:1)Multi-SentAugment、および2)LayerAgg。Multi-SentAugmentは、大規模な単一言語のWebスケールコーパスから自動的にラベル付けされた同様のドメイン内文を使用して、利用可能な(通常フューショット)トレーニングデータを拡張する自己トレーニング方法です。LayerAggは、Transformerモデル(例:mBERT)の異なるレイヤーに散在する有用な意味情報を選択して組み合わせることを学習します。ゼロショットシナリオに特に適しており、意味的に豊かな表現がモデルのクロスリンガル能力を強化するはずです。最新のNLUモデルを使用して2つの方法を適用すると、16の異なる言語をカバーする2つの標準的な多言語NLUデータセットで一貫した改善が得られます。改善は、ゼロショット、フューショット、およびフルデータシナリオで観察されます。結果は、2つの方法が相乗効果を発揮することを示唆しており、フューショットセットアップでの最良の全体的なパフォーマンスは、方法を一緒に使用した場合に達成されます。
https://aclanthology.org/2022.findings-acl.160/
Ranking-Constrained Learning with Rationales for Text Classification
私たちは、限られたトレーニングデータで深層学習モデルのトレーニングを加速するために、ラベルと引き出された根拠を共同利用する新しいアプローチを提案します。私たちは、クロスエントロピー損失とランキング損失を根拠制約として組み合わせたランキング制約損失関数を定義し、最適化します。私たちは、3つの人間による注釈付きデータセットで提案された根拠拡張学習アプローチを評価し、根拠を利用しない分類アプローチや他の最新の根拠拡張ベースラインよりも、私たちのアプローチが大幅な改善を提供することを示します。
https://aclanthology.org/2022.findings-acl.161/
CaM-Gen: Causally Aware Metric-Guided Text Generation
コンテンツは、構造化された情報の形で表されるメトリックまたはシグナルによってしばしば説明される、明確に定義された目的のために作成されます。ターゲットコンテンツの目標(メトリック)とコンテンツ自体の関係は、非自明です。大規模言語モデルは、有望なテキスト生成能力を示していますが、外部メトリックで生成されたテキストを誘導することは困難です。これらのメトリックとコンテンツには固有の関係があり、すべてが重要ではない場合があります。本論文では、ユーザー定義のターゲットメトリックによって誘導される因果関係を考慮したCaM-Gen:因果関係を考慮した生成ネットワークを紹介します。因果推論技術を活用して、ターゲットメトリックにつながる因果的に重要なテキストの側面を特定し、フィードバックメカニズムによって生成モデルを明示的にこれらに誘導します。提案されたメカニズムは、変分オートエンコーダーとTransformerベースの生成モデルに対して提案されています。提案されたモデルは、ターゲットメトリックの制御を維持しながら、生成されたテキストの流暢さと言語品質を維持する点でベースラインを上回っています。私たちの知る限り、これは因果推論を使用した制御された生成の初期の試みの1つです。
https://aclanthology.org/2022.findings-acl.162/
Training Dynamics for Text Summarization Models
事前学習された言語モデル(例:BART)は、大規模な要約データセットで微調整された場合、印象的な結果を示しています。しかし、この微調整プロセスについては、事前学習時にどのような知識が保持されるか、また、どのようにコンテンツ選択と生成戦略が反復学習で学習されるかについては、ほとんど理解されていません。本研究では、要約に焦点を当てた生成モデルのトレーニングダイナミクスを分析します。CNN/DM、XSum、MediaSumなどの異なるデータセットや、抽象性や幻想などの要約特性にわたって、モデルが微調整プロセスの異なる段階で学習する内容を研究します。我々は、すべての研究対象のデータセットで、入力をコピーする傾向がトレーニングプロセスの早い段階で学習されることを発見しました。一方、幻想的なサポートされていない事実の幻想などの事実上の誤りは、後の段階で学習されますが、この行動はドメインによってより多様です。これらの観察に基づいて、トレーニングを変更する補完的なアプローチを探索します。第一に、学習が難しい高損失トークンを無視すること、第二に、トレーニングプロセスの後半で非常に速く学習される低損失トークンを無視することです。これらの単純なトレーニング変更により、モデルを異なる目標に達成するように構成できることを示します。例えば、事実性を向上させたり、抽象性を向上させたりすることができます。
https://aclanthology.org/2022.findings-acl.163/
Richer Countries and Richer Representations
私たちは、埋め込み空間において、ある国が他の国よりも豊富に表現されているかどうかを調べました。私たちは、トレーニングコーパスでの出現頻度が低い国は、サブワードにトークン化されやすく、埋め込み空間で意味的に区別されにくく、正しく予測されにくいことを発見しました。たとえば、「最も多くのココアを生産している国は[MASK]です。」という質問に対して、正解であり語彙内にあるガーナは予測されませんでした。これらの性能の差異と表現上の損害は、出現頻度に起因していますが、出現頻度は国のGDPと高い相関があるため、歴史的な権力と富の不平等を永続化しています。私たちは、緩和策の効果を分析し、研究者がトレーニング単語の頻度を報告することを推奨し、コミュニティが表現保証を定義および設計するための将来の研究を推奨します。
https://aclanthology.org/2022.findings-acl.164/
BBQ: A hand-built bias benchmark for question answering
自然言語処理に関する論文の要約文を日本語に翻訳してください。 NLPモデルが社会的なバイアスを学習することはよく知られていますが、これらのバイアスが応用タスクである質問応答(QA)のモデル出力にどのように現れるかについてはほとんど研究が行われていません。筆者らが構築した、米国英語圏に関連する9つの社会的次元に沿った保護されたクラスに属する人々に対する社会的バイアスを強調する質問セットのデータセットである「Bias Benchmark for QA(BBQ)」を紹介します。我々のタスクは、(i)情報不足な文脈が与えられた場合、モデルの応答がどの程度社会的バイアスを反映するかをテストし、(ii)十分な情報が与えられた文脈が与えられた場合、モデルのバイアスが正しい回答選択肢を上書きするかどうかをテストします。我々は、文脈が情報不足な場合、モデルがステレオタイプに頼ることが多いことを発見しました。つまり、この設定ではモデルの出力が一貫して有害なバイアスを再現しています。文脈が情報を提供する場合、モデルはより正確になりますが、ステレオタイプに頼ることがあり、正しい回答が社会的バイアスに一致する場合、平均して3.4パーセントポイント高い精度を示し、矛盾する場合よりも高い精度を示します。これに対して、ジェンダーを対象とした例では、ほとんどのテストされたモデルにおいて、この差は5ポイント以上に広がります。
https://aclanthology.org/2022.findings-acl.165/
Zero-shot Learning for Grapheme to Phoneme Conversion with Language Ensemble
Grapheme-to-Phoneme(G2P)は、NLPおよび音声分野で多くの応用があります。既存の多くの研究は、豊富なトレーニングデータセットを持つ言語に重点を置いており、対象言語の範囲が100言語未満に制限されています。この研究では、Glottologのすべての低資源および絶滅危惧種の言語(約8,000言語)に対して、ゼロショット学習を適用してG2Pモデルを近似することを試みています。未知の対象言語に対して、まず系統樹(つまり言語系統樹)を構築して、トレーニングセットを持つ上位kの最も近い言語を特定します。その後、それらの言語のモデルを実行して仮説セットを取得し、混乱ネットワークに組み合わせて、対象言語の近似として最も可能性の高い仮説を提案します。私たちは600以上の未知の言語でアプローチをテストし、ベースラインを大幅に上回ることを示しています。
https://aclanthology.org/2022.findings-acl.166/
Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for Under-Documented Languages
自然言語処理における最近の進歩は、巨大なデータセットを活用する事前学習モデルによって推進され、主に世界の政治的・経済的な超大国に恩恵をもたらしています。技術的に未開発な言語は、そのようなリソースがないため取り残されています。しかし、数百もの未開発言語は、言語文書化の取り組みからインターリニア形式の注釈付きテキスト(IGT)のデータソースを利用できます。IGTは、その注釈が半構造化であり、しばしば言語固有であるため、NLPの作業で十分に活用されていません。本論文では、対象言語の専門知識がある場合にIGTデータを成功裏に活用できることを主張します。特に、文書化言語学者との協力を提唱しています。本論文では、IGTデータを利用した成功したプロジェクトのロードマップを提供します。(1)与えられたIGTデータで達成できるNLPタスクと、これらがスピーチコミュニティにどのように役立つかを定義することが不可欠です。(2) NLPで一般的に使用される構造化形式にデータを変換する際には、十分な注意と対象言語の専門知識が必要です。(3)タスク固有およびユーザー固有の評価により、作成されたツールが対象言語スピーチコミュニティに利益をもたらすことが確認できます。本論文では、Tsimchianic言語Gitksanの形態論的再屈折システムを開発する事例研究を通じて、各ステップを説明します。
https://aclanthology.org/2022.findings-acl.167/
Question Generation for Reading Comprehension Assessment by Modeling How and What to Ask
読書は日常生活に不可欠であり、しかし読み方を学ぶことは多くの若い学習者にとって苦労です。授業中、教師は理解力問題を使用して、関与度を高め、読み方のスキルをテストし、保持力を向上させることができます。歴史的に、このような問題は熟練した教師によって書かれていましたが、最近では言語モデルが理解力問題を生成するために使用されています。しかし、多くの既存の問題生成(QG)システムは、テキストから抽出的な問題を生成することに焦点を当てており、生成される問題のタイプを制御する方法がありません。本論文では、推論的な問題が重要であり、抽出的な技術が使用できない読解のためのQGを研究します。我々は、以前のデータセットを活用し、特定のターゲット読解スキルのための問題を生成することができる2段階モデル(HTA-WTA)を提案します。我々は、物語ベースの読解スキル(SBRCS)で注釈付けされた問題を含む新しい読解データセットを提案し、より完全な読者評価を可能にします。複数の実験を通じて、我々の結果は、HTA-WTAがこの新しいデータセットで複数の強力なベースラインを上回ることを示しています。我々は、HTA-WTAモデルが深い推論的な問題を尋ねることによって強力なSCRSをテストすることを示しています。
https://aclanthology.org/2022.findings-acl.168/
TABi: Type-Aware Bi-Encoders for Open-Domain Entity Retrieval
エンティティ検索は、質問応答や事実確認などのオープンドメインタスクにおいて、クエリ内のエンティティメンションに関する情報を取得するための重要なステップである。しかし、最新のエンティティ検索器は、人気のあるエンティティに偏りがあるため、曖昧なメンションの稀なエンティティを取得するのに苦労している。トレーニング中に知識グラフタイプを組み込むことで、人気の偏りを克服することができるが、いくつかの課題がある。 (1)既存のタイプベースの検索方法は、メンションの境界を入力として必要とするが、オープンドメインタスクは構造化されていないテキスト上で実行される。(2)タイプベースの方法は、全体的なパフォーマンスを損なうべきではない。(3)タイプベースの方法は、ノイズや欠落したタイプに対して堅牢である必要がある。本研究では、オープンドメインタスクのエンティティ検索のために、知識グラフタイプと構造化されていないテキストの両方をバイエンコーダで共同トレーニングするTABiという方法を紹介する。TABiは、タイプに基づくコントラスティブ損失を利用して、類似したタイプのエンティティとクエリが埋め込み空間で近くなるように促す。TABiは、Ambiguous Entity Retrieval(AmbER)セットで稀なエンティティの検索を改善し、KILTベンチマークのオープンドメインタスクにおいて、最新の検索器と比較して強力な全体的な検索パフォーマンスを維持する。TABiは、トレーニングデータセットのタイプカバレッジがわずか5%のベースラインよりも、不完全なタイプシステムに対しても堅牢であり、コードを公開している。
https://aclanthology.org/2022.findings-acl.169/
Hierarchical Recurrent Aggregative Generation for Few-Shot NLG
大規模な事前学習済みモデルは、言語生成タスクの低リソースドメインへの転移学習を可能にします。しかし、以前のエンドツーエンドアプローチは、集約や語彙化などの一部の生成サブタスクが、異なる程度で転移学習の恩恵を受けることを考慮していませんでした。これらの転移学習の潜在能力を活用するために、我々はfew-shotおよびzero-shot生成のための新しい階層的アプローチを提案します。我々のアプローチは、3つのモジュールで構成される共同学習アーキテクチャであり、第1のモジュールは入力の異なる情報ユニットを文のサブユニット(例:フレーズ)として独立して語彙化し、第2のモジュールはこれらのサブユニットを再帰的に集約して統一された中間出力を生成し、第3のモジュールはそれを後編集して一貫性のある流暢な最終テキストを生成します。我々は、4つのデータセットでfew-shotおよびzero-shot設定での広範な実証分析と削除研究を行いました。自動評価と人間の評価により、提案された階層的アプローチは、以前の研究と比較して常に最先端の結果を達成することができることが示されました。
https://aclanthology.org/2022.findings-acl.170/
Training Text-to-Text Transformers with Privacy Guarantees
自然言語処理における最近の進歩は、大規模なトランスフォーマーベースの事前学習モデルからしばしば生じ、これらは急速にサイズが拡大し、より多くのトレーニングデータを使用します。このようなモデルは、エンドユーザーがタスクデータセットで微調整できるように一般に公開されます。事前学習データを公開することは一般的ですが、名前、電話番号、著作権物などの個人を特定できる情報(PII)が含まれている場合があります。最近の研究結果は、これらのモデルの容量がトレーニングデータの一部を記憶することを可能にすることを示し、異なるプライバシー(DP)トレーニングを潜在的な緩和策として示唆しています。NLPモデルのDP微調整に関する最近の研究がある一方で、DP事前学習の影響はあまり理解されていません。DP事前学習が下流のパフォーマンスにどのように影響するか、またDP事前学習が記憶の懸念を緩和するかどうかは明確ではありません。私たちはT5に焦点を当て、JAXとXLAの最近の進歩を使用して、DPを使用したモデルをトレーニングできることを示しました。これらのモデルは、事前学習の有用性やトレーニング速度に大きな低下がなく、下流のタスク(例:GLUE)で高い精度に微調整できます。さらに、T5のスパン破損は、データの記憶に対する良い防御策であることを示しました。
https://aclanthology.org/2022.findings-acl.171/
Revisiting Uncertainty-based Query Strategies for Active Learning with Transformers
アクティブラーニングは、ターゲットラベリングを通じて分類モデルを反復的に構築し、ラベリングコストを大幅に削減することができます。アクティブラーニングに関するほとんどの研究は、トランスフォーマーベースの言語モデル(「トランスフォーマー」)が一般的になる前に行われたため、実用的な重要性にもかかわらず、トランスフォーマーをアクティブラーニングにどのように組み合わせるかを調査した論文は比較的少数です。これは、トランスフォーマーの最新のクエリ戦略を使用することが、禁止されたランタイムオーバーヘッドを引き起こすためであり、望ましいコスト削減を無効化するか、さらに重くすることができるためです。そのため、我々は、以前は大幅に性能が低下していた不確実性に基づくクエリ戦略を再検討し、トランスフォーマーのファインチューニングの文脈で特に適していることを示します。広範な評価により、トランスフォーマーを以前の研究の実験に接続し、5つの広く使用されているテキスト分類ベンチマークでのパフォーマンスを評価します。トランスフォーマーを使用したアクティブラーニングでは、他のいくつかの不確実性に基づくアプローチが、よく知られた予測エントロピークエリ戦略よりも優れており、テキスト分類のアクティブラーニングにおける最も人気のある不確実性ベースラインの地位に挑戦しています。
https://aclanthology.org/2022.findings-acl.172/
The impact of lexical and grammatical processing on generating code from natural language
自然言語処理に関する論文の要約文を日本語に翻訳してください。 自然言語からコードへの翻訳のためのYinとNeubig(2018)のseq2seqアーキテクチャを考慮すると、文法的制約、語彙前処理、入力表現、およびコピー機構の4つの重要な要素を特定します。これらの要素の影響を研究するために、BERTエンコーダーと文法ベースのデコーダーに依存する最新のアーキテクチャを使用し、その形式化が提供されます。本論文は、現在の自然言語からコードへのシステムにおける語彙置換コンポーネントの重要性を強調しています。
https://aclanthology.org/2022.findings-acl.173/
Seq2Path: Generating Sentiment Tuples as Paths of a Tree
アスペクトベースの感情分析(ABSA)タスクは、文から感情のタプルを抽出することを目的としています。Seq2Seqモデルなどの最近の生成的手法は、出力を感情のタプルのシーケンスとして定式化することにより、良好な性能を発揮しています。しかし、感情のタプル間の順序は自然に存在せず、現在のタプルの生成は前のタプルに依存すべきではありません。本論文では、感情のタプルを木のパスとして生成するSeq2Pathを提案します。木は「1対n」の関係を表すことができます(例えば、アスペクト用語は複数の意見用語に対応する場合があります)、そして木のパスは独立して順序を持ちません。トレーニングでは、各パスを独立したターゲットとして扱い、通常のSeq2Seqモデルの平均損失をパスごとに計算します。推論では、制約付きデコーディングを行うビームサーチを適用します。追加の識別トークンを導入し、データ拡張技術を適用することで、有効なパスを自動的に選択することができます。AOPE、ASTE、TASD、UABSA、ACOSを含む5つのタスクで実験を行いました。Laptop14、Rest14、Rest15、Rest16を含む4つの一般的なベンチマークデータセットで、提案手法を評価しました。提案手法は、ほとんどの場合で最先端の結果を達成しました。
https://aclanthology.org/2022.findings-acl.174/
Mitigating the Inconsistency Between Word Saliency and Model Confidence with Pathological Contrastive Training
ニューラルネットワークは、その驚異的な性能のため、様々なNLPタスクで広く使用されています。しかし、その複雑さから、解釈が困難であり、つまり、正しい理由で正しいと保証されていない。複雑さに加えて、単語の重要性とモデルの信頼性の間の不一致であるモデル病理学を明らかにし、解釈性をさらに損なっていることを明らかにします。我々は、病理学的な不一致が、異なる重要度を持つトークンを含む文の表現崩壊の問題によって引き起こされることを示し、重要な単語がモデル信頼性の変化に関して重要でない単語と区別できないため、病理学的な不一致が生じることを示します。本論文では、この病理学的な問題を緩和し、より解釈可能なモデルを生成するために、コントラスティブ学習と重要度に基づくサンプル拡張を採用した病理学的コントラスティブトレーニング(PCT)フレームワークを提案します。定性的分析と組み合わせて、我々は8つの合理的なメトリックで解釈性を測定する広範な定量的実験を行いました。実験結果は、我々の方法がモデル病理学を緩和し、モデルの性能を維持しながらより解釈可能なモデルを生成できることを示しています。削除研究も有効性を示しています。
https://aclanthology.org/2022.findings-acl.175/
Your fairness may vary: Pretrained language model fairness in toxic text classification
自然言語処理システムにおける事前学習言語モデルの人気は、社会的影響の可能性が高いダウンストリームタスクにおいて、このようなモデルの慎重な評価を求めています。このようなシステムの評価は通常、精度指標に焦点を当てています。本論文の結果は、公平性指標にも注意を払う必要があることを示唆しています。英語の2つの有害テキスト分類タスクにおけるさまざまなサイズの12以上の事前学習言語モデルの分析を通じて、精度指標に焦点を当てることが公平性特性に幅広い変動をもたらす可能性があることを示します。具体的には、トレーニングデータサイズの増加や異なるランダム初期化により、公平性が精度よりもさらに変動することを観察します。同時に、文献にある主張にもかかわらず、モデルサイズによって説明される公平性の変動はほとんどないことがわかります。再トレーニングせずにモデルの公平性を改善するために、構造化された表形式データ用に開発された2つの後処理方法が、さまざまな事前学習言語モデルに適用できることを示します。警告:本論文には攻撃的なテキストのサンプルが含まれています。
https://aclanthology.org/2022.findings-acl.176/
ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
チャートはデータ分析において非常に人気があります。チャートを探索する際、人々はしばしば複数の論理的および算術的操作を含む複雑な推論的な質問をします。彼らはまた、質問に視覚的な特徴を頻繁に参照します。しかし、既存のデータセットのほとんどは、質問がテンプレートベースであり、回答が固定ボキャブラリから来るため、このような複雑な推論的な質問に焦点を当てていません。本研究では、人間が書いた9.6Kの質問と、人間が書いたチャートの要約から生成された23.1Kの質問をカバーする大規模なベンチマークを提供します。チャートに関する視覚的および論理的推論に関するユニークな課題に対処するために、我々は、チャートのデータテーブルと視覚的特徴を統合的に扱う2つのトランスフォーマーベースのモデルを提供します。我々のモデルは、以前のデータセットだけでなく、我々のベンチマークでも最先端の結果を達成していますが、評価は複雑な推論的な質問に答えるためのいくつかの課題を明らかにしています。
https://aclanthology.org/2022.findings-acl.177/
A Novel Perspective to Look At Attention: Bi-level Attention-based Explainable Topic Modeling for News Classification
最近の深層学習ベースの解決策は、NLP分野のさまざまなタスクでアテンションメカニズムを採用しています。しかし、深層学習モデルの固有の特性とアテンションメカニズムの柔軟性により、モデルの複雑さが増し、モデルの説明可能性に課題が生じます。この課題に対処するために、私たちは2層のアテンションアーキテクチャを利用して、説明の複雑さと意思決定プロセスを分離する新しい実用的なフレームワークを提案します。私たちは、ニュース記事分類タスクの文脈でそれを適用します。2つの大規模なニュースコーパスでの実験は、提案されたモデルが多くの最新の代替手段と競争力のあるパフォーマンスを発揮し、説明可能性の観点からの適切さを示しています。私たちはここでソースコードを公開します。
https://aclanthology.org/2022.findings-acl.178/
Learn and Review: Enhancing Continual Named Entity Recognition via Reviewing Synthetic Samples
従来の固有表現認識(NER)の方法は、言及を事前定義された固定のエンティティタイプのセットに分類します。しかし、多くの現実世界のシナリオでは、新しいエンティティタイプが段階的に関与しています。この問題を調査するために、NERのための継続的学習が導入されています。しかし、既存の方法はタスク間の関連性に依存しており、タイプ間の混乱に陥りやすいです。本論文では、上記の問題を緩和するために、タイプ増分設定下での継続的NERのための新しい2段階フレームワークLearn-and-Review(L&R)を提案します。具体的には、学習段階では、現在のデータセット上の教師から生徒に古い知識を蒸留します。レビューステージでは、古いタイプの合成サンプルを生成してデータセットを拡張します。その後、上記の生徒から新しい知識と教師から古い知識をさらに蒸留して、拡張されたデータセット上の強化された生徒を得ます。この段階には以下の利点があります:(1)合成サンプルは古いタスクと新しいタスクのギャップを緩和し、さらなる蒸留を強化します。 (2)トレーニング中に異なるタイプのエンティティが共同で見られるため、タイプ間の混乱が緩和されます。実験結果は、L&RがCoNLL-03およびOntoNotes-5.0で最先端の方法を上回ることを示しています。
https://aclanthology.org/2022.findings-acl.179/
Phoneme transcription of endangered languages: an evaluation of recent ASR architectures in the single speaker scenario
絶滅危惧言語の文書化において、転写はしばしばボトルネックとして報告され、希少な話者や転写者から大きな努力を必要とします。一般的に、自動音声認識(ASR)は、大量の転写済みデータでトレーニングされた場合にのみ、転写を加速するために十分に正確であることができます。しかし、単一の話者が関与する場合、いくつかの研究では、少量のトレーニングでも音素転写において励みとなる結果が報告されています。本研究では、11の言語の共通データセットで、最近のトランスフォーマーや事前学習済みの多言語モデルなど、4つのASRアプローチを比較することで、話者依存の転写に関するこれまでの研究を拡張します。また、形態的に複雑な言語や発音辞書が存在しない書記システムを扱う音素認識セットアップを開発し、データの準備、トレーニング、評価のステップを自動化しました。多言語事前学習済みモデルを微調整することで、トレーニングに99分以下の転写済みデータが必要な6つの言語について、平均音素エラー率(PER)が15%になることがわかりました。トレーニング時間が100〜192分の5つの言語については、PERが8.4%以下になりました。これらの多様な言語に関する結果から、ASRは、絶滅危惧言語の文書化において一般的な話者依存の状況で転写の努力を大幅に減らすことができることが示唆されています。
https://aclanthology.org/2022.findings-acl.180/
Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on a Syntactic Task
トランスフォーマーベースのニューラル言語モデルは、さまざまなタスクで印象的なパフォーマンスを発揮していますが、その汎化能力はよく理解されていません。広範な設定で主語-動詞の数の一致を強力に実行することが示されており、明示的な監視なしにトレーニング中に構文依存関係を追跡することを学んだことを示唆しています。本論文では、BERTが対象とする構文テンプレートで語彙に依存しない主語-動詞の数の一致(NA)を実行できるかどうかを調べます。そのために、BERTの動作の新しい細かい解析において、各対象構造の自然発生刺激に見られる語彙パターンを妨害します。ノンス文に関する私たちの結果は、単純なテンプレートに対してモデルが汎化能力を持っていることを示唆していますが、少なくとも1つのアトラクタが存在する場合、語彙に依存しない構文汎化を実行できないことを示しています。
https://aclanthology.org/2022.findings-acl.181/
Combining Static and Contextualised Multilingual Embeddings
静的および文脈的な多言語埋め込みは、相補的な強みを持っています。静的埋め込みは、文脈的言語モデルよりも表現力が低いですが、複数の言語間でより簡単に整列できます。私たちは、静的モデルと文脈的モデルの強みを組み合わせて、多言語表現を改善します。私たちは、XLM-Rから40言語の静的埋め込みを抽出し、クロスリンガルな単語検索でそれらの埋め込みを検証し、VecMapを使用して整列します。これにより、高品質で高度に多言語の静的埋め込みが得られます。次に、私たちは、XLM-Rの表現空間をよりよく整列させるために、静的埋め込みの高品質な整列を活用した新しい継続的事前学習アプローチを適用します。私たちは、複数の複雑な意味タスクに対して肯定的な結果を示しています。私たちは、静的埋め込みと継続的事前学習コードを公開しています。従来の多くの研究とは異なり、私たちの継続的事前学習アプローチには平行テキストが必要ありません。
https://aclanthology.org/2022.findings-acl.182/
An Accurate Unsupervised Method for Joint Entity Alignment and Dangling Entity Detection
知識グラフの統合は、しばしば知識グラフ間で対応が見つからないダングリングエンティティが広く存在するため、問題が発生する。ダングリングエンティティセットは、ほとんどの現実世界のシナリオでは利用できず、同じ意味を持つエンティティから構成されるエンティティペアを手動で探すことは労力がかかる。本論文では、正確な非監視型のエンティティアラインメント(EA)とダングリングエンティティ検出(DED)の共同手法であるUEDを提案する。UEDは、リテラル意味情報を採掘して擬似エンティティペアとグローバルに誘導されたアラインメント情報を生成し、EAに利用し、EAの結果をDEDの支援に利用する。EAとDEDの両方のタスクのデータを提供する医療クロスリンガル知識グラフデータセットMedEDを構築する。広範な実験により、UEDはEAタスクで、最新の監視型EAベースラインと同等のEA結果を達成し、監視型EAデータを組み合わせた現在の最先端のEA方法を上回る。DEDタスクでは、UEDは監視なしでも高品質の結果を得ることができる。
https://aclanthology.org/2022.findings-acl.183/
Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the Research Manifold
典型的なNLP実験は、公平性、解釈可能性、計算効率などの他の次元を考慮せず、ラベル付きの英語データに標準アーキテクチャをトレーニングし、精度を最適化することです。私たちは、最近のNLP研究論文を手動で分類することによって、これが実際にそのような場合であることを示し、それをスクエアワン実験セットアップと呼んでいます。NLP研究は、しばしばスクエアワンセットアップを超えて、精度だけでなく、公平性や解釈可能性にも焦点を当てるなど、単一の次元に沿っていることが多いことに気付きます。たとえば、多言語性を対象とした多くの研究は、精度だけを考慮しています。公平性や解釈可能性に関する多くの研究は、英語にしか焦点を当てていません。このような一次元の研究の多くは、NLP研究の検索空間の一部しか探索していないことを意味します。私たちは、スクエアワンバイアスが研究者が誤った結論を導いたり、賢明でない選択をしたりする原因になった歴史的および最近の例を提供し、研究多様体でまだ探索されていない有望な方向を指摘し、より多次元の研究を可能にするための実用的な推奨事項を提供します。私たちは、注釈の結果をオープンソース化して、さらなる分析を可能にします。
https://aclanthology.org/2022.findings-acl.184/
Systematicity, Compositionality and Transitivity of Deep NLP Models: a Metamorphic Testing Perspective
最近、変形テストはニューラルNLPモデルの安全性を確認するために使用されています。その主な利点は、テストケースを生成するためにグラウンドトゥルースに依存しないことです。しかし、既存の研究は主に頑健性のような変形関係に関心があり、テストできる言語的特性の範囲が限られています。我々は、系統性、合成性、推移性の特性に対応する3つの新しい変形関係のクラスを提案します。我々の関係は頑健性とは異なり、複数のソース入力に対して定義されているため、生成できるテストケースの数が多項式的に増加します。これらを使用して、最新のNLPモデルの内部整合性をテストし、期待される言語的特性に常に従わないことを示します。最後に、変形関係の内部構造を効率的に要約する新しいグラフィカル表記を紹介します。
https://aclanthology.org/2022.findings-acl.185/
Improving Neural Political Statement Classification with Class Hierarchical Information
テキストベースの計算社会科学(CSS)における多くのタスクは、ドメイン固有のコードブックに基づいて政治的な声明をカテゴリに分類することを必要とする。CSS分析に有用であるためには、これらのカテゴリは細かくなければならない。しかし、細かいカテゴリの通常の偏った分布は、NLP側での難しい分類問題を引き起こす。本論文では、このようなコードブックに通常存在するカテゴリ間の階層関係を利用することを提案する。例えば、市場と課税は経済のサブカテゴリであり、国境はセキュリティのサブカテゴリである。これらのオントロジー関係を事前知識として使用し、学習モデルに追加の制約を設定することで、全体的な性能と特に頻度の低いカテゴリの性能を向上させる。我々は、2つのデータセットと複数の言語で最先端のトランスフォーマーベースのテキスト分類器を拡張するいくつかの軽量なバリアントを評価する。我々は、正則化に基づくアプローチについて最も一貫した改善を見出した。
https://aclanthology.org/2022.findings-acl.186/
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation
最近、大量の画像テキストペアデータを用いたデュアルストリームアーキテクチャ(例:CLIP)のビジョン言語プレトレーニング(VLP)が、様々なマルチモーダルアラインメントタスクで優れた性能を発揮している。しかし、その結果得られたモデルは、弱いテキストエンコーダのためにマルチモーダル生成タスクには対応できない。この問題に対処するために、我々はビジョン言語知識蒸留(VLKD)を介してテキストプレトレーニング言語モデル(PLM)をデュアルストリームVLPモデルに追加し、マルチモーダル生成の能力を実現することを提案する。VLKDは、スクラッチからのプレトレーニングに比べてデータと計算効率が高い。実験結果は、オープンエンドのビジュアルクエスチョンアンサリングや画像キャプショニングなどのマルチモーダル生成タスクにおいて、強力なゼロショット性能を発揮することを示している。例えば、VQAv2データセットで44.5%のゼロショット精度を達成し、以前の最先端のゼロショットモデルよりも7倍少ないパラメータで上回っている。さらに、VLKD後もPLMの元々のテキスト言語理解と生成能力が維持されるため、我々のモデルはマルチモーダルタスクと単一モーダルタスクの両方に対応できる。
https://aclanthology.org/2022.findings-acl.187/
Co-VQA : Answering by Interactive Sub Question Sequence
既存のVisual Question Answering(VQA)アプローチの多くは、質問に直接回答するが、人々は通常、複雑な質問を単純なサブ質問のシーケンスに分解し、サブ質問シーケンスを回答して最終的に元の質問の答えを得る。このプロセスをシミュレーションすることで、本論文では、Questioner、Oracle、Answererの3つのコンポーネントから構成される会話型VQA(Co-VQA)フレームワークを提案する。Questionerは、拡張HREDモデルを使用してサブ質問を提起し、Oracleは1つずつ回答する。Answerer用のAdaptive Chain Visual Reasoning Model(ACVRM)も提案されており、質問-回答ペアを使用して視覚表現を順次更新する。各モデルの教師あり学習を実行するために、VQA 2.0およびVQA-CP v2データセットの各質問に対してSQSを構築するためのよく設計された方法を紹介する。実験結果は、当社の方法がVQA-CP v2で最先端を達成していることを示している。さらに、SQSは、質問と画像の間に直接的な意味的なつながりを構築し、質問に適応した可変長推論チェーンを提供し、明示的な解釈可能性とエラートレーサビリティを提供することが分析によって示されている。
https://aclanthology.org/2022.findings-acl.188/
A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation
アーリーエグジットは、難易度の推定に応じてインスタンスを異なるレイヤーで終了させることを可能にします。従来の手法では、内部出力のエントロピーなどのヒューリスティックなメトリックを使用してインスタンスの難易度を測定していましたが、これは一般化と閾値調整の問題があります。それに対して、終了を学習する、またはインスタンスの難易度を予測することを学習することがより魅力的な方法です。これらの「学習して終了する」モジュールを使用するための努力がなされていますが、インスタンスの難易度がどの程度学習できるかはまだ不明です。そのため、まずインスタンスの難易度の学習可能性に関する実験を行い、現代のニューラルモデルがインスタンスの難易度を予測するのに不十分であることを示しました。この観察に基づいて、私たちは、内部分類器や追加のパラメーターが必要なく、より効率的であるHash-based Early Exitingアプローチ(HashEE)を提案しました。HashEEは、seq2seqモデルなどのさまざまなタスク(言語理解や生成を含む)およびモデルアーキテクチャで使用できます。分類、回帰、生成タスクの実験結果は、HashEEが以前の最先端のアーリーエグジット手法と比較して、より少ないFLOPと推論時間でより高いパフォーマンスを発揮できることを示しています。
https://aclanthology.org/2022.findings-acl.189/
Auxiliary tasks to boost Biaffine Semantic Dependency Parsing
(CITATION)のバイアフィンパーサーは、意味依存解析(SDP)に拡張され、グラフに対する性能が驚くほど高いことが示された。文の全てのアークが互いに独立して予測されるため、木を生成する制約がないにもかかわらず、トークンの共有表現を除いて、互いに独立して予測されることになる。このような決定の独立性を回避しながら、O(n2)の複雑さと高度に並列化可能なアーキテクチャを維持するために、アーク間のある形式の相互依存性を導入する単純な補助タスクを使用することを提案する。SemEval-2015タスク18の3つの英語非循環データセットと、フランス語の深層構文循環グラフにおける実験では、トランスフォーマーベースのコンテキスト化された表現を使用したほぼ最新のベースラインに対して、わずかながら系統的な性能向上が示された。これは、SDPの性能を向上させるための簡単で堅牢な方法を提供する。
https://aclanthology.org/2022.findings-acl.190/
Syntax-guided Contrastive Learning for Pre-trained Language Model
構文情報は、トランスフォーマーベースの事前学習言語モデルにとって有用であることが証明されています。以前の研究では、トランスフォーマーを強化するために追加の構文ガイドアテンションコンポーネントに頼ることが多く、ダウンストリームタスクでの追加の構文解析とパラメータが必要でした。この複雑さの増加は、構文強化言語モデルの広範なシナリオでの適用を厳しく制限しています。事前学習言語モデルに効果的かつ効率的に構文知識を注入するために、我々はトランスフォーマーアーキテクチャを変更しない新しい構文ガイド対比学習方法を提案します。構文木の構成要素と依存構造に基づいて、フレーズガイドとツリーガイドの対比目標を設計し、事前学習段階で最適化して、事前学習言語モデルがその表現に豊富な構文知識を捉えるのを支援します。実験結果は、文法エラー検出、エンティティタスク、構造プロービング、GLUEを含むさまざまなタスクで、当社の対比法が一貫して改善を達成していることを示しています。詳細な分析は、改善が構文情報の利用から来ており、学習されたアテンション重みが言語学的に説明可能であることをさらに検証しています。
https://aclanthology.org/2022.findings-acl.191/
Improved Multi-label Classification under Temporal Concept Drift: Rethinking Group-Robust Algorithms in a Label-Wise Setting
例えば法律や医療のテキストの分類において、非常に頻度の低いクラスを含む数百のクラスを扱うことがよくあります。また、政策変更、紛争、パンデミックなどの現実世界の出来事の影響による時間的な概念の変化もあります。クラスの不均衡やドリフトは、既知のターゲット分布をシミュレート(または補償する)ためにトレーニングデータを再サンプリングすることで緩和できる場合がありますが、ターゲット分布が未知の将来の出来事によって決定される場合はどうでしょうか?私たちは、単にベットをかけるために均等に再サンプリングする代わりに、文書分類器のトレーニングに使用される基礎となる最適化アルゴリズムに焦点を当て、グループレベルの不均衡を緩和するために最初に提案されたいくつかのグループロバスト最適化アルゴリズムを評価します。グループロバストアルゴリズムを概念のドリフト下での適応アルゴリズムとして再構成することで、不均衡クラスと概念ドリフトに対するサンプリングベースのアプローチよりも不変リスク最小化とスペクトル分離が優れており、少数派クラスのパフォーマンスが大幅に向上することがわかりました。この効果は、ラベルセットが大きいほど顕著です。
https://aclanthology.org/2022.findings-acl.192/
ASCM: An Answer Space Clustered Prompting Method without Answer Engineering
プロンプトベースの学習は、テキストプロンプトを提供し、適切な回答カテゴリマッピング方法を設計することで、事前にトレーニングされた言語モデルからの知識を利用し、少数のテキスト分類や自然言語推論(NLI)において印象的な成功を収めています。多様な言語表現のため、同じカテゴリのために多くの回答トークンが存在します。しかし、手動回答設計と自動回答検索の両方が回答空間を制限するため、理想的なパフォーマンスをほとんど達成できません。この問題に対処するために、我々は回答空間クラスタリングプロンプトモデル(ASCM)とシノニム初期化方法(SI)を提案し、すべての回答トークンを意味的にクラスタリングされた埋め込み空間に自動的に分類します。また、より良いモデルから弱いモデルに知識を整然と蒸留する安定した半教師あり学習方法であるステア学習(SL)を提案します。広範な実験により、ASCM+SLが少数の設定で既存の最先端技術を大幅に上回ることが示されました。
https://aclanthology.org/2022.findings-acl.193/
Why don’t people use character-level machine translation?
私たちは、機械翻訳(MT)のための文字レベルモデリングの最新状況を批判的に評価する文献調査と実証調査を提示する。文字レベルシステムがサブワードシステムと同等であることを示す文献があるにもかかわらず、WMT競技会の競争的なセットアップではほとんど使用されていない。最近の文字レベル自然言語処理のモデリング革新にもかかわらず、文字レベルMTシステムは、サブワードベースの対応物に匹敵することができないことを実証的に示す。文字レベルMTシステムは、しばしばそのように動機付けられているにもかかわらず、ドメインの堅牢性も形態論的な一般化能力も向上しない。しかし、私たちは、ソース側のノイズに対する堅牢性を示し、デコーディング時のビームサイズの増加に伴って翻訳品質が低下しないことを示すことができた。
https://aclanthology.org/2022.findings-acl.194/
Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning for Solving Math Word Problems
数学の問題解決には、自然言語の物語から数量的な関係を発見する必要があります。最近の研究では、既存のモデルが文脈から手順を記憶し、浅いヒューリスティックに頼ってMWPを解決することが示されています。本論文では、この問題を調査し、MWPパターンの全体的な理解の欠如が原因であると主張します。まず、ニューラルネットワークが意味からパターンを理解する方法を調査し、プロトタイプ方程式が同じ場合、ほとんどの問題が近い表現を持ち、それらから離れた表現または他のプロトタイプに近い表現は誤った解を生み出す傾向があることを観察します。それに着想を得て、パターンの分岐をニューラルネットワークが認識する対比学習アプローチを提案します。プロトタイプ方程式を木構造に変換し、類似した木構造を探して対比的な例を収集します。解決モデルは、収集された例に対する補助目的でトレーニングされ、類似したプロトタイプを持つ問題の表現が近づけられます。中国のデータセットMath23kと英語のデータセットMathQAで実験を行いました。私たちの方法は、単一言語および多言語設定での性能を大幅に改善します。
https://aclanthology.org/2022.findings-acl.195/
xGQA: Cross-Lingual Visual Question Answering
自然言語処理に関する論文の要約文を日本語に翻訳してください。 最近の多言語ビジョンと言語モデリングの進歩は、モデリングの努力を導く多言語のマルチモーダルデータセットの不足により、主に英語に焦点を当てています。本研究では、このギャップに対処し、視覚的な質問応答タスクの新しい多言語評価ベンチマークであるxGQAを提供します。我々は、英語GQAデータセットを7つの言語に拡張し、クロスリンガルな視覚的な質問応答における重要な課題を検出し、探索することができるようにしました。さらに、マルチモーダルトランスフォーマーベースモデルを多言語化するための新しいアダプタベースのアプローチを提案し、逆に、多言語モデルをマルチモーダルにすることができます。提案された方法は、現在の最先端の多言語マルチモーダルモデル(例:M3P)よりもゼロショットクロスリンガル設定で優れた性能を発揮しますが、精度は全体的に低く、ターゲット言語で約38の精度ポイントのパフォーマンス低下が示されています。我々の結果は、マルチモーダルモデルの単純なクロスリンガル転送が潜在的な多言語マルチモーダルの不一致を引き起こすことを示し、ビジョンと多言語言語モデリングに対してより洗練された方法が必要であることを示唆しています。
https://aclanthology.org/2022.findings-acl.196/
Automatic Speech Recognition and Query By Example for Creole Languages Documentation
私たちは、資源が少ない2つのクレオール言語、グアドループ語とモリシアン語に対して、自己教師ありモデルの活用を調査しました。これら2つの言語に対しては、自動言語処理ツールはほとんど存在しません。私たちは、アノテーションされたデータ約1時間を使用して、それぞれの言語の自動音声認識システムを設計することを提案します。私たちは、言語学者が使用できるクエリバイエグザンプルシステムを得るために必要なデータ量を評価します。さらに、私たちの実験は、多言語自己教師ありモデルがクレオール言語にとって必ずしも最も効率的ではないことを示しています。
https://aclanthology.org/2022.findings-acl.197/
MReD: A Meta-Review Dataset for Structure-Controllable Text Generation
既存のテキスト生成データセットを直接制御可能な生成に使用する場合、ドメイン知識がないため、制御可能な側面が限られるという問題に直面しています。CNN / Daily Mailデータセットを制御可能なテキスト要約に使用する場合、要約文の強調に関するガイド情報がありません。より有用なテキスト生成器は、入力テキストと制御信号の両方を活用して生成を誘導する必要があり、これはドメイン知識の深い理解に基づいてのみ構築できます。このビジョンに基づき、本論文では、MReDという新しいテキスト生成データセットを紹介します。新しいデータセットは、7,089のメタレビューから構成され、その45,000のメタレビュー文は、抽象、強み、決定など、厳密に定義された9つのカテゴリのいずれかに手動で注釈が付けられています。我々は、最新の要約モデルに関する実験結果を提示し、注釈付きデータを使用した抽出型および抽象型モデルの構造制御生成の方法を提案します。さまざまな設定を探索し、制御信号に関するモデルの振る舞いを分析することにより、提案されたタスクの課題とMReDデータセットの価値を示します。一方、MReDは、メタレビュードメインの理解を深めることも可能にします。
https://aclanthology.org/2022.findings-acl.198/
Single Model Ensemble for Subword Regularized Models in Low-Resource Machine Translation
サブワード正則化は、ニューラル機械翻訳モデルの堅牢性を向上させるために、トレーニング中に複数のサブワード分割を使用します。以前のサブワード正則化では、トレーニングプロセスで複数の分割を使用し、推論では1つの分割のみを使用していました。本研究では、この不一致に対処する推論戦略を提案します。提案された戦略は、最も可能性の高い分割といくつかのサンプル分割を含む複数の分割を使用して周辺化された尤度を近似します。提案された戦略は、複数の分割からの予測を集約するため、追加のトレーニングコストを必要としない単一のモデルアンサンブルと見なすことができます。実験結果は、サブワード正則化でトレーニングされたモデルの性能を低リソースの機械翻訳タスクで改善することを示しています。
https://aclanthology.org/2022.findings-acl.199/
Detecting Various Types of Noise for Neural Machine Translation
トレーニングデータのフィルタリングと/または選択は、強力な機械翻訳システムを構築する際に考慮すべき中核的な側面の1つです。KhayrallahとKoehn(2018)の影響力のある研究では、異なる種類のノイズが機械翻訳システムのパフォーマンスに与える影響を調査しました。同年、WMTは並列コーパスのフィルタリングに関する共有タスクを導入し、その後も繰り返され、多くの異なるフィルタリングアプローチが提案されました。本研究では、最近のデータフィルタリングの成果をKhayrallahとKoehn(2018)の元の分析と組み合わせ、最新のフィルタリングシステムがすべての提案されたノイズタイプを除去できるかどうかを調査することを目的としています。私たちは、これらのノイズのほとんどが、高リソース設定で動作する現代のフィルタリングシステムによって90%以上の精度で検出できることを観察しました。ただし、より洗練されたノイズカテゴリーに直面した場合や、より一般的でない言語ペアで作業する場合、フィルタリングシステムのパフォーマンスは最適ではなく、この研究分野にはまだ改善の余地があることがわかりました。
https://aclanthology.org/2022.findings-acl.200/
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training
モデル構造と事前学習目的の制限により、既存のビジョン・アンド・ランゲージ生成モデルは、双方向生成を介してペアワイズの画像とテキストを利用することができません。本論文では、ビジョン・アンド・ランゲージ生成をシーケンス生成問題として統合するフレームワークDU-VLGを提案します。DU-VLGは、マルチモーダルノイズ除去オートエンコーダータスクとモダリティ翻訳タスクの新しい二重事前学習タスクで訓練されます。画像理解と生成のギャップを埋めるために、新しいコミットメント損失を設計します。画像キャプションとテキストから画像生成のデータセットで事前学習目的を比較します。結果は、DU-VLGが単方向生成目的で訓練されたバリアントやコミットメント損失のないバリアントよりも優れた性能を発揮することを示しています。また、3つのビジョン・アンド・ランゲージ生成タスクにおいて、従来の最先端システムよりも高いスコアを獲得しています。さらに、人間の審査員は、当社のモデルが実際的で関連性のある画像を生成し、忠実で情報量のあるキャプションを生成することを確認しています。
https://aclanthology.org/2022.findings-acl.201/
HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction
遠隔監視は、同じエンティティペアを含む文は同一の関係を反映すると仮定しています。遠隔監視された関係抽出(DSRE)タスクの以前の研究は、通常、文レベルまたはバッグレベルのノイズ除去技術に焦点を当て、クロスレベルとの明示的な相互作用を無視しています。本論文では、グローバルな構造情報とローカルな細かい相互作用を統合し、ノイズの多い文を減らすための遠隔監視された関係抽出の階層的対比学習フレームワーク(HiCLRE)を提案します。具体的には、既存のマルチヘッド自己注意を適応させて、マルチグラニュラリー再コンテキスト化と名付けられたクロスレベルとの相互作用を生成し、デノイジングコンテキストに関する表現を生成するための3レベルの階層的学習フレームワークを提案します。同時に、ダイナミックグラデーションアドバーサルパーティクルと名付けられた動的勾配ベースのデータ拡張戦略を使用して、特定のレベルで擬似的な正例サンプルも提供されます。実験により、HiCLREがさまざまな主流のDSREデータセットで強力なベースラインを大幅に上回ることが示されました。
https://aclanthology.org/2022.findings-acl.202/
Prompt-Driven Neural Machine Translation
ニューラル機械翻訳(NMT)は、近年において著しい性能向上を達成しています。しかし、NMTモデルは依然として脆弱性やスタイルの柔軟性の欠如など、さまざまな課題に直面しています。さらに、現在のインスタンスレベル制約の方法は、制約固有またはモデル固有であるため、限定的です。このため、私たちは、プロンプト駆動型ニューラル機械翻訳を提案し、翻訳の制御と柔軟性の向上のためにプロンプトを組み込みます。実験結果は、プロンプト応答と翻訳品質の両方で、私たちの方法の効果を示しています。人間の評価を通じて、プロンプト制御の柔軟性と人間を介した翻訳の効率性をさらに示しています。
https://aclanthology.org/2022.findings-acl.203/
On Controlling Fallback Responses for Grounded Dialogue Generation
対話エージェントは外部のテキスト知識を活用して、より高品質な応答を生成することができます。私たちの知る限り、知識に基づく対話設定に関する既存の多くの研究は、ユーザーの意図が常に回答可能であると仮定しています。残念ながら、知識検索器が常に望ましい知識を取得できる保証はないため、これは実用的ではありません。したがって、回答可能な文脈には情報を提供する一方で、回答不可能な文脈には適切にフォールバック応答を組み込むことが重要です。私たちは、制御トークンを自動的に生成して、回答可能な文脈に対して情報を提供し、回答不可能な文脈に対してフォールバックを行うように応答をバイアスする新しいフレームワークを提案します。既存の知識に基づく対話データセットがこの目的を考慮していないため、私たちは回答不可能な文脈を含む既存のデータセットを拡張して実験を行いました。自動評価と人間の評価結果は、制御されたテキスト生成にフォールバック応答を単純に組み込むことが回答可能な文脈の情報提供に悪影響を与えることを示しています。対照的に、私たちの提案するフレームワークは、回答不可能な文脈に適切にフォールバック応答を提示しながら、この問題を効果的に緩和します。このようなフレームワークは、以前のパイプライン方式で動作する追加の分類器と導入されるオーバーヘッドを減らすこともできます。
https://aclanthology.org/2022.findings-acl.204/
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions
人間は因果関係のある出来事を知覚し、理解し、推論することができます。同様の物理的および因果関係の理解能力を持つモデルを開発することは、人工知能の長年の目標です。この方向性に向けた一歩として、物理的な力と物体の相互作用に関する因果推論が必要な新しいビデオ質問応答データセットであるCRAFTを紹介します。CRAFTには、20の異なる仮想環境から生成された10,000のビデオを含み、相互作用するさまざまな動く物体がシーンと相互作用する58,000のビデオと質問のペアが含まれています。CRAFTの2つの質問カテゴリには、以前研究された記述的および反事実的な質問が含まれます。さらに、認知言語学の力学理論に触発され、原因、可能性、防止などの概念を通じて物体間の因果関係を理解する新しい因果関係の質問カテゴリを導入します。私たちの結果は、CRAFTの質問が人間にとって簡単であるにもかかわらず、既存の最先端の方法を含むテストされたベースラインモデルが私たちのベンチマークで提供される課題にまだ対処していないことを示しています。
https://aclanthology.org/2022.findings-acl.205/
A Graph Enhanced BERT Model for Event Prediction
既存のイベントコンテキストに対して次のイベントを予測することは重要であるが、イベント間の関係を理解する必要があるため、課題がある。従来の方法では、イベントグラフから関係的な特徴を取得してイベントの相関モデリングを強化することが提案されてきた。しかし、イベントグラフの疎密性は関連するグラフ情報の取得を制限し、モデルの性能に影響を与える可能性がある。この問題に対処するために、BERTモデルを使用して自動的にイベントグラフを構築することを考慮する。このため、BERTに追加の構造化変数を組み込んで、トレーニングプロセスでイベントの接続を予測することを学習する。したがって、テストプロセスでは、未知のイベントの接続関係を構造化変数によって予測することができる。スクリプトイベント予測とストーリー終了予測の2つのイベント予測タスクの結果から、当社のアプローチは最新のベースライン方法を上回ることが示された。
https://aclanthology.org/2022.findings-acl.206/
Long Time No See! Open-Domain Conversation with Long-Term Persona Memory
オープンドメインの対話モデルの多くは、長期的な人工知能との会話の設定では性能が低い傾向がある。その可能性の理由は、長期的な対話履歴情報を理解し、記憶する能力が欠如しているためである。この問題に対処するために、私たちはLong-term Memory Conversation(LeMon)という新しいタスクを提案し、DuLeMonという新しい対話データセットとLong-Term Memory(LTM)メカニズムを備えた対話生成フレームワーク(PLATO-LTM)を構築しました。このLTMメカニズムにより、複数のセッションの対話データセットを必要とせずに、システムが正確に長期的なパーソナメモリを抽出し、継続的に更新できるようになりました。私たちの知る限り、これはユーザーとボットの両方のパーソナ情報をリアルタイムで動的に管理する最初の試みです。DuLeMonの結果から、PLATO-LTMは長期的な対話の一貫性においてベースラインを大幅に上回り、より良い対話の魅力を生み出すことができることが示されました。
https://aclanthology.org/2022.findings-acl.207/
Lacking the Embedding of a Word? Look it up into a Traditional Dictionary
単語埋め込みは、言語の変化を簡単に捉えることができる強力な辞書です。しかし、これらの辞書は、伝統的な辞書で驚くほど頻繁にカバーされている珍しい単語に意味を与えることができません。本論文では、伝統的な辞書から取得した定義を使用して珍しい単語の単語埋め込みを生成することを提案します。この目的のために、Definition Neural Network(DefiNNet)とDefine BERT(DefBERT)の2つの方法を紹介します。実験では、DefiNNetとDefBERTが、未知の単語の埋め込みを生成するために開発された最新技術やベースライン方法を大幅に上回ることがわかりました。実際、DefiNNetは、n-gramに基づく同じタスクの方法を実装するFastTextを大幅に上回り、DefBERTは、OOV単語のためのBERT方法を大幅に上回ります。つまり、伝統的な辞書の定義は、珍しい単語の単語埋め込みを構築するために役立ちます。
https://aclanthology.org/2022.findings-acl.208/
MTRec: Multi-Task Learning over BERT for News Recommendation
既存のニュース推薦手法は通常、ニュースタイトルに基づいてニュース表現を学習します。カテゴリーやエンティティなどの他のニュース情報のフィールドを十分に活用するために、いくつかの手法では、各フィールドを追加の特徴量として扱い、異なる特徴量ベクトルを注意的なプーリングで組み合わせます。BERTのような大規模な事前学習モデルの採用により、マルチフィールド情報を組み込む上記の方法は課題に直面する可能性があります。カテゴリーとエンティティ情報を圧縮するための浅い特徴エンコーディングは、深いBERTエンコーディングと互換性がないためです。本論文では、マルチタスク手法を提案し、マルチフィールド情報をBERTに組み込むことで、ニュースエンコーディング能力を向上させます。さらに、補助タスクの勾配を、主タスクとの勾配の競合に基づいて修正し、モデルの性能をさらに向上させます。MINDニュース推薦ベンチマークでの広範な実験により、本手法の有効性が示されました。
https://aclanthology.org/2022.findings-acl.209/
Cross-domain Named Entity Recognition via Graph Matching
クロスドメインNERは、現実のシナリオにおけるデータの不足のため、実用的でありながらも挑戦的な問題である。一般的なリソースの豊富なドメインでNERモデルを学習し、その後モデルを特定のドメインに適応させることが一般的な方法である。しかし、ドメイン間のエンティティタイプの不一致問題により、一般ドメインの広範な知識は、ターゲットドメインNERモデルに効果的に転送されない。このため、ラベル関係を確率分布としてモデル化し、ソースラベル空間とターゲットラベル空間の両方にラベルグラフを構築する。ラベル構造を用いた文脈表現を強化するために、BERTによって出力された単語埋め込みにラベルグラフを融合する。ラベル関係をグラフとして表現することにより、クロスドメインNERをグラフマッチング問題として定式化する。さらに、提案された方法は、事前学習方法との適用性が高く、他のクロスドメイン予測タスクにも対応できる可能性がある。4つのデータセットでの実験結果は、転移学習、マルチタスク学習、およびフューショット学習方法の一連の手法よりも、提案手法が優れていることを示している。
https://aclanthology.org/2022.findings-acl.210/
Assessing Multilingual Fairness in Pre-trained Multimodal Representations
最近、CLIPなどの事前学習されたマルチモーダルモデルは、画像と自然言語を接続する能力に優れていることが示されています。英語のテキスト表現は、多言語化に望ましい形で転送され、異なる言語のダウンストリームマルチモーダルタスクをサポートします。しかし、多言語公平性の原則はほとんど検証されていません。多言語マルチモーダルモデルは、言語を平等に扱っていますか?彼らのパフォーマンスは特定の言語に偏っていますか?これらの質問に答えるために、言語を公平性の受信者と見なし、事前学習されたマルチモーダルモデルのための2つの新しい公平性概念、多言語個人的公平性と多言語グループ公平性を導入します。多言語個人的公平性は、異なる言語で同様の意味を表現するテキストスニペットが画像に同様に接続されることを要求します。一方、多言語グループ公平性は、言語間で予測パフォーマンスが均等になることを要求します。私たちは、事前学習された多言語ビジョン・ランゲージ表現が、言語間で個人的に公平である程度を特徴付けます。しかし、広範な実験は、多言語表現がグループ公平性を満たさないことを示しています:(1)深刻な多言語精度の不均衡問題があります。 (2)エラーは、画像の人々のグループ、人種、性別、年齢によって言語に偏りを示します。
https://aclanthology.org/2022.findings-acl.211/
More Than Words: Collocation Retokenization for Latent Dirichlet Allocation Models
従来、Latent Dirichlet Allocation(LDA)は、単語-文書共起を使用して、文書のコレクション内の単語を摂取し、その潜在的なトピックを発見します。以前の研究では、英語の場合、入力におけるbigram共起を表現することがトピックの一貫性を改善することが示されています。ただし、中国語やタイ語などの単語境界が明示されていない言語の場合、最良の結果をどのように達成するかは不明です。ここでは、LDAモデルに入力する際に、カイ二乗測定、t統計量、および生の頻度に基づく再トークン化の使用を探索し、頻繁なトークンnグラムをコロケーションにマージします。適合度と一貫性メトリックに基づいて、マージされたトークンでトレーニングされたトピックは、トピックキーがより明確で、より一貫性があり、トピックを区別するのにより効果的であることを示します。
https://aclanthology.org/2022.findings-acl.212/
Generalized but not Robust? Comparing the Effects of Data Modification Methods on Out-of-Domain Generalization and Adversarial Robustness
自然言語処理とコンピュータビジョンの文献において、追加のトレーニングデータセット、データ拡張、デバイアス処理、およびデータセットフィルタリングによるデータの変更が、ドメイン外の入力に対する一般化のための効果的な解決策として提案されています。しかし、データ変更が敵対的な堅牢性に与える影響は不明です。本研究では、一般的なデータ変更戦略の包括的な研究を行い、インドメインおよびOODパフォーマンスだけでなく、敵対的な堅牢性(AR)も評価します。また、トレーニング分布に対する各手法の影響を視覚化するために、2次元の合成データセットに関する結果も示します。この研究は、未知のドメインに対する一般化と敵対的な摂動に対する防御の関係を理解するための経験的な研究として役立ちます。私たちの調査結果から、より多くのデータ(追加のデータセットまたはデータ拡張を介して)は、OOD精度とARの両方に利益をもたらすことが示唆されています。ただし、データフィルタリング(自然言語推論のOOD精度を向上させることが以前に示されていた)は、質問応答や画像分類などの他のタスクにおけるOOD精度を損ないます。私たちの実験から得られた洞察を提供し、今後の研究に役立てることを目的としています。
https://aclanthology.org/2022.findings-acl.213/
ASSIST: Towards Label Noise-Robust Dialogue State Tracking
MultiWOZ 2.0データセットは、対話状態追跡(DST)の研究を大幅に促進しました。しかし、その状態注釈には大量のノイズがあることが発見されました。このようなノイズは、DSTモデルを堅牢にトレーニングするために巨大な課題をもたらします。最近、MultiWOZ 2.1-2.4を含むいくつかの改良版が公開されましたが、トレーニングセットにはまだ多くのノイズがあります。また、すべての問題のある注釈を修正するのはコストがかかります。本論文では、注釈の品質をさらに改善する代わりに、ノイズに強いDSTモデルをトレーニングするための一般的なフレームワークであるASSIST(lAbel noiSe-robuSt dIalogue State Tracking)を提案します。ASSISTは、小さなクリーンデータセットでトレーニングされた補助モデルを使用して、トレーニングセットの各サンプルについて擬似ラベルを生成し、生成された擬似ラベルとバニラのノイズラベルを一緒にして、主要なモデルをトレーニングします。ASSISTの妥当性を理論的に示します。実験結果も、バニラのノイズラベルのみを使用する場合に比べて、MultiWOZ 2.0でDSTの共通目標精度を最大28.16%、MultiWOZ 2.4で8.41%改善することを示しています。
https://aclanthology.org/2022.findings-acl.214/
Graph Refinement for Coreference Resolution
指示語の解決における最新のモデルは、独立した言及ペアの決定に基づいています。私たちは、文書レベルで指示語を学習し、グローバルな決定を行うモデリングアプローチを提案します。そのために、テキスト内のトークンをノードとし、それらの関係を表すエッジを持つグラフ構造で指示語リンクをモデル化します。私たちのモデルは、非自己回帰的にグラフを予測し、前回の予測に基づいて反復的に精度を高めることで、決定間のグローバルな依存関係を許容します。実験結果は、文書レベルの情報が指示語の解決を改善することを示し、様々なベースラインに対して改善が見られました。
https://aclanthology.org/2022.findings-acl.215/
ECO v1: Towards Event-Centric Opinion Mining
世界の基本的な構成要素として、イベントが考慮されています。イベント中心の意見マイニングは、意思決定、人々のコミュニケーション、社会的な利益に役立ちます。残念ながら、エンティティ中心の意見マイニングとは異なる意味、構造、表現を持つイベント中心の意見マイニングについての文献はほとんどありません。本論文では、イベント-引数構造と表現分類理論に基づいて、イベント中心の意見マイニングのタスクを提案し、定式化します。また、先駆的なコーパスを構築し、2段階のベンチマークフレームワークを設計して、このタスクをベンチマークします。実験結果は、イベント中心の意見マイニングが実現可能であり、課題、データセット、およびベースラインは将来の研究に役立つことを示しています。
https://aclanthology.org/2022.findings-acl.216/
Deep Reinforcement Learning for Entity Alignment
最近のエンティティアラインメント(EA)研究では、埋め込みベースの手法が注目を集めています。彼らが提供できる大きな可能性にもかかわらず、いくつかの制限がまだ存在しています。最も注目すべきは、埋め込み自体に基づいてアラインされたエンティティをコサイン類似度で識別するため、埋め込みに潜む意味を無視することです。さらに、これらの手法は短期的であり、最も近いエンティティをターゲットとして選択し、複数のエンティティが同じ候補にマッチすることを許可します。これらの制限に対処するために、我々はエンティティアラインメントを、エージェントが表現ベクトルに基づいて2つのエンティティがマッチするかマッチしないかを逐次的に決定するシーケンシャルな意思決定課題としてモデル化します。提案された強化学習(RL)ベースのエンティティアラインメントフレームワークは、ほとんどの埋め込みベースのEA手法に柔軟に適応できます。実験結果は、いくつかの最先端の手法の性能を一貫して向上させ、Hits@1で最大31.1%の改善を示しています。
https://aclanthology.org/2022.findings-acl.217/
Breaking Down Multilingual Machine Translation
多言語トレーニングは、機械翻訳(MT)システムにおいて今や必須の要素であるが、最近の研究では、多対一、一対多、多対多の学習など、異なる多言語設定において異なる効果があることが示されている。これらのトレーニング設定は、機械翻訳モデルのエンコーダーとデコーダーに異なるデータ分布を提示する。本論文では、多言語トレーニングの異なるバリエーションが、MTモデルのこれら2つのコンポーネントの学習にどのように貢献するかを調べる。具体的には、多言語トレーニングによって初期化されたエンコーダーと/またはデコーダーを持つバイリンガルモデルを比較する。我々は、多言語トレーニングが一般的にエンコーダーにとって有益であることを示し、低リソース言語(LRL)に対してのみデコーダーに利益をもたらすことを示す。さらに、各言語ペアの重要なアテンションヘッドを見つけ、推論中のそれらの相関関係を比較する。我々の分析は、多言語翻訳モデルがどのように機能するかを明らかにし、また、高度に関連する言語でトレーニングすることによって性能を向上させる方法を提案することを可能にする。我々の多対一モデルは高リソース言語に対して、そして一対多モデルはLRLに対して、Aharoniら(2019)が報告した最高の結果を上回っている。
https://aclanthology.org/2022.findings-acl.218/
Mitigating Contradictions in Dialogue Based on Contrastive Learning
近年、チャットボットモデルは著しい進歩を遂げていますが、矛盾した応答を出す傾向があります。本論文では、対照学習技術の利点を活用して、この問題を緩和することを試みました。矛盾するパターンを識別する能力をモデルに与えるために、ターゲット応答と矛盾に関連する負の例との類似性を最小化しました。負の例は、学習可能な潜在的なノイズで生成され、事前学習済みの批評家から矛盾に関するフィードバックを受け取ります。実験結果は、当社の方法が応答生成における矛盾を回避しながら、応答の流暢さを維持するのに役立つことを示し、自動評価と人間の評価の両方で既存の方法を上回ることを示しています。
https://aclanthology.org/2022.findings-acl.219/
ELLE: Efficient Lifelong Pre-training for Emerging Data
現在の事前学習言語モデル(PLM)は通常、静的なデータで訓練されており、現実のシナリオでは、さまざまなソースのストリーミングデータが継続的に増加する可能性があることを無視しています。これにより、PLMはすべてのソースからの情報を統合する必要があります。この目標は、すべての既存データでの徹底的な事前学習によって達成できますが、このようなプロセスは計算上の負荷が高いことが知られています。このため、我々はELLEを提案し、新興データのための効率的なライフロング事前学習を目指しています。具体的には、ELLEは、(1)関数保存モデル拡張、すでに存在するPLMの幅と深さを柔軟に拡張して知識獲得の効率を改善するものであり、(2)事前学習ドメインプロンプト、事前学習中に学習された多様な知識を分離し、ダウンストリームタスクに適切な知識を刺激するものである。我々は、BERTとGPTで5つのドメインからのストリーミングデータでELLEを実験しました。その結果、ELLEは、事前学習の効率性とダウンストリームパフォーマンスの両方で、さまざまなライフロングラーニングベースラインよりも優れていることが示されました。コードはhttps://github.com/thunlp/ELLEで公開されています。
https://aclanthology.org/2022.findings-acl.220/
EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English
文化的背景が言語表現に影響を与えることが示されているが、既存の自然言語処理(NLP)における文化モデリングの研究は粗いものであり、同じ言語を話す人々の文化的な違いを調べていない。この問題に対処し、文化的背景の特徴をNLPモデルに追加するために、私たちはEnCBPという、より細かいニュースベースの文化的背景予測データセットを英語で収集、注釈、手動で検証し、ベンチマークを行った。言語モデリング(LM)の評価と手動分析により、英語を話す5つの国と米国の4つの州の間に言語表現の顕著な違いがあることを確認した。さらに、CoNLL-2003、PAWS-Wiki、QNLI、STS-B、RTEの9つの構文、意味、心理言語学的タスク(SST-5、SST-2、Emotion、Go-Emotions)に対する評価では、文化的背景情報を導入することがテキストドメインの競合によりGo-Emotionsタスクには利益をもたらさないが、他のタスクにおいては深層学習(DL)モデルの性能を顕著に向上させることができることがわかった。私たちの調査結果は、文化的背景モデリングが様々なNLPタスクにとって重要であることを強く支持し、EnCBPが文化に関する研究に適用可能であることを示している。
https://aclanthology.org/2022.findings-acl.221/
Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models
トレーニング例とタスクの説明を使用して言語モデル(LM)を促進することは、最近の少数派学習の成功にとって重要であると見なされてきました。この研究では、少数派設定でのLMの微調整が、プロンプトエンジニアリングの必要性を大幅に減らすことができることを示します。実際、タスク固有のテンプレートやトレーニング例を含まないプロンプト、つまりヌルプロンプトを使用することで、幅広いタスクにおいて手動で調整されたプロンプトと競合する精度を達成できます。LMの微調整は、下流タスクごとに新しいパラメータを導入しますが、バイアス項のみを微調整することで、標準的な微調整よりも優れた精度を達成でき、パラメータの0.1%のみを更新することができます。全体として、LMの微調整を少数派学習において推奨します。それはより正確で、異なるプロンプトに対して堅牢であり、凍結されたLMを使用するのとほぼ同じ効率を実現できます。
https://aclanthology.org/2022.findings-acl.222/
uFACT: Unfaithful Alien-Corpora Training for Semantically Consistent Data-to-Text Generation
私たちは、データからテキスト(d2t)生成モデルのためのトレーニングコーパス構築方法であるuFACT(Un-Faithful Alien Corpora Training)を提案します。私たちは、uFACTデータセットでトレーニングされたd2tモデルが、ターゲットコーパスのみでトレーニングされたモデルよりも、データソースの意味的内容をより正確に表現する発話を生成することを示します。私たちのアプローチは、異なる意味表現を持つエイリアンコーパスを使用して、与えられたターゲットコーパスのトレーニングセットを拡張することです。私たちは、ターゲットコーパスから忠実なデータを持つことが重要である一方、追加のコーパスの忠実さはほとんど影響を与えないことを示します。したがって、uFACTデータセットは、大量の不忠実なデータで構築することができます。私たちは、METEORをパフォーマンスメトリックとして使用して、WebNLGベンチマークで最先端の結果を得るためにuFACTをどのように活用できるかを示します。さらに、PARENTメトリックを使用して、生成の忠実度がトレーニングコーパスの構造にどのように影響を受けるかを調査し、WebNLG(Gardent et al.、2017)ベンチマークのこのメトリックのベースラインを提供して、将来の研究との比較を容易にします。
https://aclanthology.org/2022.findings-acl.223/
Good Night at 4 pm?! Time Expressions in Different Cultures
私たちは、文化固有の時間表現グラウンディングのタスクを提案します。つまり、「morning」(英語)や「Manhã」(ポルトガル語)などの表現を、特定の時間にマッピングすることです。私たちは、3つの言語に依存しない方法を提案し、そのうちの1つが、私たちが収集した少数の言語に対するゴールドスタンダード注釈で有望な結果を達成します。その後、この方法を27の言語に適用し、時間表現のグラウンディングにおける言語間の類似性を分析します。
https://aclanthology.org/2022.findings-acl.224/
Extracting Person Names from User Generated Text: Named-Entity Recognition for Combating Human Trafficking
オンラインのエスコート広告ウェブサイトは、人身売買の被害者を広告するために広く使用されています。専門家は、同じ広告に複数の人物を広告することは人身売買の強い指標であると同意しています。したがって、これらの広告のテキストから人名を抽出することは、さらなる分析のための貴重な手がかりを提供することができます。しかし、エスコート広告の名前エンティティ認識(NER)は、テキストがノイズが多く、口語的で、しばしば適切な文法や句読点が欠けているため、課題となっています。ほとんどの既存の最先端のNERモデルは、このタスクで満足できるパフォーマンスを示すことができません。本論文では、人名抽出に対するNEAT(人身売買に対する名前抽出)を提案します。それは、曖昧な名前(例:penny、hazel)を捕捉するために、古典的なルールベースと辞書抽出器を効果的に組み合わせ、文脈化された言語モデルを組み合わせており、辞書を拡張することでテキストの敵対的な変更に適応します。 NEATは、2つのドメイン固有のデータセットで、以前の最先端に比べて名前抽出のF1分類スコアで平均19%の改善を示します。
https://aclanthology.org/2022.findings-acl.225/
OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval
多言語コーパス内の並列文を整列することは、機械翻訳などの下流アプリケーションのためにデータを整理する上で重要です。本研究では、文の検索タスクに特化した整列モデルであるOneAlignerを提案します。このモデルは、1つの言語ペアでトレーニングでき、クロスリンガルに転移することができ、低リソース言語ペアでも性能の低下がほとんどないです。大規模な並列多言語コーパス(OPUS-100)のすべての言語ペアでトレーニングすると、このモデルはTateobaデータセットで最先端の結果を達成し、以前の同じサイズのモデルよりも精度が8.0ポイント向上し、彼らの並列データの0.6%未満しか使用しません。リッチリソース言語ペア(英語中心であるかどうかに関係なく)でファインチューニングすると、同じデータ予算ですべての言語ペアでファインチューニングされたモデルと同等の性能を発揮し、精度が2.0ポイント未満に減少します。さらに、同じセットアップでリッチリソース言語ペアの数を拡大すると、性能が単調に向上し、精度の差が最小で0.4ポイントになり、低リソース並列データを収集する必要性が低くなります。最後に、実験結果と分析により、文の整列タスクの性能は、トレーニングまたは評価に使用される言語ペアによるのではなく、一定のサイズの閾値までの単一言語および並列データのサイズに大きく依存することが結論づけられました。
https://aclanthology.org/2022.findings-acl.226/
Suum Cuique: Studying Bias in Taboo Detection with a Community Perspective
従来の研究では、タブー(憎悪的/攻撃的/有害ななど)言語を研究する際に、コミュニティレベルでの言語規範を考慮する必要性が議論され、説明されてきた。しかし、コミュニティ言語規範に基づく方法論はほとんど存在していない。これは、タブーのテキスト分類に偏りを生じさせ、偏りの原因を理解する上での制限につながる可能性がある。我々は、コミュニティの視点が中心となるタブー分類と注釈の偏りを研究する方法を提案する。これは、各コミュニティの言語に合わせて調整された特別な分類器を使用することによって実現される。これらの分類器は、コミュニティレベルの言語規範を表している。我々は、これらを使用して偏りを研究し、例えば、偏りがアフリカ系アメリカ人に対して最も大きいことを発見した(10個のデータセットのうち7つと検討された3つの分類器すべて)。従来の論文とは対照的に、他のコミュニティも研究し、例えば、南アジア人に対する強い偏りがあることを発見した。小規模なユーザースタディでは、私たちの主要なアイデアである、コミュニティ(コミュニティ分類器の信頼度スコア)と高いアラインメントスコアを持つ一般的な発言は、タブーとは見なされないということを示している。コミュニティメンバーである注釈者は、タブー分類の決定や注釈に反対する場合が多い。この論文は、少数派コミュニティに害を及ぼす誤ったタブーの判断を減らすための重要な一歩である。
https://aclanthology.org/2022.findings-acl.227/
Modeling Intensification for Sign Language Generation: A Computational Approach
エンド・トゥ・エンドの手話生成モデルは手話の韻律を正確に表現していない。時間的および空間的な変動の欠如により、人間の通訳者を混乱させる低品質の生成プレゼンテーションが生じる。本論文では、データ駆動型の強調モデリングにより、生成された手話の韻律を改善することを目的としている。手話の言語学に基づいた異なる戦略を提示し、強調修飾語がグロス注釈でどのように表現されるかを示す。これらの戦略を適用するために、まず、ドイツ手話のデータセットであるPHOENIX-14Tのサブセットに異なる強度レベルで注釈を付ける。次に、教師あり強度タガーを使用して、注釈付きデータセットを拡張し、残りの部分にラベルを付ける。この拡張されたデータセットを使用して、最新のトランスフォーマーモデルを手話生成のためにトレーニングする。自動評価指標で評価した結果、強調モデリングにおける取り組みがより良い結果をもたらすことがわかった。人間の評価も、当社のモデルを使用して生成されたビデオの好みが高いことを示している。
https://aclanthology.org/2022.findings-acl.228/
Controllable Natural Language Generation with Contrastive Prefixes
大規模事前学習言語モデル(LM)の生成を指導するために、以前の研究では言語モデルを直接微調整するか、属性識別器を利用することに焦点を当ててきました。本研究では、自然言語生成を誘導するために、小さな属性固有のベクトルセットであるプレフィックス(Li and Liang, 2021)を利用する、新しい軽量フレームワークを提案します。Li and Liang(2021)とは異なり、各プレフィックスを独立してトレーニングするのではなく、プレフィックス間の関係を考慮し、複数のプレフィックスを同時にトレーニングします。単一の側面制御のためのプレフィックスをトレーニングするための新しい監視方法と非監視方法を提案し、これら2つの方法の組み合わせにより、多面的制御を実現できます。単一の側面制御と多面的制御の両方における実験結果は、高い言語的品質を維持しながら、生成を望ましい属性に向けることができることを示しています。
https://aclanthology.org/2022.findings-acl.229/
Revisiting the Effects of Leakage on Dependency Parsing
Søgaard氏(2020)による最近の研究では、ツリーバンクのサイズを除いて、トレーニングとテストグラフの重複(漏洩と呼ばれる)が、依存解析のパフォーマンスの観察される変動の他の説明よりも説明できることが示されました。本研究では、この主張を再検討し、より多くのモデルと言語でテストします。私たちは、これがゼロショットクロスリンガル設定にのみ適用されることを発見しました。その後、私たちは、このような漏洩のより細かい測定方法を提案しました。この方法は、元の測定方法とは異なり、観察されるパフォーマンスの変動と相関するだけでなく、説明することができます。コードとデータはこちらから入手できます:https://github.com/miriamwanner/reu-nlp-project
https://aclanthology.org/2022.findings-acl.230/
Learning to Describe Solutions for Bug Reports Based on Developer Discussions
ソフトウェアのバグが報告されると、開発者は協力して解決するために議論を行います。解決策は議論の中で考え出されることが多いですが、大量のテキストに埋もれているため理解するのが困難で、実装が遅れることがあります。バグの解決を迅速化するために、自然言語とソースコードの両方を含む議論内の関連コンテンツを合成して、解決策の簡潔な自然言語の説明を生成することを提案します。バグレポートに関連するリポジトリの変更からノイズのある監視を取得する新しい技術を使用して、このタスクのためのコーパスを構築し、ベンチマークを確立します。また、リアルタイムでタスクを実行するための十分な文脈が現れたときに分類することにより、議論中に説明を生成するための2つのシステムを設計します。自動評価と人間の評価により、このタスクは長い二重対話文脈での複雑な推論の理想的なテストベッドを形成することがわかりました。
https://aclanthology.org/2022.findings-acl.231/
Perturbations in the Wild: Leveraging Human-Written Text Perturbations for Realistic Adversarial Attack and Defense
私たちは、野生の人間によるテキストの約600Kの摂動を帰納的に抽出し、現実的な敵対的攻撃に活用する新しいアルゴリズム、ANTHROを提案します。既存の文字ベースの攻撃は、しばしば操作戦略のセットを演繹的に仮定するのに対し、私たちの研究は実際の現実世界のテキストからの観察に基づいています。ANTHROによって生成された敵対的なテキストは、(1)攻撃成功率、(2)元のテキストの意味の保存、および(3)ステルス性-つまり人間の文章と区別がつかないため、疑わしいとしてフラグ付けされにくい-の間で最良のトレードオフを実現していることがわかりました。具体的には、私たちの攻撃は、BERTとRoBERTaでそれぞれ約83%と91%の攻撃成功率を達成しました。さらに、一般人と専門家の両方によって評価された場合、TextBuggerのベースラインに比べて、意味の保存とステルス性がそれぞれ50%と40%増加しました。ANTHROは、Perspective APIと比較して、BERT分類器が人間による有害なテキストの異なるバリエーションを理解する能力を敵対的なトレーニングによってさらに向上させることができます。
https://aclanthology.org/2022.findings-acl.232/
Improving Chinese Grammatical Error Detection via Data augmentation by Conditional Error Generation
中国語文法エラー検出(CGED)は、中国語のテキスト内の文法エラーを検出することを目的としています。CGEDの主な課題の1つは、注釈付きデータの不足です。この問題を緩和するために、以前の研究では、より多くのトレーニングサンプルを自動的に生成するためのさまざまな方法が提案されました。これらは、ルールベースの方法とモデルベースの方法に大まかに分類されます。ルールベースの方法は、元の文に直接ノイズを導入することで誤った文を構築します。ただし、導入されたノイズは通常、文脈に依存しないため、人間が作るものとはかなり異なります。モデルベースの方法では、生成モデルを使用して人間のエラーを模倣します。生成モデルは、元の文に対してあまりにも多くの変更をもたらし、意味的に曖昧な文を生成する可能性があるため、これらの生成された文の文法エラーを検出することは困難です。さらに、生成された文はエラーがなく、ノイズデータになる可能性があります。これらの問題を解決するために、私たちはCNEGを提案します。これは、中国語の文法エラーを生成するための新しい条件付き非自己回帰エラー生成モデルです。具体的には、文脈依存エラーを生成するために、正しいテキスト内のスパンをマスクし、マスクされたテキストと正しいスパンの両方に依存する誤ったスパンを予測します。さらに、元の文のパープレキシティを測定して、エラーのないスパンをフィルタリングします。実験結果は、提案された方法が、CGED-2018およびCGED-2020ベンチマークのすべての比較データ拡張方法よりも優れた性能を発揮することを示しています。
https://aclanthology.org/2022.findings-acl.233/
Modular and Parameter-Efficient Multimodal Fusion with Prompting
最近の研究は、大規模なマルチモーダル事前学習において印象的な進歩を遂げています。モデルサイズの急速な成長の文脈において、ファインチューニング以外の効率的かつ柔軟な方法を探す必要があります。本論文では、プロンプトベクトルを使用してモダリティを整列させることを提案します。我々の方法は、低リソース環境においていくつかの他のマルチモーダル融合方法と同等の性能を発揮します。さらに、我々の方法は、2つ以上のデータモダリティを含む処理タスクに対してモジュール化され、パラメータ効率的であることを示します。
https://aclanthology.org/2022.findings-acl.234/
Synchronous Refinement for Neural Machine Translation
機械翻訳は通常、エンコーダーからデコーダーへのフレームワークを採用しており、デコーダーは自己回帰的な方法で単語ごとに目標文を生成します。しかし、自己回帰デコーダーは、各生成された単語が正しいかどうかに関係なく、最終出力の1つの要素として考慮される深刻な1回の問題に直面しています。これらの誤った生成された単語は、次の目標単語の生成に影響を与えるため、目標の歴史的文脈を構成します。本論文では、目標の将来的な文脈の一部を考慮して、生成された単語の潜在的なエラーを修正する新しい同期リファインメント方法を提案しています。特に、提案されたアプローチでは、自己回帰デコーダーが以前に生成された目標単語を改善し、次の目標単語を同期して生成することができます。3つの広く使用されている機械翻訳タスクでの実験結果は、提案されたアプローチの有効性を示しました。
https://aclanthology.org/2022.findings-acl.235/
HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing
最近、自然言語をSQLに翻訳するコンテキスト依存型のテキスト・トゥ・SQL意味解析が注目を集めています。従来の手法では、対話履歴の発話または以前に予測されたクエリからコンテキスト依存情報を活用していますが、自然言語と論理形式のSQLの不一致のため、両方を活用することができませんでした。本研究では、履歴情報を強化したテキスト・トゥ・SQLモデル(HIE-SQL)を提案し、履歴発話と最後に予測されたSQLクエリの両方からコンテキスト依存情報を活用します。不一致を考慮して、自然言語とSQLを2つのモダリティとして扱い、両者の間のギャップを埋めるためのバイモーダル事前学習モデルを提案します。さらに、スキーマリンクグラフを設計して、発話とSQLクエリからデータベーススキーマへの接続を強化します。履歴情報を強化した手法がHIE-SQLの性能を大幅に向上させることを示し、SparCデータセットとCoSQLデータセットの2つのコンテキスト依存型テキスト・トゥ・SQLベンチマークで、新しい最高の結果を達成しました。
https://aclanthology.org/2022.findings-acl.236/
CRASpell: A Contextual Typo Robust Approach to Improve Chinese Spelling Correction
最近、Bertベースのモデルが中国語のスペル修正(CSC)の研究を支配しています。これらの方法には2つの制限があります:(1)多重タイプのテキストではパフォーマンスが低くなります。このようなテキストでは、各タイプの文脈に少なくとも1つの誤字が含まれており、ノイズ情報をもたらします。このようなノイズのある文脈は、多重タイプのテキストでのパフォーマンスの低下につながります。 (2)Bertのマスクトークン回復タスクにより、有効な表現をより頻繁な表現に過剰修正する傾向があります。本論文では、これらの制限に対処することを試みます。モデルをタイプノイズによる文脈的ノイズに堅牢にするために、アプローチはまず、各トレーニングサンプルに対してノイズのある文脈を構築します。その後、修正モデルは、ノイズのある文脈と元の文脈に基づいて類似の出力を生成するように強制されます。さらに、過剰修正の問題に対処するために、コピー機構が組み込まれ、与えられた文脈に従って、誤って修正された文字と入力文字の両方が有効な場合には、入力文字を選択するようにモデルが促されます。広く使用されているベンチマークで実験が行われました。私たちのモデルは、驚異的な利益により、最先端の方法に対して優れたパフォーマンスを発揮します。
https://aclanthology.org/2022.findings-acl.237/
Gaussian Multi-head Attention for Simultaneous Machine Translation
同時機械翻訳(SiMT)は、ストリーミングソース入力を受け取りながら翻訳を出力するため、どこから翻訳を開始するかを決定する方針が必要です。ターゲットとソースの単語のアラインメントは、しばしば各ターゲット単語に対して最も情報量の多いソース単語を示し、翻訳品質とレイテンシーの統一的な制御を提供しますが、既存のSiMT手法は、制御を実行するためにアラインメントを明示的にモデル化していません。本論文では、ガウス多頭注意(GMA)を提案し、アラインメントと翻訳を統一的にモデル化することで、新しいSiMT方針を開発します。SiMT方針において、GMAは各ターゲット単語のアラインされたソース位置をモデル化し、それに応じてアラインされた位置まで翻訳を開始するように待機します。アラインメントの学習を翻訳モデルに統合するために、予測されたアラインされた位置を中心としたガウス分布がアラインメント関連の事前分布として導入され、翻訳関連のソフトアテンションと協力して最終アテンションを決定します。En-ViおよびDe-Enタスクの実験結果は、当社の手法が翻訳とレイテンシーのトレードオフにおいて強力なベースラインを上回ることを示しています。
https://aclanthology.org/2022.findings-acl.238/
Composing Structure-Aware Batches for Pairwise Sentence Classification
二つの文の関係を特定するには、ペアワイズ注釈を含むデータセットが必要です。多くの場合、これらのデータセットには、異なるペアの一部として複数回注釈が付けられたインスタンスが含まれています。これらは、注釈に基づくテキストインスタンスの相互関連性に関する追加の有用な情報を含む構造を構成します。本論文では、この種の構造化されたデータセット情報がトレーニング中にどのように利用できるかを調査します。我々は、このような情報を組み込むための3つのバッチ構成戦略を提案し、14の異種ペアワイズ文分類タスクでその性能を測定します。我々の結果は、事前学習された言語モデルに関係なく、標準的なトレーニング手順に従うベースラインに比べて、ほとんどのタスクで統計的に有意な改善(最大3.9%)を示しています。さらに、低リソース環境でも、このベースライン手順がこのような構造情報を持つことで利益を得ることができることがわかりました。
https://aclanthology.org/2022.findings-acl.239/
Factual Consistency of Multilingual Pretrained Language Models
事前学習済み言語モデルは、推論を必要とするタスクや知識ベースの獲得に応用可能な事実知識のクエリに使用できます。しかし、そのためには、この知識がどの程度信頼できるかを知る必要があります。最近の研究では、単一言語の英語言語モデルは、同じ事実を説明する言い換えに対して異なる空欄を埋めるため、事実知識を予測する際に一貫性に欠けることが示されています。本論文では、一貫性の分析を多言語設定に拡張します。私たちは、mParaRelというリソースを導入し、(i) mBERTやXLM-Rなどの多言語言語モデルが単一言語のモデルよりも一貫性があるかどうか、および(ii)そのようなモデルが言語間で同じ程度の一貫性を持つかどうかを調査します。私たちは、mBERTが英語の言い換えにおいて英語BERTと同じくらい一貫性がないことを発見しましたが、mBERTとXLM-Rの両方が英語において高い程度の一貫性の欠如を示し、他の45言語においてさらに顕著であることがわかりました。
https://aclanthology.org/2022.findings-acl.240/
Selecting Stickers in Open-Domain Dialogue through Multitask Learning
オンラインチャットの人気が高まるにつれ、スタンプはオンラインコミュニケーションにおいて重要性を増しています。オープンドメインの対話において適切なスタンプを選択するには、対話とスタンプの両方の包括的な理解、および両方のモダリティ間の関係が必要です。これらの課題に対処するために、私たちは、対話履歴、感情、およびスタンプの意味を理解するための3つの補助タスクから構成されるマルチタスク学習方法を提案します。最近の難しいデータセットで実施された広範な実験により、私たちのモデルはマルチモーダル情報をより良く組み合わせ、強力なベースラインよりも大幅に高い精度を達成できることが示されました。削除実験により、各補助タスクの効果がさらに検証されました。私たちのコードはhttps://github.com/nonstopfor/Sticker-Selectionで利用可能です。
https://aclanthology.org/2022.findings-acl.241/
ZiNet: Linking Chinese Characters Spanning Three Thousand Years
現代の漢字は3,000年前から進化してきました。現在までに、数万の古代文字の字形が発見されており、発掘された文書を解釈するために専門家によって解読される必要があります。専門家は通常、各古代文字を、歴史的な全時代において既知の類似文字と比較する必要があります。しかし、人間の記憶や経験によって必然的に制限され、しばしば多くの時間がかかり、関連性は限られた範囲にとどまります。この論文では、研究者が類似の文字を発見するのを支援するために、中国文字と単語の関係と進化を記述する最初の歴史的知識ベースであるZiNetを紹介します。さらに、ZiNetの部首システムの知識によって強化された、古代中国文字間の字形の類似度測定を紹介し、起源や意味に関連する可能性のある類似の字形ペアを捕捉することができます。結果は、この方法と人間の専門家からのスコアとの間に強い正の相関があることを示しています。最後に、定性的な分析と暗黙の将来的な応用について説明します。
https://aclanthology.org/2022.findings-acl.242/
How Can Cross-lingual Knowledge Contribute Better to Fine-Grained Entity Typing?
クロスリンガルエンティティタイピング(CLET)は、豊富なリソース言語から学習した意味的知識を低リソース言語に転送することで、エンティティタイプ予測の品質を向上させることを目的としています。本論文では、専門家の混合アプローチを介した多言語転移学習を利用することで、モデルはターゲット言語と各ソース言語の関係を動的に捉え、新しい言語の未知のエンティティのタイプを効果的に予測することができます。多言語データセット上の広範な実験により、当社の方法が複数のベースラインを大幅に上回り、負の転送を堅牢に処理できることが示されました。CLETの言語の類似性とパフォーマンスの関係に疑問を投げかけました。一連の実験は、より多くのソースがあれば良いという常識を否定し、CLETの類似性仮説を示唆しています。
https://aclanthology.org/2022.findings-acl.243/
AMR-DA: Data Augmentation by Abstract Meaning Representation
Abstract Meaning Representation(AMR)は、NLP / NLUのための意味表現です。本論文では、AMRをNLPのデータ拡張に使用することを提案します。私たちの提案するデータ拡張技術であるAMR-DAは、サンプル文をAMRグラフに変換し、さまざまなデータ拡張ポリシーに従ってグラフを修正し、グラフから拡張を生成します。私たちの方法は、バックトランスレーションなどの文レベルの技術と、EDA(Easy Data Augmentation)などのトークンレベルの技術を組み合わせています。私たちの方法の効果を評価するために、意味的テキスト類似性(STS)とテキスト分類のタスクに適用します。STSについては、私たちの実験は、AMR-DAがいくつかのSTSベンチマークで最先端のモデルのパフォーマンスを向上させることを示しています。テキスト分類については、AMR-DAはEDAとAEDAを上回り、より堅牢な改善をもたらします。
https://aclanthology.org/2022.findings-acl.244/
Using Pre-Trained Language Models for Producing Counter Narratives Against Hate Speech: a Comparative Study
この論文では、英語におけるオンライン憎悪表現に対抗するための自動反論生成の課題に対して、事前学習された言語モデルの使用に関する包括的な研究を行います。まず、特定の言語モデル(または言語モデルのクラス)と特定のデコーディングメカニズムがCNを生成するために最も適切かどうかを決定する比較的な研究を行います。調査の結果、自己回帰モデルと確率的デコーディングの組み合わせが最も有望であることがわかりました。次に、LMが未知の憎悪対象に対してCNを生成する際の性能を調査します。実験の成功のための重要な要素は、トレーニングデータ全体との類似性ではなく、事前に定義されたテスト対象と共通点を持つターゲットの特定のサブセットの存在であることがわかりました。最後に、生成されたCNを改善するための自動ポスト編集ステップの追加に基づくパイプラインのアイデアを紹介します。
https://aclanthology.org/2022.findings-acl.245/
Improving Robustness of Language Models from a Geometry-aware Perspective
最近の研究では、敵対的トレーニングにおいてノルム境界投影を除去し、探索ステップを増やすことが、耐久性を大幅に向上させることがわかっています。しかし、探索ステップが多すぎると精度が低下することが観察されています。私たちは、より少ないステップで強力な耐久性を効率的に得ることを目指しています。おもちゃの実験を通じて、クリーンなデータを決定境界に摂動させることで、テスト精度が低下しないことを発見しました。これに着想を得て、私たちはフレンドリーな敵対的データ拡張(FADA)を提案し、フレンドリーな敵対的データを生成することができます。FADAの上に、ジオメトリー感知敵対的トレーニング(GAT)を提案し、フレンドリーな敵対的データに対して敵対的トレーニングを行うことで、多数の探索ステップを節約することができます。2つの広く使用されているデータセットと3つの事前学習言語モデルを対象とした包括的な実験により、GATはより少ないステップでより強力な耐久性を得ることができることが示されています。さらに、耐久性に関する包括的な実験結果と深い分析を提供し、将来の研究を促進するための情報を提供します。
https://aclanthology.org/2022.findings-acl.246/
Task-guided Disentangled Tuning for Pretrained Language Models
大規模な未ラベルのコーパスでトレーニングされた事前学習言語モデル(PLM)は、一般的にタスク固有のダウンストリームデータセットで微調整され、さまざまなNLPタスクで最先端の結果を生み出しています。しかし、ドメインとスケールのデータの不一致問題により、低データ領域では特定のタスクパターンを効率的に捉えることができず、微調整が失敗することがあります。この問題に対処するために、私たちはPLMのためのタスクガイド分離チューニング(TDT)を提案し、タスクに関連する信号を分離することにより表現の汎化を強化します。与えられたタスクに対して、文脈から示唆的なガイダンスを検出するための学習可能な信頼モデルを導入し、過度に依存する問題を緩和するための分離正則化を提案します。GLUEおよびCLUEベンチマークの実験結果は、TDTが異なるPLMで微調整するよりも一貫して優れた結果を示し、広範な分析は、私たちの方法の有効性と堅牢性を示しています。コードはhttps://github.com/lemon0830/TDTで利用可能です。
https://aclanthology.org/2022.findings-acl.247/
Exploring the Impact of Negative Samples of Contrastive Learning: A Case Study of Sentence Embedding
対照学習は、ラベルのないデータから知識を抽出するための強力な技術として現れています。この技術には、類似した正のサンプルと類似しない負のサンプルのバランスのとれた混合物が必要です。これは、トレーニング中に負のサンプルのキューを維持することで通常実現されます。この領域の先行研究では、通常、固定長の負のサンプルキューが使用されますが、負のサンプルの数がモデルのパフォーマンスにどのように影響するかは不明です。対照学習における負のサンプルの数の不透明な影響は、私たちが深く探求することを刺激しました。本論文では、文の埋め込みに対する負のサンプルキューを備えた運動量対照学習モデル、MoCoSEを提案します。私たちは、モデルが崩壊しないように、オンラインブランチに予測層を追加し、ターゲットブランチのEMA更新メカニズムと一緒に非対称なモデルを作成します。私たちは、最大追跡距離メトリックを定義し、テキスト対照学習が負のサンプルの歴史的情報からどの程度利益を得るかを学びます。私たちの実験では、最大追跡距離がある範囲にある場合に最良の結果が得られることがわかり、負のサンプルキューのための最適な歴史的情報の範囲があることが示されました。提案された非監視MoCoSEを意味的テキスト類似性(STS)タスクで評価し、平均スピアマン相関係数77.27%を得ました。ソースコードはこちらで入手できます。
https://aclanthology.org/2022.findings-acl.248/
The Inefficiency of Language Models in Scholarly Retrieval: An Experimental Walk-through
言語モデルは、AIによる科学的IRシステムでますます人気が高まっています。本論文では、(i) 短いクエリテキストと(ii) テキストの近隣を扱うための人気のある科学的言語モデルを評価します。私たちの実験は、最も緩和された条件下でも、短いクエリテキストに対して関連するドキュメントを取得できないことを示しています。さらに、元のテキストに小さな変更を加えて生成されたテキストの近隣を活用して、すべての変更が埋め込み空間で近い近隣につながるわけではないことを示します。さらに、徹底的な分類により、表記上および意味的に関連する、部分的に関連する、完全に関連しない近隣のいくつかのクラスが得られます。検索パフォーマンスは、テキストの意味よりも表面形式によってより影響を受けることが判明します。
https://aclanthology.org/2022.findings-acl.249/
Fusing Heterogeneous Factors with Triaffine Mechanism for Nested Named Entity Recognition
多くのドメインで、合成性によるネストされたエンティティが観察され、広く使用されているシーケンスラベリングフレームワークでは簡単に認識できない。自然な解決策は、タスクをスパン分類問題として扱うことである。より良いスパン表現を学習し、分類性能を向上させるためには、内部トークン、境界、ラベル、およびネストされたエンティティ認識に貢献する可能性がある関連スパンなど、異種要因を効果的に統合することが重要である。これらの異種要因を融合するために、トリアフィンメカニズム(トリアフィンアテンションとスコアリングを含む)を提案する。トリアフィンアテンションは、境界とラベルをクエリとして使用し、スパン表現のキーと値として内部トークンと関連スパンを使用する。トリアフィンスコアリングは、境界とスパン表現との相互作用により分類を行う。実験結果は、提案された方法が以前のスパンベースの方法を上回り、ネストされたNERデータセットGENIAとKBP2017で最先端のF1スコアを達成し、ACE2004とACE2005で比較可能な結果を示すことを示している。
https://aclanthology.org/2022.findings-acl.250/
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning
ビジョン・ランゲージ・プリトレーニング(VLP)は、さまざまなクロスモーダル・ダウンストリーム・タスクで印象的なパフォーマンスを発揮しています。しかし、既存のほとんどの方法は、整列した画像キャプション・データからのみ学習でき、高価なリージョン特徴に大きく依存しており、スケーラビリティとパフォーマンスに大きな制限があります。本論文では、統合モーダル・プリトレーニング・フレームワークであるUNIMO-2を提案し、整列した画像キャプション・データと整列していない画像のみおよびテキストのみのコーパスの両方での共同学習を行います。我々は、画像とテキストの両方の視覚的表現、テキスト表現、および画像とテキストの意味的アラインメントを共同学習するために、統合Transformerモデルを構築します。特に、我々は、共有されたグラウンデッド空間を介して画像とテキストの両方でグラウンデッド学習を行うことを提案し、アラインされていない画像とテキストをつなぎ合わせ、異なるタイプのコーパス上の視覚的およびテキストの意味的空間をアラインメントするのに役立ちます。実験結果は、我々のグラウンデッド学習法が、さまざまなクロスモーダル・タスクのパフォーマンス向上のためにテキストと視覚的意味的アラインメントを改善できることを示しています。さらに、異なるタイプのコーパスの効果的な共同モデリングの恩恵を受けて、我々のモデルは単一モーダルの視覚的およびテキストのタスクでも印象的なパフォーマンスを発揮しています。我々のコードとモデルは、UNIMOプロジェクトページhttps://unimo-ptm.github.io/で公開されています。
https://aclanthology.org/2022.findings-acl.251/
The Past Mistake is the Future Wisdom: Error-driven Contrastive Probability Optimization for Chinese Spell Checking
中国語のスペルチェック(CSC)は、主に音韻的または視覚的な類似性によって引き起こされる中国語のスペルの誤りを検出および修正することを目的としています。最近、事前学習言語モデル(PLMs)はCSCタスクの進歩を促進しています。しかし、PLMsの学習された知識とCSCタスクの目標との間にはギャップが存在します。PLMsはテキストの意味に焦点を当て、誤った文字を意味的に適切または一般的に使用される文字に修正する傾向がありますが、これらは正しい修正ではありません。この問題に対処するために、私たちはCSCタスクのためのエラードリブンコントラスティブプロバビリティ最適化(ECOPO)フレームワークを提案しています。ECOPOは、PLMsの知識表現を洗練し、エラードリブンの方法で一般的な文字の予測を回避するようにモデルを誘導します。特に、ECOPOはモデルに依存せず、既存のCSC方法と組み合わせてより良い性能を実現できます。SIGHANデータセットでの広範な実験と詳細な分析により、ECOPOがシンプルでありながら効果的であることが示されました。
https://aclanthology.org/2022.findings-acl.252/
XFUND: A Benchmark Dataset for Multilingual Visually Rich Form Understanding
最近、テキスト、レイアウト、画像を含むマルチモーダルな事前学習により、視覚的に豊かな文書理解タスクにおいてSOTAのパフォーマンスが達成され、異なるモダリティ間での共同学習の大きな可能性が示されました。しかし、既存の研究は英語の領域に焦点を当て、多言語の汎用性の重要性を無視しています。本論文では、7つの言語(中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語)でフォーム理解サンプルを含む人手による多言語フォーム理解ベンチマークデータセットであるXFUNDを紹介します。同時に、視覚的に豊かな文書理解の言語の壁を取り払うことを目的とした、多言語ドキュメント理解のためのマルチモーダル事前学習モデルであるLayoutXLMを提案します。実験結果は、LayoutXLMモデルがXFUNDデータセット上で既存のSOTAクロスリンガル事前学習モデルを大幅に上回ったことを示しています。XFUNDデータセットと事前学習されたLayoutXLMモデルは、https://aka.ms/layoutxlmで公開されています。
https://aclanthology.org/2022.findings-acl.253/
Type-Driven Multi-Turn Corrections for Grammatical Error Correction
文法エラー訂正(GEC)は、文法エラーを自動的に検出および訂正することを目的としています。この点において、主要なモデルは、推論中に複数の訂正を行いながら、1回の学習によってトレーニングされます。従来の研究は、露出バイアスに対処するためにデータ拡張アプローチに主に焦点を当てており、2つの欠点に苦しんでいます。第一に、彼らは単に追加構築されたトレーニングインスタンスと元のインスタンスを混ぜてモデルをトレーニングするだけであり、モデルが徐々に訂正する手順を明示的に認識するのを助けることができません。第二に、彼らは異なる種類の訂正の相互依存を無視しています。本論文では、GECのためのタイプ駆動マルチターン訂正アプローチを提案します。このアプローチを使用すると、各トレーニングインスタンスから、特定のエラータイプの訂正を含む複数のトレーニングインスタンスを追加的に構築します。その後、これらの追加的に構築されたトレーニングインスタンスと元のインスタンスを交互に使用してモデルをトレーニングします。実験結果と深い分析は、私たちのアプローチがモデルトレーニングに大きな利益をもたらすことを示しています。特に、私たちの強化モデルは、英語GECベンチマークで最先端の単一モデルのパフォーマンスを達成しています。私たちはGithubで私たちのコードをリリースしています。
https://aclanthology.org/2022.findings-acl.254/
Leveraging Knowledge in Multilingual Commonsense Reasoning
常識推論(CSR)には、一般的な世界知識を備えたモデルが必要です。CSRは言語に依存しないプロセスですが、包括的な知識源は、特に英語に制限された少数の言語に制限されています。したがって、さまざまな言語に対して効果的に多言語常識推論(XCSR)を実行する方法はまだ不明です。本研究では、英語をピボット言語として使用し、英語の知識源を翻訳-検索-翻訳(TRT)戦略を介して私たちの常識推論フレームワークに利用することを提案します。多言語常識問題と回答候補に対して、関連する知識を翻訳およびソース言語の知識から検索して収集します。検索された知識は、ターゲット言語に翻訳され、可視的な知識アテンションを介して事前にトレーニングされた多言語言語モデルに統合されます。その後、異なる形式の知識をより包括的にカバーするために、4つの英語知識源を利用します。XCSRベンチマークの広範な結果は、外部知識を使用したTRTが、ゼロショットおよび翻訳トレーニング設定の両方で多言語常識推論を大幅に改善できることを示しており、多言語常識推論ベンチマークX-CSQAおよびX-CODAHで、常に最新技術を3%以上上回っています。
https://aclanthology.org/2022.findings-acl.255/
Encoding and Fusing Semantic Connection and Linguistic Evidence for Implicit Discourse Relation Recognition
従来の研究では、暗黙的な論述関係認識(IDRR)の文脈的意味表現学習を改善するために、1つのアテンションメカニズムを使用していました。しかし、異なる関係の意味は異なるアテンションメカニズムから利益を得る可能性があります。また、2つの単語間の言語的関係によってIDRRをさらに活用できると主張しています。本論文では、IDRRのための意味的接続と言語的証拠の両方をエンコードして融合するMulti-Attentive Neural Fusion(MANF)モデルを提案します。MANFでは、2つの種類のアテンション表現を引数の意味的接続として学習して融合するためのDual Attention Network(DAN)を設計します。また、単語ペアの言語的関係をエンコードするためのOffset Matrix Network(OMN)を提案します。MANFモデルは、PDTB 3.0コーパスで最先端の結果を達成しています。
https://aclanthology.org/2022.findings-acl.256/
One Agent To Rule Them All: Towards Multi-agent Conversational AI
市場に出回っている会話エージェント(CAs)の数が増えるにつれ、ユーザーは複数のエージェントを学習し、採用することでタスクを達成する負担を強いられるようになっています。以前の研究では、単一のエージェントの設計内で多数のドメインをサポートすることが探求されてきましたが、望ましい機能の大きなアクションスペースにより、相互作用体験が損なわれています。これらの問題に対処するために、私たちは、複数のブラックボックスCAsの機能を組み合わせることに焦点を当てた新しいタスクBBAI:Black-Box Agent Integrationを紹介します。私たちは、このタスクを解決するために、質問エージェントペアリングと質問応答ペアリングの2つの技術を探求しています。これらの技術を活用して、複数のCAsと対話するための統一されたインターフェースを提供するスケーラブルなシステムであるOne For All(OFA)を設計しました。さらに、質問応答ペアリングのための新しいエンコーダーモデルであるMulti-Agent Response Selection(MARS)を紹介します。MARSエンコーダーを使用することで、商用利用可能な異なるドメインをカバーするCAsのアンサンブルを自動的かつ正確に統合できることを示します。特に、BBAIタスクで最高の精度を達成し、強力なベースラインを上回りました。
https://aclanthology.org/2022.findings-acl.257/
Word-level Perturbation Considering Word Length and Compositional Subwords
私たちは、単語レベルの摂動のための2つの単純な修正を提案します:長さを考慮した単語置換(WR-L)と構成的単語置換(CWR)。従来の単語置換では、対象の単語の長さや文脈に関係なく、入力内の単語を全語彙からサンプリングされた単語で置換します。WR-Lは、ポアソン分布から単語をサンプリングすることで、対象の単語の長さを考慮します。CWRは、サブワード正則化に現れる関連する単語にサンプリングのソースを制限することで、構成的な候補を考慮します。実験結果は、WR-LとCWRの組み合わせが、テキスト分類や機械翻訳の性能を向上させたことを示しました。
https://aclanthology.org/2022.findings-acl.258/
Bridging Pre-trained Language Models and Hand-crafted Features for Unsupervised POS Tagging
近年、大規模な事前学習言語モデル(PLMs)は、ほとんどのNLPタスクで驚異的な進歩を遂げています。しかし、教師なしのPOSタグ付けタスクでは、PLMsを利用した作品は少なく、最先端のパフォーマンスを達成できません。最近の最先端のパフォーマンスは、Heらによって提案されたガウスHMMの変種によって生み出されています。しかし、生成モデルであるHMMは非常に強い独立性の仮定を行うため、PLMsからの文脈化された単語表現を組み込むことが非常に困難です。本研究では、教師なしのPOSタグ付けのために、初めてニューラル条件付きランダムフィールドオートエンコーダー(CRF-AE)モデルを提案します。CRF-AEの識別エンコーダーは、ELMo単語表現を簡単に組み込むことができます。さらに、特徴豊富なHMMに触発されて、CRF-AEのデコーダーに手作りの特徴を再導入します。最後に、実験は、私たちのモデルがPenn Treebankと多言語Universal Dependencies treebank v2.0で以前の最先端モデルを大幅に上回ることを明確に示しています。
https://aclanthology.org/2022.findings-acl.259/
Controlling the Focus of Pretrained Language Generation Models
事前学習されたトランスフォーマーベースの言語生成モデルの微調整は、通常、モデルが自ら入力の関連部分に注意を払うように学習するエンドツーエンドの方法で行われます。しかし、モデルの焦点を直接制御するメカニズムは存在しません。本研究は、ユーザーがモデルが焦点を合わせる「ハイライト」としてコンテキストのスパンを選択し、関連する出力を生成する制御メカニズムを開発することを目的としています。この目標を達成するために、モデル自体は固定されたまま、モデルの埋め込みに直接適用されるトレーニング可能な「焦点ベクトル」を事前学習されたモデルに追加します。これらのベクトルは、属性付け方法から派生した自動注釈でトレーニングされ、コンテキストの重要性の指標として機能します。私たちは、対話応答生成と要約生成の2つのコア生成タスクでアプローチをテストしました。また、ハイライト生成ペアが人間によって注釈付けされた評価データを収集しました。私たちの実験は、トレーニングされた焦点ベクトルが、ユーザーが選択したハイライトに関連する出力を生成するためにモデルを効果的に誘導することを示しています。
https://aclanthology.org/2022.findings-acl.260/
Comparative Opinion Summarization via Collaborative Decoding
意見要約は、複数のオンラインレビューで表現された人気のある主観的情報を反映する要約を生成することに焦点を当てています。生成された要約は、特定のホテルや製品に関する一般的で簡潔な情報を提供しますが、情報が不十分であり、ユーザーが複数の異なる選択肢を比較するのに役立たない場合があります。したがって、ユーザーはまだ「どれを選ぶべきか」という問題に苦しむかもしれません。本論文では、2つの異なる候補のレビューセットから2つの対比的な要約と1つの共通要約を生成する比較的意見要約タスクを提案します。我々は、対比的および共通要約を共同で生成する2つのベース要約モデルから構成される比較要約フレームワークCoCoSumを開発しました。新しく作成されたベンチマークCoCoTripでの実験結果は、CoCoSumが最先端の意見要約モデルよりも高品質な対比的および共通要約を生成できることを示しています。データセットとコードはhttps://github.com/megagonlabs/cocosumで利用可能です。
https://aclanthology.org/2022.findings-acl.261/
IsoScore: Measuring the Uniformity of Embedding Space Utilization
分散表現の成功により、その空間分布の特性を分析することに興味が高まっています。いくつかの研究は、文脈依存の単語埋め込みモデルがトークンをベクトル空間に等方的に投影しないことを示唆しています。しかし、平均ランダムコサイン類似度や分割スコアなどの等方性を測定するために設計された現在の方法は、十分に分析されておらず、等方性を測定するために適切ではありません。本研究では、周囲のベクトル空間を均等に利用する点群の度合いを定量化する新しいツール「IsoScore」を提案します。厳密に設計されたテストを使用して、IsoScoreがベクトル空間の次元間で分散が均等に分布しているかどうかを正確に測定することができることを示します。さらに、IsoScoreを使用して、脆弱な等方性のメトリックを使用して導かれたNLP文献の最近の結論に疑問を投げかけます。既存のツールを使用して文脈依存の埋め込み空間で等方性を測定することは、結果的に誤解を招くか、完全に不正確な結論を導く可能性があるため、将来の研究に注意を促します。
https://aclanthology.org/2022.findings-acl.262/
A Natural Diet: Towards Improving Naturalness of Machine Translation Output
機械翻訳(MT)の評価は、しばしば正確性と流暢さに焦点を当てており、翻訳スタイルにはあまり注意が払われていません。つまり、正確で流暢であっても、MTの出力は、高品質の人間による翻訳や、ターゲット言語で元々書かれたテキストよりも自然さに欠ける場合があります。機械翻訳の出力は、特に語彙の多様性が低く、ソース文と同様の構造を使用します。本研究では、より自然なスタイル、つまりターゲット言語で元々書かれたテキストのスタイルを反映するMTシステムのトレーニング方法を提案します。私たちの方法は、自然言語と翻訳されたデータでトレーニングされた言語モデルを対比して、並列トレーニングデータを自然さに基づいてタグ付けすることです。データのタグ付けにより、ターゲット言語で元々書かれた文に重点を置くことができます。自動メトリックによると、結果として得られるモデルは、人間による翻訳と同等の語彙豊かさを実現し、ターゲット言語で元々書かれた文に近いスタイルを模倣します。さらに、ベースライン翻訳と比較して、人間の専門家によってその出力が好まれることがわかりました。
https://aclanthology.org/2022.findings-acl.263/
From Stance to Concern: Adaptation of Propositional Analysis to New Tasks and Domains
私たちは、命題分析(述語-引数ペア)を新しいタスクやドメインに適応するための一般化されたパラダイムを提案します。私たちは、スタンス(信念に基づく感情)と関心(道徳的な次元/支持を持つトピック)の類似点を利用して、説明的な表現を生成します。主要な貢献は、ドメイン依存の関心タイプの抽出のための半自動的なリソース構築(ドメインごとに2-4時間の人的労力を必要とする)と、ドメインに依存しない道徳的な次元と支持値の抽出のための完全自動的な手順の組み合わせです。命題構造から語彙の拡張(意味的類似性を介した)のための慎重な(自動的な)用語の選択は、強力なベースライン語彙を超えた3つの粒度レベルで新しい道徳的な次元語彙を生成します。私たちは、専門家の注釈者に基づくグラウンドトゥルース(GT)を開発し、私たちの関心検出の出力をGTと比較して、ベースラインに対して再現率が231%向上し、精度はわずか10%の損失しかありません。F1は、ベースラインに比べて66%の改善を示し、人間のパフォーマンスの97.8%を達成します。私たちの語彙ベースのアプローチは、高価な人的労力やモデル構築を必要とするアプローチに比べて大幅なコスト削減を実現します。私たちは、コミュニティに新しく拡張された道徳的な次元/価値語彙、注釈ガイドライン、およびGTを提供します。
https://aclanthology.org/2022.findings-acl.264/
CUE Vectors: Modular Training of Language Models Conditioned on Diverse Contextual Signals
私たちは、文脈と文内エンコーダーを共同でトレーニングする必要をなくし、多様な文脈形式を使用するニューラル言語モデルのトレーニングをモジュール化するためのフレームワークを提案します。私たちのアプローチ、コンテキストユニバーサルエンベディング(CUE)は、1つのタイプの文脈データでLMをトレーニングし、新しい文脈タイプに適応します。モデルは、事前にトレーニングされたニューラル文LM、BERTベースのコンテキストエンコーダー、および文内および文脈的証拠を使用してLM確率を推定するマスクされたトランスフォーマーデコーダーで構成されています。文脈的に注釈されたデータが利用できない場合、私たちのモデルは、ノイズの多いオラクルユニグラムエンベディングをプロキシとして使用して、文脈と文内情報を組み合わせる方法を学習します。実際の文脈データは後で導入され、文脈データをデコーダーの埋め込み空間にマップする少数のパラメータを適応するために使用できます。私たちは、LMのperplexityを36.6から27.4に下げることができるNYTimesテキストコーパスでCUEフレームワークを検証します。トレーニング中にメタデータのサブセットのみを使用してコンテキストLMをブートストラップすると、達成可能な利益の85%を保持できます。プロキシコンテキストで最初にモデルをトレーニングすると、実際のコンテキストに適応した後にperplexityの利益の67%を保持できます。さらに、文脈エンコーダーを再トレーニングすることなく、事前にトレーニングされた1つのタイプの文LMを別のタイプに交換することができます。全体的に、私たちは、文脈強化LMのインクリメンタルでスケーラブルなトレーニングを可能にするモジュラーフレームワークを得ました。
https://aclanthology.org/2022.findings-acl.265/
Cross-Lingual UMLS Named Entity Linking using UMLS Dictionary Fine-Tuning
私たちは、与えられたソース言語のメンションをUMLSコンセプトにマッピングするクロスリンガルUMLS固有表現リンキングを研究しています。ほとんどのUMLSコンセプトは英語でラベル付けされています。私たちのクロスリンガルフレームワークには、翻訳されたUMLS辞書のオフライン非監督構築と、UMLS候補メンションを識別し、文脈に応じて候補をフィルタリングするために事前に微調整されたトランスフォーマー言語モデルを使用するドキュメントごとのパイプラインが含まれています。私たちの方法は、ソース言語の手動注釈付きUMLSメンションの小規模なデータセットを利用し、この監視されたデータを2つの方法で使用しています。非監視UMLS辞書を拡張し、フルドキュメント内の候補メンションの文脈フィルタリングを微調整するためです。私たちは、ヘブライ語と英語の両方でアプローチの結果を示しています。ヘブライ語のCamoniコーパスでは、データセット内の3つのコミュニティ全体で平均+8.9 F1の新しい最先端(SOTA)の結果を達成しました。また、英語のデータセットMedMentionsでも+7.3 F1の新しいSOTAを達成しました。
https://aclanthology.org/2022.findings-acl.266/
Aligned Weight Regularizers for Pruning Pretrained Neural Networks
剪定は、元のネットワークに近い性能を維持しながらパラメータの数を減らすことを目的としています。本研究では、同じネットワークの剪定前と剪定後の表現の類似性を最大化する新しい自己蒸留ベースの剪定戦略を提案しています。蒸留と剪定を別々に扱う従来の手法とは異なり、知識蒸留のように別個の生徒ネットワークを必要とせず、蒸留を剪定基準に反映させるために蒸留を使用します。自己蒸留剪定のための提案された相互相関目的は、従来の大きさベースの剪定基準を自然に補完するように、疎な解を暗黙的に促進することを示しています。GLUEおよびXGLUEベンチマークの実験では、自己蒸留剪定により、単言語および多言語言語モデルの性能が向上することが示されました。自己蒸留剪定されたモデルは、同じパラメータ数を持つより小さなトランスフォーマーを上回り、(6倍)大きな蒸留ネットワークに対して競争力があります。また、自己蒸留は(1)クラスの分離度を最大化し、(2)信号対雑音比を増加させ、(3)剪定ステップ後により速く収束することが観察され、自己蒸留剪定が一般化を改善する理由についてのさらなる洞察を提供します。
https://aclanthology.org/2022.findings-acl.267/
Consistent Representation Learning for Continual Relation Extraction
Continual relation extraction (CRE)は、新しい関係を持つデータでモデルを継続的にトレーニングする一方で、古い関係を忘れることを避けることを目的としています。以前の研究では、古い関係のいくつかの典型的なサンプルを保存し、新しい関係を学習する際に再生することで、忘却を効果的に回避できることが証明されています。しかし、これらのメモリベースの方法は、メモリサンプルに過剰に適合し、不均衡なデータセットで性能が低下する傾向があります。これらの課題を解決するために、一貫した表現学習方法が提案されており、関係の埋め込みの安定性を維持するために、コントラスティブ学習と知識蒸留を採用してメモリを再生します。具体的には、メモリバンクに基づく教師ありコントラスティブ学習を最初に使用して、モデルが関係表現を効果的に学習できるようにします。次に、メモリ内のサンプルをコントラスティブに再生し、メモリ知識蒸留によって歴史的な関係の知識を保持し、古いタスクの壊滅的な忘却を防止します。提案された方法は、一貫した表現をよりよく学習して、忘却を効果的に緩和することができます。FewRelとTACREDデータセットでの広範な実験により、提案手法が最先端のベースラインを大幅に上回り、不均衡なデータセットで強い堅牢性を発揮することが示されました。
https://aclanthology.org/2022.findings-acl.268/
Event Transition Planning for Open-ended Text Generation
オープンエンドのテキスト生成タスク、例えば対話生成やストーリーの完結、は、限られた前提文脈が与えられた場合に、モデルが継続的な文を生成する必要があります。これらのタスクのオープンエンドの性質は、現在のニューラル自己回帰テキストジェネレータに新しい課題をもたらします。これらのニューラルモデルは人間らしいテキストを生成するのに優れていますが、与えられた事実と可能な結果の関係を整理することは難しいです。このギャップを埋めるために、私たちはオープンエンドのテキスト生成において明示的に結果のイベントを配置する新しい2段階の方法を提案します。私たちのアプローチは、イベントの移行プランナーが「粗い」プロットの骨格を提供し、2段階目のテキストジェネレータが骨格を洗練するという特別にトレーニングされたコーストゥファインアルゴリズムとして理解できます。2つのオープンエンドのテキスト生成タスクでの実験は、私たちの提案手法が生成されたテキストの品質を効果的に改善し、特に一貫性と多様性に優れていることを示しています。私たちは、コミュニティにコードを公開して、さらなる探索を促します。
https://aclanthology.org/2022.findings-acl.269/
Comprehensive Multi-Modal Interactions for Referring Image Segmentation
私たちは、自然言語の説明に対応するセグメンテーションマップを出力するReferring Image Segmentation(RIS)を調査しています。RISに効率的に対処するには、視覚的および言語的モダリティ間および各モダリティ内で発生する相互作用を考慮する必要があります。既存の方法は、異なる形式の相互作用を順次計算するか(エラー伝播を引き起こす)、または内部モダリティの相互作用を無視するため、限界があります。私たちは、Synchronous Multi-Modal Fusion Module(SFM)を介してすべての3つの相互作用を同時に実行することによって、この制限に対処します。さらに、洗練されたセグメンテーションマスクを生成するために、私たちは、言語的特徴が視覚的階層を横断する文脈情報の交換を促進する新しいHierarchical Cross-Modal Aggregation Module(HCAM)を提案します。私たちは、徹底的な削除研究を提示し、4つのベンチマークデータセットで私たちのアプローチのパフォーマンスを検証し、既存の最先端(SOTA)の方法に比べてかなりのパフォーマンス向上を示します。
https://aclanthology.org/2022.findings-acl.270/
MetaWeighting: Learning to Weight Tasks in Multi-Task Learning
トレーニング中に含まれるタスクに重みを割り当てるタスクウェイトは、マルチタスク学習(MTL)のパフォーマンスに重要な影響を与えるため、最近、爆発的な関心が寄せられています。しかし、既存のタスクウェイト方法は、トレーニング損失に基づいて重みを割り当てるだけであり、トレーニング損失と汎化損失の間のギャップを無視しています。これはMTLのパフォーマンスを低下させます。この問題に対処するため、本論文では、学習から学習するパラダイムでタスクを自動的に重み付けする新しいタスクウェイトアルゴリズム、MetaWeightingを提案しています。多数の実験を行い、提案手法がマルチタスクテキスト分類において優れた性能を発揮することを検証しました。
https://aclanthology.org/2022.findings-acl.271/
Improving Controllable Text Generation with Position-Aware Weighted Decoding
事前学習された言語モデル(LM)とコントローラから構成される重み付きデコーディング手法は、制御可能なテキスト生成において有望な結果を示しています。しかし、これらのモデルは、制御力と流暢性のトレードオフ問題に苦しむことが多く、制御力が高いほど不連続で繰り返しの多いテキストを生成する可能性が高くなります。本論文では、このトレードオフが、コントローラがLMに対して不適切な位置で目標属性を課すことによって引き起こされることを示します。そして、我々は既存の重み付きデコーディング手法に基づく新しいフレームワークであるCAT-PAWを提案し、軽量なレギュレータを導入して、コントローラからのバイアス信号を異なるデコーディング位置で調整します。ポジティブな感情制御、トピック制御、言語解毒の実験により、CAT-PAWが4つのSOTAモデルに対して有効であることが示されました。
https://aclanthology.org/2022.findings-acl.272/
Prompt Tuning for Discriminative Pre-trained Language Models
最近の研究では、プロンプトチューニングが事前学習言語モデル(PLM)を刺激するために自然言語処理(NLP)タスクで有望な結果を示している。しかし、私たちの知る限り、既存の研究は、BERTなどのターゲットトークンを生成するために事前学習された生成型PLMに焦点を当てている。ELECTRAなどの識別型PLMがどのようにして効果的にプロンプトチューニングできるかはまだ不明である。本研究では、NLPタスクを識別型言語モデリング問題に再定式化するDPTという最初のプロンプトチューニングフレームワークを提案する。テキスト分類と質問応答に関する包括的な実験では、バニラファインチューニングと比較して、DPTは有意に高い性能を発揮し、フルセットと低リソースの両方の設定で大規模PLMのチューニングにおける不安定な問題を防止することも示された。
https://aclanthology.org/2022.findings-acl.273/
Two Birds with One Stone: Unified Model Learning for Both Recall and Ranking in News Recommendation
個人化ニュース推薦において、リコールとランキングは2つの重要なステップである。既存のニュース推薦システムの多くは、異なるモデルを使用して個人化ニュースリコールとランキングを別々に実行する。しかし、複数のモデルを維持することは高い計算コストを引き起こし、ニュース推薦システムのオンラインレイテンシ要件を満たすために大きな課題を提起する。この問題を解決するために、本論文では、ニュース推薦におけるリコールとランキングのための統一された方法であるUniRecを提案する。我々の方法では、ユーザーエンコーダーモデルを使用して、ユーザーの過去のニュースクリック行動からランキングのためのユーザー埋め込みを推論する。次に、リコールのためのユーザー埋め込みを、ランキングのためのユーザー埋め込みを注意クエリとして使用して、異なる一般的なユーザーの興味をエンコードする一連の基本的なユーザー埋め込みを選択し、それらを合成してリコールのためのユーザー埋め込みを導出する。ベンチマークデータセット上の広範な実験は、我々の方法がニュース推薦におけるリコールとランキングの両方の効率性と効果性を向上させることができることを示している。
https://aclanthology.org/2022.findings-acl.274/
What does it take to bake a cake? The RecipeRef corpus and anaphora resolution in procedural text
手順テキストには豊富な照応現象が含まれているが、NLPではあまり注目されていない。このギャップを埋めるために、レシピと化学特許の2種類の手順テキストのテキスト特性を調査し、化学ドメインの照応注釈フレームワークを一般化して、レシピの照応現象をモデリングする。このフレームワークを使用して、RecipeRefコーパスにブリッジングと共参照関係の両方を注釈付けする。化学特許と比較することで、レシピの照応解決の複雑さを示す。化学ドメインからの転移学習がレシピの照応解決を改善することを実証し、一般的な手順知識の転移可能性を示唆する。
https://aclanthology.org/2022.findings-acl.275/
MERIt: Meta-Path Guided Contrastive Learning for Logical Reasoning
論理推論は自然言語理解にとって極めて重要である。従来の研究では、論理関係に関する事前知識を組み込むためにグラフベースのモデルを使用するか、データ拡張を通じてシンボリックロジックをニューラルモデルに導入する。しかしながら、これらの方法はアノテーションされたトレーニングデータに大きく依存しており、データセットの疎密性による過学習や一般化の問題に苦しんでいる。本論文では、これらの2つの問題に対処するために、豊富な未ラベルのテキストデータに対して自己教師ありプレトレーニングを実行するためのMEta-path guided contrastive learning method for logical ReasonIng of text(MERIt)を提案する。2つの新しい戦略が我々の方法の不可欠な構成要素として機能する。特に、自然言語の論理構造を発見するためのメタパスに基づく戦略が考案され、その後、プレトレーニングによって誘発される情報ショートカットを排除するための反事実的なデータ拡張戦略が続く。ReClorとLogiQAという2つの難解な論理推論ベンチマークにおける実験結果は、我々の方法がSOTAベースラインを大幅に上回ることを示している。
https://aclanthology.org/2022.findings-acl.276/
THE-X: Privacy-Preserving Transformer Inference with Homomorphic Encryption
事前学習済み言語モデルがクラウド展開されるにつれ、プライバシー問題が急速に増加しています。主に、平文のユーザーデータ(検索履歴、医療記録、銀行口座など)が公開されることが原因です。トランスフォーマーモデルのプライバシー保護推論は、クラウドサービスのユーザーにとって需要があります。プライバシーを保護するために、ホモモーフィック暗号(HE)での暗号化データのみを使用して計算することは魅力的な選択肢です。しかし、現在のHEツールではサポートされていないトランスフォーマーブロック内の複雑な計算のため、暗号化されたデータで事前学習済みモデルの推論を有効にすることは困難です。本研究では、人気のあるフレームワークで開発された事前学習済みモデルのプライバシー保護推論を可能にするTHE-Xという近似アプローチを紹介します。THE-Xは、GELU、softmax、LayerNormなどのすべての非多項式関数を含むトランスフォーマーネットワーク内の複雑な計算を処理するためのワークフローを提案します。実験により、THE-Xが異なる下流タスクで暗号化されたデータ上でトランスフォーマー推論を可能にし、理論的に保証されたプライバシー保護の利点を享受しながら、ほとんど性能低下がないことが明らかになりました。
https://aclanthology.org/2022.findings-acl.277/
HLDC: Hindi Legal Documents Corpus
多くの人口のある国、特にインドは、多数の法的事件のバックログに苦しんでいます。法的文書を処理し、法律実務家を補完する自動化システムの開発は、これを緩和することができます。しかし、そのようなデータ駆動型システムを開発するために必要な高品質のコーパスが不足しています。特にヒンディー語などの低資源言語の場合、この問題はさらに顕著になります。本リソース論文では、900K以上のヒンディー語の法的文書からなるコーパスであるHindi Legal Documents Corpus(HLDC)を紹介します。文書はクリーニングされ、構造化され、下流アプリケーションの開発が可能になっています。さらに、コーパスのユースケースとして、保釈予測のタスクを紹介します。私たちは、複数のモデルを実験し、同じタスクに対してマルチタスク学習(MTL)ベースのモデルを提案します。MTLモデルは、保釈予測を主要なタスクとして、要約を補助的なタスクとして使用します。異なるモデルでの実験は、この領域でのさらなる研究の必要性を示唆しています。
https://aclanthology.org/2022.findings-acl.278/
Rethinking Document-level Neural Machine Translation
この論文は、文書レベルのニューラル機械翻訳のための新しいモデルを紹介することを目的としていません。代わりに、私たちは元のTransformerモデルに戻り、次の質問に答えることを望んでいます:現在のモデルの容量は、文書レベルの翻訳に十分強力ですか?興味深いことに、適切なトレーニング技術を用いた元のTransformerは、2000語の長さでも文書翻訳に強力な結果を出すことができることが観察されました。私たちは、6つの言語にまたがる9つの文書レベルのデータセットと2つの文レベルのデータセットで、このモデルといくつかの最近のアプローチを評価しました。実験の結果、文書レベルのTransformerモデルは、BLEU、4つの語彙指標、3つの新しい補助言語指標、および人間の評価を含む包括的なメトリックのセットで、文レベルのモデルや以前の多くの手法よりも優れた結果を示しました。
https://aclanthology.org/2022.findings-acl.279/
Incremental Intent Detection for Medical Domain with Contrast Replay Networks
医療意図検出における従来のアプローチは、固定された事前定義された意図カテゴリが必要である。しかし、現実世界で新しい医療意図が絶え間なく出現するため、この要件は実用的ではない。新しいデータと意図が入ってくるたびに、全データを保存して再トレーニングするのは計算コストが高いため、古い意図を忘れることなく新しい意図を段階的に学習することを提案する。まず、医療意図検出のための段階的学習を定式化する。次に、記憶ベースの方法を用いて段階的学習を処理する。さらに、トレーニングデータの不均衡と医療用語の希少性に対処するために、マルチレベル蒸留と対比目的を使用した対比再生ネットワークで方法を強化することを提案する。実験結果は、提案手法が2つのベンチマークにおいて、最先端のモデルよりもそれぞれ5.7%と9.1%の精度を上回ることを示している。
https://aclanthology.org/2022.findings-acl.280/
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval
本論文では、教師なしデータを必要としない事前学習されたデュアルタワー密集リトリーバーであるLaPraDoRを提案する。具体的には、キャッシュメカニズムを用いてクエリエンコーダーとドキュメントエンコーダーを反復的にトレーニングするIterative Contrastive Learning(ICoL)を最初に提案する。ICoLは、負のインスタンスの数を増やすだけでなく、キャッシュされた例の表現を同じ隠れ空間に保持する。次に、レキシコン強化密集リトリーバル(LEDR)を提案し、レキシカルマッチングを用いた密集リトリーバルを簡単かつ効果的に強化する方法を示す。我々は、最近提案されたBEIRベンチマークを用いてLaPraDoRを評価し、9つのゼロショットテキストリトリーバルタスクの18つのデータセットを含む。実験結果は、LaPraDoRが教師あり密集リトリーバーモデルと比較して最先端の性能を発揮し、さらに分析により、我々のトレーニング戦略と目的の効果が明らかになった。再ランキングに比べ、レキシコン強化アプローチはミリ秒単位で実行でき(22.5倍速い)、優れた性能を発揮する。
https://aclanthology.org/2022.findings-acl.281/
Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach
近年、事前学習言語モデル(PLMs)は、膨大なテキストから事実知識を捉えることができることが示され、PLMベースの知識グラフ補完(KGC)モデルの提案を促している。しかし、これらのモデルは、性能の面でSOTA KGCモデルに比べてまだかなり遅れている。本研究では、弱い性能の2つの主な原因を発見しました:(1)不正確な評価設定。クローズドワールド仮定(CWA)の下での評価設定は、より多くの外部知識を導入するため、PLMベースのKGCモデルを過小評価する可能性があります。 (2)PLMsの不適切な利用。ほとんどのPLMベースのKGCモデルは、単にエンティティと関係のラベルを入力として結合するだけであり、PLMsの暗黙の知識を十分に活用しない不連続な文になってしまいます。これらの問題を緩和するために、より正確なオープンワールド仮定(OWA)の下での評価設定を強調し、KGにない知識の正確性を手動でチェックすることを提案します。さらに、プロンプトチューニングに着想を得て、PKGCという新しいPLMベースのKGCモデルを提案します。基本的なアイデアは、各トリプルとそのサポート情報を自然なプロンプト文に変換し、さらに分類のためにPLMsに送信することです。2つのKGCデータセットでの実験結果は、OWAがKGCの評価においてより信頼性が高く、特にリンク予測において有効であること、およびCWAおよびOWA設定の両方でPKCGモデルの効果的であることを示しています。
https://aclanthology.org/2022.findings-acl.282/
EICO: Improving Few-Shot Text Classification via Explicit and Implicit Consistency Regularization
プロンプトベースのファインチューニング手法は、少数のサンプルでの自然言語理解タスクを進歩させてきたが、セルフトレーニング手法も探求されている。本研究では、セルフトレーニングにおける一貫性正則化を再検討し、明示的および暗黙的一貫性正則化強化言語モデル(EICO)を提案する。明示的および暗黙的一貫性正則化を採用することで、EICOはプロンプトベースの少数サンプルテキスト分類の性能を向上させる。暗黙的一貫性正則化では、弱く拡張されたビューから疑似ラベルを生成し、強く拡張されたビューから疑似ラベルを予測する。明示的一貫性正則化では、拡張ビューの予測と元のビューの予測の差を最小化する。我々は6つのテキスト分類データセットで広範な実験を行い、16個のラベル付き例で、EICOが既存のセルフトレーニング少数サンプル学習手法と競合する性能を発揮することを発見した。
https://aclanthology.org/2022.findings-acl.283/
Improving the Adversarial Robustness of NLP Models by Information Bottleneck
既存の研究は、敵対的な例がNLPモデルをだますために敵対者によって簡単に操作できる高度に予測的ながら非堅牢な特徴の存在に直接帰属することが示されています。本研究では、情報ボトルネック理論を使用して非堅牢な特徴を排除しながら、タスク固有の堅牢な特徴を捕捉することの実現可能性を探求します。広範な実験を通じて、情報ボトルネックベースの方法で訓練されたモデルが、SST-2、AGNEWS、IMDBデータセットにおいてクリーンな精度のほとんど低下を受けずに、堅牢な精度の大幅な改善を達成することを示します。これは、これまでに報告されたすべての防御方法を上回る性能を発揮します。
https://aclanthology.org/2022.findings-acl.284/
Incorporating Dynamic Semantics into Pre-Trained Language Model for Aspect-based Sentiment Analysis
アスペクトベースの感情分析(ABSA)は、与えられた文の特定の側面に対する感情極性を予測します。BERTなどの事前学習言語モデルは大きな成功を収めていますが、ABSAに動的な意味変化を組み込むことは依然として課題です。そこで、本論文では、ABSAのための動的アスペクト指向の意味を学習するために設計された新しい手法であるDynamic Re-weighting BERT(DR-BERT)によってこの問題に対処することを提案します。具体的には、まずStack-BERTレイヤーを主要なエンコーダーとして使用して文の全体的な意味を把握し、軽量のDynamic Re-weighting Adapter(DRA)を組み込んで微調整します。DRAは、各ステップで文の小さな領域に注意を払い、重要な単語を再重み付けして、より良いアスペクトに対応した感情理解を提供できます。最後に、3つのベンチマークデータセットでの実験結果は、提案されたモデルの有効性と合理性を示し、将来の意味モデリングに対する良い解釈可能な洞察を提供します。
https://aclanthology.org/2022.findings-acl.285/
DARER: Dual-task Temporal Relational Recurrent Reasoning Network for Joint Dialog Sentiment Classification and Act Recognition
共同対話感情分類(DSC)と行為認識(DAR)のタスクは、対話の各発話に対して感情ラベルと行為ラベルを同時に予測することを目的としています。本論文では、予測レベルの相互作用を意味レベルの相互作用よりも人間の直感により一致するようにモデル化するための新しいフレームワークを提案します。さらに、話者を考慮した時間グラフ(SATG)と二重タスク関係時間グラフ(DRTG)を提案し、対話理解と二重タスク推論に時間的関係を導入します。フレームワークを実装するために、SATGをモデル化して文脈、話者、時間に敏感な発話表現を生成し、DRTGで再帰的な二重タスク関係推論を行うDARERという新しいモデルを提案します。このプロセスでは、推定されたラベル分布が予測レベルの相互作用において重要な手がかりとなります。実験結果は、DARERが既存のモデルよりも大幅に優れており、計算リソースをはるかに少なく、トレーニング時間も短くて済むことを示しています。特に、MastodonのDSCタスクでは、F1に関して以前の最高モデルに比べて約25%の相対改善を達成し、パラメーターの50%未満、GPUメモリの約60%しか必要としません。
https://aclanthology.org/2022.findings-acl.286/
Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents
テキストの意味的マッチングは、コミュニティの質問応答、情報検索、および推薦など、さまざまなシナリオで広く使用されている基本的なタスクです。最新のマッチングモデル(例:BERT)のほとんどは、各単語を均一に処理してテキスト比較を直接実行します。しかし、クエリ文は一般的に、異なるマッチング粒度の必要性を呼びかけるコンテンツで構成されています。具体的には、キーワードはアクション、エンティティ、およびイベントなどの事実情報を表し、厳密にマッチングする必要があります。一方、意図は抽象的な概念やアイデアを伝え、さまざまな表現に言い換えることができます。本研究では、キーワードと意図を分離することにより、分割して征服する方法でテキストの意味的マッチングのための単純で効果的なトレーニング戦略を提案します。このアプローチは、事前学習された言語モデル(PLM)と簡単に組み合わせることができ、推論効率に影響を与えず、3つのベンチマークで広範なPLMに対して安定した性能改善を実現します。
https://aclanthology.org/2022.findings-acl.287/
Modular Domain Adaptation
オフシェルフモデルは、感情などのテキストの特性を測定するために、計算社会科学研究者によって広く使用されています。しかし、ソースデータにアクセスできない場合、ドメインシフトを考慮することが困難であり、これは妥当性に脅威を与えます。ここでは、ドメイン適応を、別々のモデルプロデューサーとモデルコンシューマーが関与するモジュラープロセスとして扱い、彼らが独立して協力してテキストのより正確な測定を促進する方法を示します。このシナリオに対する2つの軽量技術を紹介し、線形およびコンテキスト埋め込みモデルと一緒に使用すると、4つのマルチドメインテキスト分類データセットでドメイン外精度を信頼性高く増加させることを実証します。モデルプロデューサーとコンシューマーに対する推奨事項をまとめ、この論文に付随するモデルと複製コードを公開します。
https://aclanthology.org/2022.findings-acl.288/
Detection of Adversarial Examples in Text Classification: Benchmark and Baseline via Robust Density Estimation
単語レベルの敵対的攻撃は、近年のトランスフォーマーベースのモデルの性能を劇的に低下させることが示されており、NLPモデルに成功を収めています。対策として、敵対的防御が探求されていますが、敵対的な例を検出する取り組みは比較的少ないです。しかし、敵対的な例を検出することは、ある人口に関する情報を集積し、堅牢な防御システムに向けた一歩となる自動化タスク(例:レビュー感情分析)にとって重要である可能性があります。このため、私たちは、4つのデータセットと4つのモデルに対する4つの人気のある攻撃方法のためのデータセットをリリースし、この分野でのさらなる研究を促進することを提案します。それに加えて、最高のAUCを持つ密度推定に基づく競争力のあるベースラインを提案します。29個のデータセット-攻撃-モデルの組み合わせで最高のAUCを持っています。ソースコードはリリースされています(https://github.com/bangawayoo/adversarial-examples-in-text-classification)。
https://aclanthology.org/2022.findings-acl.289/
Platt-Bin: Efficient Posterior Calibrated Training for NLP Classifiers
現代のNLP分類器は、クラス事後確率の未校正の推定値を返すことが知られています。事後校正のための既存の方法は、予測された確率を再スケールするが、最終的な分類精度に悪影響を与えることが多く、結果的に一般化が悪くなることがある。我々は、予測された事後確率と経験的事後確率の差を最小化しながら、直接目的を最適化するエンドツーエンドトレーニングされたキャリブレータ、Platt-Binningを提案する。我々の方法は、Plattスケーリングのサンプル効率とヒストグラムビニングの検証保証を活用し、キャリブレーションエラーを減らすだけでなく、タスクパフォーマンスを向上させる。既存のキャリブレータとは異なり、我々はトレーニング中にこの効率的なキャリブレーションを実行する。ベンチマークNLP分類タスクの経験的評価は、我々の提案の有効性を反映しています。
https://aclanthology.org/2022.findings-acl.290/
Addressing Resource and Privacy Constraints in Semantic Parsing Through Data Augmentation
私たちは、現実世界のシナリオで発生する可能性のあるいくつかの制約を組み込んだ、低リソースのタスク指向型意味解析の新しいセットアップを紹介します:(1)関連するドメインからの類似のデータセット/モデルの不足、(2)文法から直接有用な論理形式をサンプリングできないこと、および(3)ラベルのない自然発話のプライバシー要件。私たちの目標は、ユーザーの相互作用を通じて収集された発話を使用して、低リソースの意味解析器を改善することです。この非常に困難だが現実的な設定では、論理形式に対応する構造化されたカノニカル発話のセットを生成し、それに対応する自然言語をシミュレートし、結果のペアをフィルタリングするデータ拡張アプローチを調査します。私たちは、このようなアプローチが制限的なセットアップにもかかわらず効果的であることを発見しました:複雑なSMCalFlowカレンダーデータセット(Andreas et al. 2020)の低リソース設定では、トップ1マッチで非データ拡張ベースラインに比べて33%の相対的な改善を観察しました。
https://aclanthology.org/2022.findings-acl.291/
Improving Candidate Retrieval with Entity Profile Generation for Wikidata Entity Linking
エンティティリンキング(EL)は、文書内のエンティティ言及を知識ベース(KB)内の参照エンティティにリンクするタスクです。多くの先行研究は、Wikipedia由来のKBに焦点を当てています。Wikidataは最も広範なクラウドソーシングKBであるにもかかわらず、ELに関する研究はほとんどありません。Wikidataの規模は多くの新しい現実世界のアプリケーションを開くことができますが、その膨大な数のエンティティはELを困難にします。検索空間を効果的に絞り込むために、私たちはエンティティプロファイリングに基づく新しい候補検索パラダイムを提案します。Wikidataのエンティティとそのテキストフィールドは、最初にテキスト検索エンジン(例:Elasticsearch)にインデックスされます。推論中、言及とその文脈が与えられた場合、私たちはシーケンス・トゥ・シーケンス(seq2seq)モデルを使用して、ターゲットエンティティのプロファイルを生成します。プロファイルには、タイトルと説明が含まれます。プロファイルを使用して、インデックスされた検索エンジンをクエリして候補エンティティを取得します。私たちのアプローチは、Wikipediaアンカーテキスト辞書を使用する従来のアプローチを補完し、候補検索のための高度に効果的なハイブリッド方法をさらに設計することができます。シンプルなクロスアテンション再ランカーと組み合わせることで、私たちの完全なELフレームワークは、3つのWikidataベースのデータセットで最新の結果を達成し、TACKBP-2010で強力なパフォーマンスを発揮します。
https://aclanthology.org/2022.findings-acl.292/
Local Structure Matters Most: Perturbation Study in NLU
自然言語理解モデルの単語順序の摂動に対する感度を分析した最近の研究は、ニューラルモデルが単語の順序に驚くほど無感覚であることを示しています。本論文では、単語、サブワード、文字の順序を変更する摂動を開発し、ニューラルモデルの言語理解タスクにおけるパフォーマンスに与える影響を分析することで、この現象を調査します。我々は、摂動されたテキストの文字の局所的な近傍とグローバルな位置への摂動の影響を測定する実験を行い、先行研究で見つかった摂動関数がグローバルな順序にのみ影響を与える一方、局所的な順序は比較的影響を受けないことを観察しました。我々は、彼らの帰納的なバイアス、事前学習スキーム、またはトークナイゼーションの選択に関係なく、ニューラルモデルが主にテキストの局所的な構造を利用して理解を構築し、グローバルな構造を限定的に利用することを実証的に示します。
https://aclanthology.org/2022.findings-acl.293/
Probing Factually Grounded Content Transfer with Factual Ablation
最近の成功にもかかわらず、大規模なニューラルモデルはしばしば事実に反するテキストを生成します。これに加えて、事実性のための標準的な自動評価が欠けているため、測定できなければ意味のある改善はできません。グラウンデッドジェネレーションは、信頼性の高い外部ドキュメント(グラウンディング)から事実情報を引き出すことで、事実性の課題を簡素化することを約束します。事実性を測定することも簡素化されます。すべての事実についてではなく、グラウンディングと一致するかどうかをテストすることによって、事実的な一貫性になります。しかし、事実的にグラウンディングされた生成のための標準的な自動メトリックがないため、この問題は未解決のままです。私たちは、コンテンツ転送のためのこの問題を研究し、生成物がプロンプトを拡張し、事実的なグラウンディングから情報を使用するドメインを特に扱います。特に、このドメインでは、事実的な一貫性を自動的に測定するための事実的な消融の概念を導入できます。これは、モデルがより関連性の低いグラウンディングドキュメントが与えられた場合に出力を生成する可能性が低くなるべきであるという直感を捉えています。実際には、2つのグラウンディングドキュメントをモデルに提示し、モデルはより事実的に関連するものを使用することを好む必要があります。私たちは、この問題を測定するための2つの評価セットを貢献します。私たちの新しい評価を適用し、強力なベースラインを上回る複数の新しい方法を提案します。
https://aclanthology.org/2022.findings-acl.294/
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference
最新のニューラルモデルは、再ランキングのためにクロスアテンションを使用してドキュメント-クエリペアをエンコードすることが一般的です。このため、モデルは一般的にエンコーダーのみ(BERTのような)のパラダイムまたはエンコーダー-デコーダー(T5のような)アプローチを利用します。しかし、これらのパラダイムには欠点があります。すなわち、推論時にすべてのクエリ-ドキュメントペアでモデルを実行すると、膨大な計算コストがかかります。本論文では、再ランキングのための新しいトレーニングおよび推論パラダイムを提案します。我々は、ドキュメントからクエリ生成の形式で事前学習されたエンコーダー-デコーダーモデルを微調整することを提案します。その後、このエンコーダー-デコーダーアーキテクチャを推論中にデコーダーのみの言語モデルに分解できることを示します。これにより、デコーダーのみのアーキテクチャは推論中に静的なエンコーダー埋め込みを解釈することしか学習する必要がないため、推論時間が大幅に短縮されます。我々の実験は、この新しいパラダイムが、より高価なクロスアテンションランキングアプローチと同等の結果を達成しながら、最大6.8倍高速であることを示しています。我々は、この研究が大規模な事前学習モデルを活用するより効率的なニューラルランカーの道を開くと信じています。
https://aclanthology.org/2022.findings-acl.295/
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics
質問応答に基づく要約評価指標は、QAモデルの予測が正しいかどうかを自動的に判断する必要があります。これは回答検証として知られるタスクです。本研究では、現在のQAベースの指標で使用されている語彙的回答検証方法と、BERTScoreおよびLERCという2つの高度なテキスト比較方法をベンチマークします。私たちは、LERCが他の方法よりも優れた性能を発揮することを発見しましたが、他の場合には語彙的重複と統計的に区別できない性能を維持します。しかし、私たちの実験は、改善された検証性能が必ずしも全体的なQAベースの指標の品質に翻訳されないことを明らかにしました。一部のシナリオでは、より悪い検証方法を使用するか、または全く使用しない場合でも、最高の検証方法を使用する場合と同等の性能が得られます。これは、データセットの特性に起因する結果です。
https://aclanthology.org/2022.findings-acl.296/
Prior Knowledge and Memory Enriched Transformer for Sign Language Translation
本論文は、手話翻訳(SLT)という困難な問題に取り組みます。この問題は、視覚的およびテキスト理解だけでなく、追加の事前知識学習(すなわち、パフォーミングスタイル、構文の実行)も必要とします。しかし、バニラエンコーダーデコーダー構造を持つ既存の方法の大部分は、これらすべてを十分に探索することができません。この懸念に基づいて、我々は、バニラトランスフォーマーに補助情報を組み込むPrior knowledge and memory Enriched Transformer(PET)という新しい方法を提案します。具体的には、マルチモーダル表現とグローバルなサインスタイルを適応的なゲート関数で関連付けるゲート付きインタラクティブマルチヘッドアテンションを開発します。一部のスピーチ(POS)シーケンスジェネレータは、関連情報に依存してグローバルな構文構造を予測し、その後、文の生成を指導するために利用されます。また、視覚的テキストコンテキスト情報と単語の追加の補助知識が1つのビデオに現れる可能性があることを考慮して、単語とそのさまざまな関連情報の詳細な対応を保存するマルチストリームメモリ構造を設計し、より包括的な理解を実現します。我々は、サイン依存およびサイン非依存の両方の条件でRWTH-PHOENIX-Weather-2014データセットで広範な実験的研究を行いました。定量的および定性的な実験結果は、PETの効果的であることを包括的に示しています。
https://aclanthology.org/2022.findings-acl.297/
Discontinuous Constituency and BERT: A Case Study of Dutch
この論文では、オランダ語における非文脈自由パターンの評価体制におけるBERTの構文能力を定量化することを目的としています。私たちは、軽度の文脈依存形式主義に基づくテストスイートを考案し、制御動詞のネストと動詞の上昇という言語現象を捉える文法を導出します。小さな語彙とペアになった文法は、私たちに動詞-主語のペアリングで注釈付けされた自然言語の発話の大量のコレクションを提供し、アテンションベースのスパン選択プローブの評価テストベッドとして機能します。私たちの結果は、広範な分析に裏付けられ、調査されたモデルが検討された依存関係の暗黙的な習得に失敗することを示唆しています。
https://aclanthology.org/2022.findings-acl.298/
Probing Multilingual Cognate Prediction Models
文字ベースのニューラル機械翻訳モデルは、歴史言語学の課題である同源語予測の基準モデルとなっています。これまで、このようなモデルによって捉えられた潜在的な情報についての言語学的な解釈は、すべて外部分析(精度、生の結果、エラー)に基づいていました。本論文では、プロービングがモデルと以前の解釈について何を教えてくれるかを調査し、私たちのモデルが言語学的および歴史的な情報を保存していることを学びましたが、以前に想定されていた方法ではそれを達成していないことがわかりました。
https://aclanthology.org/2022.findings-acl.299/
A Neural Pairwise Ranking Model for Readability Assessment
自動読みやすさ評価(ARA)は、テキストに読みやすさレベルを割り当てるタスクであり、NLP研究では従来、分類問題として扱われてきました。本論文では、ARAに対する最初のニューラルペアワイズランキングアプローチを提案し、既存の分類、回帰、および(非ニューラル)ランキング方法と比較します。英語3つ、フランス語1つ、スペイン語1つのデータセットで実験を行い、単一/クロスコーパステストシナリオでのモノリンガルのパフォーマンスを確立し、英語データでトレーニングされた場合、フランス語とスペイン語の両方に対するゼロショットクロスリンガルランキング精度が80%以上になることを示します。さらに、将来の研究に役立つ可能性がある新しい並列バイリンガル読みやすさデータセットも公開します。私たちの知る限り、本論文はARAの最初のニューラルペアワイズランキングモデルを提案し、ニューラルモデルによるクロスリンガルのゼロショット評価の最初の結果を示しています。
https://aclanthology.org/2022.findings-acl.300/
First the Worst: Finding Better Gender Translations During Beam Search
ビームサーチを用いた機械翻訳は、モデルに基づいて最も可能性の高い出力を探します。しかし、ビームサーチは、モデルが示す人口統計的な偏りを増幅することが示されています。私たちは、文法的性別の翻訳におけるシステマティックなエラーから生じるジェンダー・バイアスに焦点を当て、これを解決することを目的としています。この問題に関するほとんどの先行研究は、トレーニングデータまたはモデル自体を調整しています。それに対して、私たちのアプローチは、推論手順のみを変更します。ビームサーチを制限して、n-bestリストのジェンダーの多様性を改善し、ソース文から得られたジェンダー特徴を使用してn-bestリストを再ランク付けします。これらを組み合わせることで、追加のバイリンガルデータや再トレーニングなしに、WinoMTジェンダー翻訳の精度を3つの言語ペアで大幅に向上させることができます。また、私たちのアプローチが名前付きエンティティの一貫したジェンダリングに有用であり、バイナリを超えた新しいジェンダー言語を扱う柔軟性があることも示しています。
https://aclanthology.org/2022.findings-acl.301/
Dialogue Summaries as Dialogue States (DS2), Template-Guided Summarization for Few-shot Dialogue State Tracking
タスク指向の対話の注釈付けは、高価で困難なデータ収集プロセスで悪名高い。フューショット・ダイアログ・ステート・トラッキング(DST)は、この問題の現実的な解決策である。本論文では、ダイアログの要約は本質的に構造化されていないダイアログ・ステートであると仮説を立て、ダイアログ・ステート・トラッキングをダイアログ・サマリゼーション問題として再定式化することを提案する。具体的には、ダイアログ・ステートからルールセットによって生成された合成テンプレートベースのダイアログ・サマリーを用いて、テキスト対テキストの言語モデルをトレーニングする。その後、サマリー生成ルールを逆に適用することで、ダイアログ・ステートを回復することができる。我々は、我々の方法DS2が、クロスドメインおよびマルチドメインの設定のMultiWoZ 2.0および2.1において、フューショットDSTにおいて以前の研究を上回ることを実証的に示す。我々の方法は、トレーニングおよび推論の両方において大幅な高速化を示し、すべてのステートを一度に生成できるためである。最後に、我々の分析に基づいて、サマリーテンプレートの自然さが成功のための重要な役割を果たすことを発見した。
https://aclanthology.org/2022.findings-acl.302/
Unsupervised Preference-Aware Language Identification
曖昧なテキストの言語を認識することは、言語識別(LID)における主要な課題となっています。多言語アプリケーションを使用する場合、ユーザーは自分の言語の嗜好を持っており、これはLIDの外部知識と見なすことができます。しかし、現在の研究では、ユーザー注釈付きトレーニングデータの不足により、個人間の変動を考慮していません。このギャップを埋めるために、私たちは好みに応じたLIDを導入し、新しい教師なし学習戦略を提案します。具体的には、標準的なLIDコーパスからトレーニングサンプルを抽出し、ユーザーの過去の言語分布に従って、各ユーザーの疑似トレーニングセットを構築します。さらに、私たちは「U-LID」と呼ばれる最初のユーザー注釈付きLIDテストセットを提供しています。実験結果は、私たちのモデルがユーザーの特性を具現化し、曖昧なテキストの処理において既存のLIDシステムを大幅に上回ることを示しています。私たちのコードとベンチマークは公開されています。
https://aclanthology.org/2022.findings-acl.303/
Using NLP to quantify the environmental cost and diversity benefits of in-person NLP conferences
自然言語処理において、研究の環境コストはますます重要視され、それに伴う課題がますます議論されています。本研究では、NLPの研究者が出席する対面の会議に関連する二酸化炭素当量の測定値である炭素コストを分析します。我々は、ACLアンソロジーに掲載されているすべての出版物(n=60,572)をテキストマイニングし、著者の所属先(住所を含む)に関する情報を抽出することで必要なデータを取得します。これにより、対応する炭素コストを推定し、大規模なモデルのトレーニングに関する以前に知られていた値と比較することができます。さらに、対面の会議の利点を検証することで、開催国周辺地域からの出席を促進することで参加の多様性を増やすことができることを示します。イベントの炭素コストと多様性のトレードオフは、その場所とタイプによって異なることを示します。我々の目的は、将来的に排出量と多様性の共同問題に対処する最良の方法についてのさらなる議論を促進することです。
https://aclanthology.org/2022.findings-acl.304/
Interpretable Research Replication Prediction via Variational Contextual Consistency Sentence Masking
Research Replication Prediction(RRP)は、公表された研究結果が再現可能かどうかを予測するタスクです。RRPのための解釈可能なニューラルテキスト分類器を構築することは、研究論文が再現可能かどうかを予測する理由を理解することを促進し、その実世界での適用をより信頼性の高いものにします。しかし、モデルの解釈可能性を改善するための先行研究は、主に単語/フレーズレベルでの改善に焦点を当てており、RRPの長い研究論文には不十分です。さらに、既存の方法では、大量の未ラベルデータセットを利用してモデルの解釈可能性をさらに向上させることができません。これらの制限に対処するために、我々は、文レベルの説明を提供できる解釈可能なニューラルモデルを構築し、既存の作品が行ってきたように、予測性能を向上させるだけでなく、大規模な未ラベルデータセットをさらに活用して解釈可能性を向上させる弱監督アプローチを適用することを目指しています。本研究では、Variational Contextual Consistency Sentence Masking(VCCSM)メソッドを提案し、分類器の文脈に基づいてキーとなる文を自動的に抽出し、ラベル付きおよび未ラベルのデータセットの両方を使用します。RRPおよびEuropean Convention of Human Rights(ECHR)データセットでの実験結果は、VCCSMが、領域の変動曲線と事後精度を評価指標として使用して、長い文書分類タスクのモデルの解釈可能性を向上させることができることを示しています。
https://aclanthology.org/2022.findings-acl.305/
Chinese Synesthesia Detection: New Dataset and Models
本論文では、シネステジア検出という新しいタスクを紹介し、文の感覚語を抽出し、それに対応する感覚語の元の感覚モダリティとシネステジック感覚モダリティを予測することを目的としています。シネステジアとは、他のモダリティからの概念を介して1つの感覚モダリティでの知覚を記述することを指します。これは言語現象だけでなく、人間の思考と行動を構造化する認知現象でもあり、比喩的な言語現象と抽象的な認知の橋渡しとなり、深い意味を理解するのに役立ちます。このため、7,217の注釈付き文と187の感覚語を含む大規模な人間注釈付き中国語シネステジアデータセットを構築し、強力で代表的なベースラインモデルのファミリーを提案します。これらのベースラインに基づいて、感覚語の境界を識別し、単語の元の感覚モダリティとシネステジック感覚モダリティを共同で検出するためのラジカルベースのニューラルネットワークモデルを提案します。広範な実験により、提案されたタスクとデータセットの重要性が統計と進行性能によって検証されることが観察されます。さらに、提案されたモデルはシネステジアデータセットで最先端の結果を達成します。
https://aclanthology.org/2022.findings-acl.306/
Rethinking Offensive Text Detection as a Multi-Hop Reasoning Problem
私たちは、対話における暗黙の攻撃的テキスト検出のタスクを紹介します。発言は、聞き手や文脈によって攻撃的または非攻撃的な解釈がある場合があります。このような広範な攻撃的発言を理解するためには、推論が重要であると主張し、このタスクの研究を支援するためにSLIGHTというデータセットをリリースします。データを使用した実験では、最新の攻撃検出方法が暗黙的に攻撃的な発言を検出する場合には、約11%の精度しか達成できないことが示されました。既存の攻撃的テキスト検出データセットとは異なり、SLIGHTには、曖昧な発言から攻撃的な解釈に至る心理的プロセスを説明する人間による注釈付きの推論チェーンが含まれています。私たちは、既存の含意モデルを利用してこれらのチェーンの確率をスコアリングすることによって、マルチホップ推論アプローチの可能性を探求し、素朴な推論モデルでもほとんどの状況で改善されたパフォーマンスが得られることを示します。チェーンの分析は、人間の解釈プロセスについての洞察を提供し、追加の常識的知識を組み込むことの重要性を強調します。
https://aclanthology.org/2022.findings-acl.307/
On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark
対話の安全性問題は、ニューラル対話モデルの現実世界での展開を厳しく制限し、最近大きな研究関心を集めています。しかし、対話の安全性問題は未定義のままであり、対応するデータセットも不足しています。私たちは、人間とボットの対話設定での不安全な行動を捉えるために特に設計された対話の安全性の分類法を提案し、先行研究では未探索の文脈に敏感な不安全性に焦点を当てます。この方向性の研究を促進するために、豊富な文脈に敏感な不安全な例を含むDiaSafetyというデータセットを編集します。実験の結果、既存の安全保護ツールは私たちのデータセットで深刻な失敗をします。そのため、私たちは対話の安全性分類器をトレーニングして、文脈に敏感な対話の不安全性検出の強力なベースラインを提供します。私たちの分類器を使用して、人気のある対話モデルの安全性評価を実施し、既存の対話システムにはまだ懸念すべき文脈に敏感な安全性問題があることを示します。
https://aclanthology.org/2022.findings-acl.308/
Word Segmentation by Separation Inference for East Asian Languages
中国語の単語分割(CWS)は、シーケンスラベリングを通じて生の文章を単語に分割することを意図しています。逆に考えると、CWSは、文字列を単語のシーケンスにグループ化するプロセスとしても見ることができます。このように、CWSは、隣接する文字ペアごとの分離推論タスクとして再構成されます。すべての文字が接続されているか接続されていないかのいずれかであるため、タグ付けスキーマは2つのタグ「接続」(C)または「非接続」(NC)に簡略化されます。したがって、「C-NC」に特別に合わせたバイグラムは、2つの連続する文字の分離状態をモデル化するために特別に調整されています。私たちの分離推論(SpIn)フレームワークは、5つの公開データセットで評価され、機械学習およびディープラーニングモデルに適用され、すべての実験でCWSの最先端のパフォーマンスを上回ることが示されています。日本語の単語分割(JWS)および韓国語の単語分割(KWS)でのパフォーマンス向上は、フレームワークが東アジア言語に対して普遍的かつ効果的であることをさらに証明しています。
https://aclanthology.org/2022.findings-acl.309/
Unsupervised Chinese Word Segmentation with BERT Oriented Probing and Transformation
単語分割は中国語を理解するための基本的なステップである。従来のニューラルアプローチによる教師なし中国語単語分割(CWS)は、重要な文脈を見逃す可能性がある浅い意味情報のみを利用していた。大規模な事前学習言語モデル(PLM)は、深い文脈的意味関係を捉える能力により、多くの分野で大きな成功を収めている。本論文では、自己学習の方法を用いて、PLM(例:BERT)に埋め込まれた深い意味情報を利用し、反復的にPLM内の意味情報を調査・変換して明示的な単語分割能力を獲得することを提案する。広範な実験結果は、提案手法が2つのCWSベンチマークデータセットで最先端のF1スコアを達成していることを示している。
https://aclanthology.org/2022.findings-acl.310/
E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning
類推を認識する能力は、人間の認知にとって基本的である。単語の類推をテストする既存のベンチマークは、ニューラルモデルの類推推論のプロセスを明らかにしない。推論が可能なモデルは、正しい理由で正しい結果を出すべきであるという信念を持ち、説明可能な知識集約型類推推論ベンチマーク(E-KAR)を提案する。当社のベンチマークは、解決するために集中的な背景知識が必要な、1,655(中国語)と1,251(英語)の問題から構成されている。さらに、類推を行うべきかどうかを説明するための自由テキスト説明スキームを設計し、各質問と候補回答に手動で注釈を付ける。実証結果は、このベンチマークが、説明生成と類推問題解決の両方のタスクにおいて、いくつかの最新のモデルにとって非常に難しいことを示しており、この分野でのさらなる研究を招待している。
https://aclanthology.org/2022.findings-acl.311/
Implicit Relation Linking for Question Answering over Knowledge Graph
関係リンク(RL)は、知識ベース型質問応答(KBQA)システムにおいて重要なモジュールである。その目的は、自然言語(NL)で表現された関係を知識グラフ(KG)内の対応する関係にリンクすることである。既存の方法は、NLとKGのテキストの類似性に依存して関係リンクを構築することが主である。しかし、NLの曖昧さやKGの不完全さにより、NLの多くの関係は暗黙的に表現され、KG内の単一の関係にリンクしない場合があり、これは現在の方法にとって課題となっている。本論文では、ImRLと呼ばれる暗黙的なRL方法を提案し、NL内の関係句をKG内の関係パスにリンクすることを目的としている。適切な関係パスを見つけるために、我々は、NL内の関係句とKG内の関係パスの間の単語埋め込み空間内のテキスト情報だけでなく、KG埋め込み空間内の構造情報を整列させる新しいパスランキングモデルを提案している。さらに、曖昧な意味を持つ関係句に対処するために、外部の言い換え辞書からの事前知識を注入するためのゲートメカニズムとアテンションを活用している。2つのベンチマークデータセットと新しく作成したデータセットでの実験結果は、ImRLがいくつかの最先端の方法に比べて、特に暗黙的なRLにおいて有意に優れていることを示している。
https://aclanthology.org/2022.findings-acl.312/
Attention Mechanism with Energy-Friendly Operations
アテンションメカニズムは、自然言語処理モデルにおいて主要なモジュールとなっています。それは計算量が多く、大量の電力を必要とする乗算に依存しています。本論文では、エネルギー消費の観点からアテンションメカニズムの変種を再考します。いくつかのエネルギー効率の良い操作のエネルギーコストが、乗算に比べてはるかに少ないことを結論付けた後、我々は選択的な操作または加算によって乗算を置き換えることで、新しいアテンションモデルを構築しました。3つの機械翻訳タスクにおける実験結果は、提案されたモデルが、バニラモデルに対して、アラインメント計算および全体のアテンション手順において99%および66%のエネルギーを節約しながら、競争力のある精度を達成していることを示しています。我々のコードは受理後に公開されます。
https://aclanthology.org/2022.findings-acl.313/
Probing BERT’s priors with serial reproduction chains
サンプリングは、生成モデルが言語について学んだことを明らかにする有望なボトムアップ手法ですが、BERTのような人気のあるマスクされた言語モデル(MLM)から代表的なサンプルを生成する方法はまだ不明です。MLMの目的は、一貫した条件付き分布を保証しない依存ネットワークを生成するため、素朴なアプローチに問題があります。認知科学の反復学習理論から着想を得て、私たちはBERTの事前分布からサンプリングするために連鎖的再生チェーンの使用を探求します。特に、各ステップでマスクするトークンをランダムに選択して再構築するGenerative Stochastic Network(GSN)サンプラーによって、真のジョイント分布のユニークで一貫した推定値が与えられることを観察します。GSNチェーンからの文の語彙統計および構文統計は、真のコーパス分布に密接に一致し、自然さの判断の大規模なコーパスで他の方法よりも優れたパフォーマンスを発揮することを示します。私たちの発見は、ボトムアップ探査のより堅固な理論的基盤を確立し、人間の事前分布からのより豊かな偏差を強調しています。
https://aclanthology.org/2022.findings-acl.314/
Interpreting the Robustness of Neural NLP Models to Textual Perturbations
現代の自然言語処理(NLP)モデルは、入力の摂動に敏感であり、実世界のノイズのあるデータに適用すると性能が低下することが知られています。しかし、なぜモデルがある摂動に対して他の摂動よりも弱いのかはまだ明確ではありません。本研究では、モデルが未知のテキスト摂動に影響を受ける程度(頑健性)が、摂動の学習可能性(モデルが少量の証拠で摂動を識別する能力)によって説明できるという仮説を検証します。さらに、学習可能性メトリックの因果的正当化を与えます。私たちは、TextRNN、BERT、RoBERTa、XLNetの4つの主要なNLPモデルを、3つのデータセット上の8種類のテキスト摂動で広範囲に実験を行いました。私たちは、摂動をよりよく識別するモデル(学習可能性が高い)が、テスト時にそのような摂動を無視する能力が低下する(頑健性が低下する)ことを示し、私たちの仮説を実証的に支持します。
https://aclanthology.org/2022.findings-acl.315/
Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations
密集検索(DR)手法は、まずテキストを埋め込み空間でエンコードし、最近傍探索によって一致させることでテキスト検索を実行します。これには、表現空間から強い局所性の特性が必要であり、例えば、関連するテキストの小さなグループごとの近い割り当てなどが含まれます。これは、十分なトレーニングデータのないドメインに一般化するのが難しいです。本論文では、豊富な監視信号を持つソーストレーニングドメインから、関連性ラベルのないターゲットドメインにおけるDRモデルの一般化能力を向上させることを目的としています。そのために、私たちは、運動量法を導入して、ソースとターゲットのドメインを区別するドメイン分類器をトレーニングし、その後、DRエンコーダを敵対的に更新して、ドメイン不変表現を学習するMomentum adversarial Domain Invariant Representation learning(MoDIR)を提案します。私たちの実験は、十分な感度を持つデータセットで、BEIRベンチマークで収集された10以上のランキングデータセットで、MoDIRがゼロショット設定でそのベースラインを堅牢に上回ることを示しています。相対的な利益は10%以上です。ソースコードはhttps://github.com/ji-xin/modirで入手できます。
https://aclanthology.org/2022.findings-acl.316/
A Few-Shot Semantic Parser for Wizard-of-Oz Dialogues with the Precise ThingTalk Representation
ウィザード・オブ・オズ(WOZ)の会話のための効果的な意味解析器を構築する以前の試みは、高品質で手動注釈されたトレーニングセットを取得する難しさに苦しんでいます。対話合成に基づくアプローチだけでは不十分であり、状態マシンベースのモデルから生成された対話は、現実の会話の不十分な近似です。さらに、以前に提案された対話状態表現は曖昧であり、効果的なエージェントを構築するには精度が不足しています。本論文では、WOZ会話で正確な対話状態を予測できる新しい対話表現とサンプル効率的な方法論を提案しています。私たちはThingTalk表現を拡張して、エージェントが適切に応答するために必要なすべての情報をキャプチャします。私たちのトレーニング戦略はサンプル効率的です。完全な対話空間を疎にサンプリングする少数のショットデータと、簡潔な状態ベースの対話モデルによって生成された対話のサブセット空間をカバーする合成データを組み合わせます。拡張されたThingTalk言語の完全性は、完全に操作可能なエージェントで示されており、トレーニングデータ合成にも使用されています。私たちは、ThingTalkでMultiWOZ 2.1データセットを再注釈したMultiWOZ 3.0で私たちの方法論の効果を示しています。ThingTalkはテストターンの98%を表現でき、シミュレータは検証セットの85%をエミュレートできます。私たちは、私たちの戦略を使用して文脈的な意味解析器をトレーニングし、再注釈されたテストセットで79%のターンバイターンの正確な一致率を得ました。
https://aclanthology.org/2022.findings-acl.317/
GCPG: A General Framework for Controllable Paraphrase Generation
制御可能な言い換え生成(CPG)は、望ましい言い換えを得るためにさまざまな外部条件を組み込みます。しかし、既存の研究は、CPGの2つの不可欠な側面(すなわち、語彙的CPGと構文的CPG)の特別な条件に焦点を当てており、統一された状況を探索して分析することができません。本論文では、語彙的条件と構文的条件をテキストシーケンスとして表現し、エンコーダー・デコーダーのパラダイムで一様に処理する一般的な制御可能な言い換え生成フレームワーク(GCPG)を提案します。GCPGでは、一般的に採用されている語彙的条件(キーワード)と構文的条件(品詞シーケンス、構成要素木、マスクされたテンプレート、文例)を再構築し、2つのタイプの組み合わせを研究します。特に、文例条件については、新しい文例構築方法である「構文類似性に基づく文例(SSE)」を提案します。SSEは、ターゲット文ごとに構文的に類似したが語彙的に異なる文を文例として取得し、文例側の単語コピー問題を回避します。広範な実験により、SSEを使用したGCPGが2つの人気のあるベンチマークで最先端の性能を発揮することが示されました。また、語彙的条件と構文的条件の組み合わせは、言い換え生成の重要な制御能力を示し、これらの経験的結果は、ユーザー指向の言い換えに新しい洞察を提供する可能性があります。
https://aclanthology.org/2022.findings-acl.318/
CrossAligner & Co: Zero-Shot Transfer Methods for Task-Oriented Cross-lingual Natural Language Understanding
タスク指向の個人アシスタントは、自然言語を使用して多数のデバイスやサービスとやり取りすることを可能にします。ニューラル対話システムをより多くのユーザーに利用可能にするための課題の1つは、わずかな言語を除いてトレーニングデータが不足していることです。ゼロショット法は、高リソース言語である英語でタスク知識を獲得し、それを低リソース言語に転送することを目的として、この問題を解決しようとします。このために、我々はCrossAlignerを導入しました。これは、ラベルのない並列データからアラインメントを学習することに基づくゼロショットクロスリンガル転送の様々な効果的なアプローチの主要な方法です。我々は、個々の方法の定量的分析と、いくつかの重み付けされた組み合わせの定量的分析を提示し、これらのいくつかは9つの言語、15のテストセット、3つのベンチマークマルチリンガルデータセットで評価された最新技術(SOTA)スコアを上回っています。最良の方法の詳細な質的エラー分析は、私たちの微調整された言語モデルが予想よりもタスク知識をゼロショット転送できることを示しています。
https://aclanthology.org/2022.findings-acl.319/
Attention as Grounding: Exploring Textual and Cross-Modal Attention on Entities and Relations in Language-and-Vision Transformer
私たちは、長い画像の説明を生成するためにトレーニングされたマルチモーダルトランスフォーマーが、マスクされた自己注意(テキスト生成)とクロスモーダル注意(情報融合)のレベルで、オブジェクトに根ざしたエンティティと関係の構文的および意味的表現を学習するかを探求します。私たちは、クロスアテンションが名詞句の視覚的な根拠をオブジェクトに学び、高次元の空間関係に関する意味的情報を捉える一方、テキスト対テキストの注意は単語間の低次元の構文的知識を捉えることを観察しました。これにより、マルチモーダルタスクの言語モデルが、オブジェクトと関係に関する異なる意味的情報を、クロスモーダルおよび単一モーダル(テキストのみ)で学習することが結論づけられました。私たちのコードはこちらで入手できます:https://github.com/GU-CLASP/attention-as-grounding。
https://aclanthology.org/2022.findings-acl.320/
Improving Zero-Shot Cross-lingual Transfer Between Closely Related Languages by Injecting Character-Level Noise
高資源言語とその方言または密接に関連する言語変種の間のクロスリンガル転送は、その類似性によって容易になるべきです。しかし、埋め込み空間で動作する現在のアプローチは、表面的な類似性を考慮に入れていません。本研究では、密接に関連する変種間のクロスリンガル転送を改善するための、シンプルで効果的な戦略を提案します。高資源ソース言語のデータに文字レベルのノイズを追加して、モデルをつづりのバリエーションに対してより堅牢にします。我々の戦略は、フィン・ウェスト・ノース・ジャーマン、西ロマンス語派の言語変種間のPOSタグ付けとトピック識別のゼロショット転送において、いくつかの言語とタスクで一貫した改善を示しています。我々の研究は、表面的なレベルのシンプルなノイズが言語変種間の転送の改善に有用であることを示しています。
https://aclanthology.org/2022.findings-acl.321/
Structural Supervision for Word Alignment and Machine Translation
構文構造は、正確な単語アラインメントの強制と機械翻訳の一般化性能の向上に潜在的に有用であると長年議論されてきた。残念ながら、既存の知見は、ソーストークンの構文構造だけを考慮してその重要性を示しており、ターゲットトークンの豊富な構造情報やソースとターゲットの文の構造的類似性を無視している。本研究では、エンコーダー・デコーダー・フレームワークにソースとターゲットのトークンの構文構造を組み込み、マルチタスク学習のために単語アラインメントと機械翻訳の内部論理を密接に関連付けることを提案する。特に、トレーニング中にターゲット側の注釈付き構文グラフを利用しないため、観測されたターゲットトークンに対して動的グラフ畳み込みネットワーク(DGCN)を導入し、ターゲットトークンと対応する構文グラフを順次かつ同時に生成し、さらに単語アラインメントを誘導する。この基盤の上で、ソースとターゲットの構文グラフに対して階層的グラフランダムウォーク(HGRW)を実行し、構造制約を機械翻訳の出力に組み込む。公開されている4つの言語ペアでの実験により、本手法が異なる言語の構文構造を捉えるのに非常に効果的であり、アラインメントの精度でベースラインを一貫して上回り、翻訳品質でも有望な結果を示すことが確認された。
https://aclanthology.org/2022.findings-acl.322/
Focus on the Action: Learning to Highlight and Summarize Jointly for Email To-Do Items Summarization
自動的なメールのTo-Doアイテム生成は、与えられたメールからTo-Doアイテムを生成するタスクであり、人々がメールを概観し、日々の作業をスケジュールするのに役立ちます。メール要約に関する従来の研究とは異なり、To-Doアイテム生成はアクション言及を生成することに焦点を当て、より構造化されたメールテキストの要約を提供します。従来の研究は、潜在的なアクションを持つ主要な文に大量の注釈が必要であるか、またはこれらの非構造化されたメールから微妙なアクションに注意を払わないため、不正確な要約を導くことがよくあります。これらのギャップを埋めるために、私たちは、最も顕著なテキストとアクションを識別し、これらの構造化された表現を組み込んでより正確なTo-Doアイテムを生成するために学習するためのシンプルで効果的なハイライトと要約のフレームワーク(LHS)を提案します。実験の結果、私たちのLHSモデルはベースラインを上回り、定量的評価と人間の判断の両方の面で最先端の性能を発揮します。また、現在のモデルがメールTo-Do要約に直面する特定の課題についても議論しました。
https://aclanthology.org/2022.findings-acl.323/
Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors
本論文では、言語モデルベースの方法による文法エラー検出の能力を詳しく探究する。まず、BERTベースのエラー検出方法が、非言語モデルベースの方法が全トレーニングデータを使用した場合と同等の性能を、トレーニングデータの5〜10%で達成できることを示す。BERTベースの方法では、トレーニングデータのサイズに対する再現率の改善が非言語モデルベースの方法よりもはるかに速く進むことがわかった。これは、(i) BERTベースの方法が、特定の種類のエラーを認識するために必要な文法について良好な知識を持っていることを示唆し、(ii) 少数のトレーニングサンプルで微調整することで、その知識をエラー検出ルールに変換できるため、文法エラー検出における高い汎化能力を説明する。さらに、擬似エラーデータを用いて、実際に様々な種類のエラーを認識するためのルールを学習する際に、このような素晴らしい特性を示すことを示す。最後に、これらの発見に基づいて、関連する文法ルールを説明するフィードバックコメントを使用して、文法エラーを検出するためのコスト効果の高い方法について議論する。
https://aclanthology.org/2022.findings-acl.324/
Should We Trust This Summary? Bayesian Abstractive Summarization to The Rescue
私たちは、ベイズ深層学習のツールを使用して、現代の抽象的要約モデルの文脈で不確実性の概念を探求します。私たちのアプローチは、モンテカルロドロップアウトを使用して最先端の要約モデルを拡張し、複数の確率的なフォワードパスを実行することによって、ベイズ推論を近似します。ベイズ推論に基づいて、予測時に効果的に不確実性を定量化することができます。信頼できる不確実性の測定値を持つことで、高い不確実性の生成された要約をフィルタリングすることにより、エンドユーザーの体験を改善することができます。さらに、不確実性の推定は、注釈のためのサンプルの選択基準として使用でき、アクティブラーニングや人間を介したアプローチとうまく組み合わせることができます。最後に、ベイズ推論により、確定的な要約よりも優れた性能を発揮し、不確実性に対してより堅牢なベイズ要約を見つけることができます。実際に、私たちは、BARTとPEGASUSの変分ベイズ相当物を複数のベンチマークデータセットで、確定的な対応物よりも優れた性能を発揮することを示しています。
https://aclanthology.org/2022.findings-acl.325/
On the data requirements of probing
大規模で強力なニューラル言語モデルが開発されるにつれて、研究者たちはそれらを探査するための診断ツールの開発にますます興味を持っています。自分たちのデータセットを使用して「モデルYに観察Xが見つかった」という形式の結論を出した多くの論文がありますが、そのサイズは異なります。より大きな探査データセットは信頼性が高くなりますが、収集するのにもコストがかかります。合理的な探査データセットのサイズを定量的に推定する方法はまだありません。本研究では、パイロット調査から小規模なデータセットを収集した後、2つの探査構成を区別するために必要な追加のデータサンプルの数を推定する新しい方法を提案します。複数のケーススタディを通じて、私たちの推定が十分な統計的パワーを持っていることを確認します。このフレームワークは、ニューラルNLPモデルを診断するための探査データセットを体系的に構築するのに役立ちます。
https://aclanthology.org/2022.findings-acl.326/
Translation Error Detection as Rationale Extraction
最近、多言語事前学習表現に基づく品質評価(QE)モデルは、翻訳された文の全体的な品質を予測することで非常に競争力のある結果を達成しています。ただし、特定の翻訳された単語が誤っているかどうかを検出することは、限られた量のトレーニングデータを扱う場合にはより困難なタスクです。私たちは、人間と同様に、成功したQEモデルは翻訳エラーに依存して全体的な文の品質を予測すると仮定しています。モデルの予測を説明するために入力に関連スコアを割り当てる一連の特徴の帰属方法を探索することにより、最新の文レベルQEモデルの動作を研究し、これらのモデルから抽出された説明(すなわち、理由)が翻訳エラーを検出するために実際に使用できることを示します。したがって、私たちは(i)新しい半教師ありの単語レベルQE方法を導入し、(ii)QEタスクを特徴の帰属の妥当性を評価するための新しいベンチマークとして提案します。つまり、モデルの説明が人間にとってどの程度解釈可能かを評価します。
https://aclanthology.org/2022.findings-acl.327/
Towards Collaborative Neural-Symbolic Graph Semantic Parsing via Uncertainty
タスクに依存しないグラフ意味解析における最近の研究は、文法ベースの象徴的アプローチからニューラルモデルに移行し、異なる種類の意味表現において強力なパフォーマンスを示しています。しかし、これらのニューラルパーサーの限界は何であるか、そしてこれらの限界をモデル推論に象徴的な知識を組み込むことで補うことができるかどうかはまだ明確ではありません。本論文では、英語リソース文法(ERG)パーシングを事例研究として取り上げ、これらの問いに取り組みます。具体的には、まず最先端のT5ベースのニューラルERGパーサーを開発し、細分化された言語カテゴリ内でのパーサーのパフォーマンスを詳細に分析します。ニューラルパーサーは、分布内テストセットで優れたパフォーマンスを発揮しますが、ロングテールの状況では著しく低下し、象徴的パーサーはより堅牢に動作します。これを解決するために、我々はニューラル-象徴的意味解析のためのシンプルで原理的な共同フレームワークを提案し、シンボリックパーサーからの事前知識を組み込み、モデルの不確実性を考慮したビームサーチの決定基準を設計します。実験結果は、提案されたフレームワークがロングテールカテゴリ全体でニューラルベースラインよりも包括的な改善をもたらし、よく研究されたDeepBankベンチマークで最高のSmatchスコア(97.01)を達成することを示しています。
https://aclanthology.org/2022.findings-acl.328/
Towards Few-shot Entity Recognition in Document Images: A Label-aware Sequence-to-Sequence Framework
エンティティ認識は、ドキュメント画像を理解するための基本的なタスクです。従来のシーケンスラベリングフレームワークは、エンティティタイプをクラスIDとして扱い、通常は実践的に高価な意味を学習するために広範なデータと高品質の注釈に頼っています。本論文では、わずかな数の注釈付きドキュメント画像のみを必要とするエンティティ認識モデルを構築することを目的としています。データ制限を克服するために、ラベル表面名を活用して、ターゲットエンティティタイプの意味をモデルによりよく伝え、ラベルを空間埋め込み空間に埋め込んで領域とラベルの空間的対応関係を捉えることを提案します。具体的には、シーケンスラベリングを超えて、新しいラベル意識型seq2seqフレームワークLASERを開発します。提案されたモデルは、エンティティを生成した後に単語ごとにラベル表面名を明示的に生成する新しいラベリングスキームに従います。トレーニング中、LASERはラベル表面名の表現を更新し、ラベル領域の相関関係を強化することで、ラベルの意味を洗練します。このように、LASERは、意味的およびレイアウトの対応を通じて、ドキュメント画像からエンティティを認識します。2つのベンチマークデータセットでの広範な実験により、LASERの少数ショット設定下での優越性が示されました。
https://aclanthology.org/2022.findings-acl.329/
On Length Divergence Bias in Textual Matching Models
深層モデルがテキストマッチング(TM)タスクで驚異的な成功を収めたにもかかわらず、それらが言語を本当に理解しているのか、またはデータセットの統計的バイアスを利用してテキストの意味的類似性を測定しているのかはまだ不明である。本研究では、長さの偏りバイアスを通じてこの問題を研究する新しい視点を提供する。我々は、広く普及しているTMデータセットに長さの偏りヒューリスティックが存在することを発見し、直接的な予測の手がかりを提供する。TMモデルがこのようなヒューリスティックを採用しているかどうかを判断するために、ヒューリスティックを無効にする対抗的評価スキームを導入する。この対抗的な設定では、すべてのTMモデルが悪化し、彼らがこのヒューリスティックを採用していることを示している。よく設計されたプロービング実験を通じて、TMモデルのバイアスは、トレーニング中にテキストの長さ情報を抽出することに部分的に帰属できることを実証する。長さの偏りバイアスを軽減するために、我々は対抗的なトレーニング方法を提案する。その結果、我々はモデルの堅牢性と汎化能力を同時に改善することに成功した。
https://aclanthology.org/2022.findings-acl.330/
What is wrong with you?: Leveraging User Sentiment for Automatic Dialog Evaluation
オープンドメインの対話の正確な自動評価メトリックが高い需要があります。システム応答評価の既存のモデルベースのメトリックは、収集が手間のかかる人間による注釈付きデータでトレーニングされています。本研究では、ユーザーの次の発話から自動的に抽出できる情報、例えば感情やユーザーが会話を明示的に終了するかどうかを使用して、前のシステム応答の品質を測定するためのプロキシとして提案します。これにより、手動のシステムターン品質注釈を必要とせずに、弱い監督下で大量の対話セットでトレーニングできます。実験では、当社のモデルが人間による注釈付きデータでトレーニングされたモデルと同等であることが示されています。さらに、当社のモデルは、実際の有料ユーザーから収集された口頭および書面のオープンドメインの対話コーパスにわたって一般化します。
https://aclanthology.org/2022.findings-acl.331/