Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)

Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
1. Natural language processing (NLP) has become an increasingly important field in recent years due to the explosion of digital data and the need to extract meaningful information from it. 自然言語処理(NLP)は、デジタルデータの爆発的な増加とそれから意味のある情報を抽出する必要性のため、近年ますます重要な分野となっています。 2. NLP involves the use of computational techniques to analyze, understand, and generate human language. NLPは、人間の言語を分析、理解、生成するためにコンピュータ技術を使用することを含みます。 3. This paper provides an overview of the current state of the art in NLP research, including recent advances in deep learning and neural language models. 本論文では、深層学習やニューラル言語モデルの最近の進歩を含む、NLP研究の現状について概説します。 4. We also discuss some of the challenges and limitations of NLP, such as the difficulty of handling ambiguity and the need for large amounts of annotated data. また、曖昧性の扱いの難しさや大量の注釈付きデータの必要性など、NLPの課題や制限についても議論します。 5. Finally, we highlight some of the potential applications of NLP, such as machine translation, sentiment analysis, and chatbots, and discuss future directions for research in this field. 最後に、機械翻訳、感情分析、チャットボットなど、NLPの潜在的な応用分野のいくつかを紹介し、この分野の将来の研究方向についても議論します。
https://aclanthology.org/2022.acl-short.0/
BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
BitFitというスパースファインチューニング手法を紹介し、モデルのバイアス項(またはその一部)のみを変更する方法である。小〜中規模のトレーニングデータに対して、事前学習されたBERTモデルにBitFitを適用することは、モデル全体をファインチューニングすることと競合力があることを示す。大規模なデータに対しては、この方法は他のスパースファインチューニング手法と競合力がある。これらの実用的な発見に加えて、ファインチューニングの一般的なプロセスを理解するための問題に関連しており、言語モデリングトレーニングによって誘発された知識を明らかにすることが主な目的であり、タスク固有の言語知識を学習することではないという仮説を支持している。
https://aclanthology.org/2022.acl-short.1/
Are Shortest Rationales the Best Explanations for Human Understanding?
既存の自己説明モデルは、通常、入力テキストの「責任を持つ」対応する出力に対する最短の理由を抽出することを好む傾向があります。これは、より短い理由が人間にとってより直感的であるという仮定に基づいています。しかし、この仮定はまだ検証されていません。最短の理由が本当に最も人間に理解しやすいのでしょうか?この問いに答えるために、我々は自己説明モデル「LimitedInk」を設計しました。このモデルは、ユーザーが任意のターゲット長さで理由を抽出できるようにします。既存のベースラインと比較して、LimitedInkは互換性のあるエンドタスクのパフォーマンスと人間による注釈付けされた理由の合意を達成し、最近の自己説明モデルの適切な表現となります。我々は、理由の長さの影響に関するユーザースタディを実施するためにLimitedInkを使用しました。このスタディでは、人間の審査員に、異なる長さのLimitedInk生成理由だけを使用して文書の感情ラベルを予測するように求めました。我々は、理由があまりに短い場合、ランダムにマスクされたテキストよりもラベルをより良く予測するのに役立たないことを示し、最適な人間理由のより注意深い設計の必要性を示唆しています。
https://aclanthology.org/2022.acl-short.2/
Analyzing Wrap-Up Effects through an Information-Theoretic Lens
読解中に起こる内部プロセスについて学ぶため、読み上げ時間(RT)データの多数の分析が行われてきた。しかし、文末や節末の単語で測定されたデータは、いわゆる「ラップアップ効果」によって導入される混乱要因のためにしばしば省略される。これは、これらの単語のRTの偏った分布として現れる。そのため、これらの効果に関与する可能性のある認知プロセスの理解は限られている。本研究では、ラップアップ効果と単語や文脈情報のような情報理論的量との間に存在するか否かのリンクを探し、これらのプロセスについてより詳しく学ぼうと試みた。我々は、先行文脈の情報分布がしばしば文末や節末のRTを予測することを発見した(文中のRTではない)。これは、ラップアップ効果に関与するプロセスについてのいくつかの先行仮説を支持するものである。
https://aclanthology.org/2022.acl-short.3/
Have my arguments been replied to? Argument Pair Extraction as Machine Reading Comprehension
Argument pair extraction(APE)は、2つの相互関連する論文から自動的に引数ペアを採掘することを目的としています。既存の研究では、通常、2つの文書間の文レベルの関係を予測することによって引数ペアを間接的に特定し、全体的な引数レベルの相互作用のモデリングを無視しています。この問題に対処するために、私たちは2つのフェーズを持つマシンリーディング理解(MRC)フレームワークを使用してAPEに対処することを提案します。最初のフェーズでは、引数マイニング(AM)クエリを使用して、2つの文書内のすべての引数を特定します。2番目のフェーズでは、各特定された引数をAPEクエリとして考慮し、別の文書からそのペア引数を抽出することで、引数レベルの相互作用をよりよく捉えることができます。また、このフレームワークにより、これら2つのフェーズを単一のMRCモデルで共同トレーニングすることができ、相互の利益を最大化することができます。実験結果は、私たちのアプローチが最高の性能を発揮し、F1スコアで最先端の方法を7.11%上回ることを示しています。
https://aclanthology.org/2022.acl-short.4/
On the probability–quality paradox in language generation
ニューラル確率モデルから自然言語を生成する際、高い確率が高い品質と必ずしも一致しないことがある。高い確率のテキストを生成するモード探索デコーディング手法は、不自然な言語を生成することがしばしば観察されてきた。一方、確率的手法によって生成された低確率のテキストは、より人間らしいと認識される。本稿では、情報理論的な観点から言語生成を分析することにより、この現象の説明を提供する。具体的には、人間らしい言語は、自然な文字列の分布のエントロピーに近い情報量(負の対数確率で量子化される)を含むべきであると仮定する。さらに、情報量が著しく多い(または少ない)言語は望ましくないと仮定する。私たちは、この仮説を支持する予備的な実証的証拠を提供する。複数のタスクと一般的なデコーディング戦略をカバーする人間と機械によるテキストの品質評価は、偶然に期待されるよりもエントロピーに近い情報量を持つ高品質のテキストを示唆している。
https://aclanthology.org/2022.acl-short.5/
Disentangled Knowledge Transfer for OOD Intent Discovery with Unified Contrastive Learning
タスク指向型の対話システムにおいて、新しいスキルを開発するためには、ドメイン外の意図を発見することが重要です。主要な課題は、先行するIND知識をOODクラスタリングにどのように転送するかです。共有意図表現に基づく既存の研究とは異なり、我々は統一されたマルチヘッド対比学習フレームワークを介した分離された知識転送手法を提案します。IND事前学習とOODクラスタリングのギャップを埋めることを目的としています。2つのベンチマークデータセットでの実験と分析により、我々の手法の有効性が示されました。
https://aclanthology.org/2022.acl-short.6/
Voxel-informed Language Grounding
自然言語処理を適用した自然な2D画像は、基本的に3D世界を表現します。本論文では、視覚入力から体積再構成モデルを用いて導出されたボクセルマップの形での3Dジオメトリ情報を活用する言語グラウンディングモデルである「Voxel-informed Language Grounder (VLG)」を提案します。SNAREというオブジェクト参照ゲームタスクにおいて、VLGがグラウンディングの精度を大幅に向上させることを示します。執筆時点では、VLGはSNAREリーダーボードでトップを獲得し、2.0%の絶対的な改善をもたらすSOTAの結果を達成しています。
https://aclanthology.org/2022.acl-short.7/
P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks
プロンプトチューニングは、凍結された言語モデルを使用して連続的なプロンプトのみを調整することで、トレーニング時のタスクごとのストレージとメモリ使用量を大幅に削減します。しかし、NLUの文脈では、従来の研究により、プロンプトチューニングは通常のサイズの事前学習済みモデルではうまく機能しないことが明らかになっています。また、既存のプロンプトチューニングの方法では、困難なシーケンスラベリングタスクを処理できないことが示され、普遍性に欠けることが示唆されています。我々は、適切に最適化されたプロンプトチューニングが、広範なモデルスケールとNLUタスクにわたって普遍的に効果的であることを示す新しい経験的な発見を提示します。それは、微調整のパフォーマンスに匹敵する一方で、わずか0.1%〜3%の調整されたパラメータしか持たないものです。我々の方法P-Tuning v2は、NLUに最適化され、適応されたDeep Prompt Tuning(CITATION)の実装です。P-Tuning v2の普遍性と簡単さを考慮すると、我々は、微調整の代替手段として、そして将来の研究の強力なベースラインとして役立つと信じています。
https://aclanthology.org/2022.acl-short.8/
On Efficiently Acquiring Annotations for Multilingual Models
特定の問題に対して複数の言語をサポートする場合、2つのアプローチが生まれました。1つは、各言語について同じアノテーション予算を分割してモデルをトレーニングする方法であり、もう1つは高リソース言語でトレーニングした後、残りの言語に対してゼロショット転送を行う方法です。本研究では、単一のモデルを使用して複数の言語を共同学習する戦略が、前述の代替手段よりもはるかに優れていることを示します。また、アクティブラーニングが追加的な補完的な利益を提供することも示します。このシンプルなアプローチにより、モデルはアノテーション予算を調整して、より不確実な言語をクエリすることでデータ効率が向上します。我々は、4つの言語を使用した分類タスク、4つの言語を使用したシーケンスタグ付けタスク、5つの言語を使用した依存構文解析タスクの多様なタスクにおいて、提案手法の効果を示します。我々の提案手法は、シンプルであるにもかかわらず、制約された予算の下で多言語環境でモデルを構築するための他の有効な代替手段よりもはるかに優れています。
https://aclanthology.org/2022.acl-short.9/
Automatic Detection of Entity-Manipulated Text using Factual Knowledge
本研究では、人間が書いたニュース記事と、その記事内のエンティティを操作して作成されたニュース記事(例えば、事実に反するエンティティで置き換えること)を区別する問題に焦点を当てる。このような操作された記事は、人間が書いたニュース記事として偽装され、読者を誤導する可能性がある。我々は、記事に言及された事実について推論することによって操作されたニュース記事を検出するニューラルネットワークベースの検出器を提案する。我々の提案する検出器は、グラフ畳み込みニューラルネットワークを介して事実的な知識を利用し、ニュース記事内のテキスト情報と組み合わせている。また、GPT-2からエンティティを生成するなど、さまざまな戦略を考慮して、このタスクのための難解なデータセットを作成する。すべての設定において、我々の提案するモデルは、精度の面で最先端の検出器と同等または優れている。我々のコードとデータは、https://github.com/UBC-NLP/manipulated_entity_detectionで利用可能である。
https://aclanthology.org/2022.acl-short.10/
Does BERT Know that the IS-A Relation Is Transitive?
自然言語処理(NLP)システムの成功は、多くの深層学習モデルによって特徴付けられるタスクの複雑さを完全に理解することにはならない。そのような質問の1つは、ブラックボックスモデルが推移的関係に対して論理的に一貫した予測を行うことができるかということである。最近の研究では、事前学習されたBERTが文脈中の単語からレキシコ・セマンティックな手がかりを捉えることができることが示唆されている。しかし、BERTがいくつかの語彙関係の推移的性質をどの程度捉えているかは不明である。プロービングの観点から、WordNetの単語意味とIS-A関係(推移的関係)を調べる。つまり、意味A、B、Cに対して、A is-a B かつ B is-a C は A is-a C を意味する。私たちは、最小限のプロービング設定を通じて、BERTがIS-A関係の推移的性質にどの程度同意しているかを定量化することを目的としています。私たちの調査は、BERTの予測がIS-A関係の推移的性質を完全に守っていないことを明らかにしています。
https://aclanthology.org/2022.acl-short.11/
Buy Tesla, Sell Ford: Assessing Implicit Stock Market Preference in Pre-trained Language Models
BERTのような事前学習言語モデルは、いくつかのNLPタスクで驚異的な成功を収めています。BERTが実世界のアプリケーションで広く採用されるにつれて、研究者たちはBERTにエンコードされた暗黙のバイアスを調査し始めました。本論文では、BERTとそのファイナンスドメイン特化モデルであるFinBERTに暗黙の株式市場の好みを評価します。私たちはいくつかの興味深いパターンを発見しました。例えば、言語モデルは全体的に株式市場に対してよりポジティブですが、一対の業界セクター間、あるいはセクター内でも好みには大きな違いがあります。金融決定システムでのNLPモデルの普及を考えると、この研究は株式市場における潜在的な暗黙の好みに対する認識を高めます。このような問題に対する認識は、実践者が金融NLPパイプラインの堅牢性と説明責任を向上させるのに役立ちます。
https://aclanthology.org/2022.acl-short.12/
Pixie: Preference in Implicit and Explicit Comparisons
私たちは、アプリのレビューから抽出された8,890の文章からなる好み分類のための手動注釈付きデータセットであるPixieを提供する。Pixieは、従来の好み分類の研究とは異なり、暗黙的な比較(比較対象のエンティティを省略する)や間接的な比較(比較的な言語的手がかりが欠ける)を含んでいます。私たちは、Pixieで微調整されたトランスフォーマーベースの事前学習モデルが、重み付き平均F1スコア83.34%を達成し、既存の最先端の好み分類モデル(73.99%)を上回ることを発見しました。
https://aclanthology.org/2022.acl-short.13/
Counterfactual Explanations for Natural Language Interfaces
自然言語インタフェースに直面する主要な課題は、ユーザーが基盤となるシステムの能力を理解できるようにすることです。我々は、意味解析に基づく自然言語インタフェースの説明を生成するための新しいアプローチを提案します。我々は、カウンターファクト説明に焦点を当てています。これは、ユーザーが望む目標を達成するために、彼らが発話を最小限に変更する方法を説明する事後説明です。特に、ユーザーは望む目標のデモとともに発話を提供します。その後、我々のアルゴリズムは、彼らの目標を達成することが保証された発話の言い換えを合成します。2つのユーザースタディにおいて、我々のアプローチがユーザーのパフォーマンスを大幅に改善し、2つの削除と比較して、ユーザーの意図により近い説明を生成することを示します。
https://aclanthology.org/2022.acl-short.14/
Predicting Difficulty and Discrimination of Natural Language Questions
アイテム反応理論(IRT)は、認知心理学や教育などの領域において、人間の被験者の問題の難易度と識別度を数値化するために広く使用されてきた(Primi et al.、2014; Downing、2003)。最近では、IRTが、さまざまなデータセット(Lalor et al.、2019; Vania et al.、2021; Rodriguez et al.、2021)において、自然言語モデルのアイテムの難易度と識別度を同様に特徴付けるために使用されています。本研究では、質問応答の文脈で自然言語の質問のこれらの特性を直接推定し説明するための予測モデルを探索します。HotpotQAを例に使用します。実験の結果、新しい質問の難易度と識別度の両方を予測することが可能であり、これらの特性は質問、回答、および関連する文脈の特徴と相関しています。これらの発見は、新しいデータセットやテストの作成、またはアクティブラーニングやカリキュラム学習などの戦略に重要な影響を与える可能性があります。
https://aclanthology.org/2022.acl-short.15/
How does the pre-training objective affect what large language models learn about linguistic properties?
言語モデル(例:BERT)を事前学習するために、マスクされた言語モデリング(MLM)などの複数の事前学習目的が提案されています。しかし、私たちの知る限り、これまでにどの先行研究も、異なる事前学習目的がBERTが言語学的特性について学習する内容にどのように影響するかを調査したことはありませんでした。私たちは、MLMなどの言語学的に動機づけられた目的は、人間が入力と予測されるラベルの関連性を推測するのが難しい非言語学的に動機づけられた目的よりも、BERTがより良い言語学的知識を習得するのに役立つと仮説を立てました。このため、私たちはBERTを2つの言語学的に動機づけられた目的と3つの非言語学的に動機づけられた目的で事前学習しました。その結果得られたモデルの表現にエンコードされた言語的特性を調べました。その結果、2つの異なるタイプの目的で学習された表現のプロービングパフォーマンスにはほとんど差がないことが強い証拠として示されました。これらの驚くべき結果は、言語学的に情報を与えられた事前学習の支配的なナラティブに疑問を投げかけます。
https://aclanthology.org/2022.acl-short.16/
The Power of Prompt Tuning for Low-Resource Semantic Parsing
プロンプト調整は、最近、事前に学習された言語モデルを多数の言語理解および生成タスクに適応させるための効果的な方法として現れています。本論文では、自然言語発話を形式的な意味表現にマッピングするタスクである意味解析に対するプロンプト調整を調査します。OvernightおよびTOPv2の低リソース分割において、プロンプト調整されたT5-xlが、その微調整された対応物、強力なGPT-3およびBARTベースラインよりも優れた性能を発揮することを発見しました。また、異なるモデルスケールおよびターゲット表現に対する抜粋研究を実施し、モデルスケールが増加するにつれて、プロンプト調整されたT5モデルが、事前学習分布から遠いターゲット表現を生成することで改善することを発見しました。
https://aclanthology.org/2022.acl-short.17/
Data Contamination: From Memorization to Exploitation
事前学習された言語モデルは、しばしば下流のテストセットで「汚染」された大規模なWebベースのデータセットでトレーニングされます。モデルが下流のタスクに汚染されたデータをどの程度利用しているかは明確ではありません。本研究では、この問題を研究するための原則的な方法を提案します。Wikipediaとラベル付きの下流データセットの共同コーパスでBERTモデルを事前学習し、関連するタスクで微調整します。事前学習中に見たサンプルと見ていないサンプルのパフォーマンスを比較することで、記憶と利用のレベルを定義し、量子化することができます。2つのモデルと3つの下流タスクの実験により、いくつかの場合には利用が存在する一方、モデルは汚染されたデータを記憶するが、それを利用しない場合もあることが示されました。これら2つの指標は、汚染されたデータの重複数やモデルのサイズなど、異なる要因に影響を受けることが示されました。私たちの結果は、NLPの進歩がより良い言語理解ではなく、より良いデータの利用によって得られていることを検証するために、大規模なWebスケールのデータセットを分析することの重要性を強調しています。
https://aclanthology.org/2022.acl-short.18/
Detecting Annotation Errors in Morphological Data with the Transformer
言語データの大規模な注釈付けを行う際には、様々な原因から生じる注釈付けの誤りは通常避けられない。本論文では、変形器モデルを用いて、屈折語形を含む形態論的データセットにおける様々な種類の注釈付け者の誤りを検出することの実現可能性を評価する。我々は、データに人工的な誤りを3種類導入することで、4つの言語で誤り検出モデルを評価した:(1)タイポグラフィ誤り、データ内の単一の文字が挿入、置換、または削除される。(2)言語的混乱誤り、2つの屈折形が系統的に交換される。(3)自己対抗誤り、変形器モデル自体を使用して、高得点の予測を検索ビームから取得して、見かけ上は正しいが誤った形式を生成する。結果は、すべての言語で、注釈付けデータの重大な部分(5%〜30%)がすべての言語で破損している場合でも、変形器モデルが完全またはほぼ完全なリコールで3つのシナリオのすべての誤りを検出できることを示している。精度は言語と誤りの種類によって異なるが、モデルは大規模なデータセットの疑わしいエントリを人間の注釈者によるさらなる検討のために効果的にフラグ付けするために非常に効果的に使用できる。
https://aclanthology.org/2022.acl-short.19/
Estimating the Entropy of Linguistic Distributions
シャノンエントロピーは、人間の言語のコミュニケーション能力を研究する言語学者にとって、しばしば興味のある量である。しかし、エントロピーは通常、観測されたデータから推定する必要があるため、研究者は基礎となる確率分布にアクセスできない。エントロピーの推定は、他の分野でよく研究されている問題であるが、言語データに対するエントロピー推定器の効果的な総合的探求はまだ行われていない。本研究では、異なるエントロピー推定器の実証的な有効性を研究し、最近の情報理論的言語研究の2つの複製において、報告された効果サイズが劣ったエントロピー推定器に過度に依存して過大評価されていることを示す証拠を見つけた。本論文では、将来の言語研究で使用すべきエントロピー推定器について具体的な推奨事項で締めくくる。
https://aclanthology.org/2022.acl-short.20/
Morphological Reinflection with Multiple Arguments: An Extended Annotation schema and a Georgian Case Study
近年、多言語の活用表のリポジトリであるUniMorphを含む、多くの形態素データセットが登場している。しかし、現在の形態素注釈のフラットな構造は、多人称の合意の場合には、いくつかの言語の処理が奇妙であるか、不可能であることがある。本論文では、真の接辞を使用して複数の引数に合意する動詞の現象を自然に扱うために、このような場合の一般的な解決策を提案し、UniMorph注釈スキーマを拡張する。この拡張されたスキーマを、ジョージア語などの言語に適用し、ジョージア語の動詞に対して、人間によって検証された正確でバランスの取れた形態素データセットを提供する。このデータセットは、既存のUniMorphデータセットに比べて、4倍の表と6倍の動詞形をカバーし、引数マーキングのすべての可能なバリアントをカバーしており、提案されたスキーマの適切性を示している。再活用タスクの実験では、データを形式レベルで分割すると一般化が容易であるが、レンマのラインに沿って分割すると非常に困難であることが示された。UniMorphの他の言語をこのスキーマに従って拡張することにより、このベンチマークのカバレッジ、一貫性、解釈性が向上することが期待される。
https://aclanthology.org/2022.acl-short.21/
DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization
BARTやT5などの大規模な事前学習シーケンスモデルは、多くの生成型NLPタスクで最先端のパフォーマンスを発揮しています。しかし、これらのモデルは大きなメモリ要件と高いレイテンシーのため、リソース制約のあるシナリオでは大きな課題を提起します。この問題を緩和するために、私たちはモデルを共同で蒸留し、量子化することを提案しています。ここでは、知識が完全精度の教師モデルから量子化された蒸留された低精度の学生モデルに転送されます。実証分析により、生成タスクの難しさにもかかわらず、複数の要約およびQAデータセットにおいて、完全精度の対応物に比べてわずかな性能低下で16.5倍のモデルフットプリント圧縮率を達成することができました。さらに、圧縮率の限界を27.7倍まで押し上げ、事前学習モデルを使用した生成タスクの性能効率トレードオフを示しました。私たちの知る限り、これは言語生成タスクのためのシーケンスツーシーケンス事前学習モデルを効果的に蒸留し、量子化することを目的とした最初の研究です。
https://aclanthology.org/2022.acl-short.22/
Learning-by-Narrating: Narrative Pre-Training for Zero-Shot Dialogue Comprehension
対話を理解するには、会話の異なるターンで散在するか、暗黙のうちに含まれる発話の様々な種類の重要な情報を捉えるモデルが必要です。したがって、対話理解には、言い換え、要約、常識的推論など多様な能力が必要です。ゼロショット対話理解モデルの事前学習の目的に向けて、対話入力から主要な情報を語ることによって学習する新しいナラティブガイドの事前学習戦略を開発しました。しかし、そのような事前学習戦略のための対話ナラティブ並列コーパスは現在利用できません。そのため、映画の字幕とその概要を自動的に整列させることによって、対話ナラティブ並列コーパスを構築しました。その後、データでBARTモデルを事前学習し、理解が必要な4つの対話ベースのタスクでその性能を評価しました。実験結果は、当社のモデルが優れたゼロショット性能を発揮するだけでなく、より強力な細かい対話理解能力を示すことを示しています。データとコードはhttps://github.com/zhaochaocs/Dianaで利用可能です。
https://aclanthology.org/2022.acl-short.23/
Kronecker Decomposition for GPT Compression
GPTは、自然言語処理(NLP)領域で注目を集めている自己回帰型Transformerベースの事前学習言語モデルです。GPTの成功は、主に膨大な量のデータでの事前学習と多数のパラメータによるものです。しかし、GPTのこの過剰なパラメータ化は、計算能力やメモリに制限のあるデバイスにこのモデルを展開することを非常に困難にします。この問題は、モデル圧縮技術を使用することで緩和できますが、GPTモデルの圧縮については、文献であまり研究されていません。本研究では、Kronecker分解を使用して、GPT-2モデルの線形マッピングを圧縮します。私たちのKronecker GPT-2モデル(KnGPT2)は、GPT-2モデルのKronecker分解バージョンに基づいて初期化され、その後、中間層の知識蒸留(ILKD)を使用して、トレーニングデータの一部のみで非常に軽い事前学習を受けます。最後に、私たちのKnGPT2は、ILKDを使用して下流タスクで微調整されます。私たちは、言語モデリングと一般言語理解評価ベンチマークタスクの両方で私たちのモデルを評価し、より効率的な事前学習と同じ数のパラメータを持つ場合に、私たちのKnGPT2が既存のDistilGPT2モデルを大幅に上回ることを示します。
https://aclanthology.org/2022.acl-short.24/
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product Attribute Extraction
電子商取引サイトからの属性値抽出(AVE)における主要な課題は、多様な製品の大量の属性をどのように扱うかです。この課題は、質問応答(QA)アプローチによって部分的に解決されますが、まれで曖昧なクエリに対しては効果的ではありません。そこで、QAベースのAVEのための可能な回答(値)に基づくシンプルな知識駆動型クエリ拡張を提案します。トレーニングデータからクエリ(属性)の値を取得してクエリを拡張します。我々は、値の知識の不完全性をテストで模倣する知識ドロップアウトと知識トークンミキシングの2つのトリックでモデルをトレーニングします。AliExpressデータセットのクリーンバージョンでの実験結果は、我々の方法がAVEのパフォーマンスを改善することを示しています(+6.08マクロF1)、特にまれで曖昧な属性に対してはより効果的です(それぞれ+7.82および+6.86マクロF1)。
https://aclanthology.org/2022.acl-short.25/
Event-Event Relation Extraction using Probabilistic Box Embedding
複数のイベントを含むストーリーを理解するためには、これらのイベント間の適切な関係を捉えることが重要です。しかし、既存のイベント関係抽出(ERE)フレームワークは、多クラス分類タスクとして扱い、反対称などの異なる関係タイプ間の一貫性を保証しません。もし「嵐」の後に電話回線が「死んだ」場合、明らかに「嵐」が「死んだ」よりも前に起こったことがわかります。現在のイベント関係抽出のフレームワークはこの一貫性を保証せず、制約損失関数を介して強制します(Wang et al.、2020)。本研究では、明示的な制約を適用せずに、各イベントをボックス表現(BERE)として表現することで、一貫性を保証するために基礎となるEREモデルを修正することを提案します。実験から、BEREは制約注入を行った以前のモデルと同等またはそれ以上のF1スコアを示しながら、より強い接続制約の満足度を示すことがわかりました。
https://aclanthology.org/2022.acl-short.26/
Sample, Translate, Recombine: Leveraging Audio Alignments for Data Augmentation in End-to-end Speech Translation
エンドツーエンドの音声翻訳は、ソース言語の音声入力と対応するターゲット言語への翻訳をペアにしたデータに依存しています。このようなデータは極めて不足しており、バックトランスレーションや知識蒸留による合成データの増幅がエンドツーエンドのトレーニングに必要不可欠です。本論文では、オーディオアラインメント、言語的特性、および翻訳を活用したデータ増幅の新しいアプローチを提案します。まず、テキストとオーディオデータを格納するサフィックスメモリからサンプリングしてトランスクリプトを増幅します。次に、増幅されたトランスクリプトを翻訳します。最後に、連結されたオーディオセグメントと生成された翻訳を再結合します。本手法は、CoVoST 2の5つの言語ペアとEuroparl-STの2つの言語ペアで、知識蒸留による増幅に対して0.9〜1.1 BLEUポイントの一貫した改善をもたらします。
https://aclanthology.org/2022.acl-short.27/
Predicting Sentence Deletions for Text Simplification Using a Functional Discourse Structure
文書レベルのテキスト簡素化は、テキストの複雑さを減らすために、語彙、文法、構造の簡素化に加えて、いくつかの文を削除することがよくある。本研究では、テキスト簡素化のための文の削除に焦点を当て、ニュースジャンル固有の機能的なディスコース構造を使用して、ニュースストーリーを伝えるための文の内容と機能的な役割に基づいて文を分類し、文の削除を予測する。文のカテゴリをニューラルネットモデルに2つの方法で組み込み、追加の特徴量としてまたは文の削除と文のカテゴリを共同で予測することで、文の削除を予測する。人間による注釈付きデータを使用した実験結果は、機能的な構造を組み込むことによって、2つの方法でそれぞれ削除予測の再現率が6.5%と10.7%向上し、全体的なF1スコアがそれぞれ3.6%と4.3%向上することを示している。
https://aclanthology.org/2022.acl-short.28/
Multilingual Pre-training with Language and Task Adaptation for Multilingual Text Style Transfer
私たちは、事前にトレーニングされたseq2seqモデルmBARTを多言語テキストスタイル転送に利用しています。機械翻訳されたデータと英語の正確に整列した文を使用することで、私たちは考慮する3つのターゲット言語で最先端の結果を得ています。また、並列データが一般的に不足していることを考慮して、私たちは多言語フォーマリティ転送のためのモジュラーアプローチを提案しています。このアプローチは、言語とタスクの両方に適応する2つのトレーニング戦略から構成されており、単一言語のタスク固有の並列データなしでも競争力のあるパフォーマンスを発揮し、他のスタイル転送タスクや他の言語にも適用できます。
https://aclanthology.org/2022.acl-short.29/
When to Use Multi-Task Learning vs Intermediate Fine-Tuning for Pre-Trained Encoder Transfer Learning
自然言語処理(NLP)における転移学習(TL)は、事前学習モデルが新しいタスクに転移する驚異的な能力を示したため、近年注目を集めています。ファインチューニング中に複数の教師ありデータセットを使用するために、3つの主要な戦略が現れました。中間タスクでトレーニングしてからターゲットタスクでトレーニングする(STILTs)、補助タスクとターゲットタスクの両方を同時にトレーニングするマルチタスク学習(MTL)(ペアワイズMTL)、または単にすべての利用可能なデータセットで同時にトレーニングするMTL(MTL-ALL)。本研究では、GLUEデータセットスイートで3つのTL方法を比較的包括的に分析します。ターゲットタスクのインスタンスがサポートタスクよりも少ない場合、ペアワイズMTLがSTILTsよりも優れているという簡単なヒューリスティックがあることがわかりました。逆もまた同様です。GLUEデータセットの適用可能なケースの92%以上で、この仮説がデータセットサイズを変化させた実験で検証されました。このヒューリスティックの単純さと効果は驚くべきものであり、TLコミュニティによる追加の探索を正当化するものです。さらに、MTL-ALLはほとんどの場合でペアワイズ方法よりも劣っていることがわかりました。この研究が、NLPタスクのTL方法を選択する際に他の人々の助けになることを願っています。
https://aclanthology.org/2022.acl-short.30/
Leveraging Explicit Lexico-logical Alignments in Text-to-SQL Parsing
Text-to-SQLは、自然言語の質問をSQLクエリに解析することを目的としており、大規模なデータベースにアクセスするための簡単なインターフェースを提供するのに役立ちます。以前の研究では、レキシコロジカルアラインメントを活用することが解析性能の向上に非常に役立つことが観察されています。しかし、現在のアテンションベースのアプローチでは、トークンレベルでしかそのようなアラインメントをモデル化できず、満足できる汎化能力を持っていません。本論文では、明示的なレキシコロジカルアラインメントを活用する新しいアプローチを提案します。まず、可能なフレーズレベルのアラインメントを特定し、解析手順をガイドするための追加の文脈として注入します。 \textsc{Squall}での実験結果は、当社のアプローチがそのようなアラインメントをより良く活用し、現在の最先端技術と比較して3.4%の絶対的な改善を達成できることを示しています。
https://aclanthology.org/2022.acl-short.31/
Complex Evolutional Pattern Learning for Temporal Knowledge Graph Reasoning
時間的知識グラフ(TKG)は、異なるタイムスタンプに対応するKGのシーケンスです。TKG推論は、歴史的なKGシーケンスから将来の潜在的な事実を予測することを目的としています。このタスクの1つの鍵は、これらのシーケンスから事実の進化パターンを掘り起こし理解することです。進化パターンは、長さの多様性と時間の変動性の2つの面で複雑です。TKG推論の既存のモデルは、固定長の事実シーケンスをモデル化することに焦点を当てており、長さが異なる複雑な進化パターンを発見することができません。さらに、これらのモデルはすべてオフラインでトレーニングされており、その後の進化パターンの変化に適応することができません。したがって、私たちは、異なる長さの進化パターンを容易から難しいカリキュラム学習戦略を用いて扱う長さに注意した畳み込みニューラルネットワーク(CNN)を使用する新しいモデルであるComplex Evolutional Network(CEN)を提案します。さらに、進化パターンの変化に適応できるように、オンライン設定でモデルを学習することを提案します。広範な実験により、CENは従来のオフライン設定と提案されたオンライン設定の両方で実質的な性能向上を達成することが示されています。
https://aclanthology.org/2022.acl-short.32/
Mismatch between Multi-turn Dialogue and its Evaluation Metric in Dialogue State Tracking
対話状態追跡(DST)は、マルチターンの対話状況から必要な情報を抽出し、適切なアクションを取ることを目的としています。情報の中核である信念状態は、主題とその具体的な内容を指し、ドメイン-スロット-値の形式で表されます。訓練されたモデルは、各ターンで「蓄積された」信念状態を予測し、共同目標精度とスロット精度が主に予測の評価に使用されます。しかし、特に最も使用されるMultiWOZデータセットにおいて、現在の評価指標は対話が進行するにつれて蓄積された信念状態を評価する際に重大な制限があることを指摘します。さらに、既存の指標を補完する相対スロット精度を提案します。相対スロット精度は、事前定義されたスロットの数に依存せず、各対話のターンに応じて相対的なスコアを割り当てることで直感的な評価を可能にします。この研究は、DSTタスクにおいて共同目標精度だけでなく、様々な補完的な指標を報告することを奨励し、現実的な評価を目指します。
https://aclanthology.org/2022.acl-short.33/
LM-BFF-MS: Improving Few-Shot Fine-tuning of Language Models based on Multiple Soft Demonstration Memory
LM-BFF(引用)は、自動生成されたプロンプトを使用し、入力例に類似したデモンストレーションを追加することにより、重要なフューショットのパフォーマンスを達成します。LM-BFFのアプローチを改善するために、本論文では、複数のソフトデモンストレーションを使用した言語モデルのより良いフューショットファインチューニングであるLM-BFF-MSを提案します。これには、1)複数のラベル単語の自動生成に基づく複数のデモンストレーションを含むプロンプト、および2)類似した文脈のための複数のグローバル共有単語埋め込みの複数のシーケンスから構成されるソフトデモンストレーションメモリが含まれます。8つのNLPタスクで実験を行った結果、LM-BFF-MSは、特にSST-2とMRPCでそれぞれ94.0と90.4を達成し、LM-BFFよりも5つのタスクで改善をもたらします。
https://aclanthology.org/2022.acl-short.34/
Towards Fair Evaluation of Dialogue State Tracking by Flexible Incorporation of Turn-level Performances
Dialogue State Tracking(DST)は、正確に予測された対話状態と正解の対話状態が完全に一致するターンの割合として定義されるJoint Goal Accuracy(JGA)を使用して主に評価されます。一般的に、DSTでは、特定のターンの対話状態または信念状態には、そのターンまでにユーザーによって示されたすべての意図が含まれます。信念状態のこの累積的な性質のため、誤った予測が発生した場合に正しい予測を得ることは困難です。したがって、有用なメトリックであるにもかかわらず、時には厳しすぎる場合があり、DSTモデルの真のポテンシャルを過小評価する可能性があります。さらに、JGAの改善は、注釈の不一致により、ターンレベルまたは非累積的な信念状態予測のパフォーマンスを低下させる場合があります。したがって、モデル選択の唯一のメトリックとしてJGAを使用することは、すべてのシナリオにとって理想的ではありません。この論文では、DSTに使用されるさまざまな評価メトリックとその欠点について説明します。既存の問題に対処するために、Flexible Goal Accuracy(FGA)という新しい評価メトリックを提案します。FGAは、JGAの一般化バージョンです。しかし、JGAとは異なり、ローカルに正しい誤った予測に罰則的な報酬を与えようとします。つまり、エラーの原因が以前のターンである場合です。これにより、FGAは累積的およびターンレベルの予測の両方のパフォーマンスを柔軟に考慮し、既存のメトリックよりも優れた洞察を提供します。また、FGAがDSTモデルのパフォーマンスのより優れた識別子であることを示します。
https://aclanthology.org/2022.acl-short.35/
Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task
最近のfew-shot learningの発展として、prompt-based技術は、様々な自然言語処理タスクで有望な可能性を示しています。しかし、GLUEおよびSuperGLUEベンチマークのほとんどのタスクで競争力を証明しているにもかかわらず、既存のprompt-based技術は、Word-in-Context(WiC)データセットの意味的区別タスクで失敗しています。具体的には、GPT-3のin-context学習を含む既存のfew-shotアプローチのいずれも、ランダムベースラインと意味的に異なるパフォーマンスを達成することができません。このギャップを埋めるために、類似性メトリックに基づく新しいprompting技術を提案し、few-shotパフォーマンスを完全に監視された方法のレベルまで向上させます。私たちのシンプルな適応は、既存のprompt-based技術の意味的区別における失敗は、表現に関連する知識の欠如ではなく、不適切な構成に起因することを示しています。また、このアプローチが、単一のプロンプトが十分な他のダウンストリームタスクに効果的に拡張できることも示しています。
https://aclanthology.org/2022.acl-short.36/
Hierarchical Curriculum Learning for AMR Parsing
Abstract Meaning Representation(AMR)パーシングは、階層構造を持つ意味表現に文を翻訳することを目的としており、最近では事前学習されたシーケンス・トゥ・シーケンス・モデルによって強化されています。しかし、彼らのフラットなトレーニング目標(すべての出力トークンを同等に扱う)と階層的なAMR構造との間にはギャップがあり、モデルの汎化を制限しています。このギャップを埋めるために、私たちは構造レベル(SC)とインスタンスレベルのカリキュラム学習(IC)を備えた階層的カリキュラム学習(HCL)フレームワークを提案します。SCは、トレーニング中にコアから詳細なAMR意味要素に徐々に切り替わり、ICはトレーニング中に構造が単純なAMRインスタンスから複雑なものに移行します。これらの2つのウォーミングアッププロセスにより、HCLは複雑な構造を学習する難しさを減らし、フラットモデルがAMR階層に適応することができるようになります。AMR2.0、AMR3.0、構造複雑性、および分布外状況に対する広範な実験により、HCLの効果が検証されました。
https://aclanthology.org/2022.acl-short.37/
PARE: A Simple and Strong Baseline for Monolingual and Multilingual Distantly Supervised Relation Extraction
「遠隔監視関係抽出(DS-RE)のためのニューラルモデルは、エンティティペアバッグ内の各文を個別にエンコードします。それらはバッグレベルの関係予測のために集約されます。エンコード時に、これらのアプローチはバッグ内の他の文から情報が流れないため、利用可能なバッグデータを最大限に活用していないと考えています。そのため、私たちは、バッグ内のすべての文を連結して文のパッセージにし、BERTを使用して共同でエンコードする単純なベースラインアプローチ(PARE)を探求しました。トークンの文脈埋め込みは、候補関係をクエリとして使用して注意を集約し、このパッセージ全体の要約が候補関係を予測します。私たちは、私たちの単純なベースラインソリューションが、単一言語および多言語のDS-REデータセットの両方で既存の最先端のDS-REモデルを上回ることを発見しました。」
https://aclanthology.org/2022.acl-short.38/
To Find Waldo You Need Contextual Cues: Debiasing Who’s Waldo
私たちは、Cuiら(2021)によって最初に提案されたWho's WaldoデータセットのPerson-centric Visual Grounding(PCVG)タスクのための偏りのないデータセットを提供します。画像とキャプションが与えられた場合、PCVGは、キャプションで言及された人物の名前を、画像内のその人物を指す境界ボックスにペアリングすることを必要とします。私たちは、このタスクに編成された元のWho's Waldoデータセットには、ヒューリスティックな方法で解決できるバイアスのあるサンプルが多数含まれていることを発見しました。例えば、文の最初の名前が最大の境界ボックスに対応する場合や、文の名前の順序が画像内の正確な左から右の順序に対応する場合が多いです。自然に、これらのバイアスのあるデータで訓練されたモデルは、ベンチマークでのパフォーマンスの過大評価につながります。正しい理由で正しいモデルを強制するために、私たちは、動詞がない、またはキャプションに長い連鎖の接続名があるなど、不十分な文脈のすべての例を除外するための自動化されたツールを設計し、元のデータセットをデバイスしました。私たちの実験は、私たちの新しいサブサンプルされたデータセットが、ヒューリスティックなパフォーマンスが低下し、ヒューリスティックと監視された方法の間のギャップが広がった、より少ないバイアスを含むことを示しています。また、私たちは、私たちのデバイスされたトレーニングセットでトレーニングされた同じベンチマークモデルが、デバイスされたテストセットでトレーニングされた元のバイアスのある(そして大きな)トレーニングセットでトレーニングされたモデルよりも優れていることを示しています。私たちは、私たちのデバイスされたデータセットが、PCVGタスクに信頼できるベンチマークと将来の改善のためのより実用的なベースラインを提供すると主張しています。
https://aclanthology.org/2022.acl-short.39/
Translate-Train Embracing Translationese Artifacts
Translate-trainは、多言語タスクの一般的なトレーニングアプローチです。その主要なアイデアは、ターゲット言語の翻訳者を使用してトレーニングデータを生成し、ソース言語とターゲット言語のギャップを緩和することです。しかし、翻訳されたテキストのアーティファクト(翻訳語)によって、そのパフォーマンスがしばしば妨げられます。我々は、このようなアーティファクトが異なる言語で共通のパターンを持ち、深層学習によってモデル化できることを発見し、その後、Translationese Embracing the effect of Artifacts(TEA)を使用してtranslate-trainを実行するアプローチを提案します。TEAは、ソース言語のトレーニングデータ(元のテキストと翻訳語の両方が利用可能な)におけるそのような影響を緩和することを学習し、学習されたモジュールをターゲット言語の推論を促進するために適用します。TyDiQAという多言語QAデータセットでの広範な実験は、TEAが強力なベースラインを上回ることを示しています。
https://aclanthology.org/2022.acl-short.40/
C-MORE: Pretraining to Answer Open-Domain Questions by Consulting Millions of References
私たちは、強力な転移能力を持つ2段階のオープンドメインの質問応答(QA)システム(リトリーバー+リーダー)の事前トレーニングの問題を考慮しています。主な課題は、タスク固有の注釈なしで高品質な質問-回答-文脈の三つ組を大量に構築する方法です。具体的には、三つ組は、(i)広範なドメインをカバーする(オープンドメインアプリケーションのため)、(ii)質問をその意味的に関連する文脈と証拠を提供してリトリーバーをトレーニングする(iii)文脈内で正しい回答を特定する(リーダーをトレーニングするため)ことによって、ダウンストリームタスクとよく一致する必要があります。以前の事前トレーニングアプローチは、これらの要件のいずれかを満たすことができませんでした。この研究では、Wikipediaに引用された数百万の参照を参照して、これらの3つの基準をすべて満たす大規模なコーパスを自動的に構築します。よく整列された事前トレーニング信号は、リトリーバーとリーダーの両方に大きな利益をもたらします。私たちの事前トレーニングされたリトリーバーは、トップ20の精度で2%〜10%の絶対的な利益をもたらします。そして、私たちの事前トレーニングされたリーダーで、システム全体が完全一致で最大4%改善されます。
https://aclanthology.org/2022.acl-short.41/
k-Rater Reliability: The Correct Unit of Reliability for Aggregated Human Annotations
クラウドソーシングの発展以来、信頼性の低いデータを扱うための一般的な戦略として、集計が採用されてきました。集計された評価は個別の評価よりも信頼性が高いです。しかし、集計された評価に依存する多くの自然言語処理(NLP)アプリケーションは、個別の評価の信頼性しか報告しておらず、これは誤った分析単位です。これらの場合、データの信頼性が過小報告され、集計されたデータセットの正しいデータ信頼性として提案されるk-rater reliability(kRR)を使用する必要があります。これは、インターレータ信頼性(IRR)の多重レーター一般化です。私たちはWordSim-353ベンチマークの2つの複製を実施し、WordSim-353でkRRを計算するための経験的、分析的、ブートストラップベースの方法を提示します。これらの方法は非常に似た結果を生み出します。この議論が研究者たちにIRRに加えてkRRを報告するよう促すことを願っています。
https://aclanthology.org/2022.acl-short.42/
An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers
私たちは、事前学習言語モデル(PLM)のトークン化を改善するためのシンプルで効果的な方法であるFLOTA(Few Longest Token Approximation)を紹介する。FLOTAは、標準的なトークナイザーの語彙を使用しながら、単語の形態構造をトークン化の過程で保持しようとする。私たちは、BERT、GPT-2、およびXLNetを例として、形態論的なゴールドセグメンテーションとテキスト分類タスクでFLOTAを評価する。FLOTAは、性能向上、推論の効率化、およびPLMのホワイトスペースノイズに対する堅牢性の向上につながる。
https://aclanthology.org/2022.acl-short.43/
SCD: Self-Contrastive Decorrelation of Sentence Embeddings
本論文では、自己対照的な装飾 (SCD) という自己教師ありアプローチを提案します。入力文が与えられると、共同自己対照的および装飾目的を最適化します。表現の学習は、異なるレートで標準的なドロップアウトの具現化から生じる対比を活用することによって容易になります。提案された方法は概念的にはシンプルですが、実証的には強力です。対照的なペアを使用せずに、複数のベンチマークで最先端の方法と比較可能な結果を達成します。この研究は、現在の対照的な方法よりも堅牢な効率的な自己教師あり学習方法の可能性を開拓します。
https://aclanthology.org/2022.acl-short.44/
Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words
文脈埋め込みのコサイン類似度は、多くのNLPタスク(例:QA、IR、MT)およびメトリック(例:BERTScore)で使用されています。ここでは、BERT埋め込みのコサインによって推定される単語の類似性が過小評価されるシステマティックな方法を明らかにし、この効果をトレーニングデータの頻度に追跡します。私たちは、ポリセミーなどの要因を制御した後でも、コサイン類似度が、頻出語と同じ単語の他のインスタンスや他の文脈の単語との類似性を過小評価していることを発見しました。私たちは、高頻度語の類似性の過小評価が、高頻度語と低頻度語の表現幾何学の違いに起因すると推測し、2次元の場合について形式的な議論を提供します。
https://aclanthology.org/2022.acl-short.45/
Revisiting the Compositional Generalization Abilities of Neural Sequence Models
合成的な一般化は、人間にとって基本的な特性であり、既知のフレーズを容易に組み合わせて新しい文を形成することができます。最近の研究では、標準的なseq-to-seqモデルは合成的な一般化の能力に深刻な欠陥があると主張しています。本論文では、人気のあるSCANベンチマークで導入された一発プリミティブ一般化に焦点を当てます。私たちは、トレーニング分布を簡単で直感的な方法で変更することで、標準的なseq-to-seqモデルがほぼ完璧な一般化性能を発揮できることを示し、彼らの合成的な一般化能力が以前に過小評価されていたことを示します。この現象について詳細な実証分析を行います。私たちの結果は、モデルの一般化性能がトレーニングデータの特性に非常に敏感であり、将来的にこのようなベンチマークを設計する際には注意深く考慮する必要があることを示しています。
https://aclanthology.org/2022.acl-short.46/
A Copy-Augmented Generative Model for Open-Domain Question Answering
オープンドメインの質問応答は、実用的なアプリケーションが多岐にわたる難しいタスクです。現代のアプローチは、主に検索器とリーダーの2段階のパラダイムに従っています。本論文では、リーダーモジュールの効果を改善することに焦点を当て、抽出型リーダーと生成型リーダーの両方の利点を統合した新しいコピー拡張生成アプローチを提案します。特に、私たちのモデルは、強力な生成モデルFiDに基づいて構築されています。私たちは、ポインターネットワークを組み込むことで、モデルが検索されたパッセージから直接単語をコピーするように促すことで、元の生成リーダーを強化します。私たちは、2つのベンチマークデータセット、Natural QuestionsとTriviaQAで実験を行い、提案されたアプローチの性能向上を実証する経験的な結果を示します。
https://aclanthology.org/2022.acl-short.47/
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation
密集検索モデルは、密集表現空間上で入力クエリに最も関連性の高い文書を検索することを目的としており、その優れた成功により注目を集めています。しかし、密集モデルは、著しいパフォーマンスを発揮するためには大量のラベル付きトレーニングデータが必要であり、人間によって注釈付けされたクエリ-ドキュメントのペアを取得することはしばしば困難です。この問題に対処するために、私たちは、ドキュメントの表現をその内挿と摂動によって拡張する単純で効果的な密集検索のためのドキュメント拡張(DAR)フレームワークを提案します。私たちは、2つのベンチマークデータセットで検索タスクのDARのパフォーマンスを検証し、提案されたDARがラベル付きおよびラベルなしの両方の文書の密集検索において関連するベースラインを大幅に上回ることを示しています。
https://aclanthology.org/2022.acl-short.48/
WLASL-LEX: a Dataset for Recognising Phonological Properties in American Sign Language
署名言語処理(SLP)は、聴覚障害者や聴覚障害者の主要なコミュニケーション手段である署名言語の自動処理に関するものである。SLPには、署名認識から署名音声の翻訳や生成まで、さまざまなタスクがありますが、これまでNLPコミュニティに見落とされてきました。本論文では、署名言語の音韻モデリングのタスクに注目します。既存のリソースを活用して、6つの異なる音韻的特性で注釈付けされたアメリカンサインランゲージの署名の大規模なデータセットを構築しました。その後、データ駆動型のエンドツーエンドアプローチと特徴ベースのアプローチを最適化して、これらの特性を自動的に認識できるかどうかを調査するために、広範な実証研究を行いました。私たちは、タスクの固有の課題にもかかわらず、生のビデオから抽出されたスケルトン特徴を操作するグラフベースのニューラルネットワークが、さまざまな程度でタスクに成功することができることを発見しました。最も重要なことは、トレーニング中に観察されなかった署名でも、このパフォーマンスが維持されることを示したことです。
https://aclanthology.org/2022.acl-short.49/
Investigating person-specific errors in chat-oriented dialogue systems
現実的な人物のように振る舞うチャットボットを作成することは、信憑性の観点から重要である。一般的なチャットボットや荒っぽいパーソナリティを持つチャットボットのエラーについては研究されてきたが、現実的な人物のように振る舞うチャットボットのエラーについては十分に調査されていない。我々は、特定のキャラクター、すなわちターゲットの人物の大規模な対話データからトレーニングされた世代ベースのチャットボットのユーザーインタラクションの大量のデータを収集し、その人物に関連するエラーを分析した。我々は、人物固有のエラーを属性のエラーと関係のエラーの2つに分類できることを発見し、それぞれが自己と他者の2つのレベルに分けられることができることも明らかにした。既存のエラーのタクソノミーとの対応も調査し、将来的に対処すべき人物固有のエラーが明確にされた。
https://aclanthology.org/2022.acl-short.50/
Direct parsing to sentiment graphs
この論文では、グラフベースの意味解析器が構造化された感情分析のタスクに適用され、テキストから直接感情グラフを予測する方法を示しています。我々は、5つの標準ベンチマークセットのうち4つで最新技術を進めました。我々はソースコード、モデル、予測を公開します。
https://aclanthology.org/2022.acl-short.51/
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding
トランスフォーマーベースのモデルは、自然言語理解(NLU)タスクで広く使用されており、マルチモーダルトランスフォーマーは視覚言語タスクで効果的であることが示されています。本研究では、事前学習されたマルチモーダルトランスフォーマーから視覚情報を言語エンコーダーに蒸留することを探求しています。我々のフレームワークは、クロスモーダルエンコーダーが視覚言語タスクで成功していることに着想を得ていますが、学習目標をNLUの言語重視の特性に合わせて変更しています。少数の追加適応ステップでトレーニングし、微調整することで、提案されたXDBERT(クロスモーダル蒸留BERT)は、一般言語理解評価(GLUE)、敵対的生成(SWAG)ベンチマーク、読みやすさベンチマークで、事前学習されたBERTを上回る性能を発揮します。我々は、XDBERTのGLUEでのパフォーマンスを分析し、改善が視覚的に根付いている可能性があることを示します。
https://aclanthology.org/2022.acl-short.52/
As Little as Possible, as Much as Necessary: Detecting Over- and Undertranslations with Contrastive Conditioning
内容の省略や追加は、ニューラル機械翻訳における典型的な問題です。本研究では、市販の翻訳モデルを用いて、このような現象を検出する方法を提案します。対照的な条件付けを用いて、翻訳モデルにおける完全なシーケンスの尤度と、対応するソースまたはターゲットシーケンスの部分の尤度を比較することで、翻訳に余分な単語やソースに翻訳されていない単語を特定することができます。これにより、参照翻訳がなくても、翻訳における余分な単語やソースにおける未翻訳の単語を特定することができます。本方法の精度は、カスタム品質評価モデルを必要とする教師あり方法と比較して同等です。
https://aclanthology.org/2022.acl-short.53/
How Distributed are Distributed Representations? An Observation on the Locality of Syntactic Information in Verb Agreement Tasks
この研究は、トランスフォーマー表現にエンコードされた構文情報のローカリゼーションの問題に取り組んでいます。私たちは、フランス語における目的語-過去分詞の一致を考慮し、まず文のどの部分に、そして次に表現のどの部分に構文情報がエンコードされているかを特定することで、この問題に取り組んでいます。プロービング、因果分析、特徴選択法を使用した実験の結果、構文情報がフランス語の文法に一致する方法でローカルにエンコードされていることが示されました。
https://aclanthology.org/2022.acl-short.54/
Machine Translation for Livonian: Catering to 20 Speakers
リヴォニア語は、話者がほとんどおらず、公に利用可能なコーパスもほとんどない、ヨーロッパで最も危機に瀕した言語の1つです。本論文では、リヴォニア語と英語の間のニューラル機械翻訳(NMT)の開発に取り組み、2つの目的を持ちます。一方で、言語を保存し、もう一方で、リヴォニアの民話、人生物語、その他のテキスト上の無形遺産にアクセスしやすくし、さらに並列コーパスを作成しやすくすることです。私たちは、リヴォニア語がエストニア語とラトビア語と言語的に類似していることに依存し、翻訳実験のために4つの言語の並列および単一言語データを収集します。私たちは、ゼロショット翻訳、クロスリンガル転送、合成データ作成などの異なる低リソースNMT技術を組み合わせて、最高の翻訳品質を達成し、どのベース言語がリヴォニア語への転送に実証的により役立つかを見つけます。結果として得られたNMTシステムと収集された単一言語および並列データ、手動で翻訳され検証された翻訳ベンチマークを含むものは、OPUSおよびHuggingfaceリポジトリを通じて公開されます。
https://aclanthology.org/2022.acl-short.55/
Fire Burns, Sword Cuts: Commonsense Inductive Bias for Exploration in Text-based Games
テキストベースのゲーム(TG)は、部分的に観測された環境と大きなアクションスペースのため、深層強化学習技術を開発するための興味深いテストベッドです。これらのゲームでは、エージェントはゲームシミュレータとの自然言語インタラクションを通じて環境を探索することを学習します。TGにおける基本的な課題は、エージェントが環境について十分な知識をまだ獲得していない場合に、大きなアクションスペースを効率的に探索することです。本研究では、エージェントが次のアクションについて最も不確実な場合に、事前学習された言語モデル(LM)を介して外部の常識的な知識を注入する探索技術CommExplを提案します。本手法は、Jerichoの9つのゲームのうち4つのゲームでトレーニング中に収集されたゲームスコアの改善を示しました。さらに、事前学習されたLMでテストした場合、生成されたアクションの軌跡はパープレキシティが低く、人間の言語により近いことを示しています。
https://aclanthology.org/2022.acl-short.56/
A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models
事前学習言語モデル(PLMs)は、特に稀なエンティティに展示される大規模なコーパスの豊富な事実知識をよく思い出せません。本論文では、複数の出現のエンティティの出力表現を集約して、要求に応じてシンプルで効果的なプラグ可能なエンティティルックアップテーブル(PELT)を構築することを提案します。PELTは、PLMsに補足的なエンティティ知識を注入するための入力として互換性があります。以前の知識強化PLMsと比較して、PELTは、ドメイン適応シナリオのためにドメイン外のコーパスから知識を取得する能力を持ち、0.2%〜5%の事前計算のみが必要です。知識関連のタスクの実験は、PELTが、異なるアーキテクチャを持つPLMsに関連するコーパスからエンティティ知識を柔軟かつ効果的に転送できることを示しています。私たちのコードとモデルは、https://github.com/thunlp/PELTで公開されています。
https://aclanthology.org/2022.acl-short.57/
S4-Tuning: A Simple Cross-lingual Sub-network Tuning Method
多言語事前学習言語モデルの出現により、わずかなラベル付き例でターゲット言語に適応することが可能になりました。しかし、バニラファインチューニングは、異なる言語間の言語干渉と、少数のサンプル転移学習シナリオ下のパラメータオーバーロードにより、退化した不安定な結果を達成する傾向があります。2つの問題に対処するために、我々はS4-Tuningというシンプルなクロスリンガルサブネットチューニング方法を提案します。S4-Tuningは、まず各ターゲット言語に最も重要なサブネットワークを検出し、ファインチューニング中にそれだけを更新します。このように、言語サブネットワークは、トレーニング可能なパラメータのスケールを下げ、低リソースシナリオに適しています。一方、言語間の干渉を緩和するために、重複部分と非重複部分によって言語間の共通性と特徴がモデル化されます。シンプルで効果的なS4-Tuningは、37の異なる言語を含む3つの多言語タスク(XNLI、PAWS-X、Tatoeba)でバニラファインチューニングに比べて一貫した改善を得ています。
https://aclanthology.org/2022.acl-short.58/
Region-dependent temperature scaling for certainty calibration and application to class-imbalanced token classification
確信度のキャリブレーションは、解釈可能性と信頼性の高いAIに向けた重要な目標です。特に、人間との連携システムの文脈では、高品質で低〜中程度の確信度の推定が必要不可欠です。例えば、NER問題における非エンティティクラスのように、支配的な高確信度クラスが存在する場合、既存のキャリブレーションエラー測定は、興味のあるこの確信度領域での大きなエラーに完全に無感覚です。私たちは、すべての確信度領域を等しく重み付けする領域バランスの取れたキャリブレーションエラーメトリックを導入します。低〜中程度の確信度推定を考慮すると、キャリブレーションエラーは従来報告されていたよりも大きくなる傾向があります。追加の計算を必要としない温度スケーリングの単純な拡張を導入し、既存のベースラインに対して従来のキャリブレーションエラーと領域バランスの取れたキャリブレーションエラーの両方を削減できます。
https://aclanthology.org/2022.acl-short.59/
Developmental Negation Processing in Transformer Language Models
否定を用いた推論は、トランスフォーマーベースの言語モデルにとって困難であることが知られています。以前の研究では、心理言語学のツールを使用してトランスフォーマーが否定に関する推論能力を調べたものの、発達心理学で研究された否定の種類に焦点を当てたものはありませんでした。我々は、自然言語推論(NLI)タスクとして問題をフレーム化し、トランスフォーマーがこのような否定のカテゴリをどの程度処理できるかを探求します。人気のあるNLIデータセットから、対象のカテゴリの診断的な質問を収集し、一連のモデルがそれらを推論する能力を評価します。モデルは、特定のカテゴリに対してのみ一貫して優れたパフォーマンスを発揮し、それらがどのように処理されるかに明確な違いがあることを示唆しています。
https://aclanthology.org/2022.acl-short.60/
Canary Extraction in Natural Language Understanding Models
自然言語理解(NLU)モデルは、電話番号、郵便番号などの機密情報でトレーニングできます。最近の文献では、モデルパラメータからトレーニングデータを抽出できるモデルインバージョン攻撃(ModIvA)に焦点を当てています。本研究では、NLUトレーニングデータに挿入されたカナリアを抽出することによるそのような攻撃のバージョンを提供します。攻撃では、モデルにオープンボックスアクセスを持つ敵対者が、モデルのトレーニングセットに含まれるカナリアを再構築します。私たちは、カナリアのテキスト補完を実行することによってアプローチを評価し、カナリアのプレフィックス(非機密)トークンを使用することで、完全なカナリアを生成できることを示します。例えば、私たちの攻撃は、最良の構成でNLUモデルのトレーニングデータセット内の4桁のコードを0.5の確率で再構築できます。対策として、私たちはいくつかの防御メカニズムを特定し、実験でModIvAのリスクを効果的に排除することができます。
https://aclanthology.org/2022.acl-short.61/
On the Intrinsic and Extrinsic Fairness Evaluation Metrics for Contextualized Language Representations
自然言語処理の様々なタスクにおける公平性を測定するために、複数のメトリックが導入されています。これらのメトリックは、大まかに2つのカテゴリに分類されます。1つは、下流のアプリケーションにおける公平性を評価するための外的メトリックであり、もう1つは上流の文脈化言語表現モデルにおける公平性を推定するための内的メトリックです。本論文では、19の文脈化言語モデルを用いて、バイアスの概念を横断して内的メトリックと外的メトリックの相関研究を行います。我々は、内的メトリックと外的メトリックが、元の設定において必ずしも相関しないことを発見しました。さらに、メトリックの不一致、評価データセットのノイズ、外的メトリックの実験設定などの混乱要因を修正しても、相関しないことがわかりました。
https://aclanthology.org/2022.acl-short.62/
Sequence-to-sequence AMR Parsing with Ancestor Information
AMRパーシングは、文をAMR意味グラフに自動的にマッピングするタスクです。困難な点は、複雑なグラフ構造を生成することです。従来の最先端の方法は、AMRグラフをシーケンスに変換し、事前学習されたシーケンス-シーケンスTransformerモデル(BART)を直接微調整することです。しかし、グラフを単なるシーケンスとして扱うだけでは、グラフの構造情報を活用することができません。本論文では、重要な祖先情報をTransformer Decoderに追加するためのいくつかの戦略を設計しました。実験の結果、AMR 2.0およびAMR 3.0データセットのパフォーマンスを改善し、新しい最先端の結果を達成できることが示されました。
https://aclanthology.org/2022.acl-short.63/
Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum Learning
大規模な多言語事前学習言語モデルであるmBERTやXLM-RoBERTaは、Wu and Dredze (2019)によって、関連する言語間での構文解析モデルのクロスリンガル転移に驚くほど効果的であることがわかっています。しかし、解析が本当に低リソースの言語に対して行われる場合、ソースとトレーニング言語はほとんど関連していません。このギャップを埋めるために、自動カリキュラム学習に依存するマルチタスク学習からの手法を採用し、外れ値言語の解析性能を動的に最適化することにしました。私たちは、このアプローチがゼロショット設定で均一およびサイズ比例サンプリングよりも有意に優れていることを示しています。
https://aclanthology.org/2022.acl-short.64/
PriMock57: A Dataset Of Primary Care Mock Consultations
自然言語処理に関する論文の要約文を日本語に翻訳してください。 自動音声認識(ASR)の最近の進歩により、医師と患者の会話の自動転写を信頼性高く行うことが可能になりました。しかし、患者のプライバシーのために臨床データセットへのアクセスは厳しく制限されており、通常の研究活動が遅れています。本研究では、音声録音、手動発話レベルの転写、関連する診療ノートを含む57件の模擬一次診療相談からなる公開アクセス可能な高品質データセットの開発について詳細に説明します。このデータセットは、会話型医療ASRのベンチマークとして、また転写からの診療ノート生成のためのベンチマークとして使用できることを示しています。
https://aclanthology.org/2022.acl-short.65/
UniGDD: A Unified Generative Framework for Goal-Oriented Document-Grounded Dialogue
目的指向型の文書に基づく対話は、対話コンテキストとサポート文書に基づいてユーザーのクエリに応答することを目的としています。既存の研究は、この問題を2つのサブタスク、知識の特定と応答生成に分解して対処しています。しかし、このようなパイプライン方式は、エラー伝播の問題に必然的に直面することになります。本論文では、接地知識と応答を順次生成することによって、これら2つのサブタスクを統合することを提案しています。さらに、異なるタスクの特性と接続をモデル化するためのプロンプト接続マルチタスク学習戦略を開発し、線形温度スケジューリングを導入して、関連のない文書情報の負の影響を軽減します。実験結果は、我々のフレームワークの有効性を示しています。
https://aclanthology.org/2022.acl-short.66/
DMix: Adaptive Distance-aware Interpolative Mixup
Mixupのような補間ベースの正則化手法は、仮想トレーニングサンプルを生成することで、さまざまなタスクやモダリティに効果的であることが証明されています。私たちはMixupを拡張し、埋め込み空間における多様性に基づいてサンプルを選択する適応的な距離感知補間MixupであるDMixを提案します。DMixは、より豊富な符号化表現のために、入力サンプル間の類似性尺度として双曲空間を利用します。DMixは、英語、アラビア語、トルコ語、ヒンディー語の8つのベンチマークデータセットにおいて、既存のデータ拡張手法に比べて文分類において最先端の結果を達成し、3倍少ない反復回数でベンチマークF1スコアを達成します。私たちは、さまざまな類似性尺度との組み合わせでDMixの効果を調べ、異なるコンポーネントを定性的に分析します。DMixは汎用性があり、さまざまなタスク、モデル、モダリティに適用することができます。
https://aclanthology.org/2022.acl-short.67/
Sub-Word Alignment is Still Useful: A Vest-Pocket Method for Enhancing Low-Resource Machine Translation
私たちは、自然言語処理に関する論文の要約を以下に示します。 私たちは、アラインされたサブワード間の埋め込みの重複を活用して、親子転移学習法を拡張し、低リソースの機械翻訳を改善することを目的としています。私たちは、My-En、Id-En、Tr-Enのベンチマークデータセットで実験を行いました。テスト結果は、私たちの方法が大幅な改善をもたらし、BLEUスコアがそれぞれ22.5、28.0、18.1に達したことを示しています。さらに、この方法は計算効率が高く、トレーニング時間の消費を63.8%削減し、Tesla 16GB P100 GPUでトレーニングする場合、1.6時間の期間に達します。実験で使用されたすべてのモデルとソースコードは、再現可能な研究をサポートするために公開されます。
https://aclanthology.org/2022.acl-short.68/
HYPHEN: Hyperbolic Hawkes Attention For Text Streams
ソーシャルメディア、ニュース、議会の議論などのテキストの時間的なシーケンスを分析することは、時間変化するスケールフリーな特性や細かいタイミングの不規則性を示すため、課題があります。本論文では、データ駆動型の双曲線空間を学習し、双曲線ホークス過程を用いて不規則なパワーロー励起をモデル化するHyperbolic Hawkes Attention Network(HYPHEN)を提案します。金融NLP、自殺思考検出、政治的議論分析における定量的および探索的実験を通じて、HYPHENがジオメトリに無関係な方法でオンラインテキストシーケンスをモデル化するための実用的な適用性を示します。
https://aclanthology.org/2022.acl-short.69/
A Risk-Averse Mechanism for Suicidality Assessment on Social Media
最近の研究により、ソーシャルメディアが従来の臨床設定外で自殺的な思考を表現するためのプラットフォームとしてますます重要になっていることが示されています。自然言語処理戦略の進歩により、自殺リスクを評価する自動システムを設計することが可能になりました。しかし、そのようなシステムは不確実な予測を生成する可能性があり、深刻な結果をもたらす可能性があります。したがって、私たちは自殺リスク評価をコロンビア自殺重症度リスクスケール(C-SSRS)の選択的優先予測問題として再定式化します。私たちは、不確実な予測を避けるために拡張されたリスク回避型自己認識トランスフォーマーベースの階層的注意分類器であるSASIを提案します。私たちは、SASIが実世界のRedditデータで83%の不正確な予測を避けることができることを示します。さらに、SASIを人間イン・ザ・ループフレームワークとして自殺リスク評価に使用する際の質的、実用的、倫理的側面について議論します。
https://aclanthology.org/2022.acl-short.70/
When classifying grammatical role, BERT doesn’t care about word order... except when it matters
自然言語において、意味はしばしば語彙意味だけから推測できるため、単語の順序はしばしば冗長な手がかりとなる。例えば、「chopped」、「chef」、「onion」という単語は、「The chef chopped the onion」を伝えるためにより頻繁に使用されるが、「The onion chopped the chef」という意味を伝えるためには使用されない。最近の研究では、大規模な言語モデルが驚くほど単語の順序に依存しないことが示されているが、重要なのは、主に構成的な意味が語彙の期待にほぼ一致する自然な典型的な入力について考慮されていることである。この混乱を克服するために、英語BERTとGPT-2の文法的役割表現を調べ、語彙の期待だけでは不十分で、単語の順序の知識が正しい分類に必要な場合について調べる。このような非典型的なインスタンスは、無生物主語または生物目的語を持つ自然発生的な英語の文、または「The onion chopped the chef」という文を作るために引数を系統的に交換する文である。私たちは、初期のレイヤーの埋め込みが主に語彙的である一方、単語の順序が意味的に非典型的な位置にある単語の後のレイヤー表現を定義する上で実際に重要であることを発見した。私たちの実験は、文脈化プロセスにおける単語の順序の影響を分離し、モデルが重要な場合にのみ文脈を使用する方法を強調している。
https://aclanthology.org/2022.acl-short.71/
Triangular Transfer: Freezing the Pivot for Triangular Machine Translation
三角形機械翻訳は、関心のある言語ペアに限られた並列データがあるが、両言語にはピボット言語との豊富な並列データがある低リソース機械翻訳の特別な場合です。自然に、三角形機械翻訳の鍵は、そのような補助データの成功した利用です。本研究では、すべての種類の補助データを利用する転移学習ベースのアプローチを提案します。補助ソース-ピボットおよびピボット-ターゲット翻訳モデルをトレーニングする際に、ピボット側の一部のパラメータを事前にトレーニングされた言語モデルで初期化し、両方の翻訳モデルが同じピボット言語空間で動作するように凍結して、ソース-ターゲット翻訳モデルにスムーズに転送できるようにします。実験の結果、当社のアプローチは以前のアプローチを上回ることが示されました。
https://aclanthology.org/2022.acl-short.72/
Can Visual Dialogue Models Do Scorekeeping? Exploring How Dialogue Representations Incrementally Encode Shared Knowledge
認知的に妥当な視覚的対話モデルは、対話コンテキストで共有された確立された事実のメンタルスコアボードを保持する必要があります。私たちは、VisDialデータセットで事前にトレーニングされたモデルが適切にスコアキーピングを行う表現を増分的に構築する度合いを調査するための理論に基づく評価方法を提案します。私たちの結論は、対話の共有されたと個人的に知られている声明の区別を行う能力が分析されたモデルには適度に存在するが、常に増分的に一貫していないことであり、これは元のタスクでの接地相互作用の限定された必要性に部分的に起因する可能性がある。
https://aclanthology.org/2022.acl-short.73/
Focus on the Target’s Vocabulary: Masked Label Smoothing for Machine Translation
ラベルスムージングと語彙共有は、ニューラル機械翻訳モデルで広く使用されている2つの技術です。しかし、両方の技術を単純に適用することは、矛盾して最適なパフォーマンスになる可能性があります。スムージングされた確率を割り当てる際、オリジナルのラベルスムージングは、ターゲット言語には決して現れないソース側の単語を実際のターゲット側の単語と同等に扱います。これは、翻訳モデルにバイアスを与える可能性があります。この問題に対処するために、私たちはマスクされたラベルスムージング(MLS)という新しいメカニズムを提案しています。MLSは、ソース側の単語のソフトラベル確率をゼロにマスクすることで、ラベルスムージングと語彙共有をより良く統合することができます。私たちの広範な実験は、MLSが、バイリンガルおよびマルチリンガル翻訳を含むさまざまなデータセットで、翻訳品質とモデルのキャリブレーションの両方で、オリジナルのラベルスムージングよりも一貫して改善をもたらすことを示しています。私たちのコードは、https://github.com/PKUnlp-icler/MLSで公開されています。
https://aclanthology.org/2022.acl-short.74/
Contrastive Learning-Enhanced Nearest Neighbor Mechanism for Multi-Label Text Classification
マルチラベルテキスト分類(MLTC)は、自然言語処理における基本的かつ難解なタスクです。従来の研究は、主にテキスト表現の学習とラベル相関のモデリングに焦点を当てていますが、特定のテキストのラベルを予測する際に既存の類似インスタンスから得られる豊富な知識を無視しています。この見落としを補うために、私たちはk最近傍(kNN)メカニズムを提案し、いくつかの近隣インスタンスを取得し、そのラベルでモデル出力を補間します。さらに、kNN分類プロセスに気付かせ、推論中に取得される近隣の品質を向上させるマルチラベル対照学習目的を設計しました。広範な実験により、私たちの方法は、事前学習済みおよび非事前学習済みの最新のMLTCモデルを含む複数のモデルに一貫してかつ有意な性能向上をもたらすことが示されました。
https://aclanthology.org/2022.acl-short.75/
NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better
事前学習済み言語モデル(PLMs)を効果的にファインチューニングすることは、下流タスクでの成功にとって重要です。しかし、PLMsは、事前学習タスクとデータとのギャップが下流タスクと異なるため、過学習のリスクがあります。このようなギャップは、既存のPLMファインチューニング手法が克服するのが難しく、最適なパフォーマンスにつながらない可能性があります。本論文では、PLMsのパラメータにノイズを加えることで、下流タスクでのPLMsのファインチューニングをより良くするための非常にシンプルで効果的な方法であるNoisyTuneを提案します。具体的には、標準偏差に基づいて異なる一様ノイズを異なるパラメータ行列に加える行列単位の摂動法を提案します。これにより、PLMsの異なるタイプのパラメータの多様な特性を考慮できます。GLUE英語ベンチマークとXTREME多言語ベンチマークの両方での広範な実験結果は、NoisyTuneが異なるPLMsを異なる下流タスクで一貫して強化できることを示しています。
https://aclanthology.org/2022.acl-short.76/
Adjusting the Precision-Recall Trade-Off with Align-and-Predict Decoding for Grammatical Error Correction
現代の文章補助アプリケーションは、ユーザーが入力した文章の文法エラーを修正するための文法エラー修正(GEC)モデルを常に備えています。異なるシナリオには、より正確な修正(高精度)を行うか、ユーザーにより多くの候補を提供するか(高リコール)など、異なる要件があります。しかし、以前の研究では、このようなトレードオフをシーケンスラベリングアプローチに対してのみ調整していました。本論文では、最も一般的なシーケンス・トゥ・シーケンス・モデルに対して、シンプルで効果的な対応策である「Align-and-Predict Decoding(APD)」を提案し、精度とリコールのトレードオフに対してより柔軟性を提供します。推論中、APDは既に生成されたシーケンスを入力と整列し、後続のトークンのスコアを調整します。英語と中国語のGECベンチマークでの実験結果は、当社のアプローチが単一のモデルを精度指向とリコール指向の推論に適応させるだけでなく、最先端の結果を達成するための潜在能力を最大限に引き出すことができることを示しています。当社のコードはhttps://github.com/AutoTemp/Align-and-Predictで入手できます。
https://aclanthology.org/2022.acl-short.77/
On the Effect of Isotropy on VAE Representations of Text
所望の幾何学的特性をテキスト表現に注入することは、多くの注目を集めています。表現空間のより良い利用のために主張されている特性の1つは等方性です。同時に、VAEはNLPの領域で成功していますが、表現空間のサブオプティマルな利用で知られています。この問題の一部に対処するために、VAEのトレーニング中に等方性を注入する影響を調査しました。これは、楕円形のガウス事後分布の代わりに等方性のガウス事後分布(IGP)を使用することによって達成されます。IGPは、表現に等方性を効果的に促進し、より識別的な潜在空間を誘発します。バニラVAEと比較して、これは分類性能、入力の摂動に対する堅牢性、および生成的な振る舞いにおいてはるかに優れた結果に翻訳されます。さらに、IGPによって促進される表現的特性についての洞察を提供します。
https://aclanthology.org/2022.acl-short.78/
Efficient Classification of Long Documents Using Transformers
トランスフォーマーを使用した長いテキスト文書の分類には、いくつかの方法が提案されています。しかし、異なるアプローチを公平に比較するためのベンチマークの合意が欠けています。本論文では、正確性だけでなく時間とスペースのオーバーヘッドに対する相対的な効果を、さまざまなベースラインとデータセットに対して包括的に評価します。当社のデータセットは、バイナリ、マルチクラス、およびマルチラベル分類タスクをカバーし、長いテキスト内の情報がどのように組織されているかを表します(例えば、分類決定に重要な情報が文書の最初または最後にある場合など)。当社の結果は、より複雑なモデルがしばしば単純なベースラインを上回ることができず、データセット全体で一貫したパフォーマンスを発揮しないことを示しています。これらの結果は、堅牢なモデルを開発するために、包括的なベースラインと長い文書分類のタスクをよりよく表すデータセットを検討するために将来の研究が必要であることを強調しています。
https://aclanthology.org/2022.acl-short.79/
Rewarding Semantic Similarity under Optimized Alignments for AMR-to-Text Generation
露出バイアスに対処する一般的な方法は、強化学習(RL)において評価メトリックからスコアを適用することです。文脈化埋め込みを活用するメトリックは、n-gramマッチングの対応物よりも柔軟性が高く、トレーニング報酬として理想的です。ただし、BERTScoreなどのメトリックは、候補と参照トークンを貪欲に整列させるため、システム出力が参照に比べて過剰なクレジットを受ける可能性があります。さらに、過去の意味的類似性報酬を特徴とするアプローチは、繰り返しの出力や過学習に苦しんでいます。私たちは、BERTScoreの貪欲な整列を最適化されたものに置き換えるメトリックを提案することで、これらの問題に対処します。ドメインミスマッチを防ぐために、モデルのトレーニングされたトークン埋め込みで計算します。離散整列メトリックを最適化する私たちのモデルは、AMR-to-text生成において、クロスエントロピーとBLEU報酬のベースラインを一貫して上回ります。さらに、このアプローチは、非RL設定に比べて安定したトレーニングを実現することがわかりました。
https://aclanthology.org/2022.acl-short.80/
An Analysis of Negation in Natural Language Understanding Corpora
この論文は、6つの自然言語理解タスクをカバーする8つの人気コーパスにおける否定の分析を行っています。これらのコーパスは、一般的な英語に比べて否定が少なく、それらのうちの少数の否定はしばしば重要ではないことが示されています。実際、否定を無視しても正しい予測ができることがあります。さらに、実験結果は、これらのコーパスで訓練された最新のトランスフォーマーが、否定が含まれる場合、特に否定が重要な場合には、大幅に悪い結果を示すことを示しています。否定が存在する場合に自然言語理解タスクを解決するためには、否定を考慮した新しいコーパスが必要であると結論付けています。
https://aclanthology.org/2022.acl-short.81/
Primum Non Nocere: Before working with Indigenous data, the ACL must confront ongoing colonialism
この論文では、先住民研究文献から引用された一連の倫理的義務とベストプラクティスを採用することにより、ACLコミュニティに歴史的および継続的な植民地主義に対処するよう求めます。NLP研究のほとんどは、非常に高いリソースを持つごく少数の言語(英語、中国語など)に焦点を当てていますが、一部の研究では先住民言語に取り組むことが始まっています。先住民言語データを用いた研究においては、先住民言語が単に非常に低いリソース言語であるだけでなく、植民地主義の有害な遺産が先住民コミュニティと外部研究者の相互作用のあらゆる側面に浸透していることを認めることが必要です。このため、私たちはACLが、先住民言語に関する研究に従事するNLP研究者や計算言語学者が採用する倫理的枠組みを起草し、採用することを提案します。
https://aclanthology.org/2022.acl-short.82/
Unsupervised multiple-choice question generation for out-of-domain Q&A fine-tuning
事前学習済みモデルは、特に複数の質問応答データセットで微調整された場合、多数の質問応答ベンチマークで非常に良いパフォーマンスを示しています。本研究では、未注釈の文から質問と回答を生成するルールベースのアルゴリズムにより、微調整データセットを生成するアプローチを提案します。我々は、UnifiedQAという最先端のモデルが、物理学、生物学、化学に関する多肢選択問題のベンチマークにおいて、これまでトレーニングされたことがないデータセットから、このようなシステムから大きな恩恵を受けることを示します。さらに、事前学習済みRoBERTaモデルに基づく専用のランカーを使用して、最も難しい誘惑者(誤った回答)を選択することで、改善されたパフォーマンスが得られることを示します。
https://aclanthology.org/2022.acl-short.83/
Can a Transformer Pass the Wug Test? Tuning Copying Bias in Neural Morphological Inflection Models
形態変化生成において、深層学習シーケンスモデルは成功しています。過去数年間のSIGMORPHON共有タスクの結果は、そのようなモデルがうまく機能することを示していますが、トレーニングデータがさまざまな語彙をカバーしている場合、またはテスト時に屈折する語彙がトレーニングで見られた場合に限ります。驚くべきことに、トランスフォーマーなどの標準的なモデルは、限られた数の語彙でトレーニングされ、以前に見たことのない語彙を屈折するように求められた場合、ほとんど完全に屈折パターンを一般化することができません。これは、実際のトレーニング例の数が非常に多いにもかかわらず、真実です。確立されたデータ拡張技術を使用して、言語のアルファベットを使用して合成的な新しい単語形を幻想することで、この欠点を緩和することができますが、私たちの実験結果は、より効果的にするために、幻想プロセスが個々の文字ではなく、音節のような長さのサブストリングに注意を払う必要があることを示しています。
https://aclanthology.org/2022.acl-short.84/
Probing the Robustness of Trained Metrics for Conversational Dialogue Systems
この論文では、会話型対話システムの評価のためのトレーニング済みメトリックをストレステストするための敵対的な方法を紹介しています。この方法は、強化学習を活用して、トレーニング済みメトリックから最適なスコアを引き出す応答戦略を見つけます。我々は、最近提案されたトレーニング済みメトリックをテストするためにこの方法を適用しました。我々は、我々の方法が収束する比較的単純で明らかに欠陥のある戦略によって生成された応答に高いスコアを与える傾向があることを発見しました。例えば、単に会話の文脈の一部をコピーして応答を形成することで、競争力のあるスコアを得ることができ、人間が書いた応答を上回ることさえあります。
https://aclanthology.org/2022.acl-short.85/
Rethinking and Refining the Distinct Metric
「Distinct」は、言語生成タスクにおける多様性を評価するために広く使用されている自動評価指標である。しかし、我々は、distinctスコアを計算するための元のアプローチには、より長いシーケンスに対してより高いペナルティを割り当てる傾向がある明白なバイアスが存在することを観察した。我々は、期待値に基づいて異なるトークンの数をスケーリングすることによって、distinctスコアの計算を改良した。我々は、我々の方法が元のdistinctスコアに存在するバイアスを効果的に除去することを示すための実験的および理論的な証拠を提供する。我々の実験は、我々の提案する評価指標である「期待値調整distinct(EAD)」が、応答の多様性を評価するための人間の判断とよりよく相関することを示している。将来の研究を支援するために、https://github.com/lsy641/Expectation-Adjusted-Distinctに例示する実装を提供する。
https://aclanthology.org/2022.acl-short.86/
How reparametrization trick broke differentially-private text representation learning
プライバシーがNLPコミュニティで注目されるにつれ、研究者たちはプライバシー保護手法を採用し始めています。お気に入りのプライバシーフレームワークの1つである差分プライバシー(DP)は、その基本的な理論的保証のおかげで、おそらく最も説得力があります。差分プライバシーの一般的な概念の明らかな単純さにもかかわらず、NLPに適用する際に正しく実装することは非常に困難であるようです。本論文では、DPText(Beigi et al.、2019a、b; Alnasser et al.、2021; Beigi et al.、2021)を使用したテキスト表現学習を提案する最近のいくつかのNLP論文を形式的に分析し、それらが差分プライバシーを満たしていないという誤った主張を明らかにします。さらに、与えられたDPメカニズムの実装がプライバシーロス保証をほぼ確実に違反しているかどうかを判断するための簡単で一般的な経験的な健全性チェックも示します。私たちの主な目標は、差分プライバシーをテキスト表現学習に適用する際の潜在的な落とし穴を理解し、コミュニティの意識を高めることです。
https://aclanthology.org/2022.acl-short.87/
Towards Consistent Document-level Entity Linking: Joint Models for Entity Linking and Coreference Resolution
私たちは、ドキュメントレベルのエンティティリンキング(EL)のタスクを考慮しています。このタスクでは、ドキュメント全体にわたってエンティティ言及について一貫した決定を行うことが重要です。私たちは、ドキュメント内の言及間の明示的な「接続」を活用することを目的としています。つまり、有向木上の単一の構造化予測タスクでELと共参照解析(coref)を結合し、グローバルに正規化されたモデルを使用して解決することを提案します。これは、関連する作品とは対照的であり、それぞれのタスクに対して2つの別々のモデルがトレーニングされ、出力を統合するために追加のロジックが必要となります。2つのデータセットでの実験結果は、単独のコアフとELタスクに比べて、最大でF1スコアが+5%向上することを示しています。個々の言及が候補エンティティリストに正しいELを欠いている難しいケースのサブセットでは、正確性が+50%向上しました。
https://aclanthology.org/2022.acl-short.88/
A Flexible Multi-Task Model for BERT Serving
私たちは、イテレーションとインクリメンタルなタスクの開発に特に適した効率的なBERTベースのマルチタスク(MT)フレームワークを提案します。提案されたフレームワークは、部分的なファインチューニングのアイデアに基づいています。つまり、BERTの一部の上位層のみをファインチューニングし、他の層を凍結します。各タスクについて、部分的なファインチューニングを使用して単一タスク(ST)モデルを独立してトレーニングします。その後、知識蒸留を使用して、各STモデルのタスク固有の層を圧縮します。これらの圧縮されたSTモデルは最終的に1つのMTモデルにマージされます。前者の凍結された層はタスク間で共有されます。私たちは、8つのGLUEタスクで私たちのアプローチを例示し、完全なファインチューニング方法の99.6%のパフォーマンスを達成できることを示し、そのオーバーヘッドを3分の2まで削減できることを示します。
https://aclanthology.org/2022.acl-short.89/
Understanding Game-Playing Agents with Natural Language Annotations
私たちは、10,000の人間によるアノテーションが付けられた囲碁のゲームを含む新しいデータセットを提供し、これらの自然言語アノテーションがモデルの解釈可能性のツールとして使用できることを示します。ボードの状態とそれに関連するコメントが与えられた場合、私たちのアプローチは、AlphaGo Zeroのようなゲームプレイエージェントの中間状態表現から、ドメイン固有の用語(例:コウ、アタリ)の言及を予測するために線形プロービングを使用します。私たちは、これらのゲームの概念が、模倣学習によって訓練された1つのポリシーネットワークと、強化学習によって訓練された別のポリシーネットワークの2つの異なるポリシーネットワークに非自明にエンコードされていることを発見しました。さらに、ドメイン固有の用語の言及は、両方のモデルの後のレイヤーから最も簡単に予測されるため、これらのポリシーネットワークは、自然言語アノテーションで使用されるものに類似した高レベルの抽象化をエンコードしていることを示唆しています。
https://aclanthology.org/2022.acl-short.90/
Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding
自動ICDコーディングは、電子医療記録(EMR)に疾患コードを割り当てることを定義しています。既存の方法は、通常、コード表現を使用して関連するテキストスニペットにラベルアテンションを適用します。コード階層または説明でラベルをモデル化するこれらの作品とは異なり、EMRのコード表現がICDの説明と異なることに基づいて、コードの同義語がより包括的な知識を提供できると主張します。コードをUMLSの概念に整列させることで、すべてのコードの同義語を収集します。次に、複数の同義語マッチングネットワークを提案して、同義語を活用してより良いコード表現学習を行い、最終的にコード分類を支援します。MIMIC-IIIデータセットでの実験は、提案された方法が以前の最先端の方法を上回ることを示しています。
https://aclanthology.org/2022.acl-short.91/
CoDA21: Evaluating Language Understanding Capabilities of NLP Models With Context-Definition Alignment
事前学習言語モデル(PLMs)は、多くのベンチマークで超人的なパフォーマンスを達成し、より難しいタスクが必要とされています。本論文では、CoDA21(Context Definition Alignment)を紹介し、PLMsの自然言語理解(NLU)能力を測定する難しいベンチマークとして提示します。k語の定義と文脈が与えられますが、単語自体は与えられず、kの定義をkの文脈に合わせるタスクです。CoDA21は、複雑な推論や世界知識を含む文脈と定義の深い理解を必要とします。人間とPLMのパフォーマンスには大きな差があり、CoDA21は既存のベンチマークでは十分にカバーされていないNLUの側面を測定していることを示唆しています。
https://aclanthology.org/2022.acl-short.92/
On the Importance of Effectively Adapting Pretrained Language Models for Active Learning
自然言語処理(NLP)における最近のアクティブラーニング(AL)アプローチでは、市販の事前学習済み言語モデル(LM)を使用することが提案されています。本論文では、これらのLMがAL中に下流タスクに効果的に適応されていないことを主張し、この問題に対処する方法を探求します。まず、利用可能なすべての未ラベルデータを使用して、事前学習済みLMをターゲットタスクに適応させ、その後ALに使用することを提案します。また、適応されたLMがAL中の低リソースおよび高リソースのシナリオで適切にトレーニングされるようにするためのシンプルで効果的なファインチューニング方法を提案します。実験により、標準的なファインチューニングアプローチと比較して、私たちのアプローチがデータ効率性の改善を提供することが示され、トレーニング戦略が不十分であるということがALにとって壊滅的である可能性があることを示唆しています。
https://aclanthology.org/2022.acl-short.93/
A Recipe for Arbitrary Text Style Transfer with Large Language Models
この論文では、大規模言語モデル(LLM)を活用して、ゼロショットテキストスタイル変換を実行します。私たちは、スタイル変換を文の書き換えタスクとしてフレーム化し、モデルの微調整やターゲットスタイルの例示なしに、自然言語の指示だけで実行できる拡張ゼロショット学習と呼ぶプロンプティング方法を提案します。拡張ゼロショット学習はシンプルで、感情などの標準的なスタイル変換タスクだけでなく、「これをメロドラマティックにする」や「比喩を挿入する」などの任意の変換に対しても有望な結果を示します。
https://aclanthology.org/2022.acl-short.94/
DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation Extraction
私たちの目標は、多言語関係抽出の遠隔監視という新しいタスク(Multi DS-RE)を研究することです。Multi DS-REの研究は、信頼できるベンチマークデータセットの欠如により限定されています。このタスクの唯一の利用可能なデータセットであるRELX-Distant(Köksal and Özgür, 2020)は、いくつかの非現実的な特徴を示しており、モデルの性能を系統的に過大評価しています。これらの懸念を軽減するために、私たちはDiS-ReXという新しいベンチマークデータセットを提供します。また、mBERTエンコーダを使用して広く使用されているバッグアテンションモデルを修正し、提案されたタスクの最初のベースライン結果を提供します。DiS-ReXはRELX-Distantよりもより難しいデータセットとして機能し、この領域での将来の研究に十分な余地を残します。
https://aclanthology.org/2022.acl-short.95/
(Un)solving Morphological Inflection: Lemma Overlap Artificially Inflates Models’ Performance
形態論の領域において、屈折は重要で基本的なタスクであり、SIGMORPHONの共有タスクを通じて最近注目を集めています。全言語のスコアに対する平均精度が0.9以上であるため、比較的一般的なニューラルseq2seqモデルを使用して、タスクはほとんど解決されたと考えられています。本研究では、モデルの一般化能力に挑戦するより困難なトレイン-テスト分割を採用することで、形態的屈折モデルを再評価することを提案します。特に、形態素による分割ではなく、既存のベンチマークのパフォーマンスに挑戦するために、基本形による分割を提案します。SIGMORPHONの2020年共有タスクで上位3つのシステムを用いた実験により、90言語全体のマクロ平均において、基本形による分割により平均30パーセントの低下が見られました。この効果は、低リソース言語においては95ポイントまで低下することが最も顕著であり、高リソース言語でも平均で10ポイントの低下が見られます。私たちの結果は、未知の基本形に対する屈折の一般化が解決されていないことを明確に示しており、より洗練されたモデルを促進するための簡単で効果的な手段を提供しています。
https://aclanthology.org/2022.acl-short.96/
Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks
ニューラルネットワークに入力する前に、トークンはそのボキャブラリーの離散分布であるワンホット表現に変換する必要があります。スムーズ化された表現は、事前学習されたマスクされた言語モデルから得られた候補トークンの確率であり、より情報量の多い拡張された代替と見なすことができます。我々は、文をワンホット表現から制御可能なスムーズ化された表現に変換する、テキストスムージングと呼ばれる効率的なデータ拡張方法を提案します。我々は、低リソース環境で異なるデータセットでテキストスムージングを評価しました。実験結果は、テキストスムージングが、様々な主流のデータ拡張方法よりも大幅に優れていることを示しています。さらに、テキストスムージングはこれらのデータ拡張方法と組み合わせて、より良い性能を発揮することができます。
https://aclanthology.org/2022.acl-short.97/