Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
自然言語処理に関する論文の要約文を日本語に翻訳してください。 1. This paper presents a novel approach to natural language processing using deep learning techniques. 2. The proposed method achieves state-of-the-art performance on several benchmark datasets. 3. We also conduct extensive experiments to analyze the effectiveness of our approach. 4. Our results demonstrate the potential of deep learning for natural language processing tasks. 5. Future work will focus on further improving the proposed method and exploring its applications in various domains. 1. 本論文では、深層学習技術を用いた自然言語処理の新しいアプローチを提案しています。 2. 提案された手法は、いくつかのベンチマークデータセットで最先端の性能を実現しています。 3. 我々はまた、効果的な手法の分析のために広範な実験を行っています。 4. 我々の結果は、自然言語処理タスクにおける深層学習の可能性を示しています。 5. 今後の研究は、提案された手法のさらなる改善と、様々な領域での応用の探索に焦点を当てる予定です。
https://aclanthology.org/2022.acl-long.0/
AdapLeR: Speeding up Inference by Adaptive Length Reduction
事前学習された言語モデルは、さまざまな下流タスクで優れたパフォーマンスを発揮しています。しかし、これには通常、高いレイテンシと計算コストがかかり、リソースに制限のある環境での使用を妨げています。本研究では、BERTの計算コストを最小限に抑えながら、下流パフォーマンスの損失を最小限に抑える新しいアプローチを提案しています。我々の方法は、レイヤーを通じて寄与が少ないトークンを動的に除外することにより、短い長さとしたがって低い計算コストを実現します。各トークン表現の重要性を決定するために、勾配ベースのサリエンシーメソッドを使用して、各レイヤーの寄与予測器をトレーニングします。私たちの実験は、いくつかの異なる分類タスクで、パフォーマンスの犠牲をあまり出さずに推論時間を最大22倍高速化することを示しています。また、ERASERベンチマークで人間の注釈を使用して、当社の方法で選択されたトークンの品質を検証します。重要なトークンを選択するための他の広く使用されている戦略(サリエンシー、アテンションなど)と比較して、当社の提案手法は、合理的な説明を生成する際の偽陽性率が著しく低いことが示されています。当社のコードは、https://github.com/amodaresi/AdapLeRで無料で入手できます。
https://aclanthology.org/2022.acl-long.1/
Quantified Reproducibility Assessment of NLP Results
本論文では、計量学の概念と定義に基づく量子再現性評価(QRA)の方法を説明し、テストします。QRAは、異なる再現のスコアと差に基づいて、特定のシステムと評価尺度の再現性の程度を推定する単一のスコアを生成します。我々は、異なるNLPタスクと評価の種類を含む18種類のシステムと評価尺度の組み合わせについてQRAをテストし、各組み合わせについて元の結果と1〜7回の再現結果を持っています。提案されたQRA方法は、同じだけでなく、異なる元の研究の複数の再現にわたって比較可能な再現性スコアを生成します。我々は、提案された方法が再現の間の変動の原因についての洞察を促進し、その結果、システムと/または評価設計のどの側面を改善する必要があるかについての結論を導くことを可能にすることを発見しました。
https://aclanthology.org/2022.acl-long.2/
Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
最近の研究により、大規模なニューラル言語モデルの学習されたトークン埋め込みが狭い円錐形の異方性を持つように退化することが判明しています。この現象は、表現退化問題と呼ばれ、トークン埋め込み間の全体的な類似性を増加させ、モデルの性能に悪影響を与えます。問題に対処する既存の方法は、問題によって引き起こされる現象の観察に基づいているため、テキスト生成の性能を向上させますが、退化問題の背後にあるトークン埋め込みのトレーニングダイナミクスはまだ探求されていません。本研究では、レアなトークン埋め込みに焦点を当ててトークン埋め込みのトレーニングダイナミクスを分析します。我々は、レアなトークン埋め込みの特定の勾配が、トレーニング段階中にすべてのトークンの退化問題の主な原因であることを示します。この分析に基づいて、我々は、適応的勾配ゲーティング(AGG)と呼ばれる新しい方法を提案します。AGGは、レアなトークン埋め込みの特定の勾配をゲート制御することによって、退化問題に対処します。言語モデリング、単語類似性、機械翻訳タスクからの実験結果は、AGGの効果を定量的および定性的に検証しています。
https://aclanthology.org/2022.acl-long.3/
AlephBERT: Language Model Pre-training and Evaluation from Sub-Word to Sentence Level
大規模事前学習言語モデル(PLMs)は、言語理解技術の開発において普及し、多くの人工知能の進歩の中心に位置しています。英語に対するPLMsの報告された進歩は前例のないものですが、ヘブライ語に対するPLMsの報告された進歩は少なく、遠いものです。この問題は二つの側面があります。第一に、現在までに、大規模言語モデルのトレーニングに使用されるヘブライ語のリソースは、英語の対応物と同じ規模ではありません。第二に、ヘブライ語NLPの進歩を評価するために利用可能なベンチマークのほとんどは、標準的なPLMsの出力には存在しない形態論的境界を必要とします。本研究では、これらの両方の側面を改善します。私たちは、AlephBERTという現代ヘブライ語の大規模PLMを紹介し、これまでのどのヘブライ語PLMよりも大きな語彙とデータセットでトレーニングしました。さらに、コンテキスト化された埋め込みベクトルにエンコードされた形態素セグメントを回復する新しいニューラルアーキテクチャを導入します。この新しい形態素コンポーネントに基づいて、文レベル、単語レベル、サブワードレベルの分析をカバーする複数のタスクとベンチマークからなる評価スイートを提供します。すべてのタスクで、AlephBERTは現代ヘブライ語のベースラインを超える最新の結果を得ました。私たちは、AlephBERTモデル、形態素抽出モデル、ヘブライ語評価スイートを公開し、将来のヘブライ語PLMsの評価に利用できるようにします。
https://aclanthology.org/2022.acl-long.4/
Learning to Imagine: Integrating Counterfactual Thinking in Neural Discrete Reasoning
ニューラルディスクリートリーズニング(NDR)は、深層モデルと離散的な推論を組み合わせた驚くべき進歩を示しています。しかし、既存のNDRソリューションは、仮説的な質問、例えば「2020年の収益が倍増した場合の年率利回りは何になるか」といった質問に対して、大きな性能低下を引き起こすことがわかっています。仮説的な質問に答えるための鍵は、反事実的な思考であり、これは人間の推論の自然な能力ですが、深層モデルにとっては困難です。本研究では、未知の反事実を想像するためにシームレスにNDRモデルに組み込むことができるLearning to Imagine(L2I)モジュールを考案しました。特に、反事実的な思考を2つのステップに分けて定式化しました。1)介入する事実を特定すること、2)事実と仮定から反事実を導出することで、これらはニューラルネットワークとして設計されています。TAT-QAに基づいて、8,283の仮説的な質問を含む非常に難しいHQAデータセットを構築しました。提案されたL2IをTAT-QAの最先端ソリューションであるTAGOPに適用し、アプローチの合理性と効果を検証しました。
https://aclanthology.org/2022.acl-long.5/
Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings for Complex Word Identification
複雑な単語の特定(CWI)は、適切なテキストの簡素化に向けた基本的なプロセスです。CWIは文脈に高度に依存しており、利用可能なデータセットがドメインや言語によって大きく異なるため、その難しさが増大しています。そのため、幅広い入力例に対して一般化する堅牢なモデルを開発することがますます困難になっています。本論文では、ドメイン適応に基づくCWIタスクの新しいトレーニング技術を提案し、ターゲットの文字と文脈表現を改善します。この技術は、複数のドメインで作業する問題に対処し、探索されたデータセット間の違いを平滑化する方法を作成します。さらに、レキシカル複雑性予測を補完するために使用できる、テキストの簡素化という同様の補助タスクも提案します。当社のモデルは、Lexical Complexity Prediction 2021データセットのCompLexを考慮する場合、バニラトレーニング技術に比べて、ピアソン相関係数で最大2.42%のブーストを獲得します。同時に、Complex Word Identification 2018データセットに依存するクロスリンガルセットアップを考慮する場合、ピアソンスコアで3%の増加を得ます。さらに、当社のモデルは、平均絶対誤差に関して最新の結果を提供します。
https://aclanthology.org/2022.acl-long.6/
JointCL: A Joint Contrastive Learning Framework for Zero-Shot Stance Detection
ゼロショットスタンス検出(ZSSD)は、推論段階で未知のターゲットのスタンスを検出することを目的としています。本論文では、スタンス対比学習とターゲットに配慮したプロトタイプグラフ対比学習から構成されるジョイントコントラスティブラーニング(JointCL)フレームワークを提案します。具体的には、スタンス対比学習戦略を採用して、未知のターゲットに対してスタンス特徴をより一般化するようにします。さらに、各インスタンスに対してプロトタイプグラフを構築して、ターゲットベースの表現を学習し、プロトタイプを橋渡しとして既知のターゲットと未知のターゲットのグラフ構造を共有します。その後、新しいターゲットに配慮したプロトタイプグラフ対比学習戦略を考案して、ターゲットベースのスタンス表現の推論能力を未知のターゲットに一般化します。3つのベンチマークデータセットでの広範な実験により、提案手法がZSSDタスクで最先端の性能を発揮することが示されました。
https://aclanthology.org/2022.acl-long.7/
[CASPI] Causal-aware Safe Policy Improvement for Task-oriented Dialogue
強化学習(RL)の最近の成功は、環境を探索し利用する能力に帰因されることが多い。データをオンラインでサンプリングするための安価なシミュレータがあるタスクにおいては、サンプル効率は通常問題にならない。一方、タスク指向型対話(ToD)は、通常、人間のデモを使用してオフラインデータから学習される。多様なデモを収集し注釈を付けることは高価である。残念ながら、オフポリシーデータでトレーニングされたRLポリシーは、バイアスや一般化の問題に陥りやすく、人間の反応の確率性や対話管理システムの注釈付き信念状態の非マルコフ性によってさらに悪化する。このため、私たちはToDポリシー学習のためのバッチRLフレームワークである因果関係に注意した安全なポリシー改善(CASPI)を提案する。CASPIには、人間の反応の意図を捉える細かい報酬を学習するメカニズムが含まれ、また、対話ポリシーのパフォーマンスに対するベースラインに対する保証も提供する。私たちは、Multiwoz2.0データセットのエンドツーエンドの対話タスクでこのフレームワークの効果を実証する。提案された方法は、現在の最先端を上回る性能を発揮する。さらに、私たちは、20%のデータのみでトレーニングされた私たちの方法が、3つの評価メトリックのうち2つで100%のデータでトレーニングされた現在の最先端の方法と同等のサンプル効率を示すことを示している。
https://aclanthology.org/2022.acl-long.8/
UniTranSeR: A Unified Transformer Semantic Representation Framework for Multimodal Task-Oriented Dialog System
近年、より自然で知的な対話方法として、多様なモーダルタスク指向対話システムが注目され、多くの進歩が達成されています。しかし、ほとんどの既存研究は、まずモーダル内の特徴を別々に学習し、その後、単純な特徴連結またはアテンションベースの特徴融合を行って応答を生成するパイプラインに従っています。これにより、異なるモーダル間の相互作用を学習し、より意図に沿った応答を生成するためのクロスモーダル特徴アラインメントを行うことが妨げられます。これらの問題に対処するために、私たちはUniTranSeRを提案します。これは、多様な対話システムのための特徴アラインメントと意図推論を備えた統一されたトランスフォーマー意味表現フレームワークです。具体的には、まず多様なモーダル特徴を統一されたトランスフォーマー意味空間に埋め込んで、モーダル間の相互作用を促進し、クロスモーダルエンティティアラインメントと細かいキー値推論を実行する特徴アラインメントと意図推論(FAIR)層を設計して、より正確な応答を生成するためにユーザーの意図を効果的に特定します。実験結果は、UniTranSeRの有効性を検証し、代表的なMMDデータセットで最先端のアプローチを大幅に上回ることを示しています。
https://aclanthology.org/2022.acl-long.9/
Dynamic Schema Graph Fusion Network for Multi-Domain Dialogue State Tracking
Dialogue State Tracking(DST)は、会話の進行中にユーザーの意図を追跡することを目的としています。DSTでは、ドメインとスロットの関係をモデリングすることはまだ研究されていない問題です。これらの関係を考慮した既存のアプローチは、(1)事前のスロット-ドメインメンバーシップ関係と対話に関する動的スロット関係を明示的に融合すること、(2)未知のドメインに一般化することにおいて不十分である。これらの問題に対処するために、我々は新しいDynamic Schema Graph Fusion Network(DSGFNet)を提案します。DSGFNetは、動的スキーマグラフを生成して、事前のスロット-ドメインメンバーシップ関係と対話に関する動的スロット関係を明示的に融合します。また、スキーマを使用して新しいドメインへの知識転送を促進します。DSGFNetは、対話発話エンコーダ、スキーマグラフエンコーダ、対話に関するスキーマグラフ進化ネットワーク、およびスキーマグラフ強化対話状態デコーダから構成されています。ベンチマークデータセット(SGD、MultiWOZ2.1、およびMultiWOZ2.2)の実験結果は、DSGFNetが既存の方法を上回ることを示しています。
https://aclanthology.org/2022.acl-long.10/
Attention Temperature Matters in Abstractive Summarization Distillation
最近の抽象的なテキスト要約の進歩は、計算コストの高い大規模な事前学習されたシーケンス・トゥ・シーケンス・トランスフォーマー・モデルに大きく依存しています。本論文は、これらの大規模なモデルをより小さなものに蒸留し、より高速な推論と最小限の性能低下を実現することを目的としています。疑似ラベリングに基づく方法は、シーケンス・トゥ・シーケンス・モデルの蒸留で一般的に使用されています。本論文では、トランスフォーマーのアテンション温度を単純に操作することで、疑似ラベルを学習しやすくすることができることを発見しました。3つの要約データセットでの実験は、提案された方法がバニラの疑似ラベリングに基づく方法を一貫して改善することを示しています。さらに、実証分析により、私たちの学生が生成する疑似ラベルと要約がより短く、より抽象的であることが示されています。
https://aclanthology.org/2022.acl-long.11/
Towards Making the Most of Cross-Lingual Transfer for Zero-Shot Neural Machine Translation
この論文は、多言語の事前学習と多言語の微調整が、教師ありトレーニング中に見たことのないソース言語でニューラル機械翻訳(NMT)モデルをテストするゼロショット翻訳において、クロスリンガル転送を促進するために重要であることを示しています。このアイデアに従い、私たちはSixT+を提案します。SixT+は、わずか6つのソース言語の並列データセットでトレーニングされたが、100のソース言語をサポートする強力な多言語-英語NMTモデルです。SixT+は、デコーダー埋め込みと完全なエンコーダーをXLM-R largeで初期化し、その後、シンプルな2段階のトレーニング戦略でエンコーダーとデコーダーレイヤーをトレーニングします。SixT+は、多言語-英語翻訳において印象的な性能を発揮します。CRISSとm2m-100という2つの強力な多言語NMTシステムを平均7.2と5.0 BLEUの利益で大幅に上回ります。さらに、SixT+は、他の教師なしタスクにさらに微調整できる一連のモデルパラメータを提供します。私たちは、SixT+の初期化を追加することが、Si<->EnおよびNe<->Enの最新の明示的に設計された教師なしNMTモデルを平均BLEU 1.2以上上回ることを示しています。ゼロショットクロスリンガル抽象的要約に適用すると、mBART-ftに比べて平均12.3 ROUGE-Lの性能向上が得られます。私たちは、SixT+の主要な要素、つまり補助並列データの多言語性、位置分離エンコーダー、およびそのエンコーダーのクロスリンガル転送性を理解するための詳細な分析を実施しています。
https://aclanthology.org/2022.acl-long.12/
TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference
数十年にわたり、オープンドメインの中国語テキストの処理は、計算言語学において重要なボトルネックであった。これは、この困難なシナリオにおいて、テキストのセグメンテーションと単語の発見がしばしば絡み合うためである。現在の方法では、オープンドメインにおいて効果的なテキストのセグメンテーションと単語の発見を同時に達成することはできない。本研究は、ベイジアン推論に基づく新しい方法であるTopWORDS-Segを提案することにより、このギャップを埋める。TopWORDS-Segの利点は、トレーニングコーパスやドメイン語彙が利用できない場合でも、堅牢なパフォーマンスと透明な解釈を提供することである。TopWORDS-Segの利点は、一連の実験的研究によって示されている。
https://aclanthology.org/2022.acl-long.13/
An Unsupervised Multiple-Task and Multiple-Teacher Model for Cross-lingual Named Entity Recognition
クロスリンガルな固有表現認識タスクは、低リソース言語における潜在的な転移学習技術の評価において、重要な問題の1つである。ソース言語とターゲット言語間の事前学習された多言語言語モデルを用いた知識蒸留は、転移学習において優位性を示している。しかし、既存のクロスリンガル蒸留モデルは、両ドメイン間で同一の単一タスクの潜在的な転移性のみを考慮している。学習性能を向上させるための他の可能な補助タスクは、十分に調査されていない。本研究では、知識蒸留フレームワークとマルチタスク学習に基づき、類似度メトリックモデルを補助タスクとして導入し、ターゲットドメインにおけるクロスリンガルNERの性能を向上させる。具体的には、ソースドメインから2つの教師としてエンティティ認識器と類似度評価器を並列にトレーニングし、その後、学生モデルの2つのタスクを同時にこれらの教師によって監督する。7つの異なる言語の3つのデータセットでの実証研究は、提案されたモデルの有効性を確認している。
https://aclanthology.org/2022.acl-long.14/
Discriminative Marginalized Probabilistic Neural Method for Multi-Document Summarization of Medical Literature
現在の最先端のTransformerベースのソリューションは、単一ドキュメントのNLPタスクの広範な範囲で成功していますが、マルチドキュメント要約などのマルチ入力タスクに対処するのはまだ苦労しています。多くのソリューションは入力を切り捨て、潜在的な要約に関連する内容を無視するため、医療分野では各情報が重要であるため、受け入れられません。他のソリューションは、線形モデルの近似を利用してマルチ入力連結を適用し、すべての情報が共有される背景に対して矛盾したりノイズがある場合でも、結果を悪化させます。医学の重要性と社会的影響にもかかわらず、マルチドキュメント要約のための特別なソリューションはありません。そのため、私たちは、トピックに関連する医療文書のクラスタから重要な情報を識別し、トークン確率のマージナル化を介してマルチドキュメント要約を生成する新しい識別的マージナル確率法(DAMEN)を提案します。結果は、系統的文献レビューのマルチドキュメント要約のバイオメディカルデータセットで、以前の最先端を上回ることを証明しています。さらに、私たちは設計の選択肢を促進するための広範な消去研究を実施し、私たちの方法の各モジュールの重要性を証明しています。
https://aclanthology.org/2022.acl-long.15/
Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm
自然言語処理に関する論文の要約文を日本語に翻訳してください。 従来のTransformerベースの言語モデルの剪定に関する常識は、剪定がモデルの表現力を低下させ、したがって過学習よりも適合不足の可能性が高いというものでした。しかし、最近の事前学習と微調整のパラダイムにおいて、私たちは逆の仮説を立てます。すなわち、微調整フェーズで剪定を行うと、過学習のリスクが増加するというものです。本論文では、誤差境界特性を持つ進行的な知識蒸留により、過学習問題を解決し、剪定性能を改善することを目的としています。私たちは、過学習のリスクを減らすことが、事前学習と微調整のパラダイム下で剪定の効果を高めることができることを初めて示しました。GLUEベンチマークの実験と除去実験により、私たちの方法が異なるタスクで主要な競合他社を上回ることを示しました。
https://aclanthology.org/2022.acl-long.16/
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation
私たちは、ROT-k暗号文に基づくニューラル機械翻訳の新しいデータ拡張技術を提案します。ROT-kは、平文の文字をアルファベットのk番目の文字で置き換える単純な文字置換暗号です。まず、ソース側の平文に対して異なるkの値を使用して複数のROT-k暗号文を生成します。次に、この暗号化されたトレーニングデータを元の並列データとともにマルチソーストレーニングを利用してニューラル機械翻訳を改善します。私たちの方法であるCipherDAugは、共同正則化に着想を得たトレーニング手順を使用し、元のトレーニングデータ以外の外部データソースを必要とせず、標準的なTransformerを使用して、いくつかのデータセットで強力なデータ拡張技術を大幅に上回る結果を出します。この技術は、既存のデータ拡張手法と簡単に組み合わせることができ、リソースが少ない環境で特に強力な結果を生み出します。
https://aclanthology.org/2022.acl-long.17/
Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages
mBERTやXLM-Rなどの事前学習済みの多言語言語モデルは、低いウェブリソース言語(LRL)へのゼロショットクロスリンガル転送の可能性を示しています。しかし、限られたモデル容量のため、高いウェブリソース言語(HRL)とLRLの利用可能な単一言語コーパスのサイズの大きな違いは、LRLをHRLと共埋め込みする十分な余地を提供せず、LRLのダウンストリームタスクのパフォーマンスに影響を与えます。本論文では、言語ファミリー内の言語の関連性が、語彙の重複の次元で利用され、LRLのコーパスの制限のいくつかを克服することができると主張しています。我々は、BPE語彙生成アルゴリズムの単純で効果的な変更であるOverlap BPE(OBPE)を提案します。関連する言語間のオーバーラップを強化するために使用されます。複数のNLPタスクとデータセットでの広範な実験により、OBPEが、HRLと共有されるトークンを介してLRLの表現を増やす語彙を生成することがわかりました。これにより、HRLの表現と精度を低下させることなく、関連するHRLからLRLへのゼロショット転送が改善されます。トークンのオーバーラップの重要性を無視する以前の研究とは異なり、低リソース関連言語の設定では、トークンのオーバーラップが重要であることを示します。オーバーラップをゼロに人工的に減らすと、ゼロショット転送の精度が4倍に低下する可能性があります。
https://aclanthology.org/2022.acl-long.18/
Long-range Sequence Modeling with Predictable Sparse Attention
自己注意機構は、シーケンスモデリングにおいてグローバルコンテキスト依存性を捉えるための効果的な手法であることが示されていますが、時間とメモリ使用量の二次的な複雑性に苦しんでいます。注意行列の疎さにより、多くの計算が冗長になります。したがって、本論文では、長距離シーケンスモデリングのための高速なTransformerアーキテクチャであるFourier Sparse Attention for Transformer(FSAT)を設計しました。私たちは、疎な注意行列を構築するための全く新しい視点を提供しています。つまり、疎な注意行列を予測可能にすることです。2つのコアサブモジュールは次のとおりです。 (1)L2意味的組み合わせをキャプチャし、𝒪(Llog L)の時間複雑性でプールする高速フーリエ変換ベースの隠れ状態クロスモジュール。 (2)前の隠れ状態クロスモジュールの出力に基づいて注意行列の主要な要素を予測する疎な注意行列推定モジュール。再パラメータ化と勾配切り捨てにより、FSATは主要な要素のインデックスを正常に学習しました。シーケンス長に関する全体的な複雑性は、𝒪(L2)から𝒪(Llog L)に減少します。豊富な実験(自然言語、ビジョン、数学)は、FSATが低い計算コストでさまざまな長いシーケンスタスクで標準のマルチヘッドアテンションとその変種を大幅に上回り、Long Range Arenaベンチマークで新しい最高の結果を達成したことを示しています。
https://aclanthology.org/2022.acl-long.19/
Improving Personalized Explanation Generation through Visualization
現代の推薦システムでは、通常、ユーザーの評価を正当化するコメントやレビューがあります。このようなテキストコーパスにトレーニングされた説明可能な推薦モデルは、ユーザーの興味を発見し、個人に合わせた説明を生成することを学びます。現存するモデルは、妥当な説明を提供できるものの、異なるアイテムに対して繰り返しの文または不十分な詳細を持つ空の文を生成する傾向があります。これは興味深い問題を提起します。モデルをマルチモーダル環境に浸して、現実世界の概念に適切な認識を得て、上記の欠点を緩和できるでしょうか?このために、私たちは視覚的に強化されたアプローチであるMETERを提案します。視覚化生成とテキスト-画像マッチング識別の支援を受けて、説明可能な推薦モデルは、テキスト説明と一致しない場合にペナルティを負うことで、何を指しているかを視覚化するように促されます。実験結果と手動評価により、私たちのアプローチは、生成された説明のテキスト品質だけでなく、多様性と説明可能性を改善できることが示されました。
https://aclanthology.org/2022.acl-long.20/
New Intent Discovery with Pre-training and Contrastive Learning
新しい意図の発見は、ユーザーの発話から新しい意図カテゴリを発見し、サポートされる意図クラスのセットを拡大することを目的としています。これは、実用的な対話システムの開発とサービス拡大にとって重要なタスクです。しかし、この問題は、文献では未だに十分に探究されていません。既存のアプローチは、通常、大量のラベル付き発話に依存し、表現学習とクラスタリングのために疑似ラベリング手法を使用しますが、これらはラベルが多く、効率が悪く、正確性が低いという欠点があります。本論文では、新しい意図の発見に関する2つの重要な研究問題に対する新しい解決策を提供します:(1)どのように意味的な発話表現を学習するか、(2)どのように発話をより良くクラスタリングするか。特に、まず、豊富な未ラベルデータと外部ラベルデータを活用したマルチタスクの事前学習戦略を提案します。次に、自己監督信号を未ラベルデータから利用するための新しい対比損失を設計します。3つの意図認識ベンチマークでの広範な実験により、提案手法の高い効果性が示され、非監督学習および半教師ありシナリオの両方で、最先端の手法を大幅に上回ることが示されました。ソースコードはhttps://github.com/zhang-yu-wei/MTP-CLNNで入手可能です。
https://aclanthology.org/2022.acl-long.21/
Modeling U.S. State-Level Policies by Extracting Winners and Losers from Legislative Texts
州レベルの政策決定は、医療や教育アクセスなど、私たちの日常生活の多くの側面に深い影響を与えます。しかし、これらの政策や決定が立法プロセスでどのように形成されているかについては、ほとんど理解がありません。私たちは、関係者(例えば、教育法案の教師)に対する立法の影響を解読することにより、立法者の意思決定プロセスと投票を理解するために、データ駆動型のアプローチを取ります。私たちは、法案、関係者、立法者、寄付者など、複数のデータソースを相互に接続する複数の米国州の新しいデータセットを構築します。次に、州法案を埋め込み分析するためのテキストグラフベースのモデルを開発します。私たちのモデルは、法案の勝者/敗者を予測し、それらを利用して、立法機関の投票傾向を人口/イデオロギーの基準に応じてより正確に決定します。例えば、性別。
https://aclanthology.org/2022.acl-long.22/
Structural Characterization for Dialogue Disentanglement
複雑な多人数対話文脈は、複数の対話スレッドが共通の対話記録内で同時に流れるため、人間と機械の両方にとって対話履歴を理解することが困難になるため、対話読解に課題を提供します。以前の研究は、慎重に設計された特徴を持つ発話符号化方法に主に焦点を当てていますが、対話構造の特徴的な特徴に十分な注意を払っていません。我々は特に構造要因を考慮に入れ、対話分離のための新しいモデルを設計しました。対話が話者間の連続的な参加と相互作用に基づいて構築されることを考慮して、対話の構造情報を2つの側面でモデル化します。1)メッセージの送信元を示す話者プロパティ、および2)メッセージが参照する可能性のある人物を示す参照依存性。提案された方法は、Ubuntu IRCベンチマークデータセットで新しい最先端を達成し、対話関連の理解に貢献しています。
https://aclanthology.org/2022.acl-long.23/
Multi-Party Empathetic Dialogue Generation: A New Task for Dialog Systems
共感的な対話は、感情理解、感情投影、適切な応答生成を組み合わせたものである。共感的な対話生成の既存の研究は、二者間の会話シナリオに集中している。しかし、現実には多数の人が参加する対話が普及している。さらに、感情と感性はしばしば混同されるため、繊細で微妙な人間の感情を理解するために洗練された共感分析が必要である。本研究では、Multi-Party Empathetic Dialogue Generationという新しいタスクを提案し、Multi-Party Empathetic Dialogue GenerationのためのStatic-Dynamicモデル(SDMPED)を導入することでこれらの問題に対処する。SDMPEDは、多数の参加者がいる共感的な対話学習のために静的な感性と動的な感情を探求することで、最先端のパフォーマンスを達成することができる。
https://aclanthology.org/2022.acl-long.24/
MISC: A Mixed Strategy-Aware Model integrating COMET for Emotional Support Conversation
既存の手法を感情的なサポート会話に適用することは、必要な人々に貴重な支援を提供するが、2つの主要な制限がある:(a) 一般的に会話レベルの感情ラベルを使用するため、ユーザーの瞬時の精神状態を捉えるには粒度が荒すぎること。(b) ほとんどの手法は、応答で共感を表現することに焦点を当てており、ユーザーの苦痛を徐々に軽減することには焦点を当てていない。これらの問題に対処するために、私たちは新しいモデルMISCを提案し、まずユーザーの細かい感情状態を推定し、その後、戦略の混合を使用して巧みに応答します。ベンチマークデータセットでの実験結果は、私たちの手法の有効性を示し、細かい感情理解と混合戦略モデリングの利点を明らかにします。
https://aclanthology.org/2022.acl-long.25/
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
自然言語処理に関する論文の要約文を日本語に翻訳してください。 自然言語理解(NLU)、無条件生成、条件生成の3つの主要なカテゴリのすべてのタスクに最適な事前学習フレームワークは存在しない。これに対処するために、自己回帰的なブランク埋め込みに基づく一般言語モデル(GLM)を提案する。GLMは、2D位置エンコーディングを追加し、任意の順序でスパンを予測できるようにすることで、ブランク埋め込みの事前学習を改善し、NLUタスクでBERTやT5よりも性能が向上する。同時に、GLMは、ブランクの数や長さを変えることで、さまざまなタイプのタスクのために事前学習できる。NLU、条件付き生成、無条件生成の幅広いタスクにおいて、同じモデルサイズとデータを使用して、GLMはBERT、T5、GPTを上回り、BERT Largeの1.25倍のパラメータを持つ単一の事前学習モデルから最高の性能を発揮し、異なる下流タスクに対して汎用性を示す。
https://aclanthology.org/2022.acl-long.26/
QuoteR: A Benchmark of Quote Recommendation for Writing
私たちは、私たちの文章をより優雅で説得力のあるものにするために引用符(引用)を使用することが非常に一般的です。人々が適切な引用を効率的に見つけるのを支援するために、現在の文章に適合する引用を推奨することを目的とした引用推奨のタスクが提示されています。様々な引用推奨アプローチがありますが、それらは未公開の異なるデータセットで評価されています。このタスクの研究を促進するために、私たちは、英語、標準中国語、古典中国語を含む大規模で完全にオープンな引用推奨データセットであるQuoteRを構築しました。それぞれの部分は以前の未公開の対応物よりも大きくなっています。私たちは、既存の引用推奨方法をQuoteRで広範囲に評価しています。さらに、私たちは、すべてのQuoteRの3つの部分で以前の方法を大幅に上回る新しい引用推奨モデルを提案しています。この論文のすべてのコードとデータは、https://github.com/thunlp/QuoteRから入手できます。
https://aclanthology.org/2022.acl-long.27/
Towards Comprehensive Patent Approval Predictions:Beyond Traditional Document Classification
特許出願の承認率を予測することは、複数の側面を含む難しい問題である。最も重要な側面はおそらく新規性であり、35 U.S. Code § 102は非常に類似した先行技術を持つ最近の出願を拒否する。このような新規性の評価は、通常の文書分類とは異なり、成功した特許出願は類似した書き方をすることがあるが、あまりにも類似した新しい出願は逆のラベルを受け取るため、標準的な文書分類器(例えばBERT)を混乱させる。この問題に対処するために、我々は手作りの特徴、特に時間依存性の新規性スコアを文書分類器と統合する新しいフレームワークを提案する。具体的には、我々は効率的なフィルタとニューラルバイエンコーダのハイブリッドを使用して、各出願を何百万もの先行技術と比較して新規性スコアを定式化する。さらに、新規性スコアに関する承認予測の単調な変化を強制するために、分類目的に新しい正則化項を課す。大規模なUSPTOデータセットでの広範な実験から、標準的なBERT fine-tuningは不一致なデータから新規性と承認の正しい関係を部分的に学習できることがわかった。しかし、我々の時間依存性の新規性特徴はそれに加えてブーストを提供する。また、我々の単調な正則化は、探索空間を縮小しながら、最適化プロセスをより良い局所最適解に導くことができ、さらにわずかな性能向上をもたらす。
https://aclanthology.org/2022.acl-long.28/
Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
知識ベースの視覚的な質問応答(QA)は、画像の内容自体を超えた視覚的に根拠のある外部知識を必要とする質問に答えることを目的としています。弱い監督下で多段階の推論を必要とする複雑な質問に答えることは、推論プロセスに対して監督が与えられていないことと、多段階の知識事実の高次の意味を捉える必要があるため、課題と考えられています。本論文では、質問と知識ベースの高レベルな意味をエンコードし、それらの間の高次の関連性を学習するためのハイパーグラフの概念を導入します。提案されたモデルであるHypergraph Transformerは、質問ハイパーグラフとクエリに関する知識ハイパーグラフを構築し、2つのハイパーグラフ間の相互関連性と、両方のハイパーグラフ内の内部関連性をエンコードして回答を推論します。2つの知識ベースの視覚的QAと2つの知識ベースのテキストQAに対する広範な実験により、特に多段階の推論問題に対して、提案手法の有効性が示されました。ソースコードはhttps://github.com/yujungheo/kbvqa-publicで入手可能です。
https://aclanthology.org/2022.acl-long.29/
Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech
自然で表現豊かな音声を合成するためには、プロソディの変動をモデル化することが重要です。本論文では、過去と未来の文章から得られた音響特徴、話者情報、テキスト特徴に基づいて、各音素の潜在的なプロソディ特徴の事後確率分布を推定するためのクロス発話条件付きVAE(CUC-VAE)を提案します。推論時には、VAEで使用される標準的なガウス分布ではなく、クロス発話情報に基づいた発話特有の事前分布からサンプリングすることができるため、TTSシステムによって生成されるプロソディ特徴が文脈に関連し、人間が自然にプロソディを生成する方法により近くなります。CUC-VAEの性能は、自然さ、理解可能性、単語エラー率、プロソディ属性の標準偏差などの定量的な測定と、質的な聴取テストによって評価されます。LJ-SpeechとLibriTTSデータに対する実験結果は、提案されたCUC-VAE TTSシステムが自然さとプロソディの多様性を明確に向上させることを示しています。
https://aclanthology.org/2022.acl-long.30/
Mix and Match: Learning-free Controllable Text Generationusing Energy Language Models
制御可能なテキスト生成に関する最近の研究は、基本言語モデル(LM)の属性ベースの微調整を必要とするか、属性識別器のパラメータ化を基本自己回帰LMと互換性があるように制限する必要がありました。本研究では、任意の事前学習済みブラックボックスモデルを組み合わせて、微調整やブラックボックスモデルの構造的な仮定を必要とせずに、生成されたテキストに所望の属性を実現するための制御可能なテキスト生成のためのグローバルスコアベースの代替案であるMix and Match LMを提案します。制御可能な生成のタスクを、流暢さ、制御属性、および任意の条件付けコンテキストに対する忠実度に個別に責任を持つブラックボックスモデルのスコアの線形結合であるエネルギーベースのモデルからサンプルを抽出するタスクとして解釈します。双方向コンテキストとグローバル属性特徴を使用して、メトロポリス・ヘイスティングスのサンプリングスキームを使用して、このエネルギーベースのモデルからサンプリングします。我々は、モデルの形式に関する制限、追加のトレーニング、微調整を必要とする最近提案された方法を上回ることによって、さまざまな制御生成およびスタイルベースのテキスト修正タスクで我々のアプローチの有効性を検証します。
https://aclanthology.org/2022.acl-long.31/
So Different Yet So Alike! Constrained Unsupervised Text Style Transfer
最近では、ドメイン間のテキストの自動転送が一般的になってきています。その目的の1つは、ターゲットドメインに適応しながら意味内容を保持することです。しかし、ソースと翻訳されたテキストの他の属性(例:テキストの長さや説明力)を明示的に維持しないため、制約を転送に維持することには、データ拡張や偏見除去などの多数の下流アプリケーションがあります。我々は、2つの補完的な損失を生成的対抗ネットワーク(GAN)モデルに導入することで、そのような制約付き非監督テキストスタイル転送の方法を紹介します。GANで使用される競合する損失とは異なり、我々は、識別器とジェネレータが協力して同じ損失を減らす協力的な損失を導入します。最初のものは対照的な損失であり、2番目のものは分類損失であり、潜在空間をさらに正則化し、類似した文を近づけることを目的としています。我々は、複数のベンチマークデータセットに対して、複数の属性が変化する場合も含め、ドメイン間の語彙、構文、およびドメイン固有の制約を保持することを示します。補完的な協力的な損失が、自動評価および人間の評価尺度の両方においてテキストの品質を向上させることを示します。
https://aclanthology.org/2022.acl-long.32/
e-CARE: a New Dataset for Exploring Explainable Causal Reasoning
因果関係を理解することは、様々な自然言語処理(NLP)アプリケーションにとって極めて重要です。ラベル付きのインスタンスを超えて、因果関係の概念的な説明は、因果推論プロセスを促進するために因果事実の深い理解を提供することができます。しかし、このような説明情報は、既存の因果推論リソースにまだ存在していません。本論文では、人間による説明可能な因果推論データセット(e-CARE)を紹介し、20,000以上の因果推論の質問と、自然言語で形成された因果的な質問の説明を含んでいます。実験結果は、因果事実の有効な説明を生成することは、最先端のモデルにとって依然として特に困難であり、説明情報は因果推論モデルの精度と安定性を促進するのに役立つことが示されています。
https://aclanthology.org/2022.acl-long.33/
Fantastic Questions and Where to Find Them: FairytaleQA – An Authentic Dataset for Narrative Comprehension
質問応答(QA)は、機械と幼児の物語理解能力の評価とトレーニングを促進するための基本的な手段であるが、この目的に適した高品質のQAデータセットが不足している。特に、既存のデータセットは、異なる物語要素の理解などの細かい読解力を区別することがほとんどない。読み書き教育研究に基づいて、私たちはFairytaleQAというデータセットを紹介する。FairytaleQAは、幼稚園から8年生の学生の物語理解に焦点を当てたデータセットであり、証拠に基づく理論的枠組みに基づいて教育専門家によって生成され、7種類の物語要素または関係をカバーする278の子供向けストーリーから派生した10,580の明示的および暗黙的な質問から構成されている。私たちのデータセットは2つの価値がある。第一に、既存のQAモデルを私たちのデータセットで実行し、この注釈がモデルの細かい学習能力を評価するのに役立つことを確認した。第二に、データセットは教育領域の質問生成(QG)タスクをサポートする。QGモデルとのベンチマークを通じて、FairytaleQAでトレーニングされたQGモデルが高品質でより多様な質問をすることができることを示した。
https://aclanthology.org/2022.acl-long.34/
KaFSP: Knowledge-Aware Fuzzy Semantic Parsing for Conversational Question Answering over a Large-Scale Knowledge Base
本論文では、大規模な知識ベースを対象とした会話型質問応答の意味解析アプローチにおける2つの問題を研究する:(1)文法で定義されたアクションは、現実世界のシナリオで一般的な不確実な推論を扱うのに十分ではない。(2)知識ベース情報が十分に活用され、意味解析に組み込まれていない。これらの問題を緩和するために、知識に基づくファジー意味解析フレームワーク(KaFSP)を提案する。これは、ファジー集合論に基づく不確実な推論のための文法システム内のファジー比較演算を定義するものである。意味解析と知識ベースの相互作用を強化するために、知識ベースからのエンティティトリプルを知識に基づくエンティティの曖昧さ解消モジュールに組み込む。さらに、エンティティタイプと関係の相関関係を捕捉し、現在の発話に関連する知識ベース情報を検出するためのマルチラベル分類フレームワークを提案する。両方の強化は、事前学習された言語モデルに基づいている。大規模な会話型質問応答ベンチマークでの実験結果は、提案されたKaFSPが従来の最先端モデルよりも有意な改善を達成し、10種類の質問のうち8種類で新しいSOTA結果を設定し、3種類の質問でF1または精度が10%以上向上し、全体のF1を83.01%から85.33%に向上させたことを示している。KaFSPのソースコードは、https://github.com/tjunlp-lab/KaFSPで入手可能である。
https://aclanthology.org/2022.acl-long.35/
Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment
知識グラフ(KG)における欠落した事実を予測することは重要である。現代のKGは不完全であるため、人間によるラベリングが労力を必要とするため、異なる言語で表現された知識を扱う場合には、この現象が悪化する。本論文では、限られたシードアラインメントを橋渡しとして活用する多言語KG補完を探求し、複数の言語からの集合的な知識を取り込む。しかし、従来の言語アラインメントはまだ十分に活用されていない。具体的には、(1)アラインメントペアは等しく扱われ、並列エンティティを最大限に近づけることができるが、KGの容量の不一致を無視している。(2)シードアラインメントは限られており、新しいアラインメントの識別は通常、ノイズの多い非監視学習の方法で行われる。これらの問題に対処するために、本論文では、新しい自己教師付き適応グラフアラインメント(SS-AGA)手法を提案する。具体的には、SS-AGAは、アラインメントを新しいエッジタイプとして扱い、すべてのKGを1つのグラフとして融合する。これにより、関係に注意した重みを用いて、KG間の情報伝播とノイズの影響を適応的に制御することができる。一方、SS-AGAは、自己教師付きパラダイムで潜在的なアラインメントペアを動的に捕捉する新しいペアジェネレータを特徴とする。公開されている多言語DBPedia KGと新たに作成された産業用多言語E-commerce KGの両方での広範な実験により、SS-AGAの有効性が実証された。
https://aclanthology.org/2022.acl-long.36/
Modeling Hierarchical Syntax Structure with Triplet Position for Source Code Summarization
自然言語処理に関する論文の要約文を日本語に翻訳してください。 自然言語でソースコードを説明することを目的とする自動コード要約は、ソフトウェアメンテナンスにおいて必要不可欠なタスクとなっています。私たちの研究仲間は、機械学習をベースとした様々なアプローチを用いて、このような目的を達成しようと試みてきました。しかし、これらのアプローチが実用的でない理由の1つは、ソースコードの意味構造を保持することができていないことです。既存のアプローチは、コードの構文構造を抽象構文木(AST)をモデル化することで表現しています。しかし、ASTの階層構造は十分に探索されていません。本論文では、CODESCRIBEを提案し、コード要約のための新しい三つ組位置を導入することで、コードの階層的構文構造をモデル化します。具体的には、CODESCRIBEはグラフニューラルネットワークとTransformerを活用して、コードの構造と順序情報をそれぞれ保持します。さらに、コードの構造と順序トークンの両方に注意を払うポインタジェネレータネットワークを提案し、より良い要約生成を実現します。JavaとPythonの2つの実世界データセットでの実験結果は、いくつかの最先端のベースラインと比較して、提案手法の有効性を示しています。
https://aclanthology.org/2022.acl-long.37/
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding
最近、少数の自然言語理解(NLU)タスクに注目が集まっています。しかし、これまでの方法は異なるプロトコルで評価されており、公平な比較や分野の進歩の測定を妨げています。この問題に対処するために、我々は評価フレームワークを導入し、テストパフォーマンス、開発テスト相関、および安定性の3つの重要な側面で以前の評価手順を改善しました。この新しい評価フレームワークの下で、NLUタスクのいくつかの最先端の少数の方法を再評価しました。我々のフレームワークは新しい洞察を明らかにしました:(1)方法の絶対的なパフォーマンスと相対的なギャップは以前の文献で正確に評価されていなかった;(2)一貫したパフォーマンスでほとんどのタスクを支配する単一の方法は存在しない;(3)一部の方法の改善は、より大きな事前学習モデルでは減少する;(4)異なる方法からの利益はしばしば補完的であり、最高の組み合わせモデルは強力な完全教師ありベースラインに近いパフォーマンスを発揮します。我々は、我々の評価フレームワークといくつかの最先端の方法を実装したツールキット、FewNLUをオープンソース化しています。
https://aclanthology.org/2022.acl-long.38/
Learn to Adapt for Generalized Zero-Shot Text Classification
一般化されたゼロショットテキスト分類は、以前に見たクラスと増加する未知のクラスの両方からテキストインスタンスを分類することを目的としています。既存の多くの方法は、学習されたパラメータが見たクラスに対してのみ最適であり、両方のクラスに対して最適ではないため、一般化が悪いです。また、パラメータは予測手順で静止状態を保ちます。これらの課題に対処するために、私たちは、変異体メタ学習フレームワークを使用した新しいLearn to Adapt(LTA)ネットワークを提案します。具体的には、LTAは、テスト時間に従って一般化されたゼロショット学習(GZSL)シナリオをシミュレートするために、見たクラスと仮想未知のクラスの両方を使用して適応型分類器をトレーニングし、同時に、学習されたパラメータを入力された未知のクラスに適応させるためにクラスプロトタイプとサンプル表現をキャリブレーションすることを学習します。提案されたモデルは、両方のクラスからすべてのプロトタイプとサンプルをグローバル空間でより一貫した分布に表現できると主張します。5つのテキスト分類データセットでの広範な実験により、私たちのモデルは、いくつかの競合する以前のアプローチよりも大幅に優れていることが示されました。コードと全データセットは、https://github.com/Quareia/LTAで利用可能です。
https://aclanthology.org/2022.acl-long.39/
TableFormer: Robust Transformer Modeling for Table-Text Encoding
表の理解は自然言語理解の重要な側面である。表理解の既存のモデルは、行または列の順序が不要なバイアスとしてエンコードされる表の構造の線形化を必要とする。このような偽のバイアスは、モデルを行と列の順序の摂動に対して脆弱にする。さらに、以前の研究では、表の構造や表とテキストの整列について十分にモデル化されておらず、表とテキストの理解能力が妨げられている。本研究では、学習可能なアテンションバイアスを介して完全に表の構造的バイアスを組み込んだ堅牢で構造的に意識した表テキストエンコーディングアーキテクチャTableFormerを提案する。TableFormerは、(1) 行と列の順序に厳密に不変であり、(2) 表の帰納的バイアスにより、表をよりよく理解できる。評価により、TableFormerはSQA、WTQ、TabFact表推論データセットのすべての設定で強力なベースラインを上回り、特に回答不変の行と列の順序の摂動に直面した場合にSOTAモデルの性能が4%〜6%低下するのに対して、TableFormerは影響を受けないため、SQAで最高のベースラインより6%改善された。
https://aclanthology.org/2022.acl-long.40/
Perceiving the World: Question-guided Reinforcement Learning for Text-based Games
テキストベースのゲームは、自然言語処理を研究するためのインタラクティブな方法を提供します。深層強化学習は、ゲームプレイエージェントの開発に有効であることが示されていますが、低いサンプル効率と大きなアクションスペースは、現実世界でのDRLの適用を妨げる2つの主要な課題であり続けています。本論文では、環境に関する質問に答えることでタスクを自動的に分解し、アクションを削減する世界知覚モジュールを導入することで、これらの課題に対処します。さらに、言語学習を強化学習から分離する2段階のトレーニングフレームワークを提案し、サンプル効率をさらに改善します。実験結果は、提案手法が性能とサンプル効率を大幅に改善することを示しています。また、複合エラーや限られた事前トレーニングデータに対しても堅牢性を示しています。
https://aclanthology.org/2022.acl-long.41/
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
ゼロショット多言語抽出型テキスト要約では、モデルは通常、英語の要約データセットでトレーニングされ、その後、他の言語の要約データセットに適用されます。英語のゴールド要約と文書が与えられた場合、抽出型要約の文レベルのラベルは通常、ヒューリスティックを使用して生成されます。ただし、これらの英語データセットで作成された単一言語のラベルは、異なる言語のデータセットでは、構文的または意味的な不一致があるため、最適ではない場合があります。このように、英語のデータセットを他の言語に翻訳し、再びヒューリスティックを使用して異なるラベルセットを取得することができます。これらの異なるラベルセットの情報を十分に活用するために、私たちはNLSSum(要約のためのニューラルラベル検索)を提案し、これはこれらの異なるラベルセットの階層的な重みを私たちの要約モデルと一緒に学習します。私たちは、MLSUMおよびWikiLinguaデータセットで多言語ゼロショット要約実験を実施し、これらの2つのデータセット全体で人間と自動評価を使用して最先端の結果を達成しました。
https://aclanthology.org/2022.acl-long.42/
Few-Shot Class-Incremental Learning for Named Entity Recognition
従来のNamed Entity Recognition(NER)のクラス増分学習においては、新しいクラスのトレーニングに十分なラベル付きデータが存在するという仮定に依存していた。本研究では、より困難で実践的な問題である、少数のラベル付きサンプルのみを用いたNERの少数ショットクラス増分学習を研究し、古いクラスの知識を忘れずに新しいクラスをトレーニングする。少数ショットクラス増分学習におけるカタストロフィックな忘却の問題を緩和するために、トレーニング済みのNERモデルを使用して古いクラスの合成トレーニングデータを再構築し、新しいクラスのトレーニングを拡張する。さらに、既存のモデルから合成データと現在のトレーニングセットからの実データの両方を抽出するフレームワークを開発する。実験結果は、当社のアプローチが既存のベースラインよりも大幅な改善を達成していることを示している。
https://aclanthology.org/2022.acl-long.43/
Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation
自然言語処理(NLP)のモデルを構築することは、データが限られている低リソースのシナリオでは困難です。最適化ベースのメタ学習アルゴリズムは、よく一般化されたモデル初期化を新しいタスクに対応できるように適応させることで、低リソースのシナリオで有望な結果を達成します。しかし、これらのアプローチは、メタトレーニングタスクを記憶しながら、サポートセットを無視して新しいタスクに適応するモデルが記憶過剰になるという問題があります。この問題に対処するために、私たちはメモリイミテーションメタ学習(MemIML)方法を提案し、タスク適応のためにモデルがサポートセットに依存するように強化します。具体的には、タスク固有のメモリモジュールを導入してサポートセット情報を保存し、イミテーションモジュールを構築して、クエリセットがメモリに保存されたサポートセットの振る舞いを模倣するように強制します。理論的な分析を提供して、私たちの方法の効果を証明し、実証結果も、テキスト分類および生成タスクの両方で競合するベースラインを上回ることを示しています。
https://aclanthology.org/2022.acl-long.44/
Quality Controlled Paraphrase Generation
言い換え生成は、様々な下流タスクで広く使用されています。ほとんどのタスクは、主に高品質の言い換えに利益を得ます。つまり、元の文と意味的に類似しているが、言語的に多様であるものです。高品質の言い換えを生成することは困難であり、言語的多様性が増すにつれて意味を保持することがますます困難になります。最近の研究では、構文木などの特定の側面を制御することにより、素晴らしい結果を達成しています。しかし、彼らは生成された言い換えの品質を直接制御することを許可せず、柔軟性と拡張性に欠けています。ここでは、品質に基づく制御された言い換え生成モデルであるQCPGを提案し、直接品質次元を制御することができます。さらに、文が与えられた場合、最適な生成された言い換えを生み出すと予想される品質制御空間のポイントを特定する方法を提案します。私たちは、制御されていないベースラインよりも高い多様性を実現しながら、元の意味を維持する言い換えを生成することができることを示します。モデル、コード、およびデータは、https://github.com/IBM/quality-controlled-paraphrase-generationで見つけることができます。
https://aclanthology.org/2022.acl-long.45/
Controllable Dictionary Example Generation: Generating Example Sentences for Specific Targeted Audiences
辞書の対象語に対する例文は、読者が単語の使用法を理解するのに重要な役割を果たします。従来、辞書の例文は通常、言語学の専門家によって作成されており、労力と知識が必要でした。本論文では、対象語に対応する定義に従って、辞書の例文を自動生成する問題を紹介します。このタスクは、特に多義語の場合には困難であり、生成された文は、対象語の異なる用法や意味を反映する必要があります。対象読者には、異なるバックグラウンドや教育レベルがある場合があります。異なるバックグラウンドやレベルの観客に理解できる例文を生成することが重要です。これらの問題を解決するために、本論文では、このタスクのための制御可能な対象語に関するモデルを提案します。提案されたモデルは、多義語でも対象語に対して合理的な例文を生成することができます。さらに、モデルは、長さや語彙の複雑さなど、読みやすさに関連する属性に対する明示的な制御をユーザーに許可するため、対象読者に適した例文を生成することができます。オックスフォード辞書のデータセットに対する自動評価と人間による評価により、提案されたモデルは、特定の定義に対して適切な例文を生成し、所望の読みやすさを満たすことができることが示されました。
https://aclanthology.org/2022.acl-long.46/
AraT5: Text-to-Text Transformers for Arabic Language Generation
最近、すべての言語問題をテキストからテキストへの形式に変換する統一されたTransformerフレームワーク(T5)を用いた転移学習が、簡単で効果的な転移学習手法として提案された。T5モデルの多言語版(mT5)も導入されたが、多様なデータを含む英語以外のタスクにおいてどの程度優れた性能を発揮できるかは明確ではない。この問題を調査するため、私たちは多様な方言を持つ言語であるアラビア語にmT5を適用した。評価のために、私たちはアラビア語の7つの重要なタスクをカバーする新しいベンチマークであるARabic language GENeration(ARGEN)を導入する。モデルの比較のために、私たちは3つの強力なアラビア語T5スタイルモデルを事前学習し、ARGENで評価した。私たちの新しいモデルは、約49のデータで事前学習されたにもかかわらず、ARGENのすべてのタスク(59のテストセットのうち52)でmT5よりも有意に優れた性能を発揮し、いくつかの新しいSOTAを設定した。私たちのモデルは、最近提案された大規模なアラビア語言語理解評価ベンチマークであるARLUE(Abdul-Mageed et al.、2021)でも新しいSOTAを確立した。私たちの新しいモデルは公開されており、ARGENデータセットへのリンクも私たちのリポジトリ(https://github.com/UBC-NLP/araT5)を通じて提供されている。
https://aclanthology.org/2022.acl-long.47/
Legal Judgment Prediction via Event Extraction with Constraints
近年、法的判断予測(LJP)の課題において重要な進展があったが、SOTA LJPモデルによる不正確な予測は、(1)判断を決定する主要なイベント情報を特定できないこと、および(2)LJPのサブタスク間に存在するクロスタスクの一貫性制約を活用できないことに一部帰因される。これらの弱点に対処するために、我々は制約付きのイベントベースの予測モデルであるEPMを提案し、標準的なLJPデータセットにおいて既存のSOTAモデルを上回る性能を発揮する。
https://aclanthology.org/2022.acl-long.48/
Answer-level Calibration for Free-form Multiple Choice Question Answering
最近、事前学習された言語モデルは、言語モデリング目的を使用して大規模なコーパスでトレーニングすることにより、常識的な推論タスクを含むさまざまなNLPタスクにおいて、フューショットおよびゼロショットの機能を実現することが示されています。これは、通常、自然言語テキストの完了問題としてタスクを提示することにより、モデルとのテキストの相互作用を使用して達成されます。言語モデルの確率を使用してタスク固有のスコアを取得することは一般的に有用であるが、長さの正規化や確率のキャリブレーションなどのタスク固有のヒューリスティックが必要であることが多い。本研究では、文脈が与えられた場合に、未指定の長さの自由形式のテキスト選択肢から選択する必要がある質問応答形式を考慮します。私たちは、ALC(Answer-Level Calibration)を提案し、主な提案は、関連する文脈なしで選択肢の確率をモデル化し、完全な文脈との類似性の非監督推定を使用してそれを削除することです。私たちは、共通の推論タスクを含むさまざまなタスクにおいて、標準的な評価メトリックを使用してベースラインよりも常に改善または競争力があることを示しています。さらに、人気のあるデータセットは、文脈に依存しない簡単な手がかりに偏ったモデルを好む可能性があることを示しています。私たちは、関連するF1スコアを使用してそのようなバイアスを分析します。私たちの分析は、回答レベルのキャリブレーションがそのようなバイアスを除去し、モデルの能力のより堅牢な測定につながることを示しています。
https://aclanthology.org/2022.acl-long.49/
Learning When to Translate for Streaming Speech
ストリーミング音声入力に対して、部分文翻訳を生成する適切なタイミングをどのように見つけるか?従来のアプローチである一定時間待機して翻訳する方法は、音声の音響ユニットの境界が均等でないため、音声の音響ユニットを壊してしまうことがよくある。本論文では、ストリーミング音声コンテンツを翻訳するためのシンプルで効果的な方法であるMoSSTを提案する。通常長い音声シーケンスが与えられた場合、エンコーダ・デコーダモデル内に効率的な単調増加分割モジュールを開発し、音響情報を累積的に蓄積し、音声翻訳タスクにおいて適切な音声ユニットの境界を検出する。MuST-Cデータセットの複数の翻訳方向での実験結果は、既存の方法を上回り、翻訳品質(BLEU)とレイテンシの最適なトレードオフを実現していることを示している。コードはhttps://github.com/dqqcasia/mosstで入手可能である。
https://aclanthology.org/2022.acl-long.50/
Compact Token Representations with Contextual Quantization for Efficient Document Re-ranking
トランスフォーマーベースの再ランキングモデルは、クエリトークンとドキュメントトークンのコンテキストに基づくソフトマッチングにより、高い検索関連性を実現できます。このような推論のランタイム複雑性を緩和するために、以前の研究では、オンラインストレージの大きなコストで事前に計算されたコンテキストトークン表現を持つ遅延相互作用アーキテクチャを採用してきました。本論文では、コードブックベースの圧縮において、ドキュメント固有とドキュメント非依存のランキング貢献を分離することにより、トークン埋め込みの文脈的量子化を提案します。これにより、より良い検索関連性のための効果的なオンライン復号化と埋め込み合成が可能になります。本論文では、上記のコンパクトなトークン表現モデルの関連性とスペース効率に関する評価を行います。
https://aclanthology.org/2022.acl-long.51/
Early Stopping Based on Unlabeled Samples in Text Classification
過学習を防ぐために広く使用されている早期停止は、通常、別個の検証セットに基づいています。しかし、リソースが少ない状況では、検証に基づく停止はリスクがある場合があります。小さな検証セットは十分に代表的でない可能性があり、検証分割によるサンプル数の減少はトレーニングに十分なサンプルがない可能性があります。本研究では、ラベルのないサンプルを使用する早期停止方法を提案します。提案された方法は、信頼度とクラス分布の類似性に基づいています。さらに性能を向上させるために、未ラベルのサンプルのクラス分布をより正確に推定するためのキャリブレーション方法を提供します。提案された方法は、別個の検証セットを必要とせず、大きな未ラベルセットを使用することでより良い停止点を提供するため、有利です。5つのテキスト分類データセットで広範な実験が行われ、いくつかの停止方法が比較されました。提案されたモデルは、バランスの取れたデータ設定と不均衡なデータ設定の両方で、追加の検証セットを使用することや既存の停止方法よりも優れた性能を発揮することが示されました。私たちのコードはhttps://github.com/DMCB-GIST/BUS-stopで利用可能です。
https://aclanthology.org/2022.acl-long.52/
Meta-learning via Language Model In-context Tuning
メタ学習の目的は、わずかなラベル付きの例だけで新しいタスクに適応することを学ぶことです。大規模言語モデルの最近の進歩に着想を得て、私たちはインコンテキスト・チューニング(ICT)を提案します。これは、タスクの適応と予測を単純なシーケンス予測問題として再定義するものです。入力シーケンスを形成するために、タスクの指示、インコンテキストのラベル付き例、および予測する対象の入力を連結します。インコンテキストの例から学ぶために、事前学習された言語モデル(LM)を微調整して、タスクのコレクションにおいて入力シーケンスからターゲットラベルを予測するようにモデルをメタトレーニングします。私たちは、2つのテキスト分類タスクのコレクションで私たちの方法をベンチマークしました:LAMAとBinaryClfs。モデルを勾配降下法で適応するMAMLと比較して、私たちの方法は、事前学習されたLMの帰納的なバイアスを利用してパターンマッチングを行い、BinaryClfsの平均AUC-ROCスコアで絶対6%の改善を実現し、モデルサイズが大きくなるにつれてより優位性を発揮します。インコンテキスト学習を行わない場合(つまり、生のLMをプロンプトする場合)と比較して、インコンテキスト・チューニングはモデルをインコンテキストの例から学習するようにメタトレーニングします。BinaryClfsでは、ICTは平均AUC-ROCスコアを絶対10%改善し、例の順序による分散を6倍、例の選択による分散を2倍に減らします。
https://aclanthology.org/2022.acl-long.53/
It is AI’s Turn to Ask Humans a Question: Question-Answer Pair Generation for Children’s Story Books
既存の質問応答(QA)技術は主に人間が尋ねた質問に答えるために作成されています。しかし、教育アプリケーションでは、教師はしばしば生徒の物語理解能力を向上させるためにどのような質問をすべきかを決定する必要があります。私たちは、幼稚園から8年生レベルのストーリーブックを入力として受け取り、生徒の理解力の様々な側面をテストできるQAペアを自動生成できる自動化された質問応答生成(QAG)システムを設計しました。私たちの提案するQAGモデルアーキテクチャは、新しい専門家注釈付きFairytaleQAデータセットを使用して示されており、278の子供向けストーリーブックと10,580のQAペアが含まれています。自動評価と人間の評価により、私たちのモデルが最新のQAGベースラインシステムを上回っていることが示されています。私たちのQAGシステムの上に、将来的に教育シナリオでの実際の展開のためにインタラクティブなストーリーテリングアプリケーションを構築し始めています。
https://aclanthology.org/2022.acl-long.54/
Prompt-Based Rule Discovery and Boosting for Interactive Weakly-Supervised Learning
弱教師あり学習(WSL)は、多くのNLPタスクでラベル不足に対処するために有望な結果を示していますが、包括的で高品質なラベリングルールセットを手動で設計することは手間がかかり困難です。本研究では、データから新しいラベリングルールを自動的に発見してWSLモデルを改善する問題であるインタラクティブな弱教師あり学習を研究しています。提案されたモデルであるPRBoostは、反復的なプロンプトベースのルール発見とモデルブースティングによってこの目標を達成します。ブースティングを使用して大きなエラーインスタンスを特定し、事前にトレーニングされたLMにルールテンプレートをプロンプトすることで、候補ルールを発見します。候補ルールは人間の専門家によって判断され、受け入れられたルールは補完的な弱いラベルを生成し、現在のモデルを強化するために使用されます。4つのタスクでの実験結果は、PRBoostが最新のWSLベースラインを最大7.1%上回り、完全教師ありモデルとのギャップを埋めることを示しています。
https://aclanthology.org/2022.acl-long.55/
Constrained Multi-Task Learning for Bridging Resolution
私たちは、追加のラベル付きブリッジングデータを使用せずに、監視されたブリッジングリゾルバをどの程度改善できるかを調べ、ブリッジング解決のための新しい制約付きマルチタスク学習フレームワークを提案します。このフレームワークでは、(1) クロスタスクの一貫性制約を設計して学習プロセスをガイドし、(2) 大量の公開された共参照データでマルチタスクフレームワークのエンティティ共参照モデルを事前学習し、(3) ルールベースのリゾルバにエンコードされた事前知識を統合します。私たちのアプローチは、3つの標準評価コーパスで最先端の結果を達成しています。
https://aclanthology.org/2022.acl-long.56/
DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations
オープンドメインの対話システムの迅速な開発には、ハイパーパラメータの調整やモデル間の比較を容易にする自動評価メトリックが不可欠である。最近提案されたトレーニング可能な会話レベルのメトリックは、有望な結果を示しているが、メトリックの品質はトレーニングデータの品質に強く依存する。従来の研究では、不連続な対話(負の例)を連続した対話(正の例)からブートストラップするために、主にヒューリスティックなテキストレベルの操作(例えば、発話のシャッフル)に頼っていた。このようなアプローチは、高度な対話モデルと人間の間で起こる不連続性を適切に反映するには不十分である。この問題に対処するために、我々はDEAMを提案する。DEAMは、抽象的な意味表現(AMR)に依存して、意味レベルの操作を適用して不連続な(負の)データを生成する対話の一貫性評価メトリックである。AMRは、共参照の不一致、無関係、矛盾、およびエンゲージメントの低下など、さまざまな種類の不連続性源の注入を自然に容易にするため、より自然な不連続なサンプルを生成する。我々の実験は、DEAMがいくつかの対話データセットでベースライン方法に比べて人間の判断との相関が高く、有意な差を示すことを示している。また、DEAMがベースライン操作によって生成された連続的な対話と不連続な対話を区別できることを示し、一方、ベースラインモデルはDEAMによって生成された不連続な例を検出できないことを示している。我々の結果は、AMRベースの意味的操作が自然な負の例の生成において潜在的な可能性を示している。
https://aclanthology.org/2022.acl-long.57/
HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long Document Summarization
文書構造は効率的な情報消費にとって重要である。しかし、現代のTransformerアーキテクチャにそれを効率的にエンコードすることは困難である。本研究では、文書構造を考慮した階層的なバイアスを注入するHIBRIDSを提案する。さらに、階層的な質問-要約生成の新しいタスクを提案し、ソース文書の重要な内容を質問と要約の階層にまとめ、各フォローアップ質問が親の質問-要約ペアの内容について尋ねるようにする。また、政府報告書にラベル付けされた6,153の質問-要約階層を含む新しいデータセットを注釈付きで提供する。実験結果は、比較に対して質問-要約階層の品質と内容のカバレッジの両方で、モデルがより優れた結果を示すことを示し、人間の審査員によっても同様に確認された。さらに、ROUGEスコアによって測定されるように、モデルは長い政府報告書やWikipedia記事からの長い形式の要約の生成を改善する。
https://aclanthology.org/2022.acl-long.58/
De-Bias for Generative Extraction in Unified NER Task
固有表現認識(NER)は、与えられた文から特定の種類のエンティティを認識するための基本的なタスクである。エンティティが文中にどのように現れるかによって、Flat NER、Nested NER、Discontinuous NERの3つのサブタスクに分けることができる。既存のアプローチの中で、生成モデルだけがこれらの3つのサブタスクに一様に適応できる。しかし、生成モデルをNERに適用すると、最適化目的がタスクと一致しないため、モデルが誤ったバイアスに対して脆弱になる。本論文では、因果関係の観点から生成プロセスの誤ったバイアスを分析し、プレコンテキストの混乱因子とエンティティ順序の混乱因子の2つに帰属する。さらに、バックドア調整理論に基づいて、Intra-およびInter-entity Deconfounding Data Augmentation方法を設計して、上記の混乱因子を排除する。実験結果は、我々の方法が様々なデータセットで生成NERモデルの性能を改善できることを示している。
https://aclanthology.org/2022.acl-long.59/
An Information-theoretic Approach to Prompt Engineering Without Ground Truth Labels
事前学習された言語モデルは、大規模なコーパスから相当な言語的および事実的知識を得ており、プロンプトエンジニアリングはこれらのモデルを特定のタスクに合わせることを目指しています。残念ながら、既存のプロンプトエンジニアリング手法は、ラベル付きデータの大量の取得、モデルパラメータへのアクセス、またはその両方が必要です。本研究では、ラベル付きの例やモデルへの直接的なアクセスなしに、プロンプトテンプレートを選択する新しい方法を提案します。具体的には、候補テンプレートのセットに対して、入力と対応するモデル出力の相互情報量を最大化するテンプレートを選択します。7つの異なるNLPタスクを表す8つのデータセット全体で、相互情報量が高いテンプレートは、タスクの正確性も高いことを示します。最大のモデルでは、当社の方法でプロンプトを選択すると、平均プロンプトの正確性から最高プロンプトの正確性まで90%進むことができ、グラウンドトゥルーラベルは必要ありません。
https://aclanthology.org/2022.acl-long.60/
Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation
多言語事前学習モデルの性能は、対象言語に存在する単一言語または並列テキストの利用可能性に大きく依存しています。したがって、世界の大多数の言語は、テキストデータがないか限られているため、NLPの最近の進歩から利益を得ることができません。このような代替リソースとして、カバー範囲がはるかに広いバイリンガル辞書の使用を通じて、従来の言語リソースに依存しない戦略を体系的に研究し、NLP技術をこれらの代表されていない言語で使用する可能性を拡大することを検討しました。私たちは、異なる戦略を分析して、辞書を使用してテキストまたはラベル付きデータを合成する方法、および利用可能な場合に単一言語または並列テキストとこのデータを組み合わせる方法を調べました。3つのタスクにわたる19の代表されていない言語に対して、私たちの方法は、追加の単一言語テキストがある場合とない場合で、それぞれ5ポイントと15ポイントの一貫した改善をもたらしました。全体的に、私たちの研究は、現在の技術によって不十分に対応されている数千の言語にNLP方法を適応する方法を強調しています。
https://aclanthology.org/2022.acl-long.61/
Language-agnostic BERT Sentence Embedding
BERTは、意味の類似性と埋め込みベースの転移学習のための単一言語文の埋め込みを学習するための効果的な方法であるが、BERTベースのクロスリンガル文の埋め込みはまだ探求されていない。我々は、マスク言語モデリング(MLM)、翻訳言語モデリング(TLM)、デュアルエンコーダ翻訳ランキング、および加算マージンソフトマックスを組み合わせて、単一言語およびクロスリンガル表現の最良の方法を組み合わせて、多言語文の埋め込みを学習する方法を系統的に調査する。我々は、事前学習された多言語言語モデルを導入することで、良好なパフォーマンスを達成するために必要な並列トレーニングデータの量を80%削減できることを示す。これらの方法の最良の組み合わせを構成することで、Tatoebaで112言語にわたる83.7%のバイテキスト検索精度を達成し、LASERが達成した65.5%を大幅に上回り、単一言語転移学習ベンチマークでも競争力を持っていることを示す。我々の最良のモデルを使用してCommonCrawlから採掘された並列データは、en-zhおよびen-deの競争力のあるNMTモデルをトレーニングすることが示されている。我々は、109以上の言語のための最良の多言語文の埋め込みモデルをhttps://tfhub.dev/google/LaBSEで公開する。
https://aclanthology.org/2022.acl-long.62/
Nested Named Entity Recognition with Span-level Graphs
ニューラルネットワークのバックボーンを持つスパンベースの手法は、入れ子になった固有表現認識(NER)問題において大きな可能性を持っています。しかし、正例と負例が大きく重なる場合には退化するなどの問題があります。また、一般化能力は入れ子になったNERにおいて非常に重要であり、テストセットの大部分のエンティティがトレーニングセットにほとんど現れないためです。本研究では、n-gram特徴に基づいてトレーニングデータ内のスパンとエンティティを接続する検索ベースのスパンレベルグラフを利用して、スパン表現を改善しようと試みました。具体的には、n-gramの類似性に基づいてエンティティ-エンティティグラフとスパン-エンティティグラフをグローバルに構築し、類似した隣接エンティティの情報をスパン表現に統合します。当社の手法を評価するために、ACE2004、ACE2005、GENIAデータセットの3つの一般的な入れ子になったNERデータセットで実験を行いました。実験結果は、当社の手法がすべての3つのベンチマークで一般的な改善を達成し(+0.30〜0.85マイクロF1)、低頻度エンティティで特別な優位性を獲得することを示しています(+0.56〜2.08リコール)。
https://aclanthology.org/2022.acl-long.63/
CogTaskonomy: Cognitively Inspired Task Taxonomy Is Beneficial to Transfer Learning in NLP
自然言語処理(NLP)におけるタスク間の転移学習を指導する原則は存在するか?タクソノミー(Zamir et al.、2018)は、視覚タスクの間に構造が存在し、それらの転移学習の原則となるものであることを発見しています。本論文では、認知的にインスパイアされたフレームワークであるCogTaskonomyを提案し、NLPタスクのためのタクソノミーを学習します。このフレームワークは、認知表現分析(CRA)と認知神経マッピング(CNM)から構成されています。前者は、計算神経科学で一般的に使用される表現類似性分析を使用して、タスク固有の文表現との類似性を推定することで、タスクの類似性を推定します。後者は、NLPモデルから神経表現を認知信号(つまり、fMRIボクセル)に投影することで、タスク関係を検出することを学習します。BERT / TinyBERTが転移学習の基礎モデルとして使用される12のNLPタスクでの実験では、提案されたCogTaxonomyが転移学習を指導し、視覚タスクノミー(Zamir et al.、2018)で使用される分析階層プロセス(Saaty、1987)と同等の性能を発揮することが示されましたが、O(m2)のタスク転送を網羅的に行う必要はありません。さらに、分析により、CNMがモデルに依存しないタスク分類を学習できることがわかりました。
https://aclanthology.org/2022.acl-long.64/
RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining
大規模な事前学習言語モデルは、NLPタスクにおいてSOTAの結果を達成しています。しかし、特に中国語のような表意文字言語に対して、敵対的攻撃に脆弱であることが示されています。本研究では、単語の摂動、類義語、タイポなどの様々な形式の敵対的攻撃に対して堅牢な事前学習済みの中国語BertであるRoCBertを提案します。このモデルは、異なる合成された敵対的な例においてラベルの一貫性を最大化する対比学習目的で事前学習されています。モデルは、意味的、音声的、視覚的特徴を含むマルチモーダル情報を入力として受け取ります。攻撃は、これらの3つの形式で実行できるため、これらのすべての特徴がモデルの堅牢性に重要であることを示します。5つの中国語NLUタスクにおいて、RoCBertは、クリーンなテストセットのパフォーマンスを犠牲にすることなく、3つのブラックボックス敵対的アルゴリズムに対して強力なベースラインを上回ります。また、人工的な攻撃に対する有害なコンテンツ検出タスクにおいても最高のパフォーマンスを発揮します。
https://aclanthology.org/2022.acl-long.65/
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues
最近の視覚言語クロスモーダル推論において、ソース画像とテキストクエリのセットを入力として、バイナリまたはマルチチョイス分類の形式を採用することが一般的です。本研究では、ソース画像に関する事前知識が指定されていない「無条件」の定式化について、冷静に検討します。視覚的な常識推論と自然言語推論タスクの両方の設計に着想を得て、「前提に基づくマルチモーダル推論」(PMR)という新しいタスクを提案します。PMRデータセットには、6つの事前定義されたカテゴリから選択された高品質の映画スクリーンショットと人間による前提テンプレートを使用して、クロウドソーシングプロセスを通じて作成された15,360の手動注釈付きサンプルが含まれています。クロスチェック手順を介して、前提と画像を与えられた場合に、クラウドソースワーカーに真の仮説と3つの誤認識(4つの選択肢)を書いてもらいます。
https://aclanthology.org/2022.acl-long.66/
Parallel Instance Query Network for Named Entity Recognition
固有表現抽出(NER)は自然言語処理における基本的なタスクである。最近の研究では、固有表現抽出を読解タスクとして扱い、タイプ別のクエリを手動で構築してエンティティを抽出する。このパラダイムには3つの問題がある。第一に、タイプ別のクエリは1回の推論で1種類のエンティティしか抽出できず、効率が悪い。第二に、異なる種類のエンティティの抽出は分離されており、それらの間の依存関係を無視している。第三に、クエリの構築は外部の知識に依存しており、数百種類のエンティティが存在する現実的なシナリオに適用することが困難である。これらに対処するために、我々はParallel Instance Query Network(PIQN)を提案し、並列にグローバルかつ学習可能なインスタンスクエリを設定して、文からエンティティを抽出する。各インスタンスクエリは1つのエンティティを予測し、すべてのインスタンスクエリを同時にフィードすることで、すべてのエンティティを並列にクエリできる。インスタンスクエリは外部の知識から構築されるのではなく、トレーニング中に異なるクエリの意味を学習することができる。モデルのトレーニングには、ラベル割り当てを1対多の線形割り当て問題(LAP)として扱い、最小割り当てコストでゴールドエンティティをインスタンスクエリに動的に割り当てる。ネスト型およびフラット型のNERデータセットの実験により、提案手法が従来の最先端モデルを上回ることが示された。
https://aclanthology.org/2022.acl-long.67/
ProphetChat: Enhancing Dialogue Generation with Simulation of Future Conversation
典型的な生成型対話モデルは、応答を生成するために対話履歴を利用します。しかし、1つの対話発言に対して複数の異なる応答が適切であることがしばしばあるため、歴史的情報だけに基づいて望ましい応答を生成することは容易ではありません。直感的には、チャットボットがユーザーがその応答を受け取った後に何について話すか(つまり、対話の未来)を事前に予測できれば、より情報量の多い応答を提供できる可能性があります。そのため、私たちは、ProphetChatという新しい対話生成フレームワークを提案し、推論フェーズでシミュレートされた対話の未来を利用して応答生成を強化します。対話の未来を予測するために、典型的な対話生成モデルと対話セレクタを使用したビームサーチのようなロールアウト戦略を設計します。シミュレートされた未来を利用して、過去から応答を生成するモデルと未来から応答を生成するモデルのアンサンブルを使用して、より情報量の多い応答を共同生成します。2つの人気のあるオープンドメインの対話データセットでの実験は、ProphetChatが強力なベースラインよりも優れた応答を生成できることを示し、シミュレートされた対話の未来を組み込むことの利点を検証します。
https://aclanthology.org/2022.acl-long.68/
Modeling Multi-hop Question Answering as Single Sequence Prediction
Fusion-in-decoder(Fid)(Izacard and Grave、2020)は、事前にトレーニングされたトランスフォーマーを使用してパッセージ検索を活用する生成型質問応答(QA)モデルであり、シングルホップQAの最先端を推進しています。ただし、マルチホップQAの複雑さは、生成型QAアプローチの効果を妨げます。本研究では、多段階の質問に対する回答を解決するための推論プロセスを明示的にモデル化することにより、単なる回答生成を超えた単純な生成型アプローチ(PathFid)を提案します。サポートパッセージ、そのキー文、そして事実に基づく回答の階層的な推論パスを線形化することにより、問題を単一のシーケンス予測タスクとしてキャストします。複数の手がかりを持つ複雑な推論を容易にするために、クロスパッセージ相互作用をエンコードすることにより、複数の入力ドキュメントの統一されたフラット表現をさらに拡張します。私たちの広範な実験は、PathFidが2つのマルチホップQAデータセット、HotpotQAとIIRCで強力なパフォーマンス向上をもたらすことを示しています。パフォーマンスの向上に加えて、PathFidはより解釈可能であり、その結果、ベースラインのFidモデルと比較して、サポートパッセージと事実に忠実に基づく回答を提供します。
https://aclanthology.org/2022.acl-long.69/
Learning Disentangled Semantic Representations for Zero-Shot Cross-Lingual Transfer in Multilingual Machine Reading Comprehension
多言語事前学習モデルは、機械読解(MRC)において豊富なリソース言語から低リソース言語へのゼロショット転移知識を可能にする。しかし、異なる言語の固有の言語的な不一致は、ゼロショット転移によって予測された回答スパンがターゲット言語の構文制約に違反する可能性がある。本論文では、多言語事前学習モデルによって学習された表現において意味と構文を分離するSiamese Semantic Disentanglement Model(S2DM)を備えた新しい多言語MRCフレームワークを提案する。ターゲット言語に対して意味的な知識のみを明示的に転移するために、意味的エンコーディングと構文的エンコーディングと分離のために2つのグループの損失を提案する。XQuAD、MLQA、TyDi QAの3つの多言語MRCデータセットでの実験結果は、mBERTとXLM-100に基づくモデルよりも、提案手法の有効性を示している。
https://aclanthology.org/2022.acl-long.70/
Multi-Granularity Structural Knowledge Distillation for Language Model Compression
近年、転移学習による蒸留による小規模モデルへの知識の転移が注目されています。従来の方法は、単一の言語単位(例えば、トークンレベルやサンプルレベル)から得られた知識を転移していますが、これではテキストの豊かな意味を表現するには不十分であり、重要な知識が失われる可能性があります。また、これらの方法は、中間表現の豊富な構造的関係を無視し、個々の表現またはその単純な依存関係として知識を形成しています。これらの問題を克服するために、我々は、複数の意味的粒度(トークン、スパン、サンプルなど)から中間表現を収集し、多粒度表現に基づくペアワイズ相互作用と三つ組の幾何学的角度によってより洗練された構造的関係として知識を形成する新しい知識蒸留フレームワークを提案します。さらに、よく整理された多粒度構造的知識を階層的に生徒に蒸留することを提案します。GLUEベンチマークの実験結果は、我々の方法が先進的な蒸留方法を上回ることを示しています。
https://aclanthology.org/2022.acl-long.71/
Auto-Debias: Debiasing Masked Language Models with Automated Biased Prompts
大規模な事前学習言語モデルには、人間のような偏見や望ましくない社会的ステレオタイプが存在します。これらのモデルが現実世界のアプリケーションで広く採用されていることから、このような偏見を軽減することは、新興かつ重要な課題となっています。本論文では、事前学習言語モデルの偏見を軽減する自動的な方法を提案します。従来の偏見軽減作業が外部コーパスを使用して事前学習モデルを微調整するのに対し、私たちは代わりにプロンプトを介して事前学習モデルにエンコードされた偏見を直接探索する方法を提案します。具体的には、ビームサーチ法の変種を提案し、クローズスタイルの補完が異なる人口グループに対して最も異なるようなバイアスのあるプロンプトを自動的に検索します。特定されたバイアスのあるプロンプトを用いて、分布整合損失を提案し、バイアスを軽減します。標準的なデータセットとメトリックにおける実験結果は、私たちの提案するAuto-Debiasアプローチが、BERT、RoBERTa、ALBERTなどの事前学習言語モデルにおいて、性別や人種の偏見を含む偏見を大幅に軽減できることを示しています。さらに、公平性の向上は、GLUEベンチマークを使用して示されるように、言語モデルの理解能力を低下させることはありません。
https://aclanthology.org/2022.acl-long.72/
Where to Go for the Holidays: Towards Mixed-Type Dialogs for Clarification of User Goals
多くの対話システムは、ユーザーが明確で具体的な目標を設定してから対話を開始すると仮定しています。例えば、ユーザーはフライトを予約するために出発地、目的地、旅行時間を決定しています。しかし、経験や知識に限界がある場合、ユーザーは必要なスロットをすべて決定して明確で具体的な目標を見つけるのに苦労することがあります。本論文では、この課題を特定し、新しい人間-人間混合型対話コーパスを収集することで一歩前進します。このコーパスには、4つの対話タイプと5つのドメインのために5,000の対話セッションと168,000の発話が含まれています。各セッションでは、エージェントが最初にユーザーの目標に関連する知識を提供して明確で具体的な目標を見つけ、それを達成するために支援します。さらに、私たちは新しいプロンプトベースの継続的学習メカニズムを持つ混合型対話モデルを提案します。具体的には、このメカニズムにより、既存の対話コーパスを効果的に活用して、モデルが任意の特定タイプの能力を継続的に強化できるようになります。
https://aclanthology.org/2022.acl-long.73/
Semi-supervised Domain Adaptation for Dependency Parsing with Dynamic Matching Network
教師あり構文解析モデルは、ドメイン内テキストで印象的な結果を出しています。しかし、データ分布のシフトにより、ドメイン外テキストでは性能が劇的に低下します。共有-プライベートモデルは、特徴分離によるこの問題の緩和において有望な利点を示していますが、従来の研究では共有特徴の強化に注目し、特定の特徴の深い関連性を無視しています。この問題に対処するために、私たちは共有-プライベートモデルに動的マッチングネットワークを初めて適用し、半教師ありクロスドメイン依存構文解析を行います。同時に、ターゲットドメインのラベル付きデータの不足を考慮し、2つの側面からラベルなしデータを活用します。すなわち、動的マッチングネットワークの能力を向上させるための新しいトレーニング戦略の設計と、ドメインに関連するコンテキスト化された表現を得るためにBERTを微調整します。ベンチマークデータセット上の実験結果は、私たちの提案モデルがさまざまなベースラインを常に上回り、すべてのドメインで新しい最高の結果をもたらすことを示しています。異なるマッチング戦略に関する詳細な分析は、有用な特徴を強調し、無用または有害な特徴を無視するために適切なマッチング重みを学習することが重要であることを示しています。また、私たちの提案モデルは、直接的に多元源ドメイン適応に拡張することができ、さまざまなベースラインの中で最高の性能を発揮し、効果的かつ堅牢であることがさらに検証されています。
https://aclanthology.org/2022.acl-long.74/
A Closer Look at How Fine-tuning Changes BERT
現在の自然言語処理において、事前学習された文脈依存表現が広く使用されているため、それらがどのような情報を含んでいるか、そしてなぜ普遍的に成功しているのかを理解するための多くの取り組みが行われています。これらの表現を使用する最も一般的なアプローチは、エンドタスクのために微調整することです。しかし、微調整が埋め込み空間をどのように変化させるかは、あまり研究されていません。本研究では、英語BERTファミリーを研究し、2つのプロービング技術を使用して微調整が空間をどのように変化させるかを分析します。私たちは、微調整が異なるラベルに関連する例の間の距離を増加させることによって分類パフォーマンスに影響を与えると仮説を立てます。私たちは、5つの異なるNLPタスクで慎重に設計された実験によってこの仮説を確認します。これらの実験を通じて、私たちは「微調整は常にパフォーマンスを向上させる」という支配的な知恵に例外があることも発見しました。最後に、微調整前後の表現を比較することにより、微調整が表現に任意の変更を導入するのではなく、データポイントの元の空間構造を大部分保持しながら、下流タスクに合わせて表現を調整することを発見しました。
https://aclanthology.org/2022.acl-long.75/
Sentence-aware Contrastive Learning for Open-Domain Passage Retrieval
密集なパッセージ表現を対比学習によってトレーニングすることは、オープンドメインパッセージ検索(ODPR)において効果的であることが示されています。既存の研究は、負のサンプリング戦略の改善や追加の事前トレーニングによるさらなる最適化に焦点を当てています。しかし、これらの研究は、不適切なモデリング粒度から内部表現の競合を捕捉することが未知のままです。具体的には、1つのパッセージが複数の意味的に異なる文で構成されることがあるため、このようなパッセージを統一された密集ベクトルとしてモデリングすることは最適ではありません。そこで、本研究では、より小さな粒度である文脈的な文に基づいた洗練されたモデルを提案し、懸念される競合を緩和します。具体的には、同じパッセージ内で文の表現を多様に生成するためのパッセージ内負のサンプリング戦略を導入します。3つのベンチマークデータセットでの実験により、特に競合が激しいデータセットでは、本手法の有効性が確認されました。さらに、広範な実験により、本手法のデータセット間での良好な転移性が示されました。
https://aclanthology.org/2022.acl-long.76/
FaiRR: Faithful and Robust Deductive Reasoning over Natural Language
トランスフォーマーは、自然言語で書かれたルールと文を含む論理ルールベースで演繹的推論を行うことができることが示されています。最近の研究では、このようなモデルが推論ステップ(つまり、証明グラフ)を生成できることも示されています。現在、これらのブラックボックスモデルは、証明グラフと中間推論を同じモデルで生成するため、忠実ではない可能性があります。本研究では、ルール選択、事実選択、知識構成の3つのモジュール構成によって、演繹的論理推論タスクをフレーム化します。ルールと事実の選択ステップは、使用する候補ルールと事実を選択し、知識構成はそれらを組み合わせて新しい推論を生成します。これにより、証明ステップから推論推論までの確実な因果関係によってモデルの忠実性が保証されます。フレームワークをテストするために、上記の3つのコンポーネントをトランスフォーマーで独立してモデル化したFaiRR(Faithful and Robust Reasoner)を提案します。FaiRRは、新しい言語の摂動に対して堅牢であり、既存の推論データセットにおいて以前の研究よりも推論が速いことが観察されました。また、ブラックボックス生成モデルとは異なり、モジュールアプローチにより、FaiRRが犯したエラーはより解釈可能です。
https://aclanthology.org/2022.acl-long.77/
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation
表はしばしば階層的に作成されますが、表推論に関する既存の研究は主にフラットな表に焦点を当て、階層的な表を無視しています。階層的な表は、複雑な階層的なインデックス付け、計算と意味の暗黙的な関係によって、数値推論に挑戦します。本論文では、階層的な表に対する質問応答(QA)と自然言語生成(NLG)の研究のための新しいデータセットであるHiTabを提案します。HiTabは、豊富な統計レポートとWikipediaページから構築されたクロスドメインのデータセットであり、次のような特徴があります:(1)ほとんどの表が階層的であり、(2)QAペアはアノテーターによってゼロから提案されたものではなく、アナリストによって作成された実際で意味のある文章から修正されたものです。 (3)統計レポートでの複雑な数値推論を明らかにするために、数量とエンティティの整列の細かい注釈を提供します。実験の結果、このHiTabは既存のベースラインに強い挑戦を与え、将来の研究の貴重なベンチマークとなることが示唆されます。階層的な構造を対象に、表に対する記号的推論のための階層的な論理形式を考案し、高い効果を示しました。表推論を対象に、エンティティと数量の整列を活用して、QAの部分的に監視されたトレーニングとNLGの条件付き生成を探索し、QAでの誤った予測を大幅に減らし、NLGでより良い説明を生成しました。
https://aclanthology.org/2022.acl-long.78/
Doctor Recommendation in Online Health Forums via Expertise Learning
オンラインの健康フォーラムでは、毎日膨大な量の患者の質問が生成され、手動で医師を割り当てることは労力がかかる。本論文では、患者を適切な専門家の医師に自動的にペアリングするための医師推薦の新しいタスクを研究し、患者をよりよく支援することを目的とする。従来の推薦においては、対象ユーザーの過去の行動からモデリングすることが多いが、プライバシー上の理由から、クエリの限られた単語だけを頼りに患者のニーズを推測する必要がある。医師のモデリングにおいては、プロフィールと他の患者との以前の対話の共同効果を研究し、自己学習を通じてその相互作用を探求する。学習された医師の埋め込みは、マルチヘッドアテンションメカニズムを用いて、患者のクエリを処理する能力を推定するためにさらに利用される。実験では、中国のオンライン健康フォーラムである春雨医生から大規模なデータセットを収集し、当社のモデルは、医師のプロフィールと過去の対話だけを特徴付けるベースラインを上回る最先端の結果を示した。
https://aclanthology.org/2022.acl-long.79/
Continual Prompt Tuning for Dialog State Tracking
望ましい対話システムは、古いスキルを忘れずに新しいスキルを継続的に学習し、そのライフサイクルの中で新しいドメインやタスクに適応できる必要があります。しかし、モデルを継続的にトレーニングすることは、しばしばよく知られたカタストロフィックな忘却問題につながります。本論文では、忘却を回避するだけでなく、タスク間の知識転移も可能にするパラメータ効率の高いフレームワークである「Continual Prompt Tuning」を提案します。忘却を回避するために、事前にトレーニングされたバックボーンモデルを凍結しながら、各タスクごとにわずかなプロンプトトークンの埋め込みを学習して保存します。タスク間の双方向の知識転移を実現するために、前のタスクからの知識転移(継続的なプロンプト初期化、クエリフュージョン、メモリリプレイ)と、後続のタスクからの知識転移のためのメモリガイド技術を提案します。広範な実験により、当社の提案手法が、対話状態追跡の継続的学習において、最先端のベースラインと比較して効果的かつ効率的であることが示されました。
https://aclanthology.org/2022.acl-long.80/
There’s a Time and Place for Reasoning Beyond the Image
人間の目にとって、画像は単なるピクセル以上の意味を持つことが多く、他の情報源からの文脈情報を推論、関連付け、推理することで、より完全な画像を構築することができます。例えば、図1では、看板、建物、人々などのセグメントごとの理解を通じて、画像に関連するニュース記事を特定する方法を見つけることができます。この推論により、画像が撮影された時間と場所を提供することができ、自動ストーリー構築、意図した効果写真の画像ソースの修正、特定の場所や時間の画像クラスタリングなどの後続タスクに役立ちます。本研究では、この問題を定式化し、16,000枚の画像とそれらに関連するニュース、時間、場所を自動的に抽出したニューヨーク・タイムズからのデータセットであるTARAを紹介し、WITからの61,000の追加例を遠隔監視として提供します。抽出に加えて、評価目的のために画像の時空間情報を見つけることが可能だと考えられるクラウドソーシングされたサブセットを提示します。我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップが存在することを示し、セグメントごとの推論を使用する提案モデルによってわずかに埋められることを示し、世界知識を用いたオープンエンドの推論を行うことができる高次のビジョン・ランゲージ・ジョイントモデルを促進することを目的としています。データとコードはhttps://github.com/zeyofu/TARAで公開されています。
https://aclanthology.org/2022.acl-long.81/
FORTAP: Using Formulas for Numerical-Reasoning-Aware Table Pretraining
表は豊富な数値データを保持していますが、表上の数値推論はまだ課題です。本論文では、スプレッドシートの数値計算を行うために一般的に使用されるスプレッドシート式が、表上の数値推論にとって有用な監督学習であることを発見しました。Web上に大量に存在するスプレッドシートを考慮し、スプレッドシート式を表の事前学習に活用する最初の探索であるFORTAPを提案します。数式から派生した2つの新しい自己教師事前学習目的、数値参照予測(NRP)と数値計算予測(NCP)があります。提案された目的はエンコーダーにとって一般的ですが、スプレッドシートの表のレイアウトと構造をよりよく捉えるために、FORTAPはツリーアテンションを使用した最初のトランスフォーマーベースのスプレッドシート表事前学習方法であるTUTAに基づいて構築されています。FORTAPは、数式予測、質問応答、セルタイプ分類の3つの代表的なデータセットで、最先端の方法を大幅に上回り、スプレッドシート式を表の事前学習に活用する可能性を示しています。
https://aclanthology.org/2022.acl-long.82/
Multimodal fusion via cortical network inspired losses
異なるモダリティからの情報統合は、研究の活発な分野である。人間や一般的に生物の神経系は、異なる感覚知覚領域からの多数の信号を使って、環境やお互いと相互作用することに非常に熟練している。ニューラルネットワークを介した深い融合モデルの最近の研究により、音声認識、感情認識と分析、キャプション付け、画像の説明などの分野で、単一モダルアプローチよりも大幅な改善が見られた。しかし、そのような研究は、モデルの複雑さを管理しながら、異なるモダリティの融合を可能にするアーキテクチャの変更に主に焦点を当てている。神経科学的な多感覚統合と処理に関するアイデアに着想を得て、我々は損失関数にニューラル依存性を導入する効果を調査した。異なるモデルを用いた多モーダル感情分析タスクの実験により、我々のアプローチが一貫した性能向上を提供することが示された。
https://aclanthology.org/2022.acl-long.83/
Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine Comprehension
手順マルチモーダル文書(PMD)は、テキストの手順とそれに対応する画像をステップバイステップで整理します。PMDを理解し、下流の推論タスクのための表現を導出することは、手順マルチモーダルマシン理解(M3C)として指定されます。本研究では、手順M3Cにおいて、文書または文レベルの既存の探索と比較して、エンティティのような細かいレベルでアプローチします。繊細な考慮をもって、エンティティを時間的およびクロスモーダル関係でモデル化し、新しい時間モーダルエンティティグラフ(TMEG)を提案します。具体的には、グラフ構造は、テキストとビジュアルのエンティティを捕捉し、その時間的モーダル進化を追跡するために形成されます。さらに、グラフ集約モジュールを導入して、グラフのエンコーディングと推論を実行します。従来のデータセットRecipeQAと私たちの新しいデータセットCraftQAで、3つの手順M3Cタスクにわたる包括的な実験が実施され、TMEGの汎化性能をよりよく評価することができます。
https://aclanthology.org/2022.acl-long.84/
Explanation Graph Generation via Pre-trained Language Models: An Empirical Study with Contrastive Learning
事前学習されたシーケンス・トゥ・シーケンス言語モデルは、多くの自然言語生成タスクで広く成功を収めています。しかし、グラフなどの構造化された出力を生成する能力を分析する研究は比較的少ないです。自然言語とは異なり、グラフは下流のNLPタスクの文脈で独自の構造的および意味的特性を持ちます。例えば、接続された非循環グラフを生成することはその構造的制約に帰属し、グラフの意味はエッジが2つのノード概念の関係をどのように意味的に表現するかに関連します。本研究では、エンドツーエンドで説明グラフを生成する事前学習言語モデルを研究し、そのグラフの構造的制約と意味を学習する能力を分析します。まず、限られた監視下で、事前学習言語モデルはこれらの制約を破るか、意味的に不整合なグラフを生成することが多いことを示します。大量の人手による注釈付きグラフを収集することは費用と手間がかかるため、ノードとエッジの編集操作を介したグラフの単純で効果的な摂動方法を提案します。これにより、構造的および意味的に肯定的および否定的なグラフが生成されます。次に、Max-MarginとInfoNCE損失を使用した異なる対比学習モデルでこれらのグラフを活用します。これらの方法は、説明グラフの構造的および意味的精度の両方で大幅な改善をもたらし、他の類似したグラフ生成タスクにも一般化します。最後に、人間のエラーが最適な負例であること、また、より多くの人間らしい負のグラフを自動生成することがさらなる改善につながることを示します。
https://aclanthology.org/2022.acl-long.85/
Unsupervised Extractive Opinion Summarization Using Sparse Coding
意見要約は、複数のユーザーレビューに表現された情報を総括する要約を自動的に生成するタスクです。我々は、Semantic Autoencoder(SemAE)を提案し、教師なしの抽出型意見要約を実行します。SemAEは、辞書学習を使用してレビューテキストから意味情報を暗黙的に捕捉し、各文の意味ユニットにわたる潜在表現を学習します。我々の抽出型要約アルゴリズムは、表現を活用して数百のレビューの中から代表的な意見を特定します。SemAEは、わずかなサンプルのみを使用して、アスペクトに特化した要約を生成することもできます。我々は、SPACEおよびAMAZONデータセットで強力なパフォーマンスを報告し、モデルの機能を調査するための実験を実施します。
https://aclanthology.org/2022.acl-long.86/
LexSubCon: Integrating Knowledge from Lexical Resources into Contextual Embeddings for Lexical Substitution
語彙置換は、与えられた文脈内の単語に対して意味のある代替語を生成するタスクです。文脈語埋め込みモデルは、文内の置換された単語から抽出された文脈情報に依存することで、語彙置換タスクで最先端の結果を達成しています。しかし、このようなモデルは、外部の語彙データベースに存在する構造化された知識を考慮に入れていません。本研究では、構造化された語彙リソースからの知識と文脈埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介します。これにより、高精度な代替候補を特定できます。これは、文脈情報を構造化された語彙リソースの知識と組み合わせることによって実現されます。我々のアプローチは、(i) ターゲット単語の埋め込みに新しいミックスアップ埋め込み戦略を導入することで、ターゲット入力埋め込みとその可能性のある類義語の平均埋め込みのペアを線形補間することです。(ii) ターゲット単語と提案された候補の文-定義埋め込みの類似性を考慮すること。(iii) 微調整された文の類似性モデルを介して、文の意味に対する各置換の影響を計算することです。我々の実験では、LexSubConは、広く語彙置換タスクに使用されるLS07およびCoInCoベンチマークデータセットのすべての公式語彙置換メトリックで、従来の最先端方法よりも少なくとも2%優れていることが示されています。
https://aclanthology.org/2022.acl-long.87/
Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation
暗黙の知識、例えば常識は、流暢な人間の会話に不可欠です。現在のニューラル応答生成(RG)モデルは、暗黙の知識を省略して直接応答を生成するように訓練されています。本論文では、暗黙の常識的な知識を最初に外部化する(考える)ことで応答を生成するための生成的アプローチであるThink-Before-Speaking(TBS)を提案します。暗黙の知識を外部化することで、より効率的な学習が可能になり、より情報量の多い応答を生成し、より説明可能なモデルを可能にすると主張します。我々は、知識に合わせた対話を収集するための異なる選択肢、暗黙の知識を表現する方法、そして知識と対話の間を移行する方法を分析します。実験結果は、TBSモデルが自動評価指標のほとんどでエンドツーエンドおよび知識拡張RGベースラインを上回り、人間の注釈者による評価によると、より情報量が多く、具体的で、常識に従った応答を生成することを示しています。TBSはまた、対話に関連し、意味がある知識を約85%の頻度で生成します。
https://aclanthology.org/2022.acl-long.88/
Flow-Adapter Architecture for Unsupervised Machine Translation
本研究では、教師なしNMTのためのフローアダプターアーキテクチャを提案します。このアーキテクチャは、正規化フローを活用して文レベルの潜在表現の分布を明示的にモデル化し、その後、翻訳タスクにおいてアテンションメカニズムと共に使用されます。私たちのモデルの主な新規性は、(a) 正規化フローを使用して各言語ごとに言語固有の文表現を別々に捉え、(b) これらの潜在表現を単純な変換に使用して言語間翻訳を行うことです。このアーキテクチャにより、各言語の教師なしトレーニングが可能になります。監視されたMTの潜在変数に関する先行研究がありますが、私たちの知る限り、これは教師なしMTにおいて潜在変数と正規化フローを使用した最初の研究です。私たちは、いくつかの教師なしMTベンチマークで競争力のある結果を得ました。
https://aclanthology.org/2022.acl-long.89/
Efficient Unsupervised Sentence Compression by Fine-tuning Transformers with Reinforcement Learning
文章の要約: 文の圧縮は、重要な事実と文法性を保持しながら、非必須のコンテンツを削除することによって、テキストの長さを短縮します。教師なし目的駆動型の文の圧縮方法は、グラウンドトゥルースのトレーニングデータを必要とせずにカスタマイズされたモデルを作成するために使用でき、学習と推論に使用される目的関数に柔軟性を提供します。最近の教師なし文の圧縮アプローチは、カスタム目的を使用して離散的な検索をガイドすることで、ガイドされた検索は推論時に高価です。この研究では、効果的な文の圧縮モデルをトレーニングするために強化学習の使用を探索し、予測を生成する際にも高速であるモデルを作成します。特に、タスクをバイナリシーケンスラベリングとしてキャストし、シンプルなポリシーグラディエントアプローチを使用して事前にトレーニングされたトランスフォーマーを微調整します。このアプローチは、他の教師なしモデルよりも優れており、推論時にも効率的です。
https://aclanthology.org/2022.acl-long.90/
Tracing Origins: Coreference-aware Machine Reading Comprehension
機械読解は、新しい事前学習言語モデル(PrLMs)および微調整戦略を評価するための研究およびテスト分野であり、最近の研究では、事前学習言語モデルに構文、意味およびその他の言語情報を豊富に取り入れてモデルの性能を向上させています。本論文では、人間の読解プロセスを模倣し、照応表現を接続し、明示的にエンティティの共参照情報を活用して、事前学習言語モデルから単語埋め込みを強化し、QUOREFという比較的新しいデータセットでの共参照に関連するモデルの性能評価を特に設計します。我々は、事前学習言語モデルの後に追加のエンコーダ層を配置して共参照言及に焦点を当てるか、共参照関係をモデル化するための関係グラフ畳み込みネットワークを構築する2つの戦略を使用します。微調整段階での共参照情報の明示的な組み込みが、言語モデルの事前学習での共参照情報の組み込みよりも優れた性能を発揮することを示します。
https://aclanthology.org/2022.acl-long.91/
WatClaimCheck: A new Dataset for Claim Entailment and Inference
私たちは、自動事実チェックのタスクのための新しいデータセットと、最先端のアルゴリズムの評価に貢献します。データセットには、スピーチ、インタビュー、ソーシャルメディア、ニュース記事からの主張、プロの事実チェッカーによって公開されたレビュー記事、およびそれらのプロの事実チェッカーがレビューを支援し、主張の真実性を検証するために使用する前提記事が含まれています。前提記事の使用における重要な課題は、主張の真実性を推論するのに役立つ関連する箇所を特定することです。私たちは、レビュー記事で訓練された密なパッセージ検索モデルを転移することで、前提記事内のパッセージの検索品質が向上することを示します。私たちは、前提記事からの推論による主張の真実性の予測の結果を報告します。
https://aclanthology.org/2022.acl-long.92/
FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metrics for Automatic Text Generation
高速で信頼性の高い評価指標は、研究開発の進歩に不可欠です。従来の自然言語生成の評価指標は速いですが、信頼性があまり高くありません。一方、大規模な事前学習言語モデルに基づく新しい指標は、信頼性が高くなりますが、膨大な計算リソースが必要です。本論文では、高価な自然言語生成の評価指標の固定された低コスト版を学習するFrugalScoreを提案します。この方法により、元の性能のほとんどを維持しながら、多くのパラメーターを削減することができます。BERTScoreとMoverScoreを用いた要約と翻訳の実験では、FrugalScoreは元の指標と同等の性能を発揮し、場合によってはより優れています。また、FrugalScoreは、元の指標よりも数桁少ないパラメーターで、数倍速く実行されます。すべての学習済み指標を公開し、リソースに限りのある研究者や実践者に利益をもたらすことを目的としています。平均的に、すべての学習済み指標、タスク、バリアントにおいて、FrugalScoreは性能の96.8%を維持し、元の指標よりも24倍速く、35倍少ないパラメーターを持っています。
https://aclanthology.org/2022.acl-long.93/
A Well-Composed Text is Half Done! Composition Sampling for Diverse Conditional Generation
私たちは、以前の確率的デコーディング戦略と比較して、より高品質な条件付き生成のために多様な出力を生成するためのシンプルで効果的な方法である「Composition Sampling」を提案します。これは、最近提案されたプランベースのニューラル生成モデル(FROST、Narayan et al、2021)に基づいて構築され、まず出力の構成を作成し、それと入力に基づいて条件付けて生成するようにトレーニングされます。私たちのアプローチは、エンティティチェーンの形で構成をサンプリングし、そのエンティティチェーンに基づいて最良のテキストを生成するためにビームサーチを使用することで、テキストの退化を回避します。CNN / DailyMailおよびXSumの要約、およびSQuADの質問生成に関する実験では、既存のおよび新しく提案された自動メトリックと人間による評価を併用して、Composition Samplingが現在、多様な意味のある出力を生成するための最良の利用可能なデコーディング戦略であることが示されています。
https://aclanthology.org/2022.acl-long.94/
Synthetic Question Value Estimation for Domain Adaptation of Question Answering
ターゲットドメインでの質問応答(QA)モデルのドメイン適応のために、質問ジェネレータ(QG)を用いたQAペアの合成が一般的な手法となっている。しかし、合成された質問はしばしばノイズが含まれるため、既存の手法では事前学習されたQA(またはQG)モデルのスコアを基準に高品質な質問を選択する。しかし、これらのスコアは、ターゲットドメインでのQAパフォーマンスの改善という最終目標に直接的に役立つわけではない。本論文では、合成された質問の有用性を直接的に評価する質問価値推定器(QVE)の新しいアイデアを提案する。包括的な実験を行い、QVEによって選択された合成質問が、既存の手法と比較してターゲットドメインでのQAパフォーマンスの向上に役立つことを示す。さらに、このような質問を使用し、ターゲットドメインでの人間の注釈の約15%のみを使用することで、完全に教師ありのベースラインと同等のパフォーマンスを達成できることを示す。
https://aclanthology.org/2022.acl-long.95/
Better Language Model with Hypernym Class Prediction
クラスベースの言語モデル(LM)は、n-gram LMの文脈のまばらさに対処するために長年にわたって考案されてきました。本研究では、ニューラルLMの文脈でこのアプローチを再検討します。クラスベースの予測は、類似した単語の暗黙的な文脈集約をもたらし、珍しい単語の一般化を改善できると仮説を立てています。共通のWordNetハイパーニムを持つ単語を同じクラスにマッピングし、トークン予測からクラス予測に徐々にアニーリングしながら大規模なニューラルLMをトレーニングします。実証的に、このカリキュラム学習戦略は、WikiText-103とARXIVの2つのデータセットで、さまざまな大規模で高性能な最新のTransformerベースのモデルに対して一貫してperplexityを改善します。分析により、珍しい単語のパフォーマンスを犠牲にすることなく、パフォーマンスの向上が達成されたことが示されます。最後に、実証的な利益をもたらさなかった他の試みを文書化し、クラスベースのLMの大規模な採用の将来の方向性について議論します。
https://aclanthology.org/2022.acl-long.96/
Tackling Fake News Detection by Continually Improving Social Context Representations using Graph Neural Networks
簡単なアクセス、多様なコンテンツ、そして迅速な広範な相互作用は、ソーシャルメディアがますます人気を集める理由の一部です。しかし、この上昇は、誤情報を広め、信念を揺るがす意図でニュースソースによって公開されたテキストであるフェイクニュースの拡散を可能にしました。大規模な誤情報を防止し、健全な社会を維持するために、それを検出することは重要であり、困難な問題です。私たちは、フェイクニュースの検出を、ソーシャルメディア上でのソース、彼らが公開する記事、そして参加するユーザーの関係をグラフフレームワークで推論することと見なしています。この情報を埋め込んだ後、推論演算子を定式化し、ドキュメントの内容やユーザーのエンゲージメントパターンなど、要素間の観測されていない相互作用を明らかにすることで、グラフエッジを拡張します。2つの困難なフェイクニュース検出タスクに対する実験は、推論演算子を使用することで、フェイクニュースの拡散を可能にするソーシャルメディアフレームワークの理解が向上し、パフォーマンスが向上することを示しています。
https://aclanthology.org/2022.acl-long.97/
Understanding Gender Bias in Knowledge Base Embeddings
知識ベース(KB)の埋め込みには、ジェンダーの偏りが含まれていることが示されています。本論文では、これらの偏りに関する2つの問題について研究します。それは、どのように量化するか、そしてKB内のその起源をどのように追跡するかです。具体的には、まず、人物エンティティのグループと個人のエンティティそれぞれに対して2つの新しいバイアス測定を開発します。その妥当性の証拠は、現実世界の国勢調査データと比較して観察されます。次に、影響関数を使用して、KB内の各トリプルが全体的なグループバイアスにどのように貢献するかを調べます。私たちの研究の潜在的な応用を示すために、KB埋め込みのジェンダーバイアスを緩和する2つの戦略(KBトリプルの追加と削除による)も提示します。
https://aclanthology.org/2022.acl-long.98/
Computational Historical Linguistics and Language Diversity in South Asia
南アジアには多数の言語が存在し、その多くは新しい言語技術にアクセスできないという深刻な問題がある。この言語多様性は比較言語学、接触言語学、歴史言語学の研究環境を提供し、多数の言語からの広範なデータ収集が必要とされる。我々は、南アジア言語技術の発展において、データの散在性(不足ではなく)が主要な障害であると主張し、言語史の研究がこの障害を克服するために独自に適合していると提案する。我々は、南アジアの自然言語処理と歴史比較言語学の交差点での最近の進展を検討し、この分野での自分たちや他の人々の現在の取り組みを説明する。また、データの壁を打ち破るための新しい戦略を提供する。
https://aclanthology.org/2022.acl-long.99/
Faithful or Extractive? On Mitigating the Faithfulness-Abstractiveness Trade-off in Abstractive Summarization
抽象的な要約において最近の進展にもかかわらず、システムは依然として忠実性のエラーに苦しんでいます。以前の研究では、忠実性を向上させるモデルが提案されていますが、要約モデルをより抽出的にすることが忠実性を向上させるための素朴な方法の1つであるため、改善が抽出度の増加によるものかどうかは不明です。本研究では、抽象度スペクトルの異なる操作点で制御として機能する忠実性-抽象度トレードオフ曲線を生成することにより、要約システムの効果的な忠実性を評価するためのフレームワークを提供します。その後、最大尤度推定(MLE)ベースラインおよび最近提案された忠実性を向上させる方法が、同じ抽象度レベルで制御を常に改善できないことを示します。最後に、与えられたドキュメントに対して最も忠実で抽象的な要約を識別するセレクタを学習し、このシステムが2つのデータセットでベースラインシステムよりもより抽象的でありながら、人間の評価でより高い忠実性スコアを達成できることを示します。さらに、同じ抽象度レベルで制御よりも優れた忠実性-抽象度トレードオフを達成できることを示します。
https://aclanthology.org/2022.acl-long.100/
Slangvolution: A Causal Analysis of Semantic Change and Frequency Dynamics in Slang
言語は常に変化しており、その変化のメカニズムはまだ議論の余地がある。本研究では、因果関係の観点から言語進化にアプローチし、様々な分布要因が言語変化にどのように関連し、どのように因果的に影響を与えるかをモデル化する。特に、特定のグループや社会的環境に限定された非公式な言語であるスラングを研究する。スラング語と標準的な非スラング語の意味変化と頻度変化を分析し、因果関係の発見と因果推論技術を用いて、単語タイプ(スラング/非スラング)が意味変化と頻度変化に及ぼす影響、および頻度、多義性、品詞との関係を測定する。分析により、スラング語は意味変化が少ないが、時間の経過とともに頻度変化が大きくなる傾向があることが示され、言語変化の研究に新しい洞察を提供する。
https://aclanthology.org/2022.acl-long.101/
Spurious Correlations in Reference-Free Evaluation of Text Generation
モデルベースの、参照フリーの評価尺度は、自然言語生成(NLG)システムを評価するための迅速かつ費用効果の高いアプローチとして提案されています。最近の有望な結果にもかかわらず、要約や対話生成の参照フリーの評価尺度が、単語の重複、パープレキシティ、長さなどの尺度との偽の相関に依存している可能性があることがわかりました。さらに、テキスト要約については、これらの尺度が現在の最先端の抽象的要約システムをランキングする際に高いエラー率を示すことが観察されました。我々は、参照フリーの評価において偽の特徴を回避するために明示的に評価尺度を設計することで、これらのエラーを軽減できることを示します。
https://aclanthology.org/2022.acl-long.102/
On The Ingredients of an Effective Zero-shot Semantic Parser
意味解析器は、自然言語の発話を意味表現(例:プログラム)にマッピングします。このようなモデルは、必要な注釈作業の手間により、トレーニングデータが不足していることが一般的です。最近の研究では、文法から標準的な発話とプログラムのトレーニング例を合成し、これらの発話を言語的多様性を向上させるために言い換えることにより、ゼロショット学習を実行しました。しかし、このような合成例は、実際のデータのパターンを完全に捉えることができません。本論文では、言語的および論理的ギャップ(Herzig and Berant, 2019)のレンズを通してゼロショットパーサーを分析し、標準的な例と実世界のユーザー発行例の間の言語およびプログラムパターンの不一致を定量化します。私たちは、改良された文法、より強力な言い換えモデル、および実際のユーザー意図を最も反映する可能性が高い標準的な例を使用した効率的な学習方法を使用して、これらのギャップを埋めることを提案します。私たちのモデルは、ラベル付けされたデータがゼロである2つの意味解析ベンチマーク(Scholar、Geo)で強力なパフォーマンスを発揮します。
https://aclanthology.org/2022.acl-long.103/
Bias Mitigation in Machine Translation Quality Estimation
機械翻訳品質評価(QE)は、参照翻訳がない場合に機械生成翻訳の品質を評価する予測モデルを構築することを目的としています。最新のQEモデルは良好な結果を達成することが示されていますが、翻訳の品質に因果関係のない特徴に過度に依存しています。特に、部分的な入力バイアスがあり、つまり、意味を保持しないにもかかわらず、流暢で文法的に正しい翻訳に高品質スコアを割り当てる傾向があります。私たちは、部分的な入力バイアスをさらに詳しく分析し、バイアス緩和のための4つのアプローチを評価します。2つのアプローチは、追加のデータを使用して主要なタスクを支援するために使用され、他の2つは敵対的で、モデルがバイアスを学習しないように積極的に妨げます。私たちは、部分的な入力バイアスを減らしながら全体的なパフォーマンスを維持する能力に関して、方法を比較します。私たちは、追加の拡張データを利用する補助的なバイナリ分類タスクを持つマルチタスクアーキテクチャをトレーニングすることが、望ましい効果を最もよく達成し、異なる言語や品質メトリックにも一般化することができることを発見しました。
https://aclanthology.org/2022.acl-long.104/
Unified Speech-Text Pre-training for Speech Translation and Recognition
本研究では、音声翻訳と認識のためのエンコーダ・デコーダモデリングフレームワークにおいて、音声とテキストを共同で事前学習する方法を説明する。提案された方法は、クロスモダリティ学習のために4つの自己教師あり・なしのサブタスクを統合するためにマルチタスク学習を利用する。自己教師ありの音声サブタスクは、ラベルのない音声データを活用し、豊富なテキストトレーニングデータを利用する(自己)教師ありのテキストトゥテキストサブタスクが、事前学習時間の大部分を占める。2つの補助教師ありの音声タスクが含まれ、音声とテキストのモデリングスペースを統一する。詳細な分析により、サブタスク間の学習干渉が明らかになった。サブタスクの干渉を緩和するために、音声翻訳と音声認識のために2つの事前学習構成が提案された。実験結果は、提案された方法が音声とテキスト情報を効果的に1つのモデルに統合できることを示している。MuST-C音声翻訳データセットにおいて、最新技術に比べて1.7〜2.3 BLEUの改善を達成し、Librispeech音声認識タスクにおいてwav2vec 2.0と同等のWERを達成している。
https://aclanthology.org/2022.acl-long.105/
Match the Script, Adapt if Multilingual: Analyzing the Effect of Multilingual Pretraining on Cross-lingual Transferability
事前学習された多言語モデルは、未知の言語に対してゼロショット学習を可能にし、微調整前に適応することで性能をさらに向上させることができます。しかし、事前学習言語の数がモデルの未知の言語に対するゼロショット学習にどのように影響するかは不明です。このギャップを埋めるために、以下の研究問題を提起します:(1)事前学習言語の数は、未知のターゲット言語に対するゼロショット性能にどのように影響するか?(2)その答えは、モデルの適応によって変わるか?(3)事前学習に使用される言語がすべて関連している場合、最初の質問の結果は変わりますか?関連する言語での事前学習に関する私たちの実験は、多様な言語セットを選択することが重要であることを示しています。モデルの適応なしで、驚くべきことに、事前学習言語の数を増やすことは、関連する言語を追加するまでより良い結果をもたらし、その後性能が停滞します。対照的に、継続的な事前学習によるモデルの適応により、より多くの言語での事前学習はさらなる改善をもたらすことがよくあり、追加の事前学習言語を活用するためにモデルの適応が重要であることを示唆しています。
https://aclanthology.org/2022.acl-long.106/
Structured Pruning Learns Compact and Accurate Models
ニューラル言語モデルのサイズの増大により、モデルの圧縮に対する注目が高まっている。主要なアプローチは、事前にトレーニングされたモデルから重みを徐々に削除するプルーニングと、より小さくコンパクトなモデルをトレーニングして大きなモデルに合わせる蒸留である。プルーニング方法はモデルサイズを大幅に削減できるが、蒸留に比べて大きなスピードアップを実現することはできない。しかし、蒸留方法は大量の未ラベルデータが必要であり、トレーニングにコストがかかる。本研究では、未ラベルデータを必要とせず、蒸留方法と同じ精度とレイテンシーを持つ高度に並列化可能なサブネットワークを提供するタスク固有の構造化プルーニング方法CoFi(Coarse- and Fine-grained Pruning)を提案する。私たちの主要な洞察は、粗粒度(例:レイヤー)と細粒度(例:ヘッドと隠れユニット)のモジュールを共同でプルーニングすることであり、それぞれのパラメータのプルーニング決定を異なる粒度のマスクで制御することである。また、最適化中に未プルーニングからプルーニングされたモデルへの知識の転送を行うレイヤーごとの蒸留戦略を考案した。GLUEおよびSQuADデータセットでの実験では、CoFiは小さな精度低下とともに10倍以上のスピードアップを実現し、以前のプルーニングおよび蒸留アプローチと比較してその有効性と効率性を示した。
https://aclanthology.org/2022.acl-long.107/
How can NLP Help Revitalize Endangered Languages? A Case Study and Roadmap for the Cherokee Language
世界で話されている言語の43%以上が危機に瀕しており、グローバリゼーションや新植民地主義の影響により、言語喪失は加速しています。危機に瀕した言語を保存し、復興することは、地球上の文化的多様性を維持するために非常に重要になっています。本研究では、NLPが危機に瀕した言語の復興にどのように役立つかに焦点を当てています。まず、NLP実践者が言語コミュニティと相互理解と協力を促進するための3つの原則を提案し、NLPが言語教育に潜在的に役立つ3つの方法について議論します。次に、深刻な危機に瀕したネイティブアメリカンのチェロキー語を事例として取り上げます。言語の歴史、言語的特徴、既存のリソースを検討した後、私たちは(チェロキーのコミュニティメンバーと協力して)NLP実践者がコミュニティパートナーと協力するための意義深い方法をいくつか提案します。機械学習を利用したチェロキー語のリソースを豊かにする2つのアプローチを提案し、チェロキーのコミュニティから興味を持たれたいくつかのNLPツールについても議論します。私たちは、私たちの研究がチェロキーに関するNLPコミュニティに情報を提供するだけでなく、危機に瀕した言語に関する将来の研究にインスピレーションを与えることを望んでいます。
https://aclanthology.org/2022.acl-long.108/
Differentiable Multi-Agent Actor-Critic for Multi-Step Radiology Report Summarization
放射線学検査に関する放射線科医の推論と結論の要約である「IMPRESSIONS」セクションは、紹介医師が特定の診断を確認または除外するのに役立ちます。情報豊富な放射線学レポートの要約を自動的に生成するには、タスクのカスケードが必要です。これらのタスクには、レポートから重要なコンテンツを取得し、簡潔で消化しやすい「IMPRESSIONS」セクションを生成することが含まれます。放射線学レポートの要約に関する以前の研究は、単一ステップのエンドツーエンドモデルに焦点を当てており、重要なコンテンツの取得のタスクを包含しています。放射線学レポートの要約のカスケード構造と説明可能性を完全に探索するために、2つのイノベーションを紹介します。まず、抽出要約に続いて抽象的要約を生成する2段階アプローチを設計します。第二に、抽出部分を2つの独立したタスクに分割します:重要な(1)文と(2)キーワードの抽出。2つの臨床現場からの英語の放射線学レポートでの実験は、新しいアプローチが単一ステップおよび単一抽出プロセスベースラインよりもより正確な要約を導き、F1スコア全体で3-4%の改善をもたらすことを示しています。
https://aclanthology.org/2022.acl-long.109/
Online Semantic Parsing for Latency Reduction in Task-Oriented Dialogue
標準的な会話型意味解析は、完全なユーザー発話を実行可能なプログラムにマッピングし、その後プログラムを実行してユーザーに応答します。プログラムに高価な関数呼び出しが含まれる場合、これは遅くなる可能性があります。私たちは、ユーザーが話している間に関数呼び出しを予測して実行することでレイテンシを削減する機会を調査します。この目的のためにオンライン意味解析のタスクを紹介し、同時機械翻訳に着想を得た形式的なレイテンシ削減メトリックを導入します。私たちは、まず学習された接頭辞からプログラムを予測するモジュール、そして早期実行のためのサブプログラム選択のための単純で効果的な閾値ヒューリスティックを提案する一般的なフレームワークを提案します。 SMCalFlowおよびTreeDSTデータセットでの実験により、関数の実行時間と許容コストに応じて30%〜65%のレイテンシ削減を達成し、良好な解析品質を実現することが示されました。
https://aclanthology.org/2022.acl-long.110/
Few-Shot Tabular Data Enrichment Using Fine-Tuned Transformer Architectures
近年、外部ソースを使用して表形式のデータセットを豊かにすることが注目されています。しかし、既存の解決策は、外部の非構造化データを完全に無視するか、データセット固有の解決策を考案することが多いです。本研究では、非構造化データを使用して表形式のデータセットを豊かにするための汎用的で堅牢なフレームワークであるFew-Shot Transformer based Enrichment (FeSTE)を提案します。複数のデータセットでトレーニングすることにより、我々のアプローチは、最小限のトレーニング(つまり、フューショット)で追加のデータセットに適用できる汎用モデルを開発することができます。我々のアプローチは、BERTの適応に基づいており、データセットのタプルを文として再定式化する新しいファインチューニングアプローチを提供します。17のデータセットで実施した評価により、FeSTEは高品質の特徴を生成し、既存のファインチューニング解決策を大幅に上回ることが示されました。
https://aclanthology.org/2022.acl-long.111/
SummN: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents
テキスト要約は、ドキュメント、ニュース、インタビュー、会議から重要な情報を読者が把握するのを支援します。しかし、ほとんどの最新の事前学習済み言語モデル(LM)は、多くの要約タスクに対して長いテキストを効率的に処理できません。本論文では、典型的な事前学習済みLMの最大コンテキスト長よりも長い入力テキストに対するシンプルで柔軟で効果的なマルチステージフレームワークであるSummNを提案します。SummNは、データサンプルを分割し、複数のステージで粗い要約を生成し、それに基づいて最終的な細かい要約を生成します。当社のフレームワークは、LMの入力サイズを固定したまま、ステージの数を調整することで、任意の長さの入力テキストを処理できます。さらに、単一ソースのドキュメントと対話の両方を扱うことができ、異なるバックボーン抽象的要約モデルの上に使用することができます。SummNは、長い入力要約のための最初のマルチステージ分割-要約フレームワークであると思われます。当社の実験では、SummNがAMI、ICSI、QMSumの3つの長い会議要約データセット、SummScreenの2つの長いテレビシリーズデータセット、およびGovReportの長いドキュメント要約データセットでROUGEスコアを改善することにより、以前の最新の方法を上回ることを示しています。当社のデータとコードは、https://github.com/psunlpgroup/Summ-Nで利用可能です。
https://aclanthology.org/2022.acl-long.112/
Open Domain Question Answering with A Unified Knowledge Interface
リトリーバー・リーダー・フレームワークは、明示的な知識を使用する能力により、オープンドメインの質問応答(ODQA)において人気があります。以前の研究では、テキスト以外の構造化された知識を組み込むことで知識カバレッジを増やすことを目指してきましたが、統一されたインターフェースを介して異種の知識源にアクセスすることは未解決の問題です。データからテキスト生成は、データとテキストのための普遍的なインターフェースとして機能する可能性がありますが、下流タスクに対するその実現可能性はほとんど知られていません。本研究では、このギャップを埋め、データからテキストの方法を構造化された知識をエンコードする手段として使用し、オープンドメインの質問応答のための口語化リトリーバー・リーダー・フレームワークを提案します。具体的には、Wikipediaからの口語化された表とWikidataからのグラフを拡張された知識源として使用します。私たちは、私たちの統一されたデータとテキストのQA(UDT-QA)が拡張された知識インデックスから効果的に利益を得ることができ、テキストのみのベースラインよりも大きな利益をもたらすことを示します。特に、私たちのアプローチは、Natural Questionsにおいてシングルモデルの最先端を設定します。さらに、私たちの分析は、口語化された知識が適応された状況とホットスワップの両方において回答推論に好まれることを示しています。
https://aclanthology.org/2022.acl-long.113/
Principled Paraphrase Generation with Parallel Corpora
ラウンドトリップ機械翻訳(MT)は、監視のためにすでに利用可能な並列コーパスを活用するための言い換え生成の人気のある選択肢です。本論文では、このアプローチによって誘導される暗黙の類似性関数を形式化し、単一の曖昧な翻訳を共有する非言い換えペアに影響を受けやすいことを示します。これらの洞察に基づいて、翻訳分布全体が一致することを要求する代替類似度メトリックを設計し、情報ボトルネック法を介してその緩和を実装します。私たちのアプローチは、参照翻訳に関する情報を可能な限りエンコードし、入力に関する情報を可能な限り少なく保つように学習するために、MTトレーニングに敵対的な用語を組み込みます。この表現からソースに戻ってデコードすることで、ピボット翻訳を生成する必要なく、言い換えを生成できます。ラウンドトリップMTよりも原理的で効率的であり、信頼性と多様性のトレードオフを制御するための調整可能なパラメータを提供し、実験でより良い結果を得ます。
https://aclanthology.org/2022.acl-long.114/
GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented Dialogue Systems
ここ数年、異なる言語を話す人々に役立つ多言語タスク指向型対話(ToD)システムのためのデータキュレーションに向けた動きがある。しかし、既存の多言語ToDデータセットは、データキュレーションの高コストにより言語のカバー範囲が限定されているか、これらの言語を話す国において対話エンティティがほとんど存在しないことを無視している。これらの制限に対処するため、私たちは、英語のToDデータセットからグローバル化された大規模な多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション方法を紹介する。私たちの方法は、対話テンプレートを翻訳し、対象言語の国のローカルエンティティで埋めることに基づいている。さらに、対象言語のカバー範囲を20言語に拡大している。私たちは、実際の用途のための多言語ToDシステムの研究を促進するために、私たちのデータセットと一連の強力なベースラインを公開する予定である。
https://aclanthology.org/2022.acl-long.115/
Domain Knowledge Transferring for Pre-trained Language Model via Calibrated Activation Boundary Distillation
事前学習済み言語モデル(PLMs)の開発と広範な使用に伴い、バイオメディカルや科学分野など特定のドメインの下流タスクの性能を向上させるために、いくつかのアプローチが適用されてきた。ドメイン固有の知識をPLMsに提供するために、追加のドメイン内テキストによる事前学習が最も一般的なアプローチである。しかし、これらの事前学習方法には、相当量のドメイン内データとトレーニングリソース、長時間のトレーニングが必要であり、新しいPLMが現れるたびにトレーニングを再実行する必要がある。本研究では、追加のドメイン内事前学習なしでPLMsにドメイン知識を転送する(DoKTra)フレームワークを提案する。具体的には、既存のドメイン内事前学習済み言語モデルからドメイン知識を抽出し、知識蒸留を適用して他のPLMsに転送する。特に、隠れ層ニューロンの活性化に焦点を当てたアクティベーション境界蒸留を採用する。また、教師トレーニングと蒸留の両方にエントロピー正則化項を適用し、信頼性の高い出力確率を生成するようにモデルを促進する。提案されたDoKTraフレームワークをバイオメディカル、臨床、金融の下流タスクに適用することで、学生モデルは教師の性能の高い割合を維持し、特定のタスクでは教師を上回る性能を発揮することができた。コードはhttps://github.com/DMCB-GIST/DoKTraで利用可能である。
https://aclanthology.org/2022.acl-long.116/
Retrieval-guided Counterfactual Generation for QA
深層NLPモデルは、入力の摂動に対して脆弱であることが示されています。最近の研究では、反事実的なデータ拡張-つまり、最小限の摂動を加えた入力-を使用することで、この弱点を緩和できることが示されています。私たちは、質問応答のための反事実的なデータを作成するタスクに焦点を当て、世界知識、意味的多様性、回答可能性に関連する独自の課題に直面しています。これらの課題に対処するために、最小限の人間の監視で反事実的な評価およびトレーニングデータを作成するためのRetrieve-Generate-Filter(RGF)技術を開発します。オープンドメインのQAフレームワークと元のタスクデータでトレーニングされた質問生成モデルを使用して、流暢で意味的に多様で自動的にラベル付けされた反事実的なデータを作成します。RGF反事実的なデータのデータ拡張は、読解力とオープンドメインのQA設定の両方で、既存の方法を超えて、ドメイン外および難解な評価セットでのパフォーマンスを向上させます。さらに、RGFデータは、モデルの局所的な摂動に対する堅牢性の大幅な改善につながることがわかりました。
https://aclanthology.org/2022.acl-long.117/
DYLE: Dynamic Latent Extraction for Abstractive Long-Input Summarization
トランスフォーマーベースのモデルは、短い入力要約において最先端の性能を発揮しています。しかし、長いテキストの要約にはまだ苦戦しています。本論文では、長い入力要約のための革新的なダイナミック潜在抽出アプローチであるDYLEを提案します。DYLEは、抽出器とジェネレータを共同でトレーニングし、抽出されたテキストスニペットを潜在変数として扱い、デコーディング中に動的なスニペットレベルの注意重みを可能にします。適切な監視を提供するために、オラクル抽出のためのシンプルで効果的なヒューリスティックスを提案し、また、一貫性損失項を提案して、抽出器がジェネレータによって予測された平均動的重みを近似するように促します。我々は、異なる長文書および長対話要約タスクで我々の方法を評価しました:GovReport、QMSum、およびarXiv。実験結果は、DYLEがGovReportとQMSumですべての既存の方法を上回り、最大6.1 ROUGEの利益をもたらし、arXivでも強力な結果を示すことを示しています。さらに分析すると、提案された動的重みが我々の生成プロセスの解釈可能性を提供することがわかります。
https://aclanthology.org/2022.acl-long.118/
Searching for fingerspelled content in American Sign Language
手話ビデオに対する自然言語処理(認識、翻訳、検索など)は、人工知能技術を聴覚障害者にもアクセス可能にするために重要であり、近年研究の関心を集めています。本論文では、手話ビデオ内の指文字のキーワードやキーフレーズを検索する問題に取り組みます。手話において重要なコンテンツはしばしば指文字で伝えられるため、このタスクは重要です。また、私たちの知る限り、このタスクはこれまで研究されていませんでした。私たちは、FSS-Netというエンドツーエンドモデルを提案し、指文字を検出し、テキストシーケンスにマッチングするタスクに取り組みます。大規模なASL指文字の公開データセットで行った実験では、指文字検出が検索と検索モデルのコンポーネントとして重要であることが示されました。私たちのモデルは、関連するタスクの以前の作業から適応されたベースライン方法を大幅に上回りました。
https://aclanthology.org/2022.acl-long.119/
Skill Induction and Planning with Latent Language
私たちは、自律的な意思決定のための再利用可能なスキルの発見を指導するために、疎な自然言語注釈を使用してデモンストレーションから階層的なポリシーを学習するためのフレームワークを提供します。私たちは、目標が高レベルのサブタスクの説明のシーケンスを生成し、これらの説明が低レベルのアクションのシーケンスを生成するアクションシーケンスの生成モデルを定式化します。私たちは、わずかな数のシード注釈を使用して、デモンストレーションを名前付きの高レベルのサブタスクのシーケンスに解析することにより、主に注釈のないデモンストレーションをトレーニングする方法について説明します。トレーニングされたモデルでは、自然言語コマンドがスキルの組み合わせライブラリをインデックス化します。エージェントは、新しい目標に合わせた高レベルの指示シーケンスを生成することによって、これらのスキルを使用して計画することができます。私たちは、ALFRED家庭シミュレーション環境で、デモンストレーションのわずか10%に対して自然言語注釈を提供し、このアプローチを評価しました。それは、トレーニングと評価中にグラウンドトゥルースプランにアクセスできるいくつかの最近の方法を上回り、ALFRED成功率で状態-of-the-artモデルと同等のパフォーマンスを達成します。
https://aclanthology.org/2022.acl-long.120/
Fully-Semantic Parsing and Generation: the BabelNet Meaning Representation
自然言語理解において、言語に依存しない意味表現は最も望ましい夢の一つである。この目標を達成するために、いくつかの形式主義が意味解析の枠組みとして提案されてきた。しかし、これらの形式主義が言語固有の知識リポジトリと共有する依存関係により、高資源言語と低資源言語の間のギャップを埋める目的を達成することは困難である。本論文では、BabelNet Meaning Representation(BMR)を提案し、BabelNetとVerbAtlasの多言語意味リソースを活用することで、言語固有の制約から抽象化する国際語形式主義を提供する。BMR 1.0は、新しい形式主義に完全に従ってラベル付けされたデータセットである。さらに、BMRは完全な意味フレームを備えているため、優れた多言語解析と生成を可能にし、以前の形式主義を上回ることができることを示す。コードはhttps://github.com/SapienzaNLP/bmrで公開されている。
https://aclanthology.org/2022.acl-long.121/
Leveraging Similar Users for Personalized Language Modeling with Limited Data
個人化言語モデルは、個々のユーザーに固有の言語パターンを捉えるように設計・トレーニングされています。これにより、ユーザーが何を書くかをより正確に予測することができます。ただし、新しいユーザーがプラットフォームに参加し、十分なテキストが利用できない場合、効果的な個人化言語モデルを構築することはより困難になります。本論文では、新しいユーザーと類似した既存のユーザーでトレーニングされたモデルを使用することで、この問題に対する解決策を提案します。本論文では、新しいユーザーと既存のユーザーの類似性を見つけるための戦略や、適合する既存のユーザーからデータを使用する方法について探究します。さらに、新しいユーザーの利用可能なデータと、彼らの言語がどの程度モデル化できるかのトレードオフについても探究します。
https://aclanthology.org/2022.acl-long.122/
DEEP: DEnoising Entity Pre-training for Neural Machine Translation
訓練コーパスに頻度の低い固有名詞に対して、機械翻訳モデルが通常、低品質な翻訳を生成することが示されています。以前の固有名詞翻訳方法は、主に音声転写に焦点を当てており、文脈を無視して翻訳するため、ドメインと言語のカバレッジが限られています。この制限に対処するために、我々はDEEPという、大量の単一言語データと知識ベースを活用して、文内の固有名詞翻訳精度を改善するDEnoising Entity Pre-training方法を提案しています。さらに、エンティティを拡張した単一言語データと並列データの両方で事前学習されたニューラル機械翻訳モデルをファインチューニングするマルチタスク学習戦略を調査して、エンティティ翻訳をさらに改善します。3つの言語ペアでの実験結果は、DEEPが強力なデノイジング自己符号化ベースラインよりも有意な改善をもたらし、英語-ロシア語翻訳では最大1.3 BLEUと最大9.2エンティティ精度ポイントの利益が得られることを示しています。
https://aclanthology.org/2022.acl-long.123/
Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network
オンラインでのマルチモーダルメッセージの投稿が増加する中、最近の多くの研究では、テキストとビジュアル情報の両方を利用してマルチモーダルな皮肉の検出を行っています。本論文では、各インスタンスごとにクロスモーダルグラフを構築し、テキストとビジュアルのモダリティ間の皮肉な関係を明示的に描写することで、新しい視点からマルチモーダルな皮肉の検出を調査します。具体的には、まず、画像モダリティの説明とペアになるオブジェクトを検出し、重要なビジュアル情報を学習します。次に、オブジェクトの説明は、テキストモダリティの文脈語と画像モダリティのオブジェクトの関連性の重要性を決定するための橋渡しとして機能し、各マルチモーダルインスタンスのクロスモーダルグラフを構築します。さらに、クロスモーダルグラフ畳み込みネットワークを考案し、マルチモーダルな皮肉の検出におけるモダリティ間の不一致関係を理解します。広範な実験結果と深い分析により、当社のモデルがマルチモーダルな皮肉の検出において最先端の性能を発揮することが示されました。
https://aclanthology.org/2022.acl-long.124/
Composable Sparse Fine-Tuning for Cross-Lingual Transfer
大規模な事前学習モデルの全パラメータを微調整することは、転移学習の主流の手法となっています。効率を高め、過去の学習内容の忘却や干渉を防ぐために、アダプターやスパース微調整などの技術が開発されています。アダプターはモジュール化されており、異なる知識の側面に適応するために組み合わせることができます(例:専用の言語やタスクアダプター)。スパース微調整は表現力があり、すべてのモデルコンポーネントの動作を制御します。本研究では、これらの望ましい特性を持つ新しい微調整方法を紹介します。特に、Lottery Ticket Hypothesisの単純なバリアントに基づいて、スパースで実数値のマスクを学習します。タスク固有のマスクは、ソース言語の注釈付きデータから、言語固有のマスクは、ターゲット言語のマスク言語モデリングから得られます。これらのマスクは、事前学習モデルと組み合わせることができます。アダプターベースの微調整とは異なり、この方法は推論時のパラメータ数を増やすことも、元のモデルアーキテクチャを変更することもありません。最も重要なことは、Universal Dependencies、MasakhaNER、AmericasNLIを含む一連の多言語ベンチマークで、ゼロショットクロスリンガル転移において、アダプターよりも大幅に優れていることがわかりました。詳細な分析に基づいて、スパース性が、1)組み合わせる微調整間の干渉を防ぎ、2)過学習を防ぐために重要であることがわかりました。コードとモデルは、https://github.com/cambridgeltl/composable-sftで公開されています。
https://aclanthology.org/2022.acl-long.125/
Toward Annotator Group Bias in Crowdsourcing
クラウドソーシングは、教師あり機械学習モデルをトレーニングするための注釈付きデータを収集するための人気のあるアプローチとして現れています。しかし、注釈者の偏見は欠陥のある注釈を引き起こす可能性があります。個々の注釈者の偏見を調査する研究はいくつかありますが、注釈者のグループ効果はほとんど無視されています。本研究では、同じ人口統計グループ内の注釈者は注釈タスクで一貫したグループバイアスを示す傾向があることを明らかにし、注釈者グループバイアスに関する初期研究を行います。まず、さまざまな実世界のクラウドソーシングデータセットで注釈者グループバイアスの存在を実証します。次に、拡張期待値最大化(EM)アルゴリズムを使用して注釈者グループバイアスを捕捉する新しい確率グラフィカルフレームワークGroupAnnoを開発します。合成および実世界のデータセットで実験を行います。実験結果は、競合するベースラインに比べて、ラベル集約およびモデル学習における注釈者グループバイアスのモデリングにおいて、当社のモデルの効果を示しています。
https://aclanthology.org/2022.acl-long.126/
Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation
ジェンダーバイアスは、言語技術に影響を与える問題の現象として広く認識されており、最近の研究では、言語によって異なる形で現れる可能性があることが強調されています。しかし、現在の評価方法のほとんどは、合成条件下で狭い職業名詞のセットに対して単語レベルの焦点を当てています。このようなプロトコルは、文法的ジェンダー言語の重要な特徴を見落としており、これらの言語は、様々な語彙アイテムや品詞にマークされたジェンダーの一致の形態・文法的な連鎖で特徴付けられています。この制限を克服するために、私たちは自然でジェンダーに敏感なMuST-SHEコーパス(Bentivogli et al.、2020)に2つの新しい言語注釈レイヤー(品詞と一致の連鎖)を追加し、異なる語彙カテゴリーや一致現象がどの程度ジェンダースキューに影響を受けるかを探求します。音声翻訳に焦点を当て、異なるデータ量と単語分割技術でトレーニングされたモデルを用いて、英仏伊/西の3つの言語方向で多面的な評価を行います。モデルの振る舞い、ジェンダーバイアス、およびその検出について、複数の粒度レベルでの専用の分析の価値を強調する私たちの研究結果により、光が当たります。
https://aclanthology.org/2022.acl-long.127/
Answering Open-Domain Multi-Answer Questions via a Recall-then-Verify Framework
オープンドメインの質問は、複数の正しい回答が存在するため、開放的で曖昧な傾向があります。既存のアプローチは、通常、リランク-リードフレームワークを採用しており、リーダーがトップランキングの証拠を読んで回答を予測します。私たちの経験的分析によると、このフレームワークには3つの問題があります。第一に、大きなリーダーをメモリ制約下で活用するために、リランカーは多様な回答をカバーするためにいくつかの関連するパッセージを選択する必要がありますが、関連性と多様性のバランスは容易ではありません。第二に、小さな読み取り予算は、リランカーによってフィルタリングされた貴重な検索された証拠にアクセスすることを妨げます。第三に、生成リーダーを使用して、すべての選択された証拠に基づいて一度にすべての回答を予測する場合、有効な回答が予測されるかどうかは、他の有効な回答の証拠にも病的に依存します。これらの問題に対処するために、私たちはリコール-バリファイフレームワークを使用して、オープンドメインの複数回答質問に回答します。これにより、各回答の推論プロセスを分離し、同じメモリ制約下で大きなモデルを活用しながら、検索された証拠をより良く活用できます。私たちのフレームワークは、2つの複数回答データセットで最先端の結果を達成し、オラクルリランカーを使用するリランク-リードシステムよりも、有意に多くの正解を予測します。
https://aclanthology.org/2022.acl-long.128/
Probing as Quantifying Inductive Bias
事前学習された文脈表現は、様々な下流タスクにおいて劇的な性能向上をもたらしている。このような性能向上は、研究者たちがこれらの表現にエンコードされた言語情報を定量化し理解することを促している。一般的に、研究者たちはプロービングと呼ばれる取り組みを通じて、文脈表現から言語的な特性を直接予測する監視されたモデルをトレーニングすることで、言語情報の量を定量化する。残念ながら、このプロービングの定義は、文献において広範な批判を受けており、逆説的で直感に反する結果をもたらすことが観察されている。本論文の理論的部分では、プロービングの目標は、表現が特定のタスクに対してエンコードする帰納バイアスの量を測定することであるべきであるという立場を取る。さらに、この目標を具体化し、表現の帰納バイアスを定量化するためのベイジアンフレームワークを説明する。本論文の実証的部分では、提案されたフレームワークを様々なNLPタスクに適用する。その結果、提案されたフレームワークは、プロービングで見つかった以前の問題を緩和することができることが示された。さらに、一部のタスクにおいて、fastTextがBERTよりも優れた帰納バイアスを提供できることを具体的な証拠として示すことができた。
https://aclanthology.org/2022.acl-long.129/
Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency
構造化プルーニングは、単一言語の事前学習言語モデルについて広く研究されており、多言語の事前学習言語モデルについては完全に評価されていない。本研究では、多言語の事前学習言語モデルにおける構造化プルーニングの3つの側面、すなわち設定、アルゴリズム、効率について調査を行った。9つの下流タスクでの実験結果から、いくつかの逆説的な現象が明らかになった。設定については、各言語ごとに個別にプルーニングを行っても、より良い結果をもたらさない。アルゴリズムについては、最も単純な方法が最も優れた結果を示す。効率については、高速なモデルが小さいことを意味するわけではない。すべての疎密度レベルで比較を容易にするために、我々はDynamic Sparsificationを提案し、モデルを一度トレーニングして推論時に異なるモデルサイズに適応させる簡単なアプローチを提供する。本研究が多言語の事前学習モデルにおける構造化プルーニングの研究の空白を埋め、将来の研究に光を当てることを期待している。
https://aclanthology.org/2022.acl-long.130/
GPT-D: Inducing Dementia-related Linguistic Anomalies by Deliberate Degradation of Artificial Neural Language Models
ディープラーニング(DL)技術は、大量のモデルパラメータを微調整することにより、認知的に健康な個人が生成した言語とアルツハイマー病(AD)の個人が生成した言語を識別するタスクにおいて、印象的な性能を発揮しています。しかし、研究用に公開されている小規模な参照セットを超えて一般化する能力については、疑問が残っています。モデルパラメータを直接フィットする代わりに、我々は、一般的な英語テキストで事前学習されたTransformer DLモデル(GPT-2)と、自己の人工的に劣化したバージョン(GPT-D)をペアリングし、認知的に健康な人々と障害を持つ人々の言語に対するこれら2つのモデルのパープレキシティの比率を計算する新しい方法を提案します。この技術は、広く使用されている「Cookie Theft」の画像説明タスクのテキストデータにおいて、最新の性能に近づいており、確立された代替手段とは異なり、自発的な会話にもよく一般化します。さらに、GPT-Dは、ADに関連する言語的異常を誘発する特性を持つテキストを生成し、我々の研究は、生成的ニューラル言語モデルの内部機能、それらが生成する言語、そして認知症が人間の話し言葉と言語特性に与える有害な影響の関係をより良く理解するための一歩となります。
https://aclanthology.org/2022.acl-long.131/
An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models
最近の研究により、事前学習された言語モデルが訓練に使用された大量のテキストから社会的なバイアスを捉えることが示されています。これにより、そのようなバイアスを緩和する技術を開発することに注目が集まっています。本研究では、Counterfactual Data Augmentation(CDA)、Dropout、Iterative Nullspace Projection、Self-Debias、SentenceDebiasの5つの最近提案されたバイアス緩和技術の実証調査を行います。我々は、3つの内在的なバイアスベンチマークを用いて各技術の効果を定量化し、モデルの言語モデリング能力、およびダウンストリームのNLUタスクのパフォーマンスにも影響を与えることを測定します。我々は以下のように実験的に発見しました:(1)Self-Debiasは最も強力なバイアス緩和技術であり、すべてのバイアスベンチマークで改善されたスコアを獲得します。 (2)現在のバイアス緩和技術は、非ジェンダーのバイアスを緩和する際に一貫してパフォーマンスが低下します。そして、(3)StereoSetやCrowS-Pairsなどのバイアスベンチマークの改善は、バイアス緩和戦略の使用によってしばしば言語モデリング能力の低下とともに伴います。そのため、バイアス緩和が効果的であったかどうかを判断することが困難になります。
https://aclanthology.org/2022.acl-long.132/
Exploring and Adapting Chinese GPT to Pinyin Input Method
GPTはテキスト生成タスクにおいてデファクトな手法となっていますが、そのピンイン入力法への応用は未だ未開拓の領域です。本研究では、中国語のGPTをピンイン入力法に活用する初めての試みを行いました。その結果、凍結されたGPTは完全なピンインにおいて最高の性能を発揮することがわかりました。しかし、略語のピンインが含まれる場合、性能が劇的に低下することがあります。その理由は、略語のピンインは多くの完全なピンインにマッピングされるため、さらに多くの中国語の文字にリンクすることができるからです。この問題を緩和するために、ピンインを豊富に含めた文脈を用いたり、同音異義語を区別するためのトレーニングプロセスを最適化するなどの2つの戦略を採用しました。さらに、ピンイン入力法の評価を促進するために、15のドメインから270Kのインスタンスで構成されるデータセットを作成しました。その結果、我々のアプローチはすべてのドメインにおいて略語のピンインの性能を向上させることができました。モデル分析により、両方の戦略が性能向上に貢献していることが示されました。
https://aclanthology.org/2022.acl-long.133/
Enhancing Cross-lingual Natural Language Inference by Prompt-learning from Cross-lingual Templates
クロスリンガル自然言語推論(XNLI)は、クロスリンガル自然言語理解における基本的なタスクです。最近、このタスクは、事前学習されたクロスリンガル言語モデルによって一般的に対処されています。既存の方法では、注釈付き平行コーパスなどの追加データを使用して、事前学習された言語モデルを強化することが一般的です。しかし、これらの追加データは、特に低リソース言語にとっては実践的にはまれです。最近の有望な結果に触発され、本論文では、XNLIを強化するための新しいプロンプト学習ベースのフレームワークを提案します。このフレームワークは、クロスリンガルテンプレートを使用してクローズスタイルの質問を構築することにより、XNLI問題をマスクされた言語モデリング問題に再定式化します。異なる言語間の対応を強制するために、フレームワークは、別の言語のサンプルされたテンプレートを使用して新しい質問を拡張し、その後、一貫性損失を導入して、新しい質問から得られる答えの確率分布を、元の質問から得られる対応する分布とできるだけ似たものにします。2つのベンチマークデータセットでの実験結果は、提案されたフレームワークによって強化されたXNLIモデルが、完全ショットおよびフューショットのクロスリンガル転送設定の両方で、元のモデルよりも有意に優れていることを示しています。
https://aclanthology.org/2022.acl-long.134/
Sense Embeddings are also Biased – Evaluating Social Biases in Static and Contextualised Sense Embeddings
意味埋め込み学習法は、曖昧な単語の異なる意味に対して異なる埋め込みを学習する。曖昧な単語の一つの意味は社会的に偏っている可能性があり、他の意味は偏りがない。事前学習された単語埋め込みの社会的偏りを評価する先行研究に比べ、意味埋め込みの偏りについては比較的研究が少ない。我々は、意味埋め込みの社会的偏りを評価するためのベンチマークデータセットを作成し、新しい意味特異的バイアス評価尺度を提案する。提案された尺度を用いて、複数の静的および文脈依存型の意味埋め込みを、様々な種類の社会的バイアスについて評価する。実験結果は、単語レベルで偏りが見つからない場合でも、意味レベルで心配すべき社会的偏りが存在することを示しており、これらはしばしば単語レベルのバイアス評価尺度によって無視されている。
https://aclanthology.org/2022.acl-long.135/
Hybrid Semantics for Goal-Directed Natural Language Generation
私たちは、コミュニケーションの目的と世界の説明が与えられた場合に自然言語を生成する問題を考えます。私たちは、補完的な意味表現を組み合わせて、表現力を失うことなく目的指向のNLGシステムをスケーリングすることが可能かどうかという問いに答えます。特に、論理的意味と分布的意味に基づく2つの意味表現を使用することを考えます。私たちは、マルコフ決定過程で計画として文生成をモデル化する既存の目的指向の生成システムS-STRUCTを拡張します。私たちは、分布的意味を使用して文の主要な要素を迅速かつ不正確に追加し、その後、一階論理に基づく意味を使用して正確な詳細をよりゆっくりと追加するハイブリッドアプローチを開発します。私たちは、ハイブリッド手法により、S-STRUCTの生成が初期段階で大幅にスケーリングされ、ハイブリッドはしばしばS-STRUCTと同じ品質の文を大幅に短い時間で生成できることを発見します。ただし、分布的意味の不正確さが純粋な論理的意味を使用するよりも良くない生成につながる場合があることにも気付き、洞察を与えます。
https://aclanthology.org/2022.acl-long.136/
Predicting Intervention Approval in Clinical Trials through Multi-Document Summarization
臨床試験は、新しい治療法を発見し、医学の知識を進歩させるための基本的な機会を提供します。しかし、試験の結果の不確実性は、予期せぬコストや後退を引き起こす可能性があります。本研究では、臨床試験における介入の効果を予測する新しい方法を提案します。当社の方法は、研究対象の介入に関する文献から複数の文書を収集し、情報を伝える情報的な要約を生成することに依存しています。具体的には、当社の方法は、最初に介入に関連するPubMed記事のすべての要約を収集します。次に、各要約から介入の効果に関する情報を伝えるエビデンス文が自動的に抽出されます。要約から抽出されたエビデンス文のセットに基づいて、介入に関する短い要約が構築されます。最後に、生成された要約を使用して、介入の効果を推測するためにBERTベースの分類器をトレーニングします。当社の提案された方法を評価するために、臨床試験とそれに関連するPubMed記事のコレクションである新しいデータセットを紹介します。当社の実験は、短い情報的な要約を生成し、それらを使用して介入の効果を予測することの効果を示しています。
https://aclanthology.org/2022.acl-long.137/
BiTIIMT: A Bilingual Text-infilling Method for Interactive Machine Translation
インタラクティブニューラルマシン翻訳(INMT)は、人間の相互作用を考慮に入れることで高品質の翻訳を保証することができます。既存のレキシカル制約デコーディング(LCD)に依存するIMTシステムは、左から右への柔軟な翻訳順序で人間が翻訳することを可能にします。しかし、LCDに依存するため、翻訳効率と品質の2つの重要な制限があります。本研究では、バイリンガルテキストインフィリングを提案し、インタラクティブニューラルマシン翻訳のためのバイリンガルテキストインフィリングシステム(BiTIIMT)を提案します。 BiTIIMTのキーとなるアイデアは、与えられたソース文の手動で修正された翻訳の欠落したセグメントを埋めることを目的とするバイリンガルテキストインフィリング(BiTI)です。このタスクをシーケンスツーシーケンスタスクとしてキャストすることにより、当社のシステムは明示的な制約なしでデコードを実行し、改訂された単語を完全に活用してより良い翻訳予測を行います。実験結果は、BiTiIMTが3つの翻訳タスクで最新のLCDベースのIMTよりも優れており、より高速であることを示しています。
https://aclanthology.org/2022.acl-long.138/
Distributionally Robust Finetuning BERT for Covariate Drift in Spoken Language Understanding
この研究では、音声言語理解(SLU)における共変量ドリフトに対する頑健性を調査します。共変量ドリフトは、ユーザーが何を要求し、どのように要求するかに関して、トレーニングとテストの間にドリフトがある場合にSLUで発生する可能性があります。この問題を研究するために、データの自然な変動を利用してSLUデータセットで共変量ドリフトを作成する方法を提案します。実験結果から、最新のBERTベースモデルはこのドリフトにより性能が低下することがわかりました。性能低下を緩和するために、BERTベースモデルの微調整に分布的に頑健な最適化(DRO)を調査します。最近のDRO手法について説明し、2つの新しいバリアントを提案し、DROがドリフトに対する頑健性を向上させることを実証します。
https://aclanthology.org/2022.acl-long.139/
Enhancing Chinese Pre-trained Language Model via Heterogeneous Linguistics Graph
中国の事前学習言語モデルは、しばしば文脈的な文字情報を利用して表現を学習しますが、単語や文の情報などの言語学的な知識を無視しています。そこで、私たちは異種言語グラフ(HLG)と呼ばれるタスクフリーの強化モジュールを提案し、言語学的な知識を統合して中国の事前学習言語モデルを強化します。具体的には、中国語の言語学的構造を特徴づける階層的な異種グラフを構築し、中国語の言語学的階層の異なる粒度の情報を要約して具体化するグラフベースの手法を実施します。実験結果は、私たちのモデルが6つの自然言語処理タスクと10のベンチマークデータセットでバニラBERT、BERTwwm、ERNIE 1.0の性能を向上させる能力を持っていることを示しています。さらに、詳細な実験分析は、この種のモデル化が以前の強力なベースラインMWAと比較してより多くの改善を実現していることを証明しています。一方、私たちのモデルは、MWAの約半分のパラメータしか導入せず、トレーニング/推論速度はMWAの約7倍速いです。
https://aclanthology.org/2022.acl-long.140/
Divide and Denoise: Learning from Noisy Labels in Fine-Grained Entity Typing with Cluster-Wise Loss Correction
Fine-grained Entity Typing(FET)は、遠隔監視に基づいて大きな進歩を遂げていますが、ラベルノイズに苦しんでいます。既存のFETノイズ学習方法は、インスタンスに依存しない予測分布に依存しており、確認バイアスの問題を引き起こします。本研究では、これら2つの問題に対処するために、クラスタリングベースの損失補正フレームワークであるFeature Cluster Loss Correction(FCLC)を提案します。FCLCは、まず粗いバックボーンモデルを特徴抽出器およびノイズ推定器としてトレーニングします。次に、各特徴クラスタに損失補正が適用され、ノイズのあるラベルから直接学習します。3つの公開データセットでの実験結果は、FCLCが既存の競合システムよりも最高の性能を発揮することを示しています。補助実験はさらに、FCLCがハイパーパラメータに対して安定しており、確認バイアスを緩和するのに役立つことを示しています。また、クリーンなデータがない極端な場合でも、FCLCフレームワークは競合力のあるパフォーマンスを発揮することがわかりました。
https://aclanthology.org/2022.acl-long.141/
Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation
自然言語処理に関する論文の要約文を日本語に翻訳してください。 Text-to-SQLパーサーの堅牢性は、敵対的な摂動に対する耐性が高いことが非常に重要であり、高信頼性のあるアプリケーションを提供する上で重要な役割を果たします。これまでの研究は、自然言語の質問側の摂動に焦点を当て、表の変動を無視してきました。この問題に着目し、我々はAdversarial Table Perturbation(ATP)を提案し、Text-to-SQLモデルの堅牢性を測定するための新しい攻撃パラダイムとしています。この提案に従い、自然で現実的なATPを特徴とする最初の堅牢性評価ベンチマークであるADVETAを作成しました。すべてのテストされた最新のモデルは、ADVETAで劇的な性能低下を経験し、改善の余地があることが明らかになりました。ATPに対抗するために、表データのより良い文脈化に適したシステマティックな敵対的トレーニング例生成フレームワークを構築しました。実験の結果、我々のアプローチは、ATPに対するモデルの最高の堅牢性向上をもたらし、NL側の摂動に対するモデルの堅牢性も大幅に向上させました。ADVETAとコードを公開し、今後の研究を促進することを目指します。
https://aclanthology.org/2022.acl-long.142/
Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced Training for Neural Machine Translation
ニューラルネットワークは、動的なデータ分布から複数のタスクを順次学習する際に、以前に学習した知識を徐々に忘れる傾向がある。この問題は、ニューラルネットワークの継続的学習における基本的な課題である「カタストロフィック・フォーゲッティング」と呼ばれる。本研究では、カタストロフィック・フォーゲッティングが継続的学習に限らず、従来の静的なトレーニングにも影響を与えることを観察した。特に、ニューラル機械翻訳モデルなどのニューラルネットワークは、静的なトレーニングセットから学習していてもカタストロフィック・フォーゲッティングに苦しんでいる。具体的には、最終モデルはトレーニングサンプルに不均衡な注意を払い、最近公開されたサンプルが以前のサンプルよりも多くの注意を引き付ける。その根本的な原因は、トレーニングサンプルが各モデル更新でバランスの取れたトレーニングを受けないため、この問題を「不均衡トレーニング」と名付けた。この問題を緩和するために、我々は「補完的オンライン知識蒸留(COKD)」を提案し、特定のデータ順序でトレーニングされた動的に更新される教師モデルを使用して、学生モデルに補完的な知識を反復的に提供する。複数の機械翻訳タスクでの実験結果は、我々の方法が不均衡トレーニングの問題を成功裏に緩和し、強力なベースラインシステムに比べて実質的な改善を達成していることを示している。
https://aclanthology.org/2022.acl-long.143/
Metaphors in Pre-Trained Language Models: Probing and Generalization Across Datasets and Languages
人間の言語は比喩的な表現で満ちています。比喩は、新しい概念や領域をより馴染みのあるものに接続することで、人々が世界を理解するのを助けます。したがって、大規模な事前学習言語モデル(PLM)には、NLPシステムに役立つ比喩的な知識がエンコードされていると仮定されています。本論文では、PLMの比喩性情報を調査し、この情報の言語間およびデータセット間の汎化を測定することで、この仮説を検証します。私たちは、複数の比喩検出データセットと英語、スペイン語、ロシア語、ペルシャ語の4つの言語で研究を行いました。私たちの広範な実験は、PLMの文脈表現が比喩的な知識をエンコードしており、そのほとんどが中間層にあることを示唆しています。アノテーションがトレーニングセットとテストセットで一貫している場合、知識は言語間およびデータセット間で転送可能です。私たちの発見は、認知科学者とNLP科学者の両方にとって有益な洞察を提供します。
https://aclanthology.org/2022.acl-long.144/
Discrete Opinion Tree Induction for Aspect-based Sentiment Analysis
依存構造木は、アスペクトベースの感情分類においてグラフニューラルネットワークと強く結びついてきた。これらの方法は効果的であるが、外部の依存構造解析器に依存しており、低リソース言語では利用できない場合がある。また、依存構造木はアスペクトベースの感情分類に最適化されていない。本論文では、明示的な依存構造木の代替構造として、アスペクトに特化した言語非依存の離散潜在意見木モデルを提案する。複雑な構造化された潜在変数の学習を容易にするために、アスペクトからコンテキストへの注意スコアと構文的距離の関係を構築し、注意スコアから木を導出する。英語の6つのベンチマークと中国語の1つのデータセットでの結果は、当社のモデルが競争力のある性能と解釈可能性を発揮できることを示している。
https://aclanthology.org/2022.acl-long.145/
Investigating Non-local Features for Neural Constituency Parsing
ニューラルエンコーダーの強力な表現力のおかげで、ニューラルチャートベースのパーサーは、ローカルな特徴を使用して非常に競争力のあるパフォーマンスを達成しています。最近、CRF構造の非ローカルな特徴が改善につながることが示されています。本論文では、構成要素n-gram非ローカルパターンを予測し、非ローカルパターンとローカル構成要素の整合性を確保することにより、ローカルスパンベースのパーサーのトレーニングプロセスに非ローカル特徴を注入することを調査します。結果は、当社のシンプルな方法がPTBとCTBの両方で自己注意パーサーよりも優れた結果を与えることを示しています。さらに、当社の方法は、PTB(95.92 F1)で最新のBERTベースのパフォーマンスを達成し、CTB(92.31 F1)で強力なパフォーマンスを発揮します。当社のパーサーは、多言語およびゼロショットクロスドメイン設定でも、自己注意パーサーよりも優れたパフォーマンスを発揮します。
https://aclanthology.org/2022.acl-long.146/
Learning from Sibling Mentions with Scalable Graph Inference in Fine-Grained Entity Typing
本論文では、まず、既存のモデルが不十分な文脈のためにハードメンションを処理するのに苦労していることを実証的に発見し、その結果、全体的なタイピング性能が制限されていることを示します。そのため、私たちは、メンション表現を強化するために兄弟メンションを利用することを提案します。具体的には、兄弟選択のための2つの異なるメトリックを提示し、兄弟メンションから情報を集約するために注意グラフニューラルネットワークを使用します。提案されたグラフモデルはスケーラブルであり、未知のテストメンションを推論のための新しいノードとして追加することができます。徹底的な実験は、私たちの兄弟学習戦略の効果を実証し、私たちのモデルが10の強力なベースラインを上回ることを示しています。さらに、私たちの実験は、ハードメンションのタイプを明確にするのに兄弟メンションが優れていることを実証しています。
https://aclanthology.org/2022.acl-long.147/
A Variational Hierarchical Model for Neural Cross-Lingual Summarization
クロスリンガル要約(CLS)の目的は、ある言語(例えば英語)の文書を別の言語(例えば中国語)の要約に変換することです。CLSタスクは、基本的に機械翻訳(MT)と単一言語要約(MS)の組み合わせであり、MT&MSとCLSの階層的な関係が存在します。CLSに関する既存の研究は、主にパイプライン法を利用するか、補助的なMTまたはMS目的を通じてエンドツーエンドモデルを共同でトレーニングすることに焦点を当てています。しかし、CLSを直接実行するには、翻訳と要約の両方の能力が必要であるため、モデルにとって非常に困難です。この問題に対処するために、我々は条件付き変分オートエンコーダに基づくCLSタスクの階層モデルを提案します。階層モデルには、それぞれローカルレベルとグローバルレベルの2種類の潜在変数があります。ローカルレベルでは、翻訳と要約のための2つの潜在変数があります。グローバルレベルでは、2つのローカルレベル変数に依存するクロスリンガル要約のための別の潜在変数があります。英語-中国語の2つの言語方向での実験により、提案手法の有効性と優位性が検証されました。さらに、我々のモデルがフューショット設定で比較モデルよりも優れたクロスリンガル要約を生成できることを示しました。
https://aclanthology.org/2022.acl-long.148/
On the Robustness of Question Rewriting Systems to Questions of Varying Hardness
会話型質問応答(CQA)において、文脈に依存する質問を同じ答えを与える自己完結型の質問に書き換える質問書き換え(QR)のタスクがある。本論文では、QRシステムが書き換えの難易度によって変化する質問に対してどの程度堅牢であるかに興味がある。書き換えの難易度に基づいて分類された質問が不足しているため、質問とその書き換えの差異を測定することで、質問を難易度に応じたサブセットに自動的に分類するヒューリスティックな方法を提案する。次に、人間の評価を行い、質問の書き換えの難易度を注釈付けすることで、質問を書き換えるのが難しいか簡単かを調べる。最後に、書き換えの難易度に応じた質問のサブセットごとにQRモデルを独立してトレーニングし、それらを組み合わせて推論するための新しい学習フレームワークを提案し、QRシステムの堅牢性を向上させる。2つのデータセットでの実験結果は、提案手法がベースラインに比べて全体的な性能を向上させることを示している。
https://aclanthology.org/2022.acl-long.149/
OpenHands: Making Sign Language Recognition Accessible with Pose-based Pretrained Models across Languages
自然言語処理のAI技術は最近著しい進歩を遂げています。しかし、手話においては、個々の単語や完全な文として手話を認識することについては、同等の進歩がなされていません。本論文では、NLPコミュニティから4つの主要なアイデアを手話に適用し、低リソース言語のための単語レベルの認識に取り組むためのライブラリであるOpenHandsを紹介します。第一に、事前学習済みモデルから抽出されたポーズを標準的なデータモダリティとして使用し、トレーニング時間を短縮し、効率的な推論を可能にすることを提案し、既存の手話データセットに対して標準化されたポーズデータセットを公開します。第二に、6つの言語(アメリカ、アルゼンチン、中国、ギリシャ、インド、トルコ)にわたる4つのポーズベースの孤立した手話認識モデルのチェックポイントをトレーニングおよび公開し、展開のためのベースラインと準備が整っています。第三に、ラベル付きデータの不足に対処するために、自己教師あり事前学習を提案します。インド手話(Indian-SL)に基づく最大のポーズベースの事前学習データセットを編成し、公開します。第四に、異なる事前学習戦略を比較し、手話認識に対して事前学習が効果的であることを初めて確立し、(a)低リソース環境での特に改善されたファインチューニング性能、および(b)インド-SLから他の手話に高いクロスリンガル転移を示すことによって証明します。OpenHandsのすべてのモデルとデータセットをオープンソース化し、手話に関する研究が再現可能でよりアクセスしやすくなることを願っています。
https://aclanthology.org/2022.acl-long.150/
bert2BERT: Towards Reusable Pretrained Language Models
近年、研究者は、深層モデルの上限を探索するために、ますます大きな言語モデルを事前学習する傾向にある。しかし、大規模な言語モデルの事前学習には膨大な計算リソースが必要であり、既存の事前学習済みモデルを再利用せずにゼロからモデルを学習することが多いため、無駄が多い。本論文では、既存の小さな事前学習済みモデルの知識を大きなモデルに効果的に転移させることができるbert2BERTを提案し、パラメータの初期化を通じて大規模モデルの事前学習効率を大幅に改善する。具体的には、コンピュータビジョンで提案された以前の関数保存方法をTransformerベースの言語モデルに拡張し、大規模モデルの初期化のための新しい方法であるadvanced knowledgeを提案することで、さらに改善する。さらに、2段階の学習方法を提案し、事前学習をさらに加速する。代表的なPLM(BERTやGPTなど)で広範な実験を行い、(1)学習コストを大幅に節約できること、(2)汎用性があり、異なるタイプの事前学習済みモデルに適用できることを示す。特に、bert2BERTは、ほぼ半分のサイズのモデルを再利用することで、BERT BASEとGPT BASEの事前学習の計算コストをそれぞれ約45%と47%節約することができる。
https://aclanthology.org/2022.acl-long.151/
Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis
感情分析における重要なタスクである多様なアスペクトベースの感情分析(MABSA)は、近年ますます注目を集めています。しかし、従来のアプローチは、(i) クロスモーダルのアラインメントを無視する別々に事前学習された視覚的およびテキストモデルを使用するか、(ii) 一般的な事前学習タスクで事前学習されたビジョン-言語モデルを使用するため、細かいアスペクト、意見、およびモダリティ間のアラインメントを識別するのに不十分です。これらの制限に対処するために、我々は、すべての事前学習およびダウンストリームタスクのための統一されたマルチモーダルエンコーダーデコーダーアーキテクチャであるタスク固有のビジョン-言語事前学習フレームワークを提案します(VLP-MABSA)。さらに、言語、ビジョン、およびマルチモーダルモダリティから3種類のタスク固有の事前学習タスクを設計します。実験結果は、我々のアプローチが一般的に3つのMABSAサブタスクで最先端のアプローチを上回ることを示しています。さらに分析すると、各事前学習タスクの効果が示されます。ソースコードはhttps://github.com/NUSTM/VLP-MABSAで公開されています。
https://aclanthology.org/2022.acl-long.152/
“You might think about slightly revising the title”: Identifying Hedges in Peer-tutoring Interactions
ヘッジは、人間関係の管理に重要な役割を果たしています。ピア・チュータリングでは、低い人間関係を持つダイアドのチューターが指示や否定的なフィードバックの影響を和らげるために、特に使用されます。学習を改善するためにティーンエイジャーとの人間関係を管理するチュータリングエージェントを構築することを目的として、マルチモーダルなピア・チュータリングデータセットを使用して、ヘッジを特定するための計算フレームワークを構築しました。我々は、社会科学の文献からの洞察を統合したアプローチと、事前にトレーニングされたリソースに依存するアプローチを比較しました。我々の最高のパフォーマンスは、既存のベースラインを上回るハイブリッドアプローチによって達成され、解釈が容易です。我々は、モデルの説明可能性ツールを使用して、ピア・チュータリングの会話でヘッジを特徴づける特徴を探索し、いくつかの新しい特徴と、そのようなハイブリッドモデルアプローチの利点を特定しました。
https://aclanthology.org/2022.acl-long.153/
Efficient Cluster-Based k-Nearest-Neighbor Machine Translation
k-最近傍機械翻訳(kNN-MT)は、最近、ニューラル機械翻訳(NMT)におけるドメイン適応の非パラメトリックな解決策として提案されています。これは、ドメイン外の文を翻訳する高度なMTシステムの性能低下を、ドメイン内データから構築されたトークンレベルの特徴ベースの検索モジュールと協調することで軽減することを目的としています。以前の研究(Khandelwal et al.、2021; Zheng et al.、2021)では、非パラメトリックNMTがドメイン外データで微調整されたモデルよりも優れていることがすでに示されています。しかし、kNN検索は高いレイテンシーの代償となります。特に大規模なデータストアの場合はそうです。本論文では、より効率的なkNN-MTを探求し、クラスタリングを使用して検索効率を改善することを提案します。具体的には、まず、対照的な学習方法で特徴量を圧縮し、コンテキスト特徴量を90%以上低次元ベクトルに圧縮するためのクラスターベースのコンパクトネットワークを提案します。次に、大規模なデータストアで10%から40%の冗長なノードをフィルタリングするクラスターベースの剪定ソリューションを提案します。これにより、翻訳品質を維持しながら、高度な非パラメトリックMTモデルに比べて最大57%の推論レイテンシーを削減しながら、いくつかの機械翻訳ベンチマークでより良いまたは同等のパフォーマンスを達成します。実験結果は、提案された方法が元のデータストアの最も有用な情報を維持し、コンパクトネットワークが未知のドメインでも良好な汎化性能を示すことを示しています。コードはhttps://github.com/tjunlp-lab/PCKMTで利用可能です。
https://aclanthology.org/2022.acl-long.154/
Headed-Span-Based Projective Dependency Parsing
我々は、ヘッドスパンに基づく射影依存解析の新しい手法を提案する。射影依存木では、各単語を根とする最大の部分木が、表層順序の連続したシーケンス(つまり、スパン)をカバーする。我々は、ルート単語によってマークされたこのようなスパンをヘッドスパンと呼ぶ。射影依存木は、ヘッドスパンの集合として表現できる。我々は、依存木のスコアをヘッドスパンのスコアに分解し、新しいO(n3)の動的計画法アルゴリズムを設計して、グローバルトレーニングと正確な推論を可能にする。我々のモデルは、PTB、CTB、UDで最先端または競争力のある結果を達成している。
https://aclanthology.org/2022.acl-long.155/
Decoding Part-of-Speech from Human EEG Signals
この研究では、脳波計測によるミリ秒単位のニューラルシグナルから、テキスト読解中にPart-of-Speech(PoS)タグを予測する技術を探求しています。まず、単語の長さ、頻度、および単語クラスに関する情報が、脳波によって異なる刺激後潜時にエンコードされることを示します。次に、平均化されたEEGデータとデータ拡張技術による事前トレーニングが、単一のEEGトライアルにおけるPoSデコーディングの精度を向上させることを示します。最後に、最適化された時間分解能デコーディング技術を適用することで、TransformersがunigramおよびbigramデータのPoSタグ付けにおいて線形SVMを大幅に上回ることを示します。
https://aclanthology.org/2022.acl-long.156/
Robust Lottery Tickets for Pre-trained Language Models
最近のLottery Ticket Hypothesisに関する研究では、事前学習言語モデル(PLMs)には、元のモデルと同等の精度を達成できるより小さな一致するサブネットワーク(当選券)が含まれていることが示されています。しかし、これらのチケットは、敵対的な例に対して堅牢ではなく、PLMの対応物よりも悪い結果を示します。この問題に対処するために、私たちは、バイナリ重みマスクを学習することに基づく新しい方法を提案します。バイナリマスクの損失は微分不可能であるため、私たちはマスクにハードコンクリート分布を割り当て、L0正則化のスムージング近似を使用してスパース性を促進します。さらに、私たちは、堅牢なチケットを特定し、精度と堅牢性の両方で良好なパフォーマンスを発揮するようにするために、敵対的な損失目的を設計します。実験結果は、提案手法が敵対的な堅牢性評価において以前の研究よりも大幅に改善されたことを示しています。
https://aclanthology.org/2022.acl-long.157/
Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification
事前学習済み言語モデル(PLMs)をタスク固有のプロンプトで調整することは、テキスト分類において有望な手法である。特に、従来の汎用的なファインチューニング方法に比べて、プロンプトチューニングは低データシナリオにおいて優れた優位性を示すという以前の研究がある。プロンプトチューニングの核心的なアイデアは、テキストの断片、すなわちテンプレートを入力に挿入し、分類問題をマスクされた言語モデリング問題に変換することである。この際、ラベル空間とラベル単語空間の間の投影、すなわちバーバライザを構築することが重要である。バーバライザは通常手作業で作成されるか、勾配降下法で検索されるが、これにはカバレッジが不足し、結果にかなりのバイアスと高い分散が生じる可能性がある。本研究では、バーバライザに外部知識を組み込み、知識豊富なプロンプトチューニング(KPT)を形成することに焦点を当て、プロンプトチューニングを改善し安定化する。具体的には、外部知識ベース(KB)を使用してバーバライザのラベル単語空間を拡張し、拡張されたラベル単語空間で予測する前にPLM自体で拡張されたラベル単語空間を改良する。ゼロおよびフューショットのテキスト分類タスクにおける広範な実験により、知識豊富なプロンプトチューニングの効果が示された。
https://aclanthology.org/2022.acl-long.158/
Cross-Lingual Contrastive Learning for Fine-Grained Entity Typing for Low-Resource Languages
Fine-grained entity typing(FGET)は、エンティティ関連のNLPタスクに意味がある細かいエンティティタイプに名前付きエンティティメンションを分類することを目的としています。FGETにおいて、主要な課題は低リソース問題であり、複雑なエンティティタイプ階層により、データを手動でラベル付けすることが困難です。特に英語以外の言語においては、人手によるラベル付けデータが極めて少ないため、この問題が顕著です。本論文では、低リソース言語のFGETモデルを学習するためのクロスリンガル対比学習フレームワークを提案します。具体的には、多言語事前学習言語モデル(PLM)をバックボーンとして使用し、高リソース言語(英語など)から低リソース言語(中国語など)にタイピング知識を転送します。さらに、エンティティペア指向のヒューリスティックルールと機械翻訳を導入して、クロスリンガル遠隔監視データを取得し、遠隔監視データに対してクロスリンガル対比学習を適用してバックボーンPLMを強化します。実験結果は、当社のフレームワークを適用することで、言語固有の人手によるラベル付けデータなしでも、低リソース言語の効果的なFGETモデルを簡単に学習できることを示しています。当社のコードは、https://github.com/thunlp/CrossETでも利用可能です。
https://aclanthology.org/2022.acl-long.159/
MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER
データ拡張は、低リソースシナリオにおけるデータ不足の有効な解決策である。しかし、NERなどのトークンレベルのタスクに適用する場合、データ拡張手法はしばしばトークンラベルの不一致に苦しんでおり、それが不十分なパフォーマンスを引き起こす。本研究では、低リソースNERのための新しいデータ拡張フレームワークとして、マスクされたエンティティ言語モデリング(MELM)を提案する。トークンラベルの不一致問題を緩和するために、NERラベルを文脈に明示的に注入し、微調整されたMELMは、ラベルに明示的に依存することでマスクされたエンティティトークンを予測することができる。これにより、MELMは新しいエンティティを持つ高品質の拡張データを生成し、豊富なエンティティの規則性知識を提供し、NERのパフォーマンスを向上させる。複数の言語からのトレーニングデータが利用可能な場合、MELMをコードミキシングと統合してさらに改善する。実験結果は、MELMがさまざまな低リソースレベルでの単言語、クロス言語、およびマルチリンガルNERでベースライン手法を常に上回ることを示している。
https://aclanthology.org/2022.acl-long.160/
Word2Box: Capturing Set-Theoretic Semantics of Words using Box Embeddings
単語の連続空間における表現学習は、NLPにおける最も基本的なタスクの1つであるが、単語はベクトルのドット積の類似性よりもはるかに豊かな方法で相互作用する。例えば、形容詞-名詞の複合語(例:「赤い車」⊆「車」)や同音異義語(例:「舌」と「体」の共通部分は「口」と似ているべきであり、「舌」と「言語」の共通部分は「方言」と似ているべきである)は、自然な集合論的解釈を持つ。Box embeddingsは、これらの集合論的操作を実行する機能を提供する新しい領域ベースの表現である。本研究では、Box embeddingsのファジー集合論的解釈を提供し、集合論的トレーニング目的を使用して単語のBox表現を学習する。Word2Boxが提供する追加のユニークな表現力を探索する定量的および定性的分析を行い、特に一般的でない単語において、様々な単語類似性タスクで改善されたパフォーマンスを示す。
https://aclanthology.org/2022.acl-long.161/
IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks
従来、議論は通常、多数の記事を読み、主張を選択し、主張の立場を特定し、主張の根拠を探すなど、手作業による準備プロセスが必要でした。AI議論が近年注目を集めるにつれ、議論システムに関わる煩雑なプロセスを自動化する方法を探る価値があります。本研究では、主張抽出、立場分類、根拠抽出などの一連の議論マイニングタスクに適用できる包括的で大規模なデータセットであるIAMを紹介します。当データセットは、123のトピックに関連する1,000以上の記事から収集され、約70,000の文が主張、立場、根拠などの議論プロパティに基づいて完全に注釈付けされています。さらに、議論の準備プロセスに関連する2つの新しい統合議論マイニングタスクを提案します:(1)主張抽出と立場分類(CESC)、(2)主張-根拠ペア抽出(CEPE)。それぞれの統合タスクについて、パイプラインアプローチとエンドツーエンド法を採用します。提案されたタスクの価値と課題を示す有望な実験結果が報告され、議論マイニングに関する将来の研究を促進します。
https://aclanthology.org/2022.acl-long.162/
PLANET: Dynamic Content Planning in Autoregressive Transformers for Long-form Text Generation
最近の事前学習言語モデルの進歩にもかかわらず、既存の方法は、適切なコンテンツ制御と計画が必要な長い形式のテキスト生成タスクにおいて、不整合の問題に苦しんでいます。本研究では、自己回帰的自己注意機構を活用したPLANETという新しい生成フレームワークを提案します。このフレームワークは、コンテンツの計画と表面的な実現を動的に行うために利用されます。出力文の生成をガイドするために、我々のフレームワークは、文レベルの意味的計画を維持するために潜在表現をTransformerデコーダに組み込みます。さらに、出力の整合性をさらに向上させるために、新しい整合性ベースの対照的学習目的を導入します。反論生成と意見記事生成を含む2つの難しい長い形式のテキスト生成タスクで広範な実験が行われました。自動評価と人間の評価の両方で、我々の方法は強力なベースラインを大幅に上回り、より整合性のあるテキストとより豊富な内容を生成します。
https://aclanthology.org/2022.acl-long.163/
CTRLEval: An Unsupervised Reference-Free Metric for Evaluating Controlled Text Generation
既存の無参照メトリックは、制御されたテキスト生成モデルの評価に明らかな制限があります。非監視メトリックは、タスクに依存しない評価結果しか提供できず、人間の判断と弱い相関があります。一方、監視メトリックは、タスク固有のデータに過剰適合し、他のデータセットに対する一般化能力が低い場合があります。本論文では、複数のテキスト埋め込みタスクに各側面を定式化することで、制御されたテキスト生成を評価する無監視の無参照メトリックであるCTRLEvalを提案します。このメトリックは、事前にトレーニングされた言語モデルから生成確率を集約することで、モデルトレーニングを必要としません。実験結果は、他のベースラインよりも人間の判断との相関が高く、異なるモデルや品質の生成テキストを評価する一般化能力が高いことを示しています。
https://aclanthology.org/2022.acl-long.164/
Beyond the Granularity: Multi-Perspective Dialogue Collaborative Selection for Dialogue State Tracking
対話状態追跡において、対話履歴は重要な素材であり、その利用方法は異なるモデルによって異なります。しかし、どのように対話履歴を使用しても、既存のモデルはスロットの更新に関係なく、一貫した対話履歴を使用します。明らかに、異なるターンで異なるスロットを更新するには、異なる対話履歴が必要です。したがって、一貫した対話内容を使用すると、異なるスロットに対して不十分または冗長な情報が提供され、全体的なパフォーマンスに影響を与える可能性があります。この問題に対処するために、私たちはDiCoS-DSTを開発し、状態更新に対応する各スロットに関連する対話内容を動的に選択します。具体的には、まず、対話履歴のターンレベルの発話を取得し、スロットに対する関連性を3つの観点の組み合わせから評価します:(1)スロット名との明示的な接続、(2)現在のターン対話との関連性、(3)暗黙的な言及指向推論。次に、これらの観点を組み合わせて決定を下し、選択された対話内容のみがState Generatorに供給され、下流の状態予測に渡される邪魔な情報を明示的に最小化します。実験結果は、私たちのアプローチがMultiWOZ 2.1およびMultiWOZ 2.2で新しい最高性能を達成し、Sim-M、Sim-R、およびDSTC2を含む複数の主流ベンチマークデータセットで優れたパフォーマンスを達成することを示しています。
https://aclanthology.org/2022.acl-long.165/
Are Prompt-based Models Clueless?
大規模な事前学習言語モデルをタスク固有のヘッドで微調整することは、多くの自然言語理解ベンチマークで最先端を進めてきた。しかし、タスク固有のヘッドを持つモデルは多くのトレーニングデータを必要とし、他のデータセットに一般化しないデータセット固有の表層的な手がかりを学習して悪用する可能性がある。プロンプティングは、言語モデルヘッドを再利用し、タスク入力を事前学習目的に合わせてフォーマットすることでデータ要件を減らすことができる。したがって、フューショットプロンプトベースのモデルは表層的な手がかりを悪用しないと予想される。本論文では、フューショットプロンプトベースのモデルが表層的な手がかりを悪用するかどうかの実証的検討を行う。MNLI、SNLI、HANS、COPAのフューショットプロンプトベースのモデルを分析した結果、プロンプトベースのモデルも表層的な手がかりを悪用していることが明らかになった。モデルは表層的な手がかりのあるインスタンスでうまく機能する一方、表層的な手がかりのないインスタンスでは、ランダム精度を下回るか、わずかに上回るにとどまることが多い。
https://aclanthology.org/2022.acl-long.166/
Learning Confidence for Transformer-based Neural Machine Translation
信頼度推定は、モデルの予測の信頼度を定量化し、成功の期待を提供することを目的としています。適切にキャリブレーションされた信頼度推定は、現実世界のノイズのあるサンプルや領域外のデータが与えられた場合に、正確な失敗予測と適切なリスク測定を可能にします。しかし、このタスクはニューラル機械翻訳(NMT)にとって依然として深刻な課題であり、ソフトマックス分布からの確率は、モデルが誤った可能性がある場合に説明できません。この問題に対処するために、私たちはNMTモデルのトレーニングと同時に、教師なしの信頼度推定学習を提案します。私たちは、信頼度を、NMTモデルが正しい予測をするために必要なヒントの数として説明し、より多くのヒントは低い信頼度を示します。具体的には、NMTモデルには、わずかなペナルティを支払うことで翻訳精度を向上させるためのヒントを求めるオプションが与えられます。その後、モデルが使用するヒントの数を数えることで、彼らの信頼度のレベルを近似します。私たちは、学習された信頼度推定が広範な文/単語レベルの品質評価タスクで高い精度を達成することを示しました。分析結果は、私たちの信頼度推定が、2つの現実世界のシナリオで潜在的なリスクを正しく評価できることを確認しています:(1)ノイズのあるサンプルの発見、および(2)領域外のデータの検出。さらに、私たちは、私たちの学習された信頼度推定に基づく新しい信頼度ベースのインスタンス固有のラベル平滑化アプローチを提案し、標準のラベル平滑化を上回る性能を発揮します。
https://aclanthology.org/2022.acl-long.167/
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals
空間常識は、物体の空間的位置や関係に関する知識(例えば、ライオンと女の子の相対的な大きさや、自転車に乗っている男の位置など)であり、常識的な知識の重要な部分である。事前学習済み言語モデル(PLMs)は多くのNLPタスクで成功しているが、空間常識推論には効果がないことが示されている。画像はテキストよりも空間常識を表現しやすいため、視覚信号を持つモデルがテキストベースのPLMsよりも空間常識を学習するかどうかを探求する。我々は、物体の相対的なスケールと、異なるアクション下での人と物体の位置関係に焦点を当てた空間常識ベンチマークを提案する。このベンチマークでPLMsや視覚言語事前学習モデル、画像合成モデルなどの視覚信号を持つモデルを調査し、画像合成モデルが他のモデルよりも正確で一貫した空間知識を学習することができることを発見した。画像合成モデルからの空間知識は、空間常識を必要とする自然言語理解タスクにも役立つ。
https://aclanthology.org/2022.acl-long.168/
Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation
トークンレベルの適応的トレーニング手法は、特定の統計的メトリック(トークンの頻度や相互情報量など)に基づいて、異なるターゲットトークンの損失を再重み付けすることにより、トークンの不均衡問題を緩和し、ニューラル機械翻訳を改善することができます。標準的な翻訳モデルが前のターゲットコンテキストの条件で予測を行うことを考慮すると、上記の統計的メトリックはターゲットコンテキスト情報を無視し、ターゲットトークンに不適切な重みを割り当てる可能性があると主張します。ターゲットコンテキストをこれらの統計的メトリックに直接取り込むことが1つの解決策ですが、ターゲットコンテキストに基づく統計的計算は非常に高価であり、対応するストレージオーバーヘッドは現実的ではありません。上記の問題を解決するために、我々はターゲットコンテキストに敏感なメトリックである条件付きバイリンガル相互情報量(CBMI)を提案し、統計的メトリックにターゲットコンテキスト情報を補完することが可能になりました。特に、我々のCBMIは、条件付き結合分布を分解することにより、翻訳モデル確率と言語モデル確率の対数商として形式化することができます。したがって、CBMIは、事前に特定の統計的計算や大きなストレージオーバーヘッドなしに、モデルトレーニング中に効率的に計算することができます。さらに、トークンレベルと文レベルのCBMIの両方に基づく効果的な適応的トレーニング手法を提案します。WMT14英独語タスクとWMT19中国語英語タスクの実験結果は、我々の手法がTransformerベースラインや他の関連手法を大幅に上回ることを示しています。
https://aclanthology.org/2022.acl-long.169/
ClusterFormer: Neural Clustering Attention for Efficient and Effective Transformer
最近、Transformerの効率を改善するための多くの研究が行われています。その中でも、疎なパターンベースの方法は効率的なTransformerの重要な分野の一つです。しかし、既存の疎な方法の中には、単語の類似性を考慮せずに固定されたパターンを使用するものがあります。また、クラスタリングパターンを使用する疎な方法もありますが、クラスタリングプロセスはターゲットタスクのトレーニングプロセスとは別個に行われるため、効果の低下を引き起こします。これらの制限に対処するために、私たちはニューラルクラスタリング方法を設計しました。この方法は、TransformerのSelf-Attention Mechanismにシームレスに統合できます。クラスタリングタスクとターゲットタスクは共同でトレーニングされ、最適化され、お互いに利益をもたらし、効果的な改善をもたらします。さらに、私たちの方法は、強い依存関係を持つ単語を同じクラスタにグループ化し、各クラスタに対してAttention Mechanismを独立して実行することで、効率を改善します。私たちは、機械翻訳、テキスト分類、自然言語推論、テキストマッチングのタスクで私たちの方法を検証しました。実験結果は、私たちの方法が、ReformerやRouting Transformerといった2つの典型的な疎なAttention方法を上回り、同等またはより優れた時間とメモリの効率を持っていることを示しています。
https://aclanthology.org/2022.acl-long.170/
Bottom-Up Constituency Parsing and Nested Named Entity Recognition with Pointer Networks
構成解析とネストされた固有表現認識(NER)は、両方ともネストされたかつ交差しないスパンのコレクションを予測することを目的としているため、類似したタスクです。本研究では、ネストされたNERを構成解析にキャストし、両方のタスクに対処するための新しいポインティングメカニズムを提案します。主なアイデアは、構成木をポストオーダーでトラバースする場合、つまり、子の後に親を訪問する場合、2つの連続的に訪問されたスパンが境界を共有するという観察に基づいています。モデルは、共有された境界を追跡し、ポインターネットワークを活用して各ステップで次の境界を予測します。その結果、線形ステップのみで解析できるため、効率的です。また、構造的一貫性のための解析構成を維持し、常に有効な木を出力します。実験的に、当社のモデルは、PTBのすべてのBERTベースのモデルの中で最高の性能(96.01 F1スコア)を達成し、構成解析のCTB7で競争力のある性能を発揮し、ネストされたNERの3つのベンチマークデータセット(ACE2004、ACE2005、GENIA)でも強力な性能を発揮します。当社のコードは、https://github.com/xxxxxで利用可能です。
https://aclanthology.org/2022.acl-long.171/
Redistributing Low-Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation
知識蒸留(KD)は、低頻度単語の翻訳に重要な情報を失う代償として、NATモデルのトレーニングを容易にするための非自己回帰翻訳(NAT)モデルのトレーニングの初期段階です。本研究では、外部の単一言語データでNAT学生をトレーニングする単一言語KDという魅力的なNATの代替手段を提供します。AT教師は元のバイリンガルデータでトレーニングされます。単一言語KDは、元のバイリンガルデータ(トレーニングされたAT教師モデルに暗黙的にエンコードされた)と新しい単一言語データの両方の知識をNAT学生モデルに転送できます。2つの高度なNATモデルに対する8つのWMTベンチマークでの広範な実験は、単一言語KDが低頻度単語の翻訳を改善することで、標準的なKDを常に上回ることを示しています。また、計算コストを導入することなく、望ましい拡張性を持ちます。これは、標準的なKD、逆単一言語KD、または単一言語データのスケールを拡大することによってさらに強化できます。広範な分析は、これらの技術を有益に組み合わせて、標準的なKDで失われた有用な情報をさらに回収できることを示しています。標準的なKDとの組み合わせにより、当社のアプローチは、WMT14英独および独英データセットでそれぞれ30.4および34.1 BLEUポイントを達成しました。当社のコードとトレーニング済みモデルは、https://github.com/alphadl/RLFW-NAT.monoで無料で入手できます。
https://aclanthology.org/2022.acl-long.172/
Dependency Parsing as MRC-based Span-Span Prediction
依存構造解析の高階手法は、依存木のエッジが単語レベルではなくテキストスパン/サブツリーレベルで構築されるべきであるという問題に部分的に対処できますが、完全には対処できません。本論文では、この問題に対処するために新しい依存構造解析手法を提案します。提案手法は、テキストスパン-テキストスパン(つまり、サブツリー-サブツリー)の関係を直接モデル化することによって依存木を構築します。提案手法は、2つのモジュールから構成されています。1つ目は、候補のテキストスパンを提案するテキストスパン提案モジュールで、それぞれが(ルート、開始、終了)で示される依存木のサブツリーを表します。2つ目は、提案されたスパン間のリンクを構築するスパンリンキングモジュールです。スパンリンキングモジュールは、マシンリーディングコンプリヘンション(MRC)フレームワークをバックボーンとして使用して、1つのスパンをクエリとして使用し、リンクするべきテキストスパン/サブツリーを抽出します。提案手法には、以下の利点があります:(1)依存木のエッジをサブツリー間に構築するという基本的な問題に対処します。 (2)MRCフレームワークにより、スパン提案ステージで欠落しているスパンを取得できるため、対象スパンのリコールが向上します。 PTB、CTB、およびUniversal Dependencies(UD)ベンチマークでの広範な実験により、提案手法の有効性が示されました。コードはhttps://github.com/ShannonAI/mrc-for-dependency-parsingで入手できます。
https://aclanthology.org/2022.acl-long.173/
Adversarial Soft Prompt Tuning for Cross-Domain Sentiment Analysis
事前学習された言語モデルの支援により、クロスドメインの感情分析は有望な結果を達成しています。GPT-3が登場したことで、プロンプトチューニングは多くの自然言語処理タスクにおいてより良い意味的モデリングを可能にするために広く探求されています。しかし、クロスドメイン研究に固定された事前定義されたテンプレートを直接使用することは、異なるドメインでの\operatorname{[MASK]}トークンの異なる分布をモデル化することができず、プロンプトチューニング技術を十分に活用できなくなります。本論文では、クロスドメインの感情分析をより良くモデル化するために、新しいAdversarial Soft Prompt Tuning方法(AdSPT)を提案します。一方、AdSPTは、異なるドメインに対して異なるベクトルを学習するために、ハードテンプレートではなく別々のソフトプロンプトを採用することで、マスクされた言語モデリングタスクにおける\operatorname{[MASK]}トークンのドメインの不一致を緩和します。他方、AdSPTは、各ソースドメインとターゲットドメインの間のドメイン不変表現を学習するための新しいドメイン対抗トレーニング戦略を使用します。公開されている感情分析データセットでの実験結果は、当社のモデルが単一ソースドメイン適応とマルチソースドメイン適応の両方において新しい最高の結果を達成していることを示しています。
https://aclanthology.org/2022.acl-long.174/
Generating Scientific Claims for Zero-Shot Scientific Fact Checking
自動化された科学的事実検証は、科学的言語の複雑さと十分なトレーニングデータの不足により困難であり、注釈にはドメインの専門知識が必要です。この課題に対処するために、我々は科学的主張生成を提案し、科学的文から1つ以上の原子的かつ検証可能な主張を生成するタスクを示し、バイオメディカル主張のゼロショット事実検証での有用性を示します。我々は、文献に支持される主張を生成するための新しい教師あり方法であるCLAIMGEN-BARTと、主張の否定を生成するための新しい方法であるKBINを提案します。さらに、既存の教師なしエンティティ中心の主張生成方法をバイオメディカル主張に適応し、CLAIMGEN-ENTITYと呼びます。ゼロショット事実検証の実験では、CLAIMGEN-ENTITYとCLAIMGEN-BARTの両方が、KBINと組み合わせて、手動で注釈付けされた主張と証拠に基づく完全に教師ありモデルの90%の性能を達成することが示されました。厳密な評価研究は、既存のベースラインよりも生成された主張と否定の品質が大幅に改善されたことを示しています。
https://aclanthology.org/2022.acl-long.175/
Modeling Dual Read/Write Paths for Simultaneous Machine Translation
同時機械翻訳(SiMT)は、ソース文を読みながら翻訳を出力するため、次のソース単語を待つか(READ)、またはターゲット単語を生成するか(WRITE)を決定する方針が必要であり、そのアクションは読み書きパスを形成します。読み書きパスはSiMTの性能にとって重要ですが、既存の方法ではパスに直接的な監視が与えられていません。本論文では、読み書きパスを指導する二重路法を導入した二重路SiMTの方法を提案します。二重路制約に従って、ソースからターゲットへのSiMTモデルとターゲットからソースへのSiMTモデルの読み書きパスを互いにマッピングすることができます。その結果、2つのSiMTモデルは、読み書きパスがマッピングを満たすように強制することにより、共同で最適化できます。En-ViおよびDe-Enタスクの実験では、本手法がすべてのレイテンシーで強力なベースラインを上回ることが示されています。
https://aclanthology.org/2022.acl-long.176/
ExtEnD: Extractive Entity Disambiguation
エンティティの曖昧さ解消(ED)のためのローカルモデルは、大規模な事前学習言語モデルの登場により、非常に強力になりました。しかし、これらのアプローチのほとんどは、計算的にもモデリング的にも固有の制限を持つ分類形式でEDをフレーム化しています。これに対して、本論文では、テキスト抽出問題としてこのタスクをフレーム化する新しいローカル形式であるExtEnDを提案し、それを実装する2つのTransformerベースのアーキテクチャを提示します。ドメイン内外での実験と2つの異なるデータレジームでのトレーニングに基づいて、我々のアプローチは、データ効率性と生のパフォーマンスの両方の観点で、すべての競合アプローチを上回ることがわかりました。ExtEnDは、2つのデータレジームのうちより制約のある方でわずか6 F1ポイントで他のアプローチを上回り、より高いリソースのレジームに移動すると、4つのベンチマーク全てで新しい最高値を設定し、全体的には0.7 F1ポイント、ドメイン外では1.1 F1ポイントの平均改善を達成しました。さらに、結果からより良い洞察を得るために、ラベル頻度の異なるクラスでのパフォーマンスの細かい評価、アーキテクチャの選択肢の削除研究、エラー分析も行いました。我々は、研究目的のために、コードとモデルをhttps://github.com/SapienzaNLP/extendで公開しています。
https://aclanthology.org/2022.acl-long.177/
Hierarchical Sketch Induction for Paraphrase Generation
私たちは、明示的な構文スケッチに基づいて構文の多様性を促進する類義語生成の生成モデルを提案します。私たちは、増加する粒度の反復的な改良のシーケンスとして密なエンコーディングの分解を学習する、階層的なリファインメント量子化変分オートエンコーダー(HRQ-VAE)を紹介します。このコードの階層は、エンドツーエンドのトレーニングを通じて学習され、入力に関する細かいから粗い情報を表します。私たちは、HRQ-VAEを使用して、入力文の構文形式を階層を通じたパスとしてエンコードし、テスト時により簡単に構文スケッチを予測できるようにしました。人間の評価を含む広範な実験により、HRQ-VAEが入力空間の階層的表現を学習し、以前のシステムよりも高品質の類義語を生成することが確認されました。
https://aclanthology.org/2022.acl-long.178/
Alignment-Augmented Consistent Translation for Multilingual Open Information Extraction
監督付きオープン情報抽出(OpenIE)の進展は、他の言語におけるトレーニングデータの不足のため、主に英語に限定されている。本論文では、英語のテキストを自動的に変換して、他の言語のOpenIEシステムのトレーニングに使用する技術を探索する。我々は、Alignment-Augmented Constrained Translation(AACTrans)モデルを導入し、英語の文とそれに対応する抽出を一貫して翻訳する技術を紹介する。AACTransで生成されたデータを使用して、新しい2段階生成型OpenIEモデルをトレーニングし、Gen2OIEと呼ぶ。Gen2OIEは、各文に対して、1)最初の段階での関係と、2)関係を含むすべての抽出を第2段階で出力する。Gen2OIEは、英語固有のトレーニング損失を使用する既存のモデルとは異なり、複数の言語に汎用的に適用できるトレーニングデータ変換技術を使用して関係カバレッジを増やす。スペイン語、ポルトガル語、中国語、ヒンディー語、テルグ語の5つの言語での評価では、AACTransデータを使用したGen2OIEが、F1で先行システムを6〜25%上回ることが示された。
https://aclanthology.org/2022.acl-long.179/
Text-to-Table: A New Way of Information Extraction
私たちは、情報抽出(IE)の新しい問題設定である「テキストからテーブルへ」を研究しています。テキストからテーブルでは、テキストが与えられた場合、テキストの主要な内容を表現するテーブルまたは複数のテーブルを作成し、モデルはテキスト-テーブルペアデータから学習されます。この問題設定は、既存のIE方法とは異なります。まず、抽出は長いテキストから複雑な構造を持つ大きなテーブルにまで行われることができます。第二に、抽出は完全にデータ駆動であり、スキーマを明示的に定義する必要はありません。私たちの知る限り、この問題を研究した先行研究はありません。この研究では、テキストからテーブルをシーケンスからシーケンス(seq2seq)の問題として形式化します。最初に、事前学習された言語モデルから微調整されたseq2seqモデルを使用してタスクを実行します。また、テーブル生成における2つの追加技術、テーブル制約とテーブル関係埋め込みをseq2seqアプローチ内で利用する新しい方法を開発します。私たちは、テキストからテーブルを、よく研究されているテーブルからテキストの逆問題と考え、テキストからテーブルの実験に4つの既存のテーブルからテキストのデータセットを利用します。実験結果は、バニラseq2seqモデルが関係抽出と名前付きエンティティ抽出のベースライン方法を上回ることを示しています。結果はまた、私たちの方法がバニラseq2seqモデルの性能をさらに向上させることができることを示しています。私たちは、提案されたタスクの主な課題についてさらに議論します。コードとデータはhttps://github.com/shirley-wu/text_to_tableで利用可能です。
https://aclanthology.org/2022.acl-long.180/
Accelerating Code Search with Deep Hashing and Code Classification
自然言語クエリに基づくソースコードコーパスから再利用可能なコードスニペットを検索することをコード検索と呼びます。コード検索における深層学習ベースの手法は、有望な結果を示しています。しかし、従来の手法は検索精度に重点を置いていましたが、検索プロセスの効率には注意が払われていませんでした。我々は、深層ハッシングとコード分類による効率的なコード検索を実現するために、新しい手法CoSHCを提案します。CoSHCの有効性を評価するために、我々は5つのコード検索モデルに対して我々の手法を適用しました。広範な実験結果は、従来のコード検索ベースラインと比較して、CoSHCは検索時間を90%以上短縮でき、同時に検索精度を99%以上維持できることを示しています。
https://aclanthology.org/2022.acl-long.181/
Other Roles Matter! Enhancing Role-Oriented Dialogue Summarization via Role Interactions
役割指向型の対話要約は、例えば商人や消費者など、異なる役割のための要約を生成することを意味します。既存の方法は、各役割の内容を別々に要約することでこのタスクを処理しており、そのため他の役割からの情報を無視する傾向があります。しかし、私たちは他の役割の内容が、他の役割が言及した省略された情報など、要約の品質に役立つと考えています。そのため、私たちは役割相互作用を強化した役割指向型対話要約の新しい手法を提案します。この手法は、クロスアテンションとデコーダーセルフアテンションの相互作用を採用して、他の役割の重要な情報を相互に取得します。クロスアテンション相互作用は、他の役割の重要な対話発話を選択することを目的としています。一方、デコーダーセルフアテンション相互作用は、他の役割の要約からキー情報を取得することを目的としています。実験結果は、提案手法が2つの公開役割指向型対話要約データセットで強力なベースラインを大幅に上回ることを示しています。詳細な分析により、他の役割の内容が、より完全な意味論と正しいトピック構造を持つ要約を生成するのに役立つことが示されました。
https://aclanthology.org/2022.acl-long.182/
ClarET: Pre-training a Correlation-Aware Context-To-Event Transformer for Event-Centric Generation and Classification
関連するイベントを与えられた文脈から新しいイベントを生成することは、多くのイベント中心の推論タスクにおいて重要な役割を果たします。既存の研究は、特定のシナリオに限定されるか、イベントレベルの相関を見落としています。本論文では、イベント中心の推論のために一般的な相関意識型コンテキストからイベントへのトランスフォーマー(ClarET)を事前学習することを提案します。これを実現するために、全体的なイベントの回復、対照的なイベント相関エンコーディング、プロンプトベースのイベントの位置決めという3つの新しいイベント中心の目的を提案し、効果的なトレーニングでイベントレベルの相関を強調します。提案されたClarETは、(i)イベント相関のタイプ(因果関係、時間的、対照的など)、(ii)アプリケーションの形式(生成と分類)、および(iii)推論のタイプ(演繹的、反事実的、終了推論など)の多様性を考慮して、広範なイベント中心の推論シナリオに適用できます。9つのベンチマーク(4つの推論タイプをカバーし、多様なイベント相関を持つ5つの生成タスクと4つの分類タスク)での経験的な微調整結果、およびゼロショットおよびフューショット学習は、その効果と汎用性を検証しています。
https://aclanthology.org/2022.acl-long.183/
Measuring and Mitigating Name Biases in Neural Machine Translation
ニューラル機械翻訳(NMT)システムは、文法的性別を持つ言語における職業用語の翻訳において、性別に関するステレオタイプなバイアスなど、問題のあるバイアスを示しています。本論文では、人名を含む文の翻訳に関連する、NMTシステムに普遍的な新しいバイアスの源を説明します。このような文を正しく翻訳するためには、NMTシステムは名前の性別を判断する必要があります。私たちは、主要なシステムがこのタスクに特に苦手であることを示し、特に女性の名前に対してその傾向があることを示します。このバイアスは、名前の性別よりも深いものです。私たちは、曖昧な感情を持つ用語の翻訳も人名に影響を受けることを示し、同様に人種を示す固有名詞にも同じことが言えます。これらのバイアスを緩和するために、私たちは翻訳中にエンティティをランダムに切り替えるという、単純で効果的なデータ拡張方法を提案します。これにより、翻訳品質に影響を与えることなく、問題を効果的に解決することができます。
https://aclanthology.org/2022.acl-long.184/
Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
本論文では、ニューラル機械翻訳(NMT)のためのSOTAシーケンス・トゥ・シーケンス(Seq2Seq)事前学習をより理解するための重要な一歩を示します。我々は、Seq2Seq事前学習と以前のエンコーダベースの事前学習アプローチの主な違いである共同事前学習デコーダの影響を研究することに焦点を当てています。3つの言語ペアについて実験を慎重に設計することにより、Seq2Seq事前学習は両刃の剣であることがわかりました。一方で、NMTモデルがより多様な翻訳を生成し、適切性に関連する翻訳エラーを減らすのに役立ちます。一方、Seq2Seq事前学習とNMTファインチューニングの間の不一致は、翻訳品質(つまり、ドメインの不一致)を制限し、過大評価の問題(つまり、目的の不一致)を引き起こします。これらの観察に基づいて、我々は、ドメインの不一致を修正するためのインドメイン事前学習と、目的の不一致を修正するための入力適応というシンプルで効果的な戦略を提案しています。いくつかの言語ペアでの実験結果は、我々のアプローチがSeq2Seq事前学習に対して翻訳性能とモデルの堅牢性を一貫して改善できることを示しています。
https://aclanthology.org/2022.acl-long.185/
MSCTD: A Multimodal Sentiment Chat Translation Dataset
近年、多言語機械翻訳とテキストチャット翻訳が注目されています。自然な形での会話は通常、マルチモーダルですが、会話におけるマルチモーダル機械翻訳に関する研究はまだ不十分です。本研究では、関連する対話履歴と視覚的文脈の支援を受けて、より正確な翻訳を生成することを目的とした、Multimodal Chat Translation(MCT)という新しいタスクを紹介します。このために、まず、142,871の英中発話ペアを含む14,762のバイリンガル対話を含むMultimodal Sentiment Chat Translation Dataset(MSCTD)を構築しました。現在の会話シーンを反映する視覚的文脈に対応する各発話ペアは、感情ラベルで注釈が付けられています。次に、マルチモーダルおよび感情特徴をMCTに組み込む複数のベースラインシステムを確立して、タスクをベンチマーク化しました。英中の2つの言語方向での予備実験により、文脈的およびマルチモーダル情報の融合の可能性と、感情がMCTタスクに与える肯定的な影響が確認されました。さらに、構築されたMSCTDによるマルチモーダル対話感情分析の新しいベンチマークを提供します。本研究は、マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を促進することができます。
https://aclanthology.org/2022.acl-long.186/
Learning Disentangled Textual Representations via Statistical Measures of Similarity
テキストデータを扱う場合、分離表現の自然な応用は、データに存在する感覚的属性(例:年齢、性別、人種など)にバイアス(または影響)されずに予測を行う公正な分類です。感受性属性をテキスト表現から分離する支配的なアプローチは、敵対的損失(例:識別器)または情報量(例:相互情報量)を含む罰則項を同時に学習することに依存しています。しかし、これらの方法は、表現モデルの更新ごとに複数のパラメータ更新を必要とする深層ニューラルネットワークのトレーニングを必要とします。実際、結果として得られるネストされた最適化ループは、時間がかかり、最適化ダイナミックに複雑さを追加し、ファインハイパーパラメータ選択(例:学習率、アーキテクチャ)が必要です。本研究では、トレーニングを必要としない分離表現の学習のための正則化子族を紹介します。これらの正則化子は、感覚的属性に関する条件付き確率分布間の類似性の統計的測定に基づいています。私たちの新しい正則化子は、追加のトレーニングを必要とせず、より速く、追加の調整を必要とせず、事前にトレーニングされたテキストエンコーダーとランダムに初期化されたテキストエンコーダーの両方でより良い結果を実現します。
https://aclanthology.org/2022.acl-long.187/
On the Sensitivity and Stability of Model Interpretations in NLP
近年、自然言語処理(NLP)モデルが予測を行う方法を明らかにするための様々な事後解釈が登場しています。新しい解釈方法が急増しているにもかかわらず、解釈の忠実度を定義し、定量的に測定する方法、つまり解釈がモデルの推論プロセスをどの程度反映しているかを明確にすることは未解決の問題です。私たちは、既存の削除ベースの基準に補完的な忠実度の概念を提供する、感度と安定性の2つの新しい基準を提案します。私たちの結果は、異なる概念に基づいて解釈の忠実度がどのように大きく異なるかを示しています。感度と安定性の要件に基づいて、敵対的な堅牢性の技術を採用した新しい解釈方法のクラスを紹介します。実験結果は、私たちが提案する方法が新しい基準において効果的であり、削除ベースの基準における勾配ベースの方法の制限を克服していることを示しています。テキスト分類に加えて、依存構造解析にも解釈方法とメトリックを適用します。私たちの結果は、多様な解釈の理解に光を当てています。
https://aclanthology.org/2022.acl-long.188/
Down and Across: Introducing Crossword-Solving as a New NLP Benchmark
クロスワードパズルを解くには、多様な推論能力、言語や世界に関する広範な知識へのアクセス、パズルの構造に課せられた制約を満たす能力が必要です。本研究では、クロスワードパズルを新しい自然言語理解タスクとして紹介します。25年間にわたるニューヨーク・タイムズのデイリークロスワードから収集された約9,000のパズルからなるコーパスを公開します。これらのパズルには、歴史的、事実的、単語の意味、類義語/反意語、穴埋め、略語、接頭辞/接尾辞、言葉遊び、クロスリンガルなど、多様な種類の手がかりが含まれています。また、他の手がかりの答えに依存する手がかりも含まれています。これらのパズルから手がかり-答えのペアを別々に公開し、50万以上のユニークな手がかり-答えのペアを含むオープンドメインの質問応答データセットを提供します。質問応答タスクのベースラインには、いくつかのシーケンス-シーケンスおよび検索ベースの生成モデルが含まれます。また、クロスワードパズル全体を解決するための非パラメトリックな制約充足ベースラインを紹介します。最後に、複数の補完的なパフォーマンスメトリックからなる評価フレームワークを提案します。
https://aclanthology.org/2022.acl-long.189/
Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets
自然言語処理モデルは、しばしばタスクに依存しない特徴とデータセット内のラベルとの間の偽の相関を利用して、トレーニングされた分布にのみ適切に機能し、異なるタスク分布には一般化できない。本研究では、この問題に対処するために、データセットの偏りを修正したバージョンを生成し、トレーニングデータを置き換えることで、偏りのないオフシェルフモデルをトレーニングすることを提案する。アプローチは、1)高品質でラベルに一致するデータサンプルを生成するためのトレーニングデータジェネレータの方法と、2)z統計量によって測定される偽の相関に貢献するデータポイントを削除するフィルタリングメカニズムから構成される。SNLIおよびMNLIデータセットの偏りのないバージョンを生成し、偏りのない、分布外、および敵対的なテストセットの大規模なスイートで評価する。結果は、当社の偏りのないデータセットでトレーニングされたモデルが、すべての設定で元のデータセットでトレーニングされたモデルよりも一般化能力が高いことを示している。ほとんどのデータセットでは、当社の方法が以前の最先端の偏りのない戦略を上回るか同等の結果を示し、直交技術であるエキスパートの積と組み合わせると、SNLI-hardおよびMNLI-hardの以前の最高結果を上回る。
https://aclanthology.org/2022.acl-long.190/
GL-CLeF: A Global–Local Contrastive Learning Framework for Cross-lingual Spoken Language Understanding
現在の手法の高いデータ要件により、人間の注釈作業を大幅に削減することができるため、ゼロショットクロスリンガルスポークンランゲージアンダースタンディング(SLU)への注目が高まっています。しかし、既存のモデルは共有パラメータにのみ依存しており、言語間の暗黙のアラインメントしか実行できません。本研究では、この欠点を解決するために、グローバル・ローカルコントラスティブラーニングフレームワーク(GL-CLeF)を提案します。具体的には、コントラスティブラーニングを採用し、バイリンガル辞書を活用して同じ発話の多言語ビューを構築し、負の例のペアよりもその表現がより類似するように促し、言語間で類似する文の表現を明示的にアラインメントすることを実現します。さらに、GL-CLeFの重要なステップは、ローカルとグローバルのコンポーネントを提案することで、細かいクロスリンガルトランスファー(つまり、文レベルのローカルインテントトランスファー、トークンレベルのローカルスロットトランスファー、およびインテントとスロットを横断する意味レベルのグローバルトランスファー)を実現します。MultiATIS++での実験結果から、GL-CLeFが最高の性能を発揮し、類似する文の表現を言語間でより近づけることに成功しています。
https://aclanthology.org/2022.acl-long.191/
Good Examples Make A Faster Learner: Simple Demonstration-based Learning for Low-resource NER
プロンプトベースの学習の最近の進歩により、クローズスタイルのテンプレートを使用してフューショットテキスト分類に強い結果が示されています。同様の試みが、名前付きエンティティ認識(NER)においても行われており、文のすべてのテキストスパンに対してエンティティタイプを予測するために手動でテンプレートを設計しています。しかし、このような方法は、エンティティスパンの検出によって誘発されるエラー伝播、すべての可能なテキストスパンの列挙による高コスト、および文中のトークンラベル間の相互依存関係の省略などの問題がある可能性があります。ここでは、タスクのデモンストレーションを入力の前置きとして使用して、コンテキスト内学習を可能にする、NERのためのシンプルなデモンストレーションベースの学習方法を提案します。私たちは、何を含めるか(周囲の文脈を持つエンティティ例)、どのように例を選択するか、どのテンプレートを使用するかに関するデモンストレーション戦略について系統的な研究を行います。ドメイン内学習とドメイン適応の結果から、適切なデモンストレーション戦略(例えば、25のトレーニングインスタンスで4-17%の改善)により、低リソース環境でのモデルのパフォーマンスを大幅に改善できることがわかりました。また、良好なデモンストレーションは多くのラベル付き例を節約でき、デモンストレーションの一貫性がより良いパフォーマンスに貢献することがわかりました。
https://aclanthology.org/2022.acl-long.192/
Contextual Representation Learning beyond Masked Language Modeling
現在、マスクされた言語モデリング(例:BERT)は、文脈化された表現を学習するための主要な選択肢です。普及性があるため、自然に興味深い問題が生じます。すなわち、マスクされた言語モデル(MLM)はどのように文脈化された表現を学習するのでしょうか?本研究では、MLMの学習ダイナミクスを分析し、サンプリングされた埋め込みをアンカーとして採用し、表現に文脈的な意味を推定して注入することがわかりました。これにより、MLMの効率と効果が制限されます。これらの問題に対処するために、私たちはTACOを提案します。TACOは、グローバルな意味を直接モデル化するためのシンプルで効果的な表現学習アプローチです。具体的には、TACOは、文脈化された表現に隠された文脈的な意味を抽出し、整列させ、文脈化された表現を生成する際にモデルがグローバルな意味に注意を払うように促します。GLUEベンチマークの実験では、TACOはMLMに比べて最大5倍の高速化と平均1.2ポイントの改善を達成しました。
https://aclanthology.org/2022.acl-long.193/
Efficient Hyper-parameter Search for Knowledge Graph Embedding
ハイパーパラメータ(HP)は知識グラフ(KG)学習において重要であるが、既存の方法は効率的にそれらを探索することができない。この問題を解決するために、まず異なるHPの特性を分析し、小さなサブグラフから全グラフへの転送能力を測定する。この分析に基づいて、我々は効率的な2段階の探索アルゴリズムKGTunerを提案する。このアルゴリズムは、最初の段階で小さなサブグラフ上でHP構成を効率的に探索し、上位の構成を2番目の段階で大きな全グラフ上で微調整する。実験結果は、同じ時間予算内でベースラインアルゴリズムよりも優れたHPを一貫して見つけることができることを示し、オープングラフベンチマークの大規模KGにおいて4つの埋め込みモデルに対して9.1%の平均相対改善を達成した。我々のコードはhttps://github.com/AutoML-Research/KGTunerで公開されている。
https://aclanthology.org/2022.acl-long.194/
A Meta-framework for Spatiotemporal Quantity Extraction from Text
ニュースイベントはしばしば数量(例えば、COVID-19患者数や抗議活動での逮捕者数)と関連付けられ、これらの数量イベントを分析するために、その種類、時間、場所を非構造化テキストから抽出することが重要です。本論文では、このような空間時間数量抽出のNLP問題を定式化し、その解決のための最初のメタフレームワークを提案します。このメタフレームワークには、問題をいくつかの情報抽出タスクに分解する形式化、共有可能なクラウドソーシングパイプライン、およびトランスフォーマーベースのベースラインモデルが含まれます。我々は、COVID-19パンデミック、Black Lives Matter抗議、および2020年カリフォルニア山火事の3つのドメインでメタフレームワークを実証し、形式化が一般的かつ拡張可能であること、クラウドソーシングパイプラインが迅速かつ高品質のデータ注釈を促進すること、およびベースラインシステムが空間時間数量抽出を十分に扱える実用的なツールであることを示します。我々は、このトピックに関する将来の研究のためのすべてのリソースをhttps://github.com/steqeで公開しています。
https://aclanthology.org/2022.acl-long.195/
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-Modal Knowledge Transfer
事前学習された言語モデルは、外観や測定可能な量などの特性や日常の物体の機能を理解する必要があるタスクにおいて、報告バイアスによりテキストにそのような情報が欠落しているため、人間のパフォーマンスからはまだ遠い。本研究では、視覚的な知識を言語モデルに統合することで、このギャップを埋めることができるかどうかを調査する。我々は、(1)豊富な視覚的知識を含む画像キャプションを使用したテキスト知識の転移と、(2)ビジョン-言語トレーニング目標を持つ画像とキャプションの両方を使用したクロスモーダル知識の転移の2種類の知識転移を調査する。視覚的知識が必要な5つの下流タスクについて、提示された目的について広範な実験的比較を行う。実験結果は、視覚的知識の転移が、低リソースおよび完全に監視された設定の両方でパフォーマンスを向上させることを示している。
https://aclanthology.org/2022.acl-long.196/
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models
大規模な事前学習済みのビジョン・ランゲージ(VL)モデルは、わずかな例で新しいタスクを学習し、微調整なしで新しいタスクに汎用化できます。しかし、これらのVLモデルは、実用的に巨大なサイズと遅い推論速度のため、実世界のアプリケーションに展開するのが困難です。この制限を解決するために、我々は、FewVLMという提案手法を用いたプロンプトベースの低リソース学習によるVLタスクの研究を行いました。FewVLMは、最近のfew-shot学習者よりも比較的小さいもので、PrefixLM(接頭辞言語モデリング)とMaskedLM(マスク言語モデリング)を用いたシーケンス・トゥ・シーケンス・トランスフォーマーモデルを事前学習します。さらに、FewVLMにおいて、few-shotタスクのための多様なプロンプトの効果を分析します。VQAにおける実験結果は、プロンプトベースの学習を行うFewVLMが、31倍も大きいFrozenに比べて18.2%ポイント高い性能を発揮し、246倍も大きいPICaモデルと同等の結果を達成することを示しています。我々の分析では、(1)プロンプトはゼロショットの性能に大きく影響するが、few-shotの性能にはわずかに影響する、(2)ノイズのあるプロンプトを用いたモデルは、より大きなトレーニングデータが与えられた場合に手作りのプロンプトと同じ速度で学習することができ、(3)MaskedLMはVQAタスクに役立ち、PrefixLMはキャプショニングの性能を向上させます。我々のコードは、https://github.com/woojeongjin/FewVLMで公開されています。
https://aclanthology.org/2022.acl-long.197/
Continual Few-shot Relation Learning via Embedding Space Regularization and Data Augmentation
既存の持続的関係学習(CRL)手法は、新しいタスクを学習するために十分なラベル付きトレーニングデータに依存していますが、大規模で代表的なラベル付きデータを取得することはしばしば高価で時間がかかるため、実際のシナリオで取得することが困難です。したがって、モデルは前のタスクの知識を忘れることなく、非常に少数のラベル付きデータで新しい関係パターンを学習する必要があります。本論文では、このような課題を持続的なフューショット関係学習(CFRL)として定式化します。新しい出現するフューショットタスクの学習は、前のタスクの学習済み分布と互換性のない特徴分布をもたらすことが多いことから、埋め込み空間の正則化とデータ拡張に基づく新しい手法を提案します。当社の手法は、関係埋め込みに追加の制約を課し、自己監督的な方法で追加の関連データを追加することにより、新しいフューショットタスクに汎化し、前のタスクの重大な忘却を回避します。広範な実験により、当社の手法がCFRLタスク設定で以前の最先端の手法を大幅に上回ることを示します。
https://aclanthology.org/2022.acl-long.198/
Variational Graph Autoencoding as Cheap Supervision for AMR Coreference Resolution
AMRのような意味グラフ上の共参照解析は、同じエンティティを表すグラフノードをグループ化することを目的としています。これは、文書レベルの形式的意味表現を作成するための重要なステップです。AMR共参照解析の注釈付きデータを使用した深層学習アプローチは、最近このタスクに対して大きなポテンシャルを示していますが、通常はデータが豊富で注釈が高価です。我々は、AMR共参照解析のための変分グラフオートエンコーダ(VGAE)を使用した一般的な事前学習方法を提案しています。これは、一般的なAMRコーパスや自動的に解析されたAMRデータを活用することができます。ベンチマーク実験の結果、事前学習アプローチは、最大6%の絶対F1ポイントの性能向上を実現しました。さらに、我々のモデルは、以前の最先端モデルに対して最大11%のF1で大幅に改善されました。
https://aclanthology.org/2022.acl-long.199/
Identifying Chinese Opinion Expressions with Extremely-Noisy Crowdsourcing Annotations
最近の意見表明識別(OEI)の研究では、手動で構築されたトレーニングコーパスの品質と規模に大きく依存しており、非常に満足するのが非常に困難である。クラウドソーシングは、大規模で品質が保証されていないコーパスを作成することを目的とした、この問題の実用的な解決策の1つである。本研究では、非常にノイズの多いクラウドソーシング注釈を用いて中国語のOEIを調査し、非常に低コストでデータセットを構築する。Zhangら(2021)に従い、すべての注釈をクラウド注釈者のゴールドスタンダードとして扱い、合成専門家(すべての注釈者の混合物)を使用してモデルをテストすることで、注釈者アダプターモデルをトレーニングする。このテスト用の注釈者混合物はトレーニングフェーズで明示的にモデル化されないため、トレーニングとテストを高度に一致させるために、適切なミックスアップ戦略によって合成トレーニングサンプルを生成することを提案する。構築したデータセットでのシミュレーション実験は、クラウドソーシングがOEIに非常に有望であり、提案された注釈者ミックスアップがクラウドソーシングモデリングをさらに強化できることを示している。
https://aclanthology.org/2022.acl-long.200/
Sequence-to-Sequence Knowledge Graph Completion and Question Answering
知識グラフ埋め込み(KGE)モデルは、低次元の埋め込みベクトルを使用して、知識グラフ(KG)の各エンティティと関係を表します。これらの方法は、最近、不完全なKG上のKGリンク予測および質問応答(KGQA)に適用されています。 KGEは通常、グラフ内の各エンティティに対して埋め込みを作成するため、数百万のエンティティを持つ実世界のグラフでは大きなモデルサイズになります。下流のタスクでは、これらの原子エンティティ表現を多段階パイプラインに統合する必要があるため、その有用性が制限されます。私たちは、オフシェルフのエンコーダーデコーダートランスフォーマーモデルが、スケーラブルで多目的なKGEモデルとして機能し、KGリンク予測および不完全なKG質問応答の最新の結果を得ることができることを示します。これは、KGリンク予測をシーケンスツーシーケンスのタスクとして提示し、従来のKGE方法で採用されたトリプルスコアリングアプローチを自己回帰デコーディングに交換することによって実現されます。このようなシンプルで強力な方法により、従来のKGEモデルと比較してモデルサイズを最大98%削減し、推論時間を扱いやすくします。このモデルを不完全なKG上のKGQAタスクでファインチューニングした後、私たちのアプローチは、広範な大規模データセットでベースラインを上回り、広範なハイパーパラメーターチューニングなしで最高の結果を得ました。
https://aclanthology.org/2022.acl-long.201/
Learning to Mediate Disparities Towards Pragmatic Communication
人間のコミュニケーションは協力的なプロセスである。話者は自分の意図を伝えるだけでなく、聞き手の知識背景、個性、身体能力などを考慮して、内容や言語表現を調整する。同様の言語コミュニケーション能力を持つAIエージェントを構築するために、私たちは新しい合理的推論フレームワーク、Pragmatic Rational Speaker(PRS)を提案する。ここでは、話者はスピーカーとリスナーの差異を学習し、スピーチを調整するために、長期記憶システムの上に軽量の差異調整層を作業メモリに追加する。長期記憶を固定することで、PRSは作業メモリを更新するだけで、異なるタイプのリスナーに適応することができる。私たちは、参照ゲームの文脈で異なるタイプのスピーカーとリスナーの差異をシミュレートするデータセットを作成し、フレームワークを検証する。実験結果は、PRSがリスナーが理解できる言語に出力をシフトし、協力的なタスクの結果を大幅に改善し、共同トレーニングよりも効率的に差異を学習できることを示している。
https://aclanthology.org/2022.acl-long.202/
Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
最近の研究では、ファインチューニングされた言語モデル(LM)を使用した密な検索の効果が示されています。しかし、密な検索はトレーニングが難しく、通常は完全なポテンシャルを実現するために重度のエンジニアリングされたファインチューニングパイプラインが必要です。本論文では、密な検索の2つの根本的な問題、すなわちi)トレーニングデータのノイズに対する脆弱性とii)埋め込み空間を堅牢に学習するために大きなバッチが必要であることを特定し、対処します。我々は、最近提案されたCondenserプレトレーニングアーキテクチャを使用し、LMプレトレーニングを通じて情報を密なベクトルに凝縮する方法を学びます。その上、我々はcoCondenserを提案し、無監督のコーパスレベルの対比損失を追加して、パッセージ埋め込み空間をウォームアップします。MS-MARCO、Natural Question、Trivia QAデータセットでの実験では、coCondenserは、拡張、合成、またはフィルタリングなどの重度のデータエンジニアリングや大規模なバッチトレーニングの必要性を除去し、シンプルな小規模バッチのファインチューニングを使用した、重度にエンジニアリングされたシステムであるRocketQAと同等の性能を示します。
https://aclanthology.org/2022.acl-long.203/
Multimodal Dialogue Response Generation
画像を用いた応答は、知的な会話エージェントにとって重要な機能であると認識されています。しかし、既存の研究は、検索ベースの手法に依存する多様な対話モデルの探索に焦点を当てており、生成ベースの手法を無視しています。このギャップを埋めるために、私たちはまず、新しいタスクである多様な対話応答生成(MDRG)を提案します。つまり、対話履歴が与えられた場合、1つのモデルが応答としてテキストシーケンスまたは画像を生成する必要があります。このようなMDRGモデルを学習するには、テキストと画像の両方を含む多様な対話が必要であり、これらは入手が困難です。このような低リソースの状況で、私たちは、限られたトレーニング例しか利用できないという自然な仮定の下でMDRGを考慮します。このような場合、私たちは、Divterという新しい会話エージェントを開発し、多様な対話に依存するパラメータを全体の生成モデルから分離することで、モデルの主要な部分をテキストのみの対話とテキスト-画像のペアそれぞれから学習することができます。そして、限られたトレーニング例を用いて全体のパラメータを適切にフィットすることができます。広範な実験により、私たちの方法が自動評価と人間の評価の両方で最先端の結果を達成し、情報量の多いテキストと高解像度の画像応答を生成できることが示されました。
https://aclanthology.org/2022.acl-long.204/
CAKE: A Scalable Commonsense-Aware Framework For Multi-View Knowledge Graph Completion
知識グラフは、不可避的に未完成のまま多数の事実トリプルを保存しています。従来の知識グラフ補完(KGC)モデルは、貴重な常識的知識を無視し、事実ビューデータに頼ってエンティティ間の欠落したリンクを予測していました。従来の知識グラフ埋め込み(KGE)技術は、無効な負のサンプリングと事実ビューリンク予測の不確実性に苦しんでおり、KGCのパフォーマンスを制限しています。上記の課題に対処するために、我々は新しいスケーラブルなCommonsense-Aware Knowledge Embedding(CAKE)フレームワークを提案し、エンティティ概念を持つ事実トリプルから常識を自動的に抽出します。生成された常識は、効果的な自己監視を補完し、高品質の負のサンプリング(NS)と共通の常識と事実ビューリンク予測を促進します。KGCタスクの実験結果は、当社のフレームワークの組み立てが元のKGEモデルのパフォーマンスを向上させることを示し、提案された常識的なNSモジュールは他のNS技術よりも優れています。さらに、当社の提案されたフレームワークは、さまざまなKGEモデルに簡単に適応でき、予測結果を説明できます。
https://aclanthology.org/2022.acl-long.205/
Confidence Based Bidirectional Global Context Aware Training Framework for Neural Machine Translation
最も優勢なニューラル機械翻訳(NMT)モデルは、左から右への単語の前の文脈に基づいて予測を行うことに制限されています。以前の多くの研究がグローバル情報をNMTモデルに組み込もうと試みてきましたが、効果的に双方向のグローバルコンテキストを利用する方法にはまだ制限があります。本論文では、NMTのための信頼度ベースの双方向グローバルコンテキスト意識(CBBGCA)トレーニングフレームワークを提案します。ここでは、NMTモデルは補助条件付きマスク言語モデル(CMLM)と共に共同でトレーニングされます。トレーニングは2つのステージで構成されています:(1)マルチタスク共同トレーニング;(2)信頼度に基づく知識蒸留。第1ステージでは、エンコーダーパラメータを共有することにより、NMTモデルは双方向のグローバルコンテキストを含むCMLMデコーダーからの信号によって追加的に監視されます。さらに、第2ステージでは、CMLMを教師として使用し、知識蒸留を介してNMTモデルに双方向のグローバルコンテキストを適切に組み込みます。実験結果は、提案されたCBBGCAトレーニングフレームワークが、WMT'14英語-ドイツ語、WMT'19中国語-英語、WMT'14英語-フランス語の3つの大規模な翻訳データセットで、それぞれ+1.02、+1.30、+0.57 BLEUスコアを大幅に改善することを示しています。
https://aclanthology.org/2022.acl-long.206/
BRIO: Bringing Order to Abstractive Summarization
抽象的要約モデルは、理想的なモデルが参照要約にすべての確率質量を割り当てると仮定する決定論的(一点)ターゲット分布を使用して一般的にトレーニングされます。この仮定は、モデルが参照要約から逸脱した複数のシステム生成(候補)要約を比較する必要がある推論中に性能低下を引き起こす可能性があります。この問題に対処するために、我々は、異なる候補要約がその品質に応じて確率質量が割り当てられる非決定論的分布を仮定する新しいトレーニングパラダイムを提案します。我々の方法は、CNN/DailyMail(47.78 ROUGE-1)およびXSum(49.07 ROUGE-1)データセットで新しい最高の結果を達成します。さらに、分析により、我々のモデルが、品質レベルにより相関する候補要約の確率を推定できることも示されています。
https://aclanthology.org/2022.acl-long.207/
Leveraging Relaxed Equilibrium by Lazy Transition for Sequence Modeling
シーケンスモデリングにおいて、特定のトークンは通常、他のトークンよりも曖昧性が少なく、これらのトークンの表現には曖昧性を解消するための修正が少なくて済みます。ただし、TransformerやUT(ユニバーサルトランスフォーマー)などのアテンションベースのモデルの性質を考慮すると、すべてのトークンが同じように深さに向けて処理されます。均衡現象に着想を得て、各トークン表現の反復的な修正の重要性を調整するメカニズムである怠惰な遷移を提案します。怠惰な遷移は、すべてのトークンが深さに向けて均等に処理されないようにするためにUTの上に展開され、LT(怠惰なトランスフォーマー)を構築するために使用されます。最終的に、LTはリラックスした均衡点を中心に振動するように促されます。私たちの実験は、LTが機械翻訳、事前学習、実行学習、およびLAMBADAのいくつかのタスクでベースラインモデルを上回ることを示しています。
https://aclanthology.org/2022.acl-long.208/
FIBER: Fill-in-the-Blanks as a Challenging Video Understanding Evaluation Framework
私たちは、ビデオ理解の評価フレームワークとしてフィルインザブランクを提案し、この評価フレームワークを支援する28,000本のビデオと説明からなる新しいデータセットであるFIBERを紹介します。フィルインザブランクの設定は、ビデオと周囲のテキストが与えられた場合に、ビデオのキャプション内のマスクされた名詞句を予測することによって、モデルのビデオ理解をテストします。FIBERベンチマークは、現在の最先端の言語に基づくビデオ理解タスクの弱点を共有していません。すなわち、(1)複数選択肢を用いたビデオ質問応答では、タスクの形式に言語的なバイアスがあるため、モデルが比較的よく機能するため、現在の最先端のシステムにとって私たちのフレームワークは解決が難しいものとなっています。(2)ビデオキャプションは、オープンエンドの評価フレームワークに依存しており、システムの回答が正解と形式的に異なる場合には、不正確なものと見なされることがあるため、不正確なものとなることがあります。FIBERデータセットと私たちのコードは、https://lit.eecs.umich.edu/fiber/で利用可能です。
https://aclanthology.org/2022.acl-long.209/
KenMeSH: Knowledge-enhanced End-to-end Biomedical Text Labelling
現在、医学分野の記事には手動でMedical Subject Headings(MeSH)が割り当てられ、その後PubMedデータベースに記録され、関連情報の検索を容易にするために使用されています。PubMedデータベースの急速な成長に伴い、大規模なバイオメディカル文書の索引付けがますます重要になっています。MeSHのインデックス付けは、非常に大きな階層的に組織化されたコレクションから各記事に複数のラベルを割り当てる必要があるため、機械学習にとって難しいタスクです。この課題に対処するために、私たちはKenMeSHを提案しました。KenMeSHは、新しいテキスト特徴と動的な知識強化マスクアテンションを組み合わせたエンドツーエンドモデルであり、文書特徴とMeSHラベル階層およびジャーナル相関特徴を統合してMeSH用語をインデックス付けします。実験結果は、提案手法がいくつかの指標で最先端の性能を発揮することを示しています。
https://aclanthology.org/2022.acl-long.210/
A Taxonomy of Empathetic Questions in Social Dialogs
効果的な質問は、成功した会話型チャットボットの重要な要素です。それは、話者の感情に注意を払い、共感を表現することで、相互作用をより魅力的にすることができます。しかし、現在の対話生成アプローチは、社交的な雑談における質問の分類と目的の欠如により、この微妙な感情調整技術をモデル化していません。このギャップを埋めるために、私たちは共感的な質問分類法(EQT)を開発しました。質問のコミュニケーション行為と感情調整意図を捉える能力に特別な注意を払いました。さらに、私たちはクラウドソーシングタスクを設計して、確立されたラベルでEmpatheticDialoguesデータセットの大規模なサブセットを注釈付けしました。私たちは、クラウド注釈付きデータを使用して自動ラベリングツールを開発し、全データセットのラベルを生成しました。最後に、情報可視化技術を使用して、質問行為と意図の共起と相互作用者の感情調整における役割を要約しました。これらの結果は、社交的な対話における重要な質問戦略を明らかにします。EQT分類法は、データセット内の質問の計算的分析を容易にすることができます。さらに重要なことに、ニューラルまたはハイブリッド方法を使用した共感的な質問生成の将来の取り組みに役立つことができます。
https://aclanthology.org/2022.acl-long.211/
Enhanced Multi-Channel Graph Convolutional Network for Aspect Sentiment Triplet Extraction
Aspect Sentiment Triplet Extraction(ASTE)は、新興の感情分析タスクです。既存の研究の多くは、モデルがエンドツーエンドで感情トリプレットを抽出できるようにする新しいタグ付けスキームを考案することに焦点を当てています。しかし、これらの方法はASTEタスクの単語間の関係を無視しています。本論文では、単語間の関係を最大限に活用するために、Enhanced Multi-Channel Graph Convolutional Networkモデル(EMC-GCN)を提案します。具体的には、まずASTEタスクの10種類の関係を定義し、その後、バイアフィンアテンションモジュールを採用して、これらの関係を文中の単語間の隣接テンソルとして埋め込みます。その後、EMC-GCNは、単語と関係の隣接テンソルをそれぞれノードとエッジとして扱い、文をマルチチャネルグラフに変換します。したがって、関係に注意したノード表現を学習できます。さらに、私たちは、私たちのEMC-GCNモデルを強化するために多様な言語的特徴を考慮しています。最後に、私たちは、単語ペア表現の改良のための効果的なEMC-GCN上の精製戦略を設計しました。この戦略は、単語ペアが一致するかどうかを決定する際に、アスペクトとオピニオンの抽出の暗黙的な結果を考慮します。ベンチマークデータセットでの広範な実験結果は、提案されたモデルの有効性と堅牢性を示し、最先端の方法を大幅に上回ります。
https://aclanthology.org/2022.acl-long.212/
ProtoTEx: Explaining Model Decisions with Prototype Tensors
私たちは、プロトタイプネットワーク(Li et al.、2018)に基づく新しいホワイトボックスNLP分類アーキテクチャであるProtoTExを提案します。ProtoTExは、トレーニング例の潜在的なクラスタをエンコードするプロトタイプテンソルに基づいてモデルの決定を忠実に説明します。推論時には、入力テキストとプロトタイプテンソルの間の距離に基づいて分類決定が行われ、最も影響力のあるプロトタイプに最も類似したトレーニング例によって説明されます。また、ProtoTEx示唆的な特徴を持つクラスを効果的に扱う新しい交互トレーニングアルゴリズムについても説明します。プロパガンダ検出タスクでは、ProtoTExの精度はBART-largeに匹敵し、忠実な説明を提供する利点を持つBERT-largeを上回ります。ユーザースタディも、プロトタイプベースの説明がオンラインニュースのプロパガンダをよりよく認識するのに非専門家の助けになることを示しています。
https://aclanthology.org/2022.acl-long.213/
Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data
手順は本質的に階層的です。「ビデオを作る」ためには、「カメラを購入する」必要があり、そのためには「予算を設定する」必要があるかもしれません。このような階層的な知識は、複雑な手順について推論するために重要ですが、既存の多くの研究は、親子関係をモデル化せずに手順を浅い構造として扱っています。本研究では、wikiHowという110,000以上の手順を記述する記事を含むウェブサイトを基に、オープンドメインの手順の階層的な知識ベース(KB)を構築することを試みます。このために、記事内のステップ(例:「カメラを購入する」)を、同じ目標を持つ他の記事(例:「カメラの選び方」)に再帰的にリンクする、シンプルで効率的な方法を開発します。自動評価、人間の判断、教育ビデオの検索などの下流タスクへの適用により、我々の方法はいくつかの強力なベースラインを大幅に上回ります。
https://aclanthology.org/2022.acl-long.214/
Cross-Modal Discrete Representation Learning
近年の高次元表現学習に焦点を当てた最近の進歩とは対照的に、本研究では、視覚的オブジェクトや話された言葉によって表現される概念やイベントなど、異なるモダリティ間でより細かいレベルの粒度を捉える表現を学習できる自己教示学習フレームワークを提案する。我々のフレームワークは、異なるモダリティ間で共有される量子化された埋め込み空間に依存する。共有された埋め込み空間の他に、我々は異なるビュー(モダリティ)からの表現が離散的な埋め込み空間上で似た分布を持つように強制するクロスモーダルコードマッチング目的を提案する。これにより、直接的な監視なしにクロスモーダルオブジェクト/アクションのローカリゼーションが可能になる。提案された離散的なマルチモーダル細粒度表現(例:ピクセル/単語/フレーム)は、高次元の要約表現(例:ビデオ/文/波形)を補完し、クロスモーダル検索タスクの性能を向上させることができることを示す。また、離散的な表現は、異なるモダリティ間で同じ意味的概念を表すために個々のクラスタを使用することが観察された。
https://aclanthology.org/2022.acl-long.215/
Improving Event Representation via Simultaneous Weakly Supervised Contrastive Learning and Clustering
テキストで説明されたイベントの表現は、さまざまなタスクにとって重要です。本研究では、SWCCと呼ばれる、イベント表現学習のための同時弱教師あり対照学習とクラスタリングフレームワークを提案します。SWCCは、イベントの共起情報をより良く活用することによって、イベント表現を学習します。具体的には、複数の正例と複数の負例を考慮できる弱教師あり対照学習法を導入し、意味的に関連するイベントが引き離されるのを防ぐプロトタイプベースのクラスタリング法を導入します。モデルのトレーニングでは、SWCCは同時に弱教師あり対照学習とプロトタイプベースのクラスタリングを実行することによって表現を学習します。実験結果は、SWCCがHard SimilarityとTransitive Sentence Similarityのタスクで他のベースラインを上回ることを示しています。さらに、プロトタイプベースのクラスタリング法の徹底的な分析は、学習されたプロトタイプベクトルが、イベント間のさまざまな関係を暗黙的に捉えることができることを示しています。
https://aclanthology.org/2022.acl-long.216/
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations
私たちは、GPT-2とCLIPの文脈化英語表現の幾何学的および意味的特性を比較することにより、対比的な視覚的意味的事前学習の効果を調べました。CLIPは、GPT-2アーキテクチャを適応して画像キャプションをエンコードするゼロショットのマルチモーダル画像分類器です。私たちは、対比的な視覚的意味的事前学習が、GPT-2の文脈化単語埋め込みに見られる異方性を軽減することを発見しました。CLIPの単語埋め込みの層内自己類似度(平均ペアワイズコサイン類似度)は、すべての層で0.25未満であり、GPT-2のトップ層で0.95以上であることに比べて、有意に低下しています。CLIPの単語埋め込みは、単語レベルの意味的内在評価タスクでGPT-2を上回り、RG65評価において0.88の新しいコーパスベースの最高記録を達成します。CLIPはまた、細かい意味的表現を形成し、ファインチューニングなしでSemEval-2017 Semantic Textual Similarity BenchmarkでSpearmanの𝜌 = 0.73を達成し、GPT-2のどの層でも0.45を超えません。最後に、CLIP文埋め込みの層内自己類似度は、層のインデックスが増加するにつれて減少し、トップ層で0.25になります。一方、EOSトークンを使用して形成されたGPT-2文埋め込みの自己類似度は、層を超えて増加し、0.97未満にはなりません。私たちの結果は、高い異方性が文脈化の必然的な結果ではなく、視覚的意味的事前学習が視覚的表現を整理するだけでなく、言語の有用な意味的表現を単語レベルと文レベルの両方でエンコードするのに役立つことを示しています。
https://aclanthology.org/2022.acl-long.217/
ConTinTin: Continual Learning from Task Instructions
自然言語処理における主流の機械学習パラダイムは、しばしば2つの基本的な前提条件に基づいています。第一に、対象のタスクは事前に定義され、静的であり、システムは単にそれを排他的に解決するために学習する必要があります。第二に、タスクの監視は主にラベル付きの例のセットから来ます。問題が生じます:指示から新しいタスクを継続的に学習するシステムをどのように構築するのでしょうか?本研究では、新しい学習パラダイムConTinTin(タスク指示からの継続的学習)を定義し、システムは1つずつ新しいタスクのシーケンスを学習する必要があります。各タスクはテキスト指示によって説明されます。システムは、(i)指示から学習して新しいタスクの期待される出力を生成し、(ii)上流タスクから獲得した知識を転送して下流タスクを解決するのに役立てる(すなわち、フォワードトランスファー)、および(iii)新しいタスクを学習した後も以前のタスクのパフォーマンスを維持または改善する必要があります(すなわち、バックワードトランスファー)。この新しい問題は、60以上のタスクのストリームで研究され、各タスクには指示が付属しています。技術的には、私たちの方法InstructionSpeakには、タスク指示をフル活用してフォワードトランスファーとバックワードトランスファーを改善する2つの戦略が含まれています。1つは負の出力から学ぶことであり、もう1つは以前のタスクの指示を再訪することです。私たちの知る限り、これはNLPでConTinTinを研究する初めての試みです。問題の定式化と有望なアプローチに加えて、この研究は、この新しい学習問題をよりよく理解するための豊富な分析を提供することにも貢献しています。
https://aclanthology.org/2022.acl-long.218/
Automated Crossword Solving
私たちは、クロスワードパズルを自動的に解くための最新の手法であるバークレークロスワードソルバーを提案する。私たちのシステムは、ニューラル質問応答モデルを使用して、各クロスワードのヒントに対する回答候補を生成し、ルーピー信念伝播とローカルサーチを組み合わせて、完全なパズルの解を見つけることで機能します。既存の手法と比較して、私たちのシステムは、ニューヨークタイムズのクロスワードで正確なパズルの精度を57%から82%に向上させ、テーマのないパズルでは99.9%の文字精度を達成しています。また、私たちのシステムは、人間のクロスワードトーナメントで初めてコンピュータプログラムが人間のパフォーマンスを超えたことを示す、第一位を獲得しました。質問応答とクロスワードの解決に関する研究を促進するために、私たちはシステムの残りのエラーを分析し、600万以上の質問回答ペアのデータセットを公開しています。
https://aclanthology.org/2022.acl-long.219/
Learned Incremental Representations for Parsing
私たちは、文の各単語に単一の離散ラベルを割り当てる増分構文表現を提案します。ラベルは、文の接頭辞を厳密に増分処理して予測され、文のラベルのシーケンスは構文解析木を完全に決定します。私たちの目標は、標準的な表現とは異なり、出力の選択肢を推測的に行い、後で矛盾する解析を破棄する必要があるような標準的な表現とは異なり、入力によって構文的な選択にのみコミットする構文的表現を誘導することです。私たちの学習された表現は、単語あたり5ビットで93.72 F1を達成し、単語あたり8ビットで94.97 F1を達成し、同じ事前学習された埋め込みを使用する場合には他の最新の解析モデルと比較可能です。また、システムによって学習された表現の解釈可能な構文的特徴や、構文的な曖昧さの延期解決のメカニズムなど、システムによって学習された表現の解析も提供します。
https://aclanthology.org/2022.acl-long.220/
Knowledge Enhanced Reflection Generation for Counseling Dialogues
本論文では、知識統合のための検索と生成方法を用いて、カウンセリング会話における応答生成における常識とドメイン知識の影響を研究する。我々は、ウェブマイニングを通じてドメイン知識を収集するパイプラインを提案し、ドメイン固有の知識ベースと常識的な知識ベースの両方からの検索が生成された応答の品質を向上させることを示す。また、COMETによって生成された知識をソフトポジショナルエンコーディングとマスクされた自己注意を用いて組み込んだモデルを提案する。自動メトリックと人間の評価によって測定されたシステムのパフォーマンスの両方が、検索された知識とCOMETによって生成された知識の両方が改善されることを示す。最後に、我々は、当社のシステムによってエンコードされた知識のタイプに関する比較的な研究を行い、因果関係と意図的な関係が他のタイプの常識的な関係よりも生成タスクに有益であることを示す。
https://aclanthology.org/2022.acl-long.221/
Misinfo Reaction Frames: Reasoning about Readers’ Reactions to News Headlines
単純で短いニュース見出しに対しても、読者は認知的(例:筆者の意図を推測する)、感情的(例:不信感を感じる)、行動的(例:友人とニュースを共有する)な反応を示します。このような反応は瞬時に起こりますが、ニュースの事実的な内容を解釈する以上の要因に依存するため、複雑です。本論文では、ニュース見出しに対する読者の反応をモデル化するための実用的な形式化手法である「Misinfo Reaction Frames(MRF)」を提案します。カテゴリー化されたスキーマとは異なり、自由なテキストの次元を使用することで、悪意のあるかどうかを超えた意図をより微妙に理解することができます。また、グローバル危機に焦点を当てた25,000以上のニュース見出しに対する反応のクラウドソーシングデータセットである「Misinfo Reaction Frames corpus」を紹介します。実験結果は、ニューラルモデルが以前に見たことのないニュース見出しに対する読者の反応の主要なパターンを予測することが可能であることを確認しています。さらに、ユーザースタディでは、機械生成されたMRFの含意をニュース見出しと一緒に表示することで、読者の実際のニュースに対する信頼を高め、誤情報に対する信頼を低下させることができることが示されました。本研究は、AIによる誤情報の検出と緩和を強化するために、ニュース見出しに対する実用的な推論の実現可能性と重要性を示しています。
https://aclanthology.org/2022.acl-long.222/
On Continual Model Refinement in Out-of-Distribution Data Streams
現実世界の自然言語処理(NLP)モデルは、カタストロフィックな忘却を克服しながら、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要があります。しかし、既存の継続学習(CL)問題設定では、このような現実的で複雑なシナリオをカバーすることができません。このため、私たちは新しいCL問題の定式化である継続的モデル改善(CMR)を提案します。従来のCL設定に比べ、CMRはより実用的で、ユニークな課題(境界に関係なく、非定常な分布シフト、複数のOODデータクラスターの多様な混合、エラーセントリックなストリームなど)を導入します。私たちは、いくつかの既存のCLアプローチをCMR設定に拡張し、広範な評価を行いました。ベンチマークと分析のために、動的なOODデータストリームを制御可能な非定常性で取得するための一般的なサンプリングアルゴリズムと、オンラインパフォーマンスのさまざまな側面を測定する一連のメトリックを提案します。私たちの実験と詳細な分析は、CMR問題の可能性と課題を明らかにし、動的なOODストリームでのCMRの研究が、展開されたNLPモデルの長期性に役立つことを支持しています。
https://aclanthology.org/2022.acl-long.223/
Achieving Conversational Goals with Unsupervised Post-hoc Knowledge Injection
現在のニューラル対話モデルの制限は、限られたシナリオをカバーし、限られた知識を伝えるトレーニングデータに依存するため、生成された応答に特定性と情報量が欠ける傾向があることです。この問題を緩和する方法の1つは、デコーディング時に外部ソースから関連する知識を抽出し、対話応答に組み込むことです。本論文では、既存の対話モデルからの初期応答と対話履歴の両方に依存する多様な関連知識スニペットを取得し、勾配ベースのデコーディング手法を使用して各スニペットを初期応答に個別に注入し、非監督ランキングステップで最終応答を選択する事後知識注入技術を提案します。目的指向型および知識基盤型の対話設定における実験では、提案手法の出力が従来の対話システムの応答よりも魅力的で情報量が豊富であると人間の注釈者が判断することを示しました。さらに、知識拡張は両方の実験設定で会話の目標の達成に成功することを示しました。
https://aclanthology.org/2022.acl-long.224/
Generated Knowledge Prompting for Commonsense Reasoning
外部知識を組み込むことが、事前学習済みのシーケンスモデルの柔軟性を維持しながら常識的推論に利益をもたらすかどうかは未解決の問題である。この問題を調査するために、我々は生成された知識プロンプティングを開発し、言語モデルから知識を生成し、質問に答える際に追加の入力として知識を提供することで構成される。我々の方法は、知識統合のためのタスク固有の監視や構造化された知識ベースへのアクセスを必要とせず、大規模で最新のモデルの性能を向上させる。NumerSense、CommonsenseQA 2.0、QASCのベンチマークにおいて、最新の結果を達成し、生成された知識プロンプティングは、大規模言語モデルを柔軟な外部知識源として強調する。我々のコードはgithub.com/liujch1998/GKPで利用可能である。
https://aclanthology.org/2022.acl-long.225/
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data
外部知識を導入することで、検索ベースの手法がNLPタスクで効果的であることが示されてきた。しかし、大規模なコーパスのインデックス付けと検索は、かなりの計算コストを要する。驚くべきことに、私たちは、トレーニングデータからのリトリーブ(REINA)だけでも、複数のNLGおよびNLUタスクで重要な利益をもたらすことがわかった。私たちは、入力テキストに最も類似したラベル付きトレーニングインスタンスを取得し、それらを入力に連結してモデルにフィードし、出力を生成する。実験結果は、この単純な方法が、要約、機械翻訳、言語モデリング、および質問応答タスクを含むさまざまなNLUおよびNLGタスクで、有意に優れたパフォーマンスを発揮できることを示している。たとえば、私たちの提案手法は、XSum、BigPatent、およびCommonsenseQAで最先端の結果を達成した。私たちのコードは、https://github.com/microsoft/REINA で公開されています。
https://aclanthology.org/2022.acl-long.226/
Life after BERT: What do Other Muppets Understand about Language?
既存の事前学習済みトランスフォーマー解析は通常、アーキテクチャと事前学習目的の変動を見落とし、一度に1つまたは2つのモデルファミリーに焦点を当てています。本研究では、T5、BART、ALBERTを含む多様な29モデルのoLMpicsベンチマークと心理言語学的プロービングデータセットを利用しています。さらに、自己回帰モデルのoLMpicsゼロショットセットアップを適応し、異なるサイズのGPTネットワークを評価しています。私たちの調査結果は、これらのモデルのいずれも、合成的な質問をゼロショットで解決できないことを示しており、既存の事前学習目的を使用してこのスキルを学習することはできないことを示唆しています。さらに、アーキテクチャ、方向性、データセットのサイズ、および事前学習目的などのグローバルモデルの決定は、モデルの言語能力を予測することができないことがわかりました。
https://aclanthology.org/2022.acl-long.227/
Tailor: Generating and Perturbing Text with Semantic Controls
制御されたテキストの摂動は、モデルの汎化性能を評価および改善するために有用である。しかし、現在の技術は、各ターゲット摂動のためにモデルをトレーニングすることに依存しており、コストがかかり、一般化が困難である。本研究では、意味的に制御されたテキスト生成システムであるTailorを提案する。Tailorは、事前にトレーニングされたseq2seqモデルに基づいて構築され、意味的表現から派生した制御コードに基づいてテキスト出力を生成する。我々は、制御コードを変更するための一連の操作を作成し、これにより生成をターゲット属性に向けることができる。これらの操作は、より高次の操作にさらに組み合わせることができ、柔軟な摂動戦略を可能にする。我々は、これらの摂動の効果を複数のアプリケーションで示す。まず、Tailorを使用して、4つの異なる自然言語処理(NLP)タスクの高品質な対照セットを自動的に作成する。これらの対照セットには、手動で注釈付けされたものと比較して、より少ない誤ったアーティファクトが含まれ、語彙的多様性がある。第二に、Tailorの摂動がデータ拡張を通じてモデルの汎化性能を向上させることを示す。トレーニングデータのわずか約2%を摂動させるだけで、構文ヒューリスティックに依存するNLIチャレンジセットで5.8ポイントの利得が得られる。
https://aclanthology.org/2022.acl-long.228/
TruthfulQA: Measuring How Models Mimic Human Falsehoods
私たちは、言語モデルが質問に対して真実の回答を生成するかどうかを測定するためのベンチマークを提案します。このベンチマークは、健康、法律、金融、政治など38のカテゴリにまたがる817の質問から構成されています。私たちは、誤った信念や誤解により、一部の人間が誤った回答をする可能性がある質問を作成しました。モデルが良い成績を収めるためには、人間のテキストを模倣して学習した誤った回答を生成しない必要があります。私たちは、GPT-3、GPT-Neo/J、GPT-2、T5ベースのモデルをテストしました。最も優れたモデルは58%の質問で真実の回答を生成しましたが、人間のパフォーマンスは94%でした。モデルは多くの誤った回答を生成し、一般的な誤解を模倣する可能性があり、人間を欺く可能性があります。最大のモデルほど真実性が低い傾向がありました。これは、他のNLPタスクとは対照的であり、モデルのサイズが大きくなるほどパフォーマンスが向上するという結果とは異なります。ただし、これは、誤った回答がトレーニング分布から学習された場合に予想される結果です。私たちは、モデルのスケーリングだけでは真実性を向上させるための可能性は少なく、ウェブからのテキスト模倣以外のトレーニング目標を使用した微調整がより有望であると提案します。
https://aclanthology.org/2022.acl-long.229/
Adaptive Testing and Debugging of NLP Models
自然言語処理に関する論文の要約の以下の文章を日本語に翻訳してください: NLPモデルのテストとデバッグに対する現在のアプローチは、非常に変動が大きい人間の創造性と広範な労力に依存するか、非常に制限的なバグのクラスにしか適用されない。我々は、大規模言語モデル(LM)を人間のフィードバックと連携して使用し、ターゲットモデルのバグを自動的に強調するユニットテストを自動的に作成するプロセスであるAdaTestを提案する。このようなバグは、従来のソフトウェア開発に着想を得た反復的なテキスト修正再テストループによって対処されます。専門家と非専門家のユーザー、商用/研究モデルの8つの異なるタスクの実験では、AdaTestは現在のアプローチよりも5-10倍効果的にバグを見つけることができ、ユーザーが新しいバグを追加することなくバグを効果的に修正するのを支援します。
https://aclanthology.org/2022.acl-long.230/
Right for the Right Reason: Evidence Extraction for Trustworthy Tabular Reasoning
構造化表形式のデータに適用される事前学習済みの文脈依存埋め込みベースのモデルは、優れた性能を発揮する。しかし、最近の調査研究により、これらのモデルは偽の証拠に焦点を当てたり、それを無視したりすることで、誤った推論ラベルを予測することがわかった。この問題を研究するために、我々は「信頼できる表形式推論」というタスクを導入し、モデルが推論に使用するための証拠を抽出する必要がある。事例研究として、2段階の連続予測アプローチを提案し、証拠抽出と推論の段階を含む。最初に、InfoTabSという表形式NLIベンチマークのために、証拠行ラベルをクラウドソーシングし、いくつかの教師なしおよび教師ありの証拠抽出戦略を開発する。我々の証拠抽出戦略は、以前のベースラインを上回る性能を発揮する。自動的に抽出された証拠のみを前提として使用し、下流の表形式推論タスクでは、我々のアプローチが以前のベンチマークを上回る性能を発揮する。
https://aclanthology.org/2022.acl-long.231/
Interactive Word Completion for Plains Cree
豊かな語形変化言語における豊富な語彙の構成は、識字能力を発展させる言語学習者にとって課題となる。そのため、LaneとBird(2020)は、複雑な単語の段階的な構築のために、言語の接頭辞を次の形態素境界までの可能な完了形のセットにマッピングする有限状態アプローチを提案した。本研究では、平原クリー語(nêhiyawêwin)の有限状態形態素解析器に基づく形態素ベースの自動補完アプローチを開発し、この概念の移植性を示す。さらに、形態素自動補完の出力に対して、さまざまな新しいランキング戦略を提案し比較する。最良の重み付けスキームは、64.9%のクエリで目標完了形を上位10件にランク付けし、73.9%のクエリで上位50件にランク付けする。
https://aclanthology.org/2022.acl-long.232/
LAGr: Label Aligned Graphs for Better Systematic Generalization in Semantic Parsing
意味解析は、自然言語文を構造化された意味表現に変換するタスクである。最近の研究では、一般的に使用されるシーケンス・トゥ・シーケンス(seq2seq)の意味解析器は、既知の知識を新しい状況で再結合する必要がある例を処理するのに苦労することが指摘されている。本研究では、意味表現をシーケンスではなくグラフとして直接生成することで、より良い系統的な汎化が実現できることを示す。このために、完全に多層の入力に整列したグラフのノードとエッジのラベルを独立して予測することにより、LAGr(Label Aligned Graphs)という一般的なフレームワークを提案する。強く監視されたLAGrアルゴリズムは、整列したグラフを入力として必要とする一方、弱く監視されたLAGrは、元々整列されていないターゲットグラフに対して近似最大事後推定推論を使用して整列を推論する。実験では、LAGrが強く監視された設定と弱く監視された設定の両方で、基準となるseq2seq解析器に比べて系統的な汎化において有意な改善を達成することが示された。
https://aclanthology.org/2022.acl-long.233/
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection
有害言語検出システムは、オンラインでの憎悪の対象となる少数派グループの言及を含むテキストを誤って有害としてフラグ付けすることがよくあります。このような虚偽の相関に過度に依存することは、暗黙的に有害な言語を検出するのにも問題を引き起こします。これらの問題を緩和するために、我々はToxiGenという新しい大規模かつ機械生成されたデータセットを作成しました。このデータセットは、13の少数派グループに関する274kの有害な声明と無害な声明を含んでいます。我々は、デモベースのプロンプティングフレームワークと、大規模な事前学習言語モデルを用いた敵対的な分類器インループデコーディング方法を開発しました。このように機械生成を制御することで、ToxiGenは、以前の人間によるテキストリソースよりも、より多くの人口集団について、暗黙的に有害なテキストをより大規模にカバーすることができます。我々はToxiGenの難しいサブセットについて人間の評価を行い、アノテーターが機械生成されたテキストと人間による言語を区別するのに苦労することを発見しました。また、94.5%の有害な例が人間のアノテーターによって憎悪の言葉としてラベル付けされることを発見しました。我々は、3つの公開データセットを用いて、我々のデータを用いた有害性分類器の微調整が、人間によるテキストデータの性能を大幅に向上させることを示しました。また、ToxiGenが機械生成された有害性と戦うために使用できることを示し、微調整が評価サブセットで分類器の性能を大幅に向上させることを示しました。
https://aclanthology.org/2022.acl-long.234/
Direct Speech-to-Speech Translation With Discrete Units
私たちは、中間テキスト生成に頼らずに、ある言語の音声を別の言語の音声に直接翻訳する直接音声対音声翻訳(S2ST)モデルを提案します。私たちは、まず、ターゲット音声に自己教師ありの離散音声エンコーダを適用し、その後、シーケンス対シーケンス音声対ユニット翻訳(S2UT)モデルをトレーニングして、ターゲット音声の離散表現を予測します。ターゲットのテキストトランスクリプトが利用可能な場合、私たちは、モデルが同時にデュアルモダリティ出力(音声とテキスト)を同じ推論パスで生成できるようにする共同音声とテキストトレーニングフレームワークを設計します。Fisher Spanish-Englishデータセットでの実験では、提案されたフレームワークは、スペクトログラム特徴を予測するベースラインの直接S2STモデルと比較して、6.7 BLEUの改善をもたらします。テキストトランスクリプトなしでトレーニングされた場合、私たちのモデルの性能は、スペクトログラムを予測し、テキスト監視でトレーニングされたモデルと同等であり、書かれていない言語間の翻訳のための私たちのシステムの可能性を示しています。
https://aclanthology.org/2022.acl-long.235/
Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization
最先端の要約システムはしばしば幻覚を生成する。つまり、ソーステキストから直接推論できない内容である。これらの幻覚は誤りとされているが、我々は多くの幻覚が世界知識と一致していることを発見した。我々はこれらの事実的な幻覚を要約に含めることが有益であると考えている。本研究では、事実的な幻覚と非事実的な幻覚を区別する新しい検出手法を提案する。我々の手法は、事前にトレーニングされたマスク言語モデルとファインチューニングされたマスク言語モデルに基づくエンティティの事前確率と事後確率に基づいている。実験結果は、我々の手法が正確性とF1スコアの両方で2つのベースラインを大幅に上回り、事実性分類タスクにおける人間の判断と強い相関関係があることを示している。さらに、我々はこの手法を報酬信号として使用し、オフライン強化学習アルゴリズムを用いて要約システムをトレーニングすることで、生成された要約の事実性を大幅に向上させながら、抽象度を維持することができる。
https://aclanthology.org/2022.acl-long.236/
EntSUM: A Data Set for Entity-Centric Extractive Summarization
制御可能な要約は、ユーザーが指定した側面や好みを考慮して要約を提供し、文書の単一の一般的な要約を構築する標準的な要約設定とは異なり、情報ニーズをよりよく支援することを目的としています。我々は、名前付きエンティティを制御する側面に焦点を当てた制御可能な要約のための人間注釈付きデータセットEntSUMを紹介します。我々は、エンティティ中心の要約のタスクを促進するために広範な定量的分析を実施し、制御可能な要約の既存の方法がエンティティ中心の要約を生成できないことを示します。我々は、最先端の要約手法の拡張を提案し、当社のデータセットで大幅に改善された結果を達成します。我々の分析と結果は、このタスクと提案されたデータセットの挑戦的な性質を示しています。
https://aclanthology.org/2022.acl-long.237/
Sentence-level Privacy for Document Embeddings
ユーザーの言語データには、非常に個人的な内容が含まれる可能性があります。そのため、ユーザーのデータから学習する際には、強力で解釈可能なプライバシー保証を提供することが不可欠です。本研究では、単一ユーザードキュメントの文レベルでの純粋なローカル差分プライバシーであるSentDPを提案します。我々は、頑健な統計と言語モデリングの概念を組み合わせた新しい技術であるDeepCandidateを提案し、高次元(768次元)、一般的な𝜖-SentDPドキュメント埋め込みを生成します。これにより、ドキュメント内の任意の単一の文を他の文で置き換えても、埋め込みが𝜖-区別できるようになります。私たちの実験は、これらのプライベートドキュメント埋め込みが、感情分析やトピック分類などの下流タスクに有用であり、単語レベルのメトリックDPなどの弱い保証を持つベースライン方法を上回ることを示しています。
https://aclanthology.org/2022.acl-long.238/
Dataset Geography: Mapping Language Data to Language Users
自然言語処理(NLP)システムの言語多様性とカバレッジを拡大するための取り組みが増える中、言語技術がますます普及しています。現代のNLPシステムの品質に最も影響を与えると言えるのは、データの入手可能性です。本研究では、NLPデータセットの地理的代表性を調査し、言語話者の期待にどの程度合致しているかを定量化することを目的としています。そのために、エンティティ認識とリンキングシステムを使用し、クロスリンガルな一貫性について重要な観察を行い、より堅牢な評価のための提言を行います。最後に、観察されたデータセットの分布を説明する地理的および経済的要因についても探究します。
https://aclanthology.org/2022.acl-long.239/
ILDAE: Instance-Level Difficulty Analysis of Evaluation Data
問題の難易度を知ることは、教師にとっていくつかの方法で役立ちます。例えば、慎重に選択された問題を使って生徒の潜在能力を素早く推定し、些細な問題や難しい問題を修正することで試験の質を向上させることができます。自然言語処理においても、このようなインスタンスの難易度の利点を抽出することは可能でしょうか?そのために、23のデータセットを対象に評価データのインスタンスレベルの難易度分析(ILDAE)を実施し、5つの新しい応用例を示します。1)より少ないインスタンスで効率的かつ正確な評価を実施し、計算コストと時間を節約する、2)誤った問題や些細な問題を修正することで既存の評価データセットの質を向上させる、3)アプリケーション要件に基づいて最適なモデルを選択する、4)将来のデータ作成のためのデータセットの特性を分析する、5)ドメイン外のパフォーマンスを信頼性高く推定する。これらの応用例に対する包括的な実験により、興味深い結果が得られました。例えば、ILDAEによって選択されたわずか5%のインスタンスを使用した評価は、完全なデータセットを使用した評価と同等の0.93のKendall相関を達成し、難易度スコアを使用した重み付き精度の計算は、ドメイン外のパフォーマンスと5.2%高い相関を示しました。私たちは難易度スコアを公開し、私たちの研究が評価におけるインスタンスの難易度を活用する重要でまだ研究されていない分野における研究を促進することを望んでいます。
https://aclanthology.org/2022.acl-long.240/
Image Retrieval from Contextual Descriptions
言語的な発話の意味を基盤とするために、知覚的および時間的な手がかりを含む文脈を統合する能力は重要な役割を果たす。現在のビジョン・ランゲージ・モデルがこの能力をどの程度習得しているかを測定するために、私たちは新しいマルチモーダルな課題、コンテキスト記述からの画像検索(ImageCoDe)を考案した。特に、モデルは、文脈的な説明に基づいて、10個の最小限の対比的な候補の中から正しい画像を取得するように課題を与えられます。そのため、各説明には、画像を区別するのに役立つ詳細のみが含まれます。そのため、説明は構文と談話の面で複雑であり、実用的な推論を必要とします。画像は、静止画と動画フレームの両方から取得されます。私たちは、ViLBERTなどのクロスエンコーダとCLIPなどのバイエンコーダを含むいくつかの最先端のモデルをImageCoDeでベンチマークしました。私たちの結果は、これらのモデルが人間のパフォーマンスに比べて著しく遅れていることを明らかにしました。最高のバリアントは、静止画では59.4、動画フレームでは20.9の精度を達成しましたが、人間の場合は90.8です。さらに、視覚的および時間的な文脈を表現に組み込むためにより適した新しいモデルバリアントを実験し、わずかな利益を得ました。私たちの希望は、ImageCoDEがモデルが細かい視覚的な違いに焦点を当てるように促進することによって、基盤となる言語理解の進歩を促進することです。
https://aclanthology.org/2022.acl-long.241/
Multilingual Molecular Representation Learning via Contrastive Pre-training
分子表現学習は、化学情報学において重要な役割を果たしています。最近、言語モデルベースのアプローチが、分子をエンコードするための従来の専門家による設計された特徴量の代替手段として人気を集めています。しかし、これらのアプローチは表現学習に単一の分子言語しか利用していません。Simplified Molecular Line Entry System(SMILES)、The International Union of Pure and Applied Chemistry(IUPAC)、The IUPAC International Chemical Identifier(InChI)など、与えられた分子は異なる言語で記述されることができるという事実に着想を得て、我々はMM-Deacon(multilingual molecular domain embedding analysis via contrastive learning)と呼ばれる多言語分子埋め込み生成アプローチを提案します。MM-Deaconは、大規模な分子に対して、SMILESとIUPACの2つの異なる言語を使用して事前学習されます。我々は、MoleculeNetベンチマークからの7つの分子特性予測タスク、ゼロショットクロスリンガル検索、および薬物間相互作用予測タスクにおける我々の手法の堅牢性を評価しました。
https://aclanthology.org/2022.acl-long.242/
Investigating Failures of Automatic Translationin the Case of Unambiguous Gender
トランスフォーマーベースのモデルは、複数のベンチマークで最先端に到達し、ニューラル機械翻訳(NMT)の現代的な作業馬です。彼らの印象的な精度にもかかわらず、私たちは、名詞に性別を示さない言語から性別を示す言語に翻訳する際に、現在の最先端のNMTモデルが犯す系統的で初歩的なエラーのクラスを観察します。周囲の文脈が適切な文法的性別マーキングの明確な証拠を提供している場合でも、どのテストされたモデルも職業名詞の性別を正確にシステム的に決定することができませんでした。私たちは、構文的に多様な文の明確な文脈で性別形態を正しく翻訳するNMTモデルの能力を測定するための評価スキームとデータセットを公開します。私たちのデータセットは、英語のソースから、異なる言語ファミリーからの20の言語に翻訳されます。このデータセットが利用可能になることで、私たちの希望は、特にひどいエラーのこのクラスの解決策に反復することができるNMTコミュニティです。
https://aclanthology.org/2022.acl-long.243/
Cross-Task Generalization via Natural Language Crowdsourcing Instructions
人間(例えば、クラウドワーカー)は、単にそれらを定義するテキスト指示を読み、いくつかの例を見ることで、さまざまなタスクを解決する驚くべき能力を持っています。個々のデータセットにおける従来の教師あり学習の成功にもかかわらず、このようなモデルはしばしばタスク間の汎化に苦労します(例えば、質問応答システムは分類タスクを解決できません)。AIにおける長年の課題は、それを定義する人間可読の指示を理解することによって新しいタスクを学習するモデルを構築することです。このために、私たちはNATURAL INSTRUCTIONSというデータセットを導入しました。このデータセットには、61の異なるタスク、それらの人間による指示、および193kのタスクインスタンス(入出力ペア)が含まれています。指示は、既存のNLPデータセットを作成するために使用された指示をクラウドソーシングから取得し、統一されたスキーマにマッピングされます。このメタデータセットを使用して、私たちは、見たタスクでモデルをトレーニングし、残りの見えないタスクへの汎化を測定することによって、タスク間の汎化を測定します。私たちは、生成的事前学習言語モデルを採用して、タスク固有の指示を入力とともにエンコードし、タスク出力を生成します。私たちの結果は、指示を利用するモデルの汎化に関して評価すると、指示から19%の改善が見られることを示しています。しかし、これらのモデルは、推定されるパフォーマンスの上限には遠く及ばず、この方向性においてより多くの進歩の余地があることを示しています。
https://aclanthology.org/2022.acl-long.244/
Imputing Out-of-Vocabulary Embeddings with LOVE Makes LanguageModels Robust with Little Cost
最新のNLPシステムは、入力を単語埋め込みで表現しますが、これらはOut-of-Vocabulary(OOV)単語に直面すると脆弱です。この問題に対処するために、私たちは、事前学習された埋め込みの振る舞いを表面形式の単語のみを使用して学習することにより、未知の単語のベクトルを生成するミミックライクモデルの原則に従います。私たちは、既存の事前学習言語モデル(例えばBERT)の単語表現を拡張し、わずかな追加パラメータでOOVに堅牢にする、シンプルな対比学習フレームワークLOVEを提供します。広範な評価により、私たちの軽量モデルが、元のデータセットと破損したバリアントの両方で、先行競合モデルと同等またはより優れた性能を発揮することが示されています。さらに、FastTextやBERTとプラグアンドプレイで使用でき、その堅牢性を大幅に向上させます。
https://aclanthology.org/2022.acl-long.245/
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks
テキスト中に数字が普遍的に存在するため、数値を理解して簡単な計算を行うことはAIシステムにとって重要なスキルである。多くのデータセットやモデルが開発されてきたが、最新のAIシステムは脆弱であり、少し異なるシナリオで現れた場合に基本的な数学的推論を行うことができない。自然言語理解の文脈で提案されたGLUEに着想を得て、NumGLUEを提案する。NumGLUEは、8つの異なるタスクでAIシステムのパフォーマンスを評価するマルチタスクベンチマークであり、これらのタスクはすべて、基本的な算術理解を必要とする。我々は、このベンチマークがニューラルモデルによって解決されていないことを示し、特に最新の大規模言語モデルは人間よりも低い(46.4%低い)パフォーマンスを示す。さらに、NumGLUEは、トレーニングデータが限られているタスクにおいて、タスクごとのモデリングに対して、すべてのタスクを共同でトレーニングすることで優れたパフォーマンスを発揮することを示す。最後に、NumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進し、より複雑な数学的推論を行うための第一歩となることを期待している。
https://aclanthology.org/2022.acl-long.246/
Upstream Mitigation Is Not All You Need: Testing the Bias Transfer Hypothesis in Pre-Trained Language Models
多くの機械学習システムは、大規模で均質な事前学習モデルに基づいており、これらのモデルにはしばしばインターネットから学習した有害なステレオタイプが含まれています。本研究では、社会的バイアス(ステレオタイプなど)が大規模言語モデルに内在化され、微調整後に有害なタスク固有の振る舞いに転移するというバイアス転移仮説を調査します。2つの分類タスクについて、微調整前に制御された介入による固有バイアスの低減は、微調整後の分類器の差別的な振る舞いを軽減するのにほとんど役立たないことがわかりました。回帰分析によると、下流の不均衡は、微調整データセットのバイアスによってよりよく説明されます。それでも、事前学習は役割を果たします。微調整データセットの共起率を単純に変更しても、モデルが事前学習されている場合は効果がありません。本研究の結果は、実践者がデータセットの品質とコンテキスト固有の害をより重視することを奨励しています。
https://aclanthology.org/2022.acl-long.247/
Improving Multi-label Malevolence Detection in Dialogues through Multi-faceted Label Correlation Enhancement
対話応答が否定的な感情、不適切な行動、または倫理的でない価値基盤に基づいている場合、それは悪意のあるものとされる。悪意のある対話応答の検出は、ますます注目を集めている。現在の対話悪意の検出に関する研究には、データセットと方法の面で制限がある。まず、悪意に関連する利用可能な対話データセットは、単一のカテゴリでラベル付けされているが、実際には、一部の悪意のある発言は複数のラベルに属するため、各発言に単一のカテゴリを割り当てることは適切ではない場合がある。第二に、現在の対話悪意の検出方法は、ラベルの相関を無視している。したがって、我々は、多ラベル対話悪意検出のタスクを提案し、評価のために多ラベルデータセット、多ラベル対話悪意検出(MDMD)をクラウドソース化する。また、2つのラベル相関メカニズム、タクソノミー内のラベル相関(LCT)と文脈内のラベル相関(LCC)を持つ多面的ラベル相関強化CRF(MCRF)の多ラベル悪意検出モデルを提案する。MDMD上の実験では、我々の方法が最高のベースラインを大幅に上回り、精度、再現率、F1、およびJaccardスコアにおいてそれぞれ16.1%、11.9%、12.0%、および6.1%の向上が見られた。
https://aclanthology.org/2022.acl-long.248/
How Do We Answer Complex Questions: Discourse Structure of Long-form Answers
複数の文から成る長い回答は、より広範な質問に対して微妙で包括的な回答を提供することができます。この複雑で研究されていないタスクをよりよく理解するために、ELI5、WebGPT、Natural Questionsの3つのデータセットから収集された長い回答の機能的構造を研究します。私たちの主な目標は、人間が情報を整理して複雑な回答を作り出す方法を理解することです。私たちは、長い回答の6つの文レベルの機能的役割のオントロジーを開発し、640の回答段落の3.9kの文を注釈付けします。異なる回答収集方法は、異なる談話構造を示します。さらに、モデル生成の回答を分析し、注釈付けされた人間による回答と比較して、注釈付け者が互いに合意しないことを発見します。私たちの注釈付きデータは、自動分析に使用できる強力な分類器のトレーニングを可能にします。私たちの研究が、談話レベルのモデリングと長いQAシステムの評価に関する将来の研究をインスパイアすることを願っています。
https://aclanthology.org/2022.acl-long.249/
Understanding Iterative Revision from Human-Written Text
文章を書くことは、本質的に戦略的で適応的であり、何よりも反復的なプロセスです。文章を書く上で重要なのは、編集や修正です。これまでのテキスト修正に関する研究は、単一のドメイン内で編集意図のタクソノミーを定義することや、文レベルの編集など、人間の修正サイクルと異なる単一の編集粒度で計算モデルを開発することに焦点を当ててきました。本研究では、IteraTeRという、複数のドメインにわたる反復的に修正されたテキストの大規模な編集意図注釈付きコーパスを初めて提案します。特に、IteraTeRは、さまざまなドメイン、編集意図、修正の深さ、粒度に汎用的に適用できる新しいフレームワークに基づいて収集されています。注釈付きの編集意図を組み込むことで、生成的およびアクションベースのテキスト修正モデルは自動評価を大幅に改善します。本研究により、テキスト修正プロセスをより理解し、編集意図と文章の品質の重要な関係を明らかにし、反復的なテキスト修正の計算モデリングをサポートする多様なコーパスの作成が可能になります。
https://aclanthology.org/2022.acl-long.250/
Making Transformers Solve Compositional Tasks
多くのNLPタスク(意味解析など)において重要な一般化の一種である合成的一般化を汎化することがTransformerモデルの能力不足と報告されている。本論文では、Transformerモデルの設計空間を探索し、いくつかの設計決定によってモデルに与えられる帰納的なバイアスが合成的一般化に重要な影響を与えることを示す。我々は、多くの合成的タスクにおいて、以前の文献で報告されたよりも合成的に一般化するTransformer構成を特定した。我々は、意味解析の合成的一般化ベンチマーク(COGS)と文字列編集操作の合成ベンチマーク(PCFG)において、最先端の結果を達成した。
https://aclanthology.org/2022.acl-long.251/
Can Transformer be Too Compositional? Analysing Idiom Processing in Neural Machine Translation
直接的な表現とは異なり、慣用句の意味はその部分から直接的には導かれず、ニューラル機械翻訳(NMT)にとって課題となっています。NMTモデルは、しばしば慣用句を正確に翻訳できず、構成的で直接的な翻訳を過剰に生成します。本研究では、英語をソース言語とし、7つのヨーロッパ言語のいずれかをターゲット言語とするモデルの隠れ層とアテンションパターンを分析することで、慣用句の非構成性が主流のNMTモデルであるTransformerのメカニズムに反映されるかどうかを調査しました。Transformerが非直接的な翻訳を出力する場合、エンコーダーは慣用句を単一の語彙単位としてより強く処理します。これは、アテンションによって慣用句の部分がグループ化され、慣用句とその文脈との相互作用が減少することで現れます。デコーダーのクロスアテンションでは、比喩的な入力により、ソース側のトークンに対するアテンションが減少します。これらの結果から、Transformerが慣用句を構成的な表現として処理する傾向が、慣用句の直接的な翻訳に寄与していることが示唆されます。
https://aclanthology.org/2022.acl-long.252/
ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers
私たちは、条件付きの答えがある複雑な質問を含むQuestion Answering(QA)データセットであるConditionalQAを説明します。つまり、答えは特定の条件が適用される場合にのみ適用されます。このデータセットには、以下の特徴もあります:(1)論理的に複雑な関連情報を持つ長いコンテキスト文書、(2)合成的な論理推論が必要なマルチホップ質問、(3)抽出質問、はい/いいえ質問、複数の答えがある質問、答えられない質問の組み合わせ、(4)答えを知らないまま質問をする質問。私たちは、ConditionalQAが既存のQAモデルにとって特に答えの条件を選択することが難しいことを示しました。私たちは、このデータセットが長い文書に対する複雑な質問に答えるためのさらなる研究を促進すると信じています。
https://aclanthology.org/2022.acl-long.253/
Prompt-free and Efficient Few-shot Learning with Language Models
プリトレーニングされたマスクされた言語モデル(PLM)の少数ショットのファインチューニングの現在の方法は、各新しいタスクに対して例をクローズ形式に変換してPLMがスコアリングできるようにするために、注意深く設計されたプロンプトとバーバライザが必要です。本研究では、手作業に頼らずにPLMの少数ショットのファインチューニングを行うためのシンプルで効率的な方法であるPerfectを提案します。Perfectは、32個のデータポイントで高い効果を発揮することができます。Perfectは、2つの主要な設計選択を行います。まず、手動で設計されたタスクプロンプトをタスク固有のアダプタで置き換えることができることを示し、サンプル効率のファインチューニングを可能にし、メモリとストレージコストをそれぞれ約5倍と100倍削減します。第二に、手作業で作成されたバーバライザの代わりに、ファインチューニング中に新しいマルチトークンラベル埋め込みを学習し、モデルの語彙に結び付けられていないため、複雑な自己回帰デコーディングを回避することができます。これらの埋め込みは、限られたデータから学習可能であり、トレーニングと推論をほぼ100倍高速化することができます。さまざまな少数ショットNLPタスクでの実験により、Perfectは、シンプルで効率的でありながら、既存の最先端の少数ショット学習方法を上回ることが示されました。私たちのコードは、https://github.com/rabeehk/perfectで公開されています。
https://aclanthology.org/2022.acl-long.254/
Continual Sequence Generation with Adaptive Compositional Modules
現実世界での展開において、古いタスクの知識を忘れることなく、新しいタスクにモデルを素早く適応させる必要がある場合、継続的な学習は不可欠である。継続的なシーケンス生成に関する既存の研究は、新しいタスクを学習するために常に既存のパラメータを再利用するか、類似しないタスクに対しては大規模な忘却を引き起こす脆弱性があるか、または新しいタスクごとに新しいパラメータを盲目的に追加するか、類似するタスク間での知識共有を防ぐ可能性がある。両方の利点を得るために、本研究では、適応的な構成モジュールを使用した継続的なシーケンス生成を提案し、トランスフォーマーアーキテクチャにモジュールを適応的に追加し、新しいタスクのために古いモジュールと新しいモジュールを組み合わせます。また、共有されたモジュールでの知識転送を促進するために、疑似経験再生を組み込みます。様々な生成タスクのシーケンスでの実験結果は、タスクの類似性に基づいてモジュールを適応的に追加または再利用し、パフォーマンスとパラメータ効率の両方の面で最先端のベースラインを上回ることを示しています。コードはhttps://github.com/GT-SALT/Adaptive-Compositional-Modulesで公開しています。
https://aclanthology.org/2022.acl-long.255/
An Investigation of the (In)effectiveness of Counterfactually Augmented Data
事前学習済み言語モデルは、自然言語理解のベンチマークで優れた性能を発揮する一方、偶発的な相関に依存し、分布外データに対して一般化が不十分である傾向がある。最近の研究では、事実に反するデータ(CAD)を使用して、最小限の変更を加えて正解ラベルを反転させたデータを生成し、分布シフトに対して不変な堅牢な特徴を特定することが探求されている。しかし、CADをトレーニング中に使用してOOD汎化を行う実証結果は混合している。本論文では、玩具理論例と2つのクラウドソーシングCADデータセットの実証分析を通じて、以下のことを示す:(a)CADで変更された特徴は確かに堅牢な特徴であるが、変更されていない堅牢な特徴を学習することを妨げる可能性があること、(b)CADはデータ内の既存の偶発的な相関を悪化させる可能性があること。したがって、変更の多様性の欠如がCADのOOD汎化に対する効果を制限しており、多様な例の変更を引き出すための革新的なクラウドソーシング手順が必要であることが示された。
https://aclanthology.org/2022.acl-long.256/
Inducing Positive Perspectives with Text Reframing
感情転移は、テキストスタイル転移の一つの人気のある例であり、その目的はテキストの感情極性を反転させることです。感情の反転には意味の反転も伴います。私たちは、異なるが関連するタスクであるポジティブリフレーミングを紹介します。このタスクでは、原意に矛盾しないように、ネガティブな視点を中立化し、著者のよりポジティブな視点を生成します。意味の保存にこだわることで、ポジティブリフレーミングは、難解で意味的に豊かなタスクとなります。迅速な進展を促進するために、私たちは、8,349の文のペアと12,755の構造化された注釈を備えた大規模なベンチマーク、Positive Psychology Framesを紹介します。このベンチマークは、6つの理論的に動機付けられたリフレーミング戦略に基づいて、ポジティブリフレーミングを説明します。次に、最新のテキストスタイル転移モデルのセットを評価し、今後の課題と方向性について議論して結論を導きます。
https://aclanthology.org/2022.acl-long.257/
VALUE: Understanding Dialect Disparity in NLU
英語の自然言語理解(NLU)システムは、GLUEやSuperGLUEなどのベンチマークで、偉大な性能を発揮し、人間を上回ることさえあります。しかし、これらのベンチマークには、教科書的な標準アメリカ英語(SAE)しか含まれていません。そのため、NLPコミュニティでは他の方言がほとんど無視されており、特定の人口にしか役立たない偏ったNLUシステムが生まれています。現在のモデルの格差を理解し、より方言に適したNLUシステムを促進するために、私たちはVernAcular Language Understanding Evaluation(VALUE)ベンチマークを導入しました。これは、一連の語彙的および形態論的変換ルールで作成したGLUEの難しいバリアントです。この初期リリース(V.1)では、アフリカ系アメリカ人の方言英語(AAVE)の11の特徴についてルールを構築し、言語的受容性判断による参加型設計方法で流暢なAAVE話者を募集し、各特徴変換を検証しました。実験により、これらの新しい方言的特徴がモデルの性能低下につながることが示されました。
https://aclanthology.org/2022.acl-long.258/
From the Detection of Toxic Spans in Online Discussions to the Analysis of Toxic-to-Civil Transfer
私たちは、テキストが有害であるスパンを検出するタスクである「有害スパン検出」を研究しています。このようなスパンを検出することが可能な場合に、そのスパンを検出することに関心があります。私たちは、このタスクのためのデータセットである「ToxicSpans」を公開しました。いくつかの方法を実験することで、シーケンスラベリングモデルが最も優れていることを示しましたが、投稿が有害かどうかを予測するためにトレーニングされた分類器の上に一般的な理由抽出メカニズムを追加する方法も驚くほど有望です。最後に、ToxicSpansとそれにトレーニングされたシステムを使用して、最新の有害から非有害への転送システム、および後者のタスクにおける人間のパフォーマンスのさらなる分析を提供します。私たちの研究は、より細かい有害性の検出と緩和における課題を強調しています。
https://aclanthology.org/2022.acl-long.259/
FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction
シーケンスモデリングは、自然言語やドキュメント理解のタスクにおいて最先端のパフォーマンスを示しています。しかし、フォームのようなドキュメントのトークンを正しくシリアル化することは、レイアウトパターンの多様性のために実践的には困難です。本研究では、フォームのサブオプティマルなシリアル化を緩和するための構造感知シーケンスモデルであるFormNetを提案します。まず、Rich Attentionを設計し、フォーム内のトークン間の空間的な関係を活用してより正確なアテンションスコアの計算を行います。次に、グラフ畳み込みを介して隣接するトークンからの埋め込み表現を使用して、各単語のためのSuper-Tokensを構築します。FormNetは、シリアル化中に失われた可能性のあるローカルな構文情報を明示的に回復します。実験では、FormNetはよりコンパクトなモデルサイズと少ない事前学習データで既存の方法を上回り、CORD、FUNSD、Paymentのベンチマークで新たな最先端のパフォーマンスを確立しました。
https://aclanthology.org/2022.acl-long.260/
The Moral Integrity Corpus: A Benchmark for Ethical Dialogue Systems
会話エージェントは、オープンドメインの対話設定において、人間の能力にますます近づいてきています。しかし、そのようなモデルは、無神経で傷つける、または完全に不明瞭な視点を反映することがあり、ユーザーのシステムの道徳的誠実性への信頼を侵食する可能性があります。道徳的逸脱は、道徳的判断が普遍的ではなく、同時に状況に適用される複数の競合する判断があるため、緩和するのが困難です。本研究では、道徳的曖昧さを権威的に解決するためではなく、対話システムの発話に反映される直感、価値観、道徳的判断を体系的に理解するための新しいリソースを紹介します。Moral Integrity Corpus(MIC)は、38kのプロンプト-リプライペアの道徳的な仮定を99kの異なるルールオブサム(RoTs)を使用して捉えるこのようなリソースです。各RoTは、チャットボットの返信が受け入れられるか問題があるかを説明する特定の道徳的信念を反映しています。さらに、RoTを9つの道徳的および社会的属性のセットで整理し、属性分類のベンチマークパフォーマンスを評価します。最も重要なことは、現在のニューラル言語モデルが、以前に見たことのない相互作用を合理的に説明する新しいRoTを自動的に生成できることを示しましたが、特定のシナリオにはまだ苦戦しています。私たちの調査結果は、MICが、対話エージェントの誠実性を柔軟にベンチマークし、言語モデルの暗黙の道徳的仮定を理解するための有用なリソースになることを示唆しています。データをダウンロードするには、https://github.com/GT-SALT/micを参照してください。
https://aclanthology.org/2022.acl-long.261/
Token Dropping for Efficient BERT Pretraining
トランスフォーマーベースのモデルは、一定のシーケンス内の各トークンに同じ計算量を割り当てます。本研究では、BERTなどのトランスフォーマーモデルの事前学習を効率化するために、シンプルで効果的な「トークンドロップ」メソッドを開発しました。特に、モデルの中間層から重要でないトークンを削除し、限られた計算リソースでより効率的に重要なトークンに焦点を当てることで、モデルの性能を低下させることなく、モデルを高速化します。削除されたトークンは、モデルの最後の層で再び取り上げられるため、モデルはまだ完全なシーケンスを生成します。既に組み込まれているマスク言語モデリング(MLM)損失を活用して、実質的な計算オーバーヘッドなしに、重要でないトークンを特定します。実験では、このシンプルなアプローチにより、標準的な下流タスクで同等の全体的な微調整性能を達成しながら、BERTの事前学習コストを25%削減できました。
https://aclanthology.org/2022.acl-long.262/
DialFact: A Benchmark for Fact-Checking in Dialogue
ファクトチェックは、誤情報や偽情報の拡散を緩和するために必要な重要なツールです。我々は、比較的未開拓の領域である対話におけるファクトチェックのタスクを紹介します。我々は、Wikipediaからの証拠とペアリングされた22,245の注釈付き会話主張のテストベンチマークデータセットであるDialFactを構築しました。 DialFactには3つのサブタスクがあります。1)検証可能な主張検出タスクは、応答が検証可能な事実情報を持っているかどうかを区別します。2)証拠の検索タスクは、最も関連性の高いWikipediaスニペットを証拠として取得します。3)主張の検証タスクは、対話応答が支持されるか、反駁されるか、情報が不十分かを予測します。我々は、FEVERのような非対話データでトレーニングされた既存のファクトチェックモデルが我々のタスクでうまく機能しないことを発見し、したがって、対話におけるファクトチェックのパフォーマンスを効果的に改善するためのシンプルでデータ効率の高いソリューションを提案します。我々は、口語表現、共参照、検索の曖昧さなどのDialFactの独自の課題を指摘し、今後の研究に光を当てます。
https://aclanthology.org/2022.acl-long.263/
The Trade-offs of Domain Adaptation for Neural Language Models
この論文は、自然言語処理に関するもので、言語モデルの適応を機械学習理論の概念と結びつけています。大規模なドメイン外セットと小規模なドメイン内セットを用いたトレーニングセットアップを考慮しています。セットのサイズとその基礎となる分布の距離によって、どちらのセットでモデルをトレーニングすることが有益かを導出しています。ドメイン外プレトレーニングを行った後にドメイン内ファインチューニングを行うことで、単独の解決策よりも汎化性能が向上することを分析しています。最後に、重要度サンプリング、インテリジェントデータ選択、影響関数などのデータ選択に基づく適応技術を、類似点と微妙な違いを強調する共通のフレームワークで示しています。
https://aclanthology.org/2022.acl-long.264/
Towards Afrocentric NLP for African Languages: Where We Are and Where We Can Go
ACL 2022の特別テーマ「言語多様性:低資源言語から絶滅危惧言語まで」に沿って、我々はアフリカ言語のNLP技術開発に直面する主要な言語学的および社会政治的課題について議論する。アフリカ言語を分類的枠組みに位置づけ、これらの言語の特性をどのように利用できるかについても議論する。将来の研究を促進するために、現在の取り組み、コミュニティ、会場、データセット、ツールにも注目する。我々の主な目的は、技術開発にアフリカ中心のアプローチを提唱することである。この観点から、現地のアフリカコミュニティのニーズに基づいて、どのような技術を構築し、どのように構築、評価、展開するかを推奨する。
https://aclanthology.org/2022.acl-long.265/
Ensembling and Knowledge Distilling of Large Sequence Taggers for Grammatical Error Correction
本論文では、最近の最先端のTransformerベースのエンコーダーを大規模な構成でアンサンブルすることに焦点を当て、GECシーケンスタグ付けアーキテクチャの改善を調査します。モデルアーキテクチャと語彙サイズに寛容なこのアプローチにより、スパンレベルの編集に対する多数決でモデルをアンサンブル化することを推奨します。最高のアンサンブルは、合成データセットの事前トレーニングなしでも、BEA-2019(テスト)でF0.5スコア76.05の新しいSOTA結果を達成します。さらに、トレーニングされたアンサンブルで知識蒸留を実行し、新しい合成トレーニングデータセット「Troy-Blogs」と「Troy-1BW」を生成します。生成されたTroy-データセットで事前トレーニングされた最高のシングルシーケンスタグ付けモデルは、公開されている合成PIEデータセットとの組み合わせで、BEA-2019(テスト)でF0.5スコア73.21のほぼSOTAの結果を達成します。コード、データセット、トレーニング済みモデルは公開されています。
https://aclanthology.org/2022.acl-long.266/
Speaker Information Can Guide Models to Better Inductive Biases: A Case Study On Predicting Code-Switching
人が生成したデータに基づく自然言語処理(NLP)モデルは、制約がないため、タスクに関係のない偽の相関関係から学習する可能性があるため、信頼性が低い場合があります。我々は、制御された教育的な方法でモデルに話者情報を豊富にすることが、関連する帰納バイアスを取り上げるための指針となる可能性があると仮説を立てました。英語-スペイン語バイリンガル対話におけるコードスイッチングポイントの予測という話者駆動のタスクにおいて、社会言語学的に根拠のある話者特徴を前置きプロンプトとして追加することで、正確性が大幅に向上することを示します。入力に影響力のあるフレーズを追加することで、話者情報を考慮したモデルは、有用で説明可能な言語情報を学習することができます。われわれは、コードスイッチングのニューラルモデルに話者特性を組み込むことで、透明性のある個人化されたモデルを開発するための一歩を踏み出したと考えています。
https://aclanthology.org/2022.acl-long.267/
Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling
この研究では、借用語の識別に関する新しいリソースを提供し、複数のモデルのパフォーマンスとエラーを分析します。我々は、スペイン語のニュースワイヤーに豊富な未同化の語彙借用語を含む新しい注釈付きコーパスを導入し、CRF、BiLSTM-CRF、Transformerベースのモデルのパフォーマンスを評価するために使用します。コーパスには37万トークンが含まれ、このタスクに対して利用可能な以前のコーパスよりも大きく、借用語密度が高く、OOVが豊富で、トピックが多様です。我々の結果は、サブワード埋め込みを使用してBiLSTM-CRFモデルにTransformerベースの埋め込みを事前学習したもの、または文脈化された単語埋め込みの組み合わせを与えることで、多言語BERTベースのモデルで得られた結果よりも優れていることを示しています。
https://aclanthology.org/2022.acl-long.268/
Is Attention Explanation? An Introduction to the Debate
深層学習モデルの性能は、NLPや他の機械学習分野での人気の上昇につながり、これらのモデルの説明の必要性がますます重要になっています。注目は、性能を向上させながら、いくつかの説明を提供する解決策として見られています。しかし、ニューラルネットワークの注目の説明力に疑問を投げかける議論が始まっています。議論は、さまざまな分野からの貢献により、広範な文献を生み出していますが、コミュニケーションの欠如がますます明らかになっています。本論文では、これらの異なる分野からの作品を批判的に対峙することで、議論に関する洞察を明確に概観します。この包括的なビジョンは、この議論に関心のあるすべてのコミュニティにとって非常に興味深いものになる可能性があります。これらの分野で見つかった主な課題をまとめ、注目を説明するための最も有望な将来のアプローチについて議論して結論を出します。
https://aclanthology.org/2022.acl-long.269/
There Are a Thousand Hamlets in a Thousand People’s Eyes: Enhancing Knowledge-grounded Dialogue with Personal Memory
知識に基づく会話(KGC)は、魅力的で知識豊富なチャットボットを構築する上で大きな可能性を示しており、知識選択はその重要な要素です。しかし、以前の知識選択方法は、知識と対話文脈の関連性にのみ集中し、相手の年齢、趣味、教育、人生経験が外部知識に対する個人的な好みに大きな影響を与えることを無視しています。個人化の問題を考慮しない場合、既存の対話システムは適切な知識を選択し、ペルソナに一貫した応答を生成することが困難です。本研究では、KGCの知識選択に個人的な記憶を導入して、個人化の問題に対処します。私たちは、個人の記憶と知識選択の間の基礎的な関係をモデル化するための変分法を提案し、個人の記憶から知識への前向きマッピングとその逆マッピングが閉ループに含まれる学習スキームを考案し、お互いに教え合うことができるようにしました。実験結果は、私たちの方法が自動評価と人間の評価の両方で既存のKGC方法を大幅に上回ることを示しています。
https://aclanthology.org/2022.acl-long.270/
Neural Pipeline for Zero-Shot Data-to-Text Generation
データ・トゥ・テキスト(D2T)生成において、ドメイン内データでのトレーニングは、データ表現への過剰適合とトレーニングデータノイズの反復を引き起こす。我々は、事前学習済み言語モデル(PLMs)をD2T生成データセットでファインチューニングすることを回避しながら、PLMsの表層実現能力を活用する方法を検討する。パイプラインアプローチに着想を得て、単一アイテムの説明を一般ドメインのテキストベースの操作(順序付け、集約、段落圧縮)のシーケンスで変換してテキストを生成することを提案する。我々は、英語のウィキペディアから構築した合成コーパスWikiFluentでこれらの操作を実行するためのPLMsをトレーニングする。WebNLGとE2Eの2つの主要なトリプル・トゥ・テキスト・データセットでの実験結果は、我々のアプローチが、RDFトリプルからのD2T生成をゼロショット設定で可能にすることを示している。
https://aclanthology.org/2022.acl-long.271/
Not always about you: Prioritizing community needs when developing endangered language technology
言語は、統計的および機械学習ツールやモデルのトレーニングに必要なデータ量が不足している場合、低資源と分類されます。資源不足の原因は様々であり、これらの資源を開発するための技術へのアクセスが不十分であること、比較的少数の話者がいること、または第二言語が高資源であるバイリンガルの人口ではそのような資源を収集するための緊急性がないことが含まれます。その結果、文献で低資源と説明されている言語は、一方であらゆる想定可能な領域で使用される数百万人の話者を持つフィンランド語と、主に制限された領域で言語を使用する流暢な話者がわずかしかいないセネカ語のように、異なるものです。モデルをトレーニングするために必要なリソースの不足から生じる問題が、この異種混合の言語グループを結びつける一方で、広く話される低資源言語と絶滅危惧種の言語の間の分断を横断する多くの問題があります。本ポジションペーパーでは、絶滅危惧種の言語の文書化と復興を支援するための言語技術を開発するために、研究者と先住民のスピーチコミュニティメンバーが協力する際に直面する独自の技術的、文化的、実践的、倫理的な課題について議論します。私たちは、先住民コミュニティの言語教師、マスタースピーカー、長老の視点、および学者の視点を報告します。私たちは、進行中の実りある協力を説明し、学術研究者と言語コミュニティのステークホルダーとの将来のパートナーシップに向けて推奨事項を提供します。
https://aclanthology.org/2022.acl-long.272/
Automatic Identification and Classification of Bragging in Social Media
自慢は、自己に関する肯定的な声明を通じて好ましい自己イメージを構築する目的で使用されるスピーチ行為である。それは日常のコミュニケーションで広く行われ、特にソーシャルメディアで人々は直接的または間接的に自分のポジティブなイメージを構築することを目指しています。本論文では、言語学と語用論の先行研究に基づいて、計算言語学における自慢の初めての大規模研究を行います。これを実現するために、自慢とそのタイプに注釈が付けられた新しい公開データセットを紹介します。我々は、言語情報を注入した異なるトランスフォーマーベースのモデルを用いて、(a)自慢の有無、つまりツイートが自慢の声明を含むかどうか、および(b)自慢を含まない多クラス自慢タイプ予測を実証的に評価します。我々の結果は、マクロF1で、バイナリ自慢分類タスクでは最大72.42、多クラス分類タスクでは最大35.95で自慢を予測できることを示しています。最後に、自慢予測の広範な言語分析とエラー分析を提示し、今後の研究の指針とします。
https://aclanthology.org/2022.acl-long.273/
Automatic Error Analysis for Document-level Information Extraction
文書レベルの情報抽出(IE)タスクは、文レベルのIEに成功したエンドツーエンドのニューラルネットワーク技術を使用して、最近再評価され始めています。しかし、アプローチの評価はいくつかの次元で限定されています。特に、通常報告される適合率/再現率/F1スコアは、モデルが作成するエラーの範囲についてほとんど洞察を提供しません。私たちは、KummerfeldとKlein(2013)の研究を基に、文書レベルのイベントおよび(N-ary)関係抽出の自動エラー分析のための変換ベースのフレームワークを提案します。私たちは、3つのドメインのデータセットで2つの最新の文書レベルのテンプレート埋め込みアプローチを比較し、IEの30年前の発展以来の進歩を評価するために、MUC-4(1992)評価の4つのシステムと比較します。
https://aclanthology.org/2022.acl-long.274/
Learning Functional Distributional Semantics with Visual Data
機能分布意味論は、言語的解釈可能性を提供する分布意味論を学習するために最近提案されたフレームワークです。それは、数値ベクトルではなく単語の意味をバイナリ分類器としてモデル化します。本研究では、視覚的なデータに基づいて機能分布意味論モデルをトレーニングする方法を提案します。我々は、大規模なテキストコーパスよりも人間の言語習得で遭遇するデータに近いVisual Genomeデータセットでトレーニングを行いました。外部評価データセット4つにおいて、我々のモデルはVisual Genomeから意味を学習する以前の研究を上回りました。
https://aclanthology.org/2022.acl-long.275/
ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding
大規模言語モデルは、いくつかのNLPベンチマークで驚くべき進歩を示していますが、複雑な類推推論能力の評価は未だに十分に探究されていません。ここでは、文脈でことわざを使用する物語の高品質なクラウドソーシングデータセットを紹介し、抽象的な言語理解のベンチマークとして使用します。データセットは、ことわざと物語の間の整列されたスパンの細かい注釈を提供し、物語とことわざの間に最小限の語彙的重複があるため、モデルが表層的な推論を超えて成功するために必要なものを保証します。私たちは、3つのタスクを探求します:(1)ことわざの推奨と整列予測、(2)与えられたことわざとトピックのための物語生成、および(3)類似したモチーフを持つ物語の識別。私たちの実験は、ニューラル言語モデルがこれらのタスクで人間に比べて苦戦することを示し、これらのタスクは複数の学習上の課題を提供します。
https://aclanthology.org/2022.acl-long.276/
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization
チャートは、データを探索し洞察を伝えるために一般的に使用されます。チャートから自然言語の要約を生成することは、認知的および知覚的な努力が必要な洞察を推論するために非常に役立ちます。本論文では、2つのデータセットと合計44,096のチャートをカバーするChart-to-textという大規模なベンチマークを紹介します。データセットの構築プロセスを説明し、データセットを分析します。また、画像キャプションとデータからテキスト生成技術を利用する最新のニューラルモデルをいくつか紹介し、チャートの基礎となるデータテーブルが利用可能な場合とチャート画像からデータを抽出する必要がある場合の2つの問題変化に対処します。自動評価と人間の評価による分析では、最良のモデルが通常流暢な要約を生成し、合理的なBLEUスコアを示す一方で、幻覚や事実誤認、複雑なパターンやトレンドを正しく説明することの困難さに苦しんでいることがわかりました。
https://aclanthology.org/2022.acl-long.277/
Characterizing Idioms: Conventionality and Contingency
慣用句は、ほとんどのフレーズとは2つの重要な点で異なります。第一に、慣用句の単語には非標準的な意味があります。第二に、慣用句の単語の非標準的な意味は、慣用句内の他の単語の存在に依存します。言語学理論は、これらの特性が互いに依存するかどうか、また慣用句を収容するために特別な理論的機械が必要かどうかについて異なります。私たちは、上記の特性に対応する2つの尺度を定義し、慣用句が予想される2つの次元の交差点にあることを示しましたが、次元自体は相関していないことを示しました。私たちの結果は、慣用句を処理するための特別な機械を導入する必要がない可能性があることを示唆しています。
https://aclanthology.org/2022.acl-long.278/
Bag-of-Words vs. Graph vs. Sequence in Text Classification: Questioning the Necessity of Text-Graphs and the Surprising Strength of a Wide MLP
グラフニューラルネットワークは、グラフベースのテキスト分類方法の復活を引き起こし、現在の最先端を定義しています。我々は、Bag-of-Words(BoW)を使用した広範なマルチレイヤーパーセプトロン(MLP)が、最近のグラフベースのモデルTextGCNとHeteGCNを超えて、帰納的なテキスト分類設定で競合するHyperGATと同等であることを示します。さらに、シーケンスベースのBERTと軽量なDistilBERTモデルを微調整し、どちらもすべての最先端モデルを上回ります。これらの結果は、現代のテキスト分類器で使用される合成グラフの重要性に疑問を投げかけています。効率性の面では、DistilBERTはまだBoWベースの広範なMLPの2倍のサイズであり、TextGCNのようなグラフベースのモデルは、語彙プラスコーパスサイズであるNを設定する必要がある𝒪(N2)グラフを設定する必要があります。最後に、トランスフォーマーは、シーケンス長Lで𝒪(L2)の注意重みを計算する必要があるため、MLPモデルは長いシーケンスのデータセットでより高速なトレーニングと推論速度を示します。
https://aclanthology.org/2022.acl-long.279/
Generative Pretraining for Paraphrase Evaluation
私たちは、テキスト生成のためのパラフレーズ表現学習モデルおよび評価メトリックであるParaBLEUを紹介する。従来のアプローチとは異なり、ParaBLEUは、事前トレーニング目的として生成的条件付けを使用してパラフレーシスを理解することを学習する。ParaBLEUは、既存のメトリックよりも人間の判断とより強く相関し、2017年WMT Metrics Shared Taskで新しい最高成績を獲得する。私たちは、モデルがデータの不足に強いことを示し、利用可能なトレーニングデータの50%しか使用せずに、以前の最高成績を超え、わずか40のラベル付き例でBLEU、ROUGE、METEORを上回ることができることを示す。最後に、私たちは、ParaBLEUを使用して、単一のデモンストレーションから新しいパラフレーズを条件付けて生成することができることを示し、抽象的で一般化されたパラフレーズ表現を学習するという私たちの仮説を確認するために使用する。
https://aclanthology.org/2022.acl-long.280/
Incorporating Stock Market Signals for Twitter Stance Detection
スタンス検出の研究は、これまで純粋にテキスト入力を活用するモデルに焦点を当ててきた。本論文では、金融分野におけるスタンス検出のために、テキスト入力と金融シグナルを統合することを調査する。具体的には、高頻度の日中時系列の株価とテキスト入力を組み合わせた堅牢なマルチタスクニューラルアーキテクチャを提案する。さらに、M&Aオペレーションについて議論するツイートを収集する既存のスタンス検出データセットであるwt-wtを、関連する金融シグナルで拡張する。重要なことに、取得したデータセットは、既存のニューススタンス検出データセットであるStanderと一致するため、ユニークなマルチモーダル、マルチジャンルのスタンス検出リソースとなる。実験的に、詳細な結果分析を通じて、金融情報がスタンス検出システムに利益をもたらし、wt-wtデータセットで最先端の結果を達成することを示し、複数の入力シグナルの組み合わせがクロスターゲットのスタンス検出に効果的であることを示し、将来の研究方向を開拓する。
https://aclanthology.org/2022.acl-long.281/
Multilingual Mix: Example Interpolation Improves Multilingual Neural Machine Translation
多言語ニューラル機械翻訳モデルは、複数の言語ペアから抽出された例の混合を最大化するようにトレーニングされます。これらのモデルに適用される主要な帰納バイアスは、言語間で共有される語彙とパラメータの共有です。ただし、異なる言語ペアから抽出された入力とラベルは、まだ異なるサブスペースに存在する可能性があります。本論文では、多言語クロスオーバーエンコーダーデコーダー(mXEncDec)を導入し、インスタンスレベルで言語ペアを融合します。私たちのアプローチは、異なる言語ペアからのインスタンスを共通の「クロスオーバー例」に補間することで、言語間で入力と出力のスペースを共有することを促します。多言語設定で例の融合をより良くするために、データの不均衡下で異なる言語間の例の補間を改善するためのいくつかの技術を提案します。大規模なWMT多言語データセットでの実験は、私たちのアプローチが英語から多数の言語、多数の言語から英語、およびゼロショット翻訳タスク(+0.5 BLEUから+5.5 BLEUポイントまで)の品質を大幅に改善することを示しています。コードスイッチングセットの結果は、私たちのアプローチが、分布外の多言語例に対するモデルの汎化能力を改善する能力を示しています。また、表現レベルでのアプローチの利点を分析するために、定性的および定量的な表現比較を実施します。
https://aclanthology.org/2022.acl-long.282/
Word Segmentation as Unsupervised Constituency Parsing
連続した入力からの単語の識別は、通常、分割タスクと見なされます。人間の成人との実験は、母語の文法構造に対する熟知度が人工言語における単語の識別にも影響を与えることを示唆していますが、文法処理と単語の識別の関係はまだ明確ではありません。本研究は、連続した入力の分割を非監督構成解析と同型のプロセスと見なす、根本的に異なる単語の識別アプローチを探求することで、一歩前進します。このアプローチを形式化するだけでなく、本研究では、DIORA(Drozdov et al.、2020)というニューラル非監督構成解析器を用いた人間の実験のシミュレーションも報告しています。結果は、このモデルが単語の識別実験における人間の行動を再現できることを示しており、これは単語の識別と文法処理の関係を研究するための有望なアプローチであることを示唆しています。
https://aclanthology.org/2022.acl-long.283/
SafetyKit: First Aid for Measuring Safety in Open-domain Conversational Systems
自然言語処理とその応用の社会的影響が注目されている。本論文では、エンドツーエンドの会話型AIの安全性の問題に焦点を当てる。そこで、Instigator、Yea-Sayer、Impostorの3つの現象を分類するタクソノミーを紹介し、その問題の全体像を調査する。そして、現在のツールがこれらの現象を測定できる程度と、現在のシステムがこれらの現象を示す程度を実証的に評価する。我々は、これらのツールを「応急処置キット」(SafetyKit)の一部として公開し、明らかな安全上の懸念を迅速に評価することができるようにする。結果として、現在のツールは、さまざまな設定でシステムの相対的な安全性を推定することができるが、まだいくつかの欠点があることがわかった。我々は、いくつかの将来の方向性を提案し、倫理的な考慮事項について議論する。
https://aclanthology.org/2022.acl-long.284/
Zero-Shot Cross-lingual Semantic Parsing
最近のクロスリンガル意味解析の研究では、機械翻訳を用いてパーサーを新しい言語にローカライズすることが成功している。しかし、これらの進歩は高品質の機械翻訳システムと単語アラインメントツールへのアクセスを前提としている。我々はこれらの前提を取り除き、新しい言語に対して平行データ(つまり、発話-論理形式のペア)がないゼロショット問題としてクロスリンガル意味解析を研究する。我々は、英語-論理形式のペアのデータと各新しい言語のドメイン固有の自然言語コーパスのみを使用して、パーサーの知識を追加の言語に転送するためのマルチタスクエンコーダーデコーダーモデルを提案する。我々のモデルは、クロスリンガル潜在表現の整列を設計した補助目的とともに、論理形式の生成のために共同最適化することによって、言語に依存しないエンコーディングを促進する。我々のパーサーは、翻訳ベースのベースラインよりも有意に優れており、場合によっては、監視された上限と競合している。
https://aclanthology.org/2022.acl-long.285/
The Paradox of the Compositionality of Natural Language: A Neural Machine Translation Case Study
自然言語処理において人間のような性能を得るには、構成的一般化が必要であるとされる。ニューラルネットワークがこの能力を持つかどうかは、通常、高度に構成的な合成データでモデルをトレーニングすることによって研究される。しかし、自然言語における構成性は、そのようなデータが従う厳密で算術的なバージョンよりもはるかに複雑であり、人工的な構成性テストは、ニューラルモデルがより現実的な形式の構成性をどのように扱うかを決定することができない。本研究では、文献から3つの構成性テストを再構築し、ニューラル機械翻訳(NMT)のために再定式化する。結果は、以下のようになる。i)不利にも、より多くのデータでトレーニングされたモデルほど構成的である。ii)モデルは、予想よりも構成的でない場合があるが、場合によってはより構成的であり、異なるレベルの構成性が必要であり、モデルが正しくそれらを調整できない場合があることを示している。iii)非構成的な振る舞いの一部は誤りであり、他の一部はデータの自然な変動を反映している。本研究は、実証的な研究に加えて、アクションを呼びかけるものである。ニューラルネットワークにおける構成性の評価を再考し、数学を行うのと同じように意味を構成することが簡単ではない自然言語の実データを使用して構成性を評価するためのベンチマークを開発する必要がある。
https://aclanthology.org/2022.acl-long.286/
Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents
ドキュメントレベルのニューラル機械翻訳(DocNMT)は、クロスセンテンスコンテキストを組み込むことで一貫した翻訳を実現しています。しかし、ほとんどの言語ペアにおいて、平行文は容易に利用可能であるにもかかわらず、平行ドキュメントが不足しています。本論文では、DocNMTにおける文脈モデリングが多言語モデリングを介して転移可能かどうか、およびその方法を研究します。私たちは、ドキュメントレベルのデータを持つ教師言語から文レベルのデータのみを持つ学生言語へのゼロショット転移のシナリオに焦点を当て、ドキュメントレベルの翻訳を転移学習問題として初めて扱います。単純な連結ベースのDocNMTを使用して、3つの要因が転移に与える影響を探究します。教師言語の数、トレーニング時のドキュメントと文レベルデータのバランス、および平行ドキュメントのデータ条件(本物 vs. バックトランスレート)。Europarl-7とIWSLT-10での実験結果から、DocNMTの多言語転移の実現可能性が示され、特にドキュメント固有のメトリックにおいて良好な転移品質が得られることが観察されました。教師言語が多いほど、適切なデータバランスがあるほど、転移品質が向上することがわかりました。驚くべきことに、転移はデータ条件に対してはあまり敏感ではなく、多言語DocNMTはバックトランスレートまたは本物のドキュメントペアのいずれでもまずまずの性能を発揮します。
https://aclanthology.org/2022.acl-long.287/
Cross-Lingual Phrase Retrieval
クロスリンガル検索は、言語を超えて関連するテキストを検索することを目的としています。現在の方法は、単語または文レベルで言語に依存しないテキスト表現を学習することによってクロスリンガル検索を実現しています。しかし、クロスリンガルフレーズ検索のためのフレーズ表現の学習方法はまだオープンな問題です。本論文では、未ラベルの例文からフレーズ表現を抽出するクロスリンガルフレーズ検索器を提案します。さらに、8つの英語中心の言語ペアで65Kのバイリンガルフレーズペアと4.2Mの例文を含む大規模なクロスリンガルフレーズ検索データセットを作成します。実験結果は、単語レベルまたは文レベルの表現を利用する最新のベースラインを上回ることを示しています。また、訓練中に未知の言語ペアで検索を実行することができる印象的なゼロショット転移性を示しています。当社のデータセット、コード、およびトレーニング済みモデルは、github.com/cwszz/XPR/で公開されています。
https://aclanthology.org/2022.acl-long.288/
Improving Compositional Generalization with Self-Training for Data-to-Text Generation
データからテキスト生成は、構造化された意味表現(MR)から流暢な自然言語応答を生成することに焦点を当てています。このような表現は合成的であり、原子的な意味スキーマのすべての可能な組み合わせに対して応答を収集することはコストがかかるため、新しいMRに対する少数ショットの汎化が必要です。本研究では、最先端のT5モデルの合成的汎化を少数ショットのデータからテキストタスクで系統的に研究しました。T5モデルが未知のMRに汎化できないことを示し、テンプレートベースの入力表現を提案して、モデルの汎化能力を大幅に改善しました。さらに、擬似応答選択のためにファインチューニングされたBLEURTを使用した自己トレーニングに基づくアプローチを提案して、一般的に使用されるSGDおよびWeatherベンチマークでは、提案された自己トレーニングアプローチは、少数ショット設定で強力なT5ベースラインに比べて木の正確性を46%以上向上させ、スロットエラー率を73%以上削減します。
https://aclanthology.org/2022.acl-long.289/
MMCoQA: Conversational Question Answering over Text, Tables, and Images
会話型アシスタントの急速な発展により、会話型質問応答(QA)の研究が加速しています。しかし、既存の会話型QAシステムは通常、段落や知識グラフなどの単一の知識源でユーザーの質問に答えますが、重要な視覚的手がかりを見落とし、異なるモダリティの複数の知識源を無視します。本論文では、マルチモーダル会話型質問応答(MMCoQA)という新しい研究課題を定義し、マルチモーダルな知識源を用いたマルチターンの会話を通じてユーザーの質問に答えることを目的としています。この新しい課題には、マルチモーダル知識の優先順位、一貫性、補完性などの研究上の課題があります。この領域でのデータ駆動型アプローチを促進するために、私たちは最初のマルチモーダル会話型QAデータセットであるMMConvQAを構築しました。質問は自然言語の回答だけでなく、対応する証拠と有用な非文脈化された自己完結型の質問も完全に注釈が付けられています。同時に、この複雑な研究課題を質問理解、マルチモーダル証拠の検索、回答抽出に分割するエンドツーエンドのベースラインモデルを紹介します。さらに、一連のベンチマーク結果を報告し、結果は改善の余地があることを示しています。
https://aclanthology.org/2022.acl-long.290/
Effective Token Graph Modeling using a Novel Labeling Strategy for Structured Sentiment Analysis
構造化感情分析の最新モデルは、タスクを依存構文解析問題としてキャストしていますが、いくつかの制限があります:(1)スパン予測とスパン関係予測のラベル比率が不均衡であること。(2)このタスクにおける感情タプルの構成要素のスパン長が非常に大きい場合があるため、不均衡問題がさらに悪化すること。(3)依存グラフ内の2つのノードには複数のアークを持つことができないため、一部の重複した感情タプルを認識できないことがあります。本研究では、これらの問題に対するニッチターゲティングソリューションを提案します。まず、このタスクの基本的なラベルである必須ラベルセットと、比較的バランスが取れており予測レイヤーで適用されるラベルである必須ラベルセットを含む2つのトークンペアラベルセットを含む新しいラベリング戦略を導入します。全体のラベルセットには、モデルがさまざまなトークン関係を捉えるのに役立つ豊富なラベルが含まれており、隠れ層で適用されてモデルに柔軟に影響を与えます。さらに、グラフ注意ネットワークを装備し、トークン表現を反復的に洗練するための効果的なモデルを提案し、適応型マルチラベル分類器を装備して、トークンペア間の複数の関係を動的に予測します。4つの言語で5つのベンチマークデータセットで広範な実験を行いました。実験結果は、当社のモデルが従来のSOTAモデルを大幅に上回ることを示しています。
https://aclanthology.org/2022.acl-long.291/
PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
この論文は、低リソースの自然言語理解(NLU)タスクに対するデータ拡張に焦点を当てています。我々は、凍結された事前学習言語モデル(PLM)内の小規模なソフトプロンプト(トレーニング可能なベクトルのセット)のみをトレーニングするPrompt-based Data Augmentationモデル(PromDA)を提案しています。これにより、未ラベル化のドメイン内データを収集するための人的労力を回避し、生成された合成データの品質を維持することができます。さらに、PromDAは2つの異なる視点から合成データを生成し、NLUモデルを使用して低品質のデータをフィルタリングします。4つのベンチマーク実験の結果、PromDAによって生成された合成データは、競合する複数のベースラインモデル、および未ラベル化のドメイン内データを使用した最新の半教師ありモデルを常に上回るNLUモデルの性能を成功裏に向上させました。PromDAからの合成データは、未ラベル化のドメイン内データとも補完的であることが示されました。NLUモデルは、トレーニングのために組み合わせることでさらに改善される可能性があります。
https://aclanthology.org/2022.acl-long.292/
Disentangled Sequence to Sequence Learning for Compositional Generalization
既存のニューラルネットワークモデル、特に非常に人気のあるシーケンス・トゥ・シーケンス・アーキテクチャが、見たことのある構成要素の未知の組み合わせに系統的に一般化することが困難であることを示す証拠が増えている。我々は、構成的一般化を妨げる理由の1つが表現が絡み合っていることに関係していることを示す。我々は、シーケンス・トゥ・シーケンス・モデルに拡張を提案し、各時刻でソース入力を適応的に再エンコードすることで分離を促進する。具体的には、新しくデコードされたターゲット・コンテキストにソース表現を条件付けることで、エンコーダが各予測に特化した情報を利用しやすくなり、すべてを単一のフォワードパスで捕捉することが容易になる。意味解析と機械翻訳の実験結果は、我々の提案がより分離された表現とより良い一般化を提供することを実証している。
https://aclanthology.org/2022.acl-long.293/
RST Discourse Parsing with Second-Stage EDU-Level Pre-training
事前学習された言語モデル(PLMs)は、修辞構造理論(RST)の議論解析を含む自然言語処理(NLP)において、大きな可能性を示しています。現在のPLMsは、基本的な処理単位である要素議論単位(EDU)とは異なる、文レベルの事前学習によって得られます。このため、本研究では、二次的なEDUレベルの事前学習アプローチを提案し、よく事前学習された言語モデルに基づいて効果的なEDU表現を継続的に学習するための2つの新しいタスクを提示します。具体的には、2つのタスクは(1)次のEDU予測(NEP)と(2)議論マーカー予測(DMP)です。我々は、最新の遷移ベースのニューラルパーサーをベースラインとして採用し、軽量のバイグラムEDU修正を採用して、EDUレベルの事前学習されたEDU表現を効果的に探索します。ベンチマークデータセット上の実験結果は、我々の方法が非常に効果的であり、F1スコアで2.1ポイントの改善をもたらすことを示しています。すべてのコードと事前学習モデルは公開され、将来の研究を促進するために利用可能です。
https://aclanthology.org/2022.acl-long.294/
SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models
知識グラフ補完(KGC)は、既知の事実について推論し、欠落しているリンクを推測することを目的としています。KGBERT(Yao et al.、2019)などのテキストベースの手法は、自然言語の説明からエンティティ表現を学習し、帰納的なKGCの可能性があります。しかし、テキストベースの手法の性能は、TransE(Bordes et al.、2013)やRotatE(Sun et al.、2019b)などのグラフ埋め込みベースの手法に比べて大幅に遅れています。本論文では、効率的な対照的学習が重要な問題であることを特定しました。学習効率を改善するために、バッチ内ネガティブ、プレバッチネガティブ、および自己ネガティブの3種類のネガティブを導入し、ハードネガティブの単純な形式として機能します。InfoNCE損失と組み合わせて、提案されたモデルSimKGCは、いくつかのベンチマークデータセットで埋め込みベースの手法を大幅に上回る性能を発揮できます。平均相互順位(MRR)に関して、WN18RRで+19%、Wikidata5Mの帰納的設定で+6.8%、Wikidata5Mの帰納的設定で+22%の最先端を更新しています。各コンポーネントの洞察を得るために徹底的な分析が行われています。私たちのコードはhttps://github.com/intfloat/SimKGCで利用可能です。
https://aclanthology.org/2022.acl-long.295/
Do Transformer Models Show Similar Attention Patterns to Task-Specific Human Gaze?
最新のNLPモデルにおける学習済みの自己注意機能は、しばしば人間の注意と相関する。本研究では、大規模な事前学習言語モデルにおける自己注意が、人間のタスク読解中の視線固定パターンを、人間の注意の古典的な認知モデルと同様に予測できるかどうかを調査する。我々は、感情分析と関係抽出の2つのタスク固有の読解データセットにおける注意機能を比較する。我々は、大規模な事前学習済みの自己注意が人間の注意に対する予測力は、「尾部に何があるか」に依存することを発見した。例えば、稀な文脈の構文的性質などである。さらに、タスク固有の微調整は、人間のタスク固有の読解との相関を増加させないことを観察した。入力削減実験を通じて、スパース性と忠実度のトレードオフに関する補完的な洞察を提供し、エントロピーの低い注意ベクトルがより忠実であることを示した。
https://aclanthology.org/2022.acl-long.296/
LexGLUE: A Benchmark Dataset for Legal Language Understanding in English
法律やその解釈、法的論争や合意は通常、文章で表現され、法的テキストの膨大なコーパスが生産されます。これらのコレクションが大きくなるにつれ、法的実務の中心である分析はますます複雑になります。自然言語理解(NLU)技術は、これらの取り組みを支援するための貴重なツールになり得ます。ただし、その有用性は、現在の最先端のモデルが法的ドメインのさまざまなタスクにわたって一般化できるかどうかに大きく依存します。この現在の未解決問題に答えるために、我々はLegal General Language Understanding Evaluation(LexGLUE)ベンチマークを導入し、標準化された方法で多様な法的NLUタスクのモデルのパフォーマンスを評価するためのデータセットのコレクションを提供します。また、複数のタスクにわたって一貫してパフォーマンスの向上を示す法的指向のモデルと一般的なモデルの評価と分析を提供します。
https://aclanthology.org/2022.acl-long.297/
DiBiMT: A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation
語彙の曖昧さは、機械翻訳の分野で最も大きな課題の1つです。過去数十年間、単語の多義性による不正確な翻訳を調査するために、複数の取り組みが行われてきました。この研究の中で、モデルがトレーニングデータに存在する意味的なバイアスを拾い上げ、翻訳エラーを生じさせるという説が提唱されています。本論文では、英語と中国語、ドイツ語、イタリア語、ロシア語、スペイン語の5つの言語の名詞と動詞の機械翻訳における意味的なバイアスを広範囲に研究するための、完全に手動で作成された最初の評価ベンチマークであるDiBiMTを提案します。さらに、商用および非商用の最新の機械翻訳システムを、新しいテストベッドに対してテストし、結果の統計的および言語学的分析を提供します。私たちは、DiBiMTをhttps://nlp.uniroma1.it/dibimtで公開リーダーボードを備えたクローズドベンチマークとしてリリースします。
https://aclanthology.org/2022.acl-long.298/
Improving Word Translation via Two-Stage Contrastive Learning
単語翻訳またはバイリンガルレキシコン誘導(BLI)は、異なる言語間の語彙的ギャップを埋めることを目的とした重要なクロスリンガルタスクです。本研究では、BLIタスクのための堅牢で効果的な2段階の対照的学習フレームワークを提案します。ステージC1では、対照的学習目的を介して静的単語埋め込み(WEs)間の標準的なクロスリンガル線形マップを改良することを提案します。さらに、より洗練されたクロスリンガルマップを得るために、セルフラーニング手順に統合する方法も示します。ステージC2では、mBERTのBLI指向の対照的微調整を行い、その単語翻訳能力を引き出します。また、C2微調整された静的WEsが、ステージC1から導出された静的WEsを補完することも示します。多様な言語と異なる実験設定の標準BLIデータセットでの包括的な実験は、当社のフレームワークによって実現された大幅な利益を示しています。C1ステージからのBLI方法は、比較対象のすべての最新のBLI方法に対して既に大幅な利益をもたらしますが、完全な2段階フレームワークではさらに強力な改善が見られます。たとえば、28の言語ペアをカバーする112/112のBLIセットアップで利益を報告しています。
https://aclanthology.org/2022.acl-long.299/
Scheduled Multi-task Learning for Neural Chat Translation
Neural Chat Translation(NCT)は、会話テキストを異なる言語に翻訳することを目的としています。既存の方法は、主にバイリンガルの対話特性(例:一貫性)をモデル化して、小規模なチャット翻訳データに対するマルチタスク学習を通じてチャット翻訳を改善することに焦点を当てています。 NCTモデルは印象的な成功を収めていますが、不十分なチャット翻訳データと単純な共同トレーニング方法のため、まだ十分に満足できるものではありません。上記の問題に対処するために、私たちはNCTのためのスケジュールされたマルチタスク学習フレームワークを提案します。具体的には、元の事前トレーニングとファインチューニングの間に第2の事前トレーニングステージを追加することで、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案します。さらに、複数のトレーニングステージで対話関連の補助タスクをどこに、どのようにスケジュールするかを調査し、主要なチャット翻訳タスクを効果的に強化します。英中および英独の4つの言語方向での広範な実験により、提案手法の有効性と優越性が検証されました。さらに、大規模なドメイン内ペアバイリンガル対話データセットを研究コミュニティに公開します。
https://aclanthology.org/2022.acl-long.300/
FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing
私たちは、事前学習された言語モデルの公平性と、それらをダウンストリームタスクに適応するために使用される技術の評価に使用する4つのデータセットのベンチマークスイートを提供します。私たちのベンチマークは、4つの管轄区域(欧州評議会、米国、スイス、中国)、5つの言語(英語、ドイツ語、フランス語、イタリア語、中国語)をカバーし、5つの属性(性別、年齢、地域、言語、法的領域)にわたる公平性を評価します。私たちの実験では、いくつかのグループロバストなファインチューニング技術を使用して事前学習された言語モデルを評価し、パフォーマンスグループの不均衡が多くの場合に存在することを示しました。しかし、これらの技術のいずれも公平性を保証するわけではなく、グループの不均衡を一貫して軽減するわけでもありません。さらに、私たちは結果の定量的および定性的分析を提供し、法的NLPの堅牢性方法の開発における課題を強調しています。
https://aclanthology.org/2022.acl-long.301/
Towards Abstractive Grounded Summarization of Podcast Transcripts
ポッドキャストは最近人気が高まっています。ポッドキャストの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益があります。それにより、人々は迅速にポッドキャストを聴くかどうかを決定でき、また、コンテンツ提供者が要約を書くための認知負荷を軽減することができます。しかし、ポッドキャストの要約には、入力に関する事実上の不一致など、重要な課題があります。この問題は、話し言葉のトランスクリプトにおける発話の不流暢さや認識エラーによって悪化します。本論文では、これらの問題を緩和するための新しい抽象的要約方法を探求します。私たちのアプローチは、要約セグメントをトランスクリプトの特定の領域に基づいて学習し、要約の詳細を完全に検査できるようにします。私たちは、大規模なポッドキャストデータセットで提案されたアプローチの一連の分析を実施し、アプローチが有望な結果を達成できることを示しました。グラウンディングされた要約は、不一致な情報を含む要約とトランスクリプトのセグメントを特定することで、自動評価と人間の評価において要約の品質を改善する明確な利点をもたらします。
https://aclanthology.org/2022.acl-long.302/
FiNER: Financial Numeric Entity Recognition for XBRL Tagging
上場企業は、eXtensive Business Reporting Language(XBRL)の単語レベルのタグを含む定期報告書を提出する必要があります。報告書に手動でタグを付けることは手間がかかり、コストがかかります。したがって、私たちは金融分野の新しいエンティティ抽出タスクとしてXBRLタグ付けを紹介し、FiNER-139をリリースします。FiNER-139は、金のXBRLタグを持つ1.1Mの文のデータセットで、通常のエンティティ抽出データセットとは異なり、139のエンティティタイプのより大きなラベルセットを使用しています。ほとんどの注釈付きトークンは数値であり、正しいタグはトークン自体ではなく、主に文脈に依存します。数値式のサブワード分割はBERTのパフォーマンスに悪影響を与えることが示され、単語レベルのBILSTMsの方が優れたパフォーマンスを発揮します。BERTのパフォーマンスを改善するために、私たちは2つのシンプルで効果的な解決策を提案し、数値式を元のトークン形状と数値の大きさを反映する疑似トークンで置き換えます。また、金融分野の既存のBERTモデルであるFIN-BERTで実験し、最も優れたパフォーマンスを発揮する私たち自身のBERT(SEC-BERT)をリリースします。最後に、データとエラー分析を通じて、XBRLタグ付けに関する将来の研究をインスピレーションにする可能性のある制限を特定します。
https://aclanthology.org/2022.acl-long.303/
Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation
対照学習は、「露出バイアス」問題を緩和し、参照の異なる品質を差別的に利用することで、生成タスクで印象的な成功を収めています。既存の研究は、各単語の貢献を区別せずにインスタンスレベルでの対照学習に焦点を当てていますが、キーワードはテキストの要点であり、制約付きマッピング関係を支配しています。したがって、本研究では、入力テキストのハイブリッド粒度の意味を統一的に対照学習する階層的対照学習メカニズムを提案します。具体的には、まず、正負のペアの対照相関によるキーワードグラフを提案し、キーワード表現を反復的に磨きます。次に、インスタンスレベルとキーワードレベルで内部対照を構築し、単語が文の分布からサンプリングされたノードであると仮定します。最後に、独立した対照レベル間のギャップを埋め、共通の対照消失問題に対処するために、各対照キーワードノードの対比をインスタンス分布に対して測定する間隔対照メカニズムを提案します。実験により、我々のモデルが言い換え、対話生成、ストーリーテリングタスクで競合するベースラインを上回ることが示されました。
https://aclanthology.org/2022.acl-long.304/
EPT-X: An Expression-Pointer Transformer model that generates eXplanations for numbers
本論文では、代数的なワード問題を解決するために自然言語の説明を利用するニューラルモデルEPT-X(Expression-Pointer Transformer with Explanations)を提案する。ニューラルモデルのエンコーディングプロセスの説明可能性を向上させるために、EPT-Xは、人間が数学のワード問題を解決する際に描かれる可能性と忠実度の概念を採用している。可能性のある説明とは、与えられた数学のワード問題に現れる数字や変数の文脈情報を含むものである。忠実な説明とは、モデルの解決式の推論プロセスを正確に表現するものである。EPT-Xモデルは、PENデータセットにおいて平均ベースライン性能69.59%を示し、人間の出力に匹敵する品質の説明を生成する。本研究の貢献は2つある。(1) EPT-Xモデル:モデルの正確性、可能性、忠実度に関して代数的なワード問題解決タスクのベースラインを設定する説明可能なニューラルモデル。(2) 新しいデータセット:数字/変数に説明を付けたPEN(Problems with Explanations for Numbers)という新しいデータセットをリリースし、既存のデータセットを拡張する。
https://aclanthology.org/2022.acl-long.305/
Identifying the Human Values behind Arguments
本論文は、自由な思考や広い心を持つことなど、自然言語の議論における(しばしば暗黙のうちにある)人間の価値観について研究しています。価値観は、倫理的に望ましいとされる選択肢の理由についての一般的に受け入れられた回答であり、現実世界の議論や理論的な議論の枠組みの両方にとって不可欠です。しかし、その多様性は、議論マイニングでのモデリングにおいて主要な障害となっています。この障害を克服するために、私たちは、心理学的研究に沿った54の価値を持つ多層の分類法を提供し、人間の価値観を手動で注釈した4つの地理的文化からなる5270の議論のデータセットを提供します。人間の価値観の自動分類の最初の実験は、F1スコアが0.81から0.25までの有望な結果を示しています。
https://aclanthology.org/2022.acl-long.306/
BenchIE: A Framework for Multi-Faceted Fact-Based Open Information Extraction Evaluation
OIEシステムの本質的な評価は、人間の評価者が抽出の正確性を判断する手動評価、または標準化されたベンチマークで自動的に行われます。後者はコスト効率がはるかに高いですが、既存のOIEベンチマークの不完全さのために信頼性が低くなります。つまり、グラウンドトゥルースの抽出には同じ事実のすべての受け入れ可能なバリアントが含まれていないため、モデルのパフォーマンスの信頼性が低くなるためです。さらに、既存のOIEベンチマークは英語のみに対応しています。本研究では、英語、中国語、ドイツ語のOIEシステムの包括的な評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介します。既存のOIEベンチマークとは異なり、BenchIEは事実に基づいており、抽出の情報的同等性を考慮しています。つまり、私たちのゴールドスタンダードは事実のシンセットであり、同じ事実のすべての受け入れ可能な表面形式を徹底的にリストアップしたクラスターです。さらに、OIEの一般的なダウンストリームアプリケーションを考慮して、BenchIEを多面的にしました。つまり、抽出のコンパクトさや最小性など、OIE評価の異なる側面に焦点を当てたベンチマークバリアントを作成しました。BenchIEを使用していくつかの最新のOIEシステムをベンチマークし、これらのシステムが既存のOIEベンチマークで示されているよりもはるかに効果的でないことを示しました。BenchIE(データおよび評価コード)を一般に公開します。
https://aclanthology.org/2022.acl-long.307/
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition
Transformerベースのモデルのトレーニングには大量のデータが必要であり、マルチモーダリティのアラインメントとラベル付けされたデータを取得することは、特に音声視覚認識(AVSR)においてはコストがかかります。したがって、ラベルのない単一モーダルデータを利用することは合理的です。一方、大規模な自己教師あり学習の効果は、音声と視覚の両方のモダリティで確立されていますが、これらの事前学習モデルをマルチモーダルシナリオに統合する方法は未だに未開拓の領域です。本研究では、単一モーダルの自己教師あり学習を活用してマルチモーダルAVSRを促進することに成功しました。特に、音声と視覚のフロントエンドは大規模な単一モーダルデータセットでトレーニングされ、その後、両方のフロントエンドのコンポーネントを統合して、CTCとseq2seqデコーディングの組み合わせによって並列音声視覚データを文字に認識するように学習するより大きなマルチモーダルフレームワークを構築しました。単一モーダル自己教師あり学習から継承された両方のコンポーネントがうまく協力し、微調整によってマルチモーダルフレームワークが競争力のある結果を生み出すことを示しました。提案されたモデルは、単語レベルと文レベルのタスクの両方で実験的に検証されています。特に、外部言語モデルなしでも、提案されたモデルは、広く受け入れられているLip Reading Sentences 2(LRS2)データセットで、30%の相対的な改善により、最先端のパフォーマンスを発揮します。
https://aclanthology.org/2022.acl-long.308/
SummaReranker: A Multi-Task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization
シーケンス・トゥ・シーケンスのニューラルネットワークは、最近、抽象的な要約において大きな成功を収めており、特にダウンストリームデータセットで大規模な事前学習言語モデルを微調整することによって実現されています。これらのモデルは通常、ビームサーチでデコードされ、ユニークな要約が生成されます。しかし、探索空間は非常に大きく、エクスポージャーバイアスにより、このようなデコードは最適ではありません。本論文では、要約候補のセットで再ランキングを実行する第2段階のモデルを直接トレーニングすることが可能であることを示します。私たちのエキスパートの混合SummaRerankerは、より良い候補を選択することを学び、ベースモデルのパフォーマンスを一貫して改善します。ベースのPEGASUSを使用して、CNN-DailyMail(47.16 ROUGE-1)でROUGEスコアを5.44%、XSum(48.12 ROUGE-1)で1.31%、Reddit TIFU(29.83 ROUGE-1)で9.34%押し上げ、新しい最先端に到達しました。私たちのコードとチェックポイントは、https://github.com/ntunlp/SummaRerankerで利用可能です。
https://aclanthology.org/2022.acl-long.309/
Understanding Multimodal Procedural Knowledge by Sequencing Multimodal Instructional Manuals
順序のないイベントをシーケンス化する能力は、現実世界のタスク/手順についての理解と推論の証拠である。タスク計画や複数ソースの指示の要約などのアプリケーションに必要である。これは、これらの手順がしばしばテキストと画像の組み合わせによって伝達されるため、時間的な常識とマルチモーダル情報の徹底的な理解を必要とすることが多い。人間は順序のない手順指示について推論し、シーケンス化することができるが、現在の機械学習方法がそのような能力を持っているかどうかは未解決の問題である。本研究では、オンラインの指示マニュアルからデータセットを収集し、包括的な人間の注釈を収集することにより、モデルがマルチモーダルな指示を推論し、シーケンス化する能力をベンチマークする。現在の最先端のモデルは、人間よりも明らかに性能が劣り、マルチモーダル情報を効率的に利用することができないように思われる。マルチモーダルなイベントシーケンスの機械のパフォーマンスを改善するために、私たちは、テキストと画像のシーケンシャルなアラインメント特性を利用したシーケンスに敏感な事前学習技術を提案し、完全一致率で5%以上の改善を実現した。
https://aclanthology.org/2022.acl-long.310/
Zoom Out and Observe: News Environment Perception for Fake News Detection
社会メディア上での誤情報の拡散を防止するために、フェイクニュースの検出は重要である。既存の方法は、ニュース投稿の言語パターンを観察し、知識源で内容を確認したり、読者の返信をチェックすることで、フェイクニュースと本物のニュースを区別する。しかし、これらの方法は、フェイクニュースの投稿が作成され、拡散される外部のニュース環境の情報を無視している。ニュース環境は、最近の主流メディアの意見や注目度を表し、フェイクニュースの製造に重要なインスピレーションを提供する。フェイクニュースは、人気のあるイベントの波に乗り、予期せぬ新しい内容で注目を集め、より多くの露出と拡散を狙っているためである。ニュース投稿の環境信号を捉えるために、私たちはニュース環境知覚フレームワーク(NEP)を提案する。各投稿について、最近の主流ニュースからそのマクロおよびミクロなニュース環境を構築する。その後、人気志向と新奇性志向のモジュールを設計して、有用な信号を知覚し、最終的な予測を支援する。新しく構築したデータセットでの実験結果は、NEPが基本的なフェイクニュース検出器の性能を効率的に改善できることを示している。
https://aclanthology.org/2022.acl-long.311/
Divide and Rule: Effective Pre-Training for Context-Aware Multi-Encoder Translation Models
マルチエンコーダーモデルは、文脈情報を現在の文と一緒にエンコードすることで、翻訳品質を向上させることを目的とした、広範なコンテキストに敏感なニューラル機械翻訳システムの一種です。文脈エンコードは、文書レベルのデータでトレーニングされた文脈パラメータによって行われます。本研究では、文脈パラメータを効果的にトレーニングすることの困難さについて、必要な文の単語のまばらさ(つまり、トレーニングシグナル)とその関連する文脈のために議論します。私たちは、分割された文のペアを使って文脈パラメータを事前トレーニングすることを提案し、利用可能なデータを効率的に活用します。第一に、文内構文関係を破ることで文脈トレーニングシグナルを増やし、曖昧性を解消する手がかりをより頻繁に探索するようにモデルを促します。第二に、文脈セグメントが短くなるため、関連する文脈を取得することが容易になります。私たちは4つの異なる分割方法を提案し、BLEUと対照的なテストセットでアプローチを評価しました。結果は、低リソース環境と高リソース環境の両方で、文脈パラメータの学習を一貫して改善することを示しています。
https://aclanthology.org/2022.acl-long.312/
Saliency as Evidence: Event Detection with Trigger Saliency Attribution
イベント検出(ED)は、テキスト内の特定のタイプのイベントトリガーを特定するイベント抽出の重要なサブタスクです。EDにおける重要な進歩があるにもかかわらず、既存の方法は通常、「1つのモデルがすべてのタイプに適合する」というアプローチに従っており、イベントタイプの違いを見分けることができず、しばしばかなり偏ったパフォーマンスを引き起こします。偏ったパフォーマンスの原因を見つけることは、EDモデルの堅牢性にとって重要ですが、これまでこの問題についてはほとんど探求されていませんでした。この研究では、問題を詳しく調べ、トリガーの重要性の帰属という新しい概念を提示し、明示的にイベントの基本的なパターンを定量化することができます。この基盤の上に、トリガー依存型とコンテキスト依存型を区別し、2つのベンチマークで有望なパフォーマンスを達成する新しいEDトレーニングメカニズムを開発します。最後に、トリガー依存型とコンテキスト依存型の多くの異なる特性を強調することで、私たちの仕事はこの問題に対するより多くの研究を促進するかもしれません。
https://aclanthology.org/2022.acl-long.313/
SRL4E – Semantic Role Labeling for Emotions: A Unified Evaluation Framework
感情分析の分野において、単一の文が複数の感情や感情を表現することがあり、それぞれに独自の経験者、対象、および/または原因があることがいくつかの研究で強調されています。このため、過去数年間、研究者は手動でデータを収集し、注釈を付けることで、自動システムが感情を区別するだけでなく、その意味的構成要素を捉える能力を調査するようになりました。しかし、現在利用可能なゴールドデータセットは、サイズ、ドメイン、形式、分割、感情カテゴリー、および役割ラベルにおいて異質であり、異なる作品間の比較が困難であり、この分野の進歩を妨げています。本論文では、この問題に取り組み、Semantic Role Labeling for Emotions(SRL4E)に焦点を当てた統一評価フレームワークを提供し、共通のラベリングスキームを使用して、複数の感情と意味的役割にタグ付けされたデータセットを統合します。我々は、SRL4Eをベンチマークとして使用し、現代の事前学習言語モデルがどのように機能するかを評価し、このタスクにおいて現在どのような状況にあるかを分析し、この複雑な分野の研究を容易にするためのツールを提供することを望んでいます。
https://aclanthology.org/2022.acl-long.314/
Context Matters: A Pragmatic Study of PLMs’ Negation Understanding
言語学において、否定に関する2つの主要な視点がある:意味論的視点と実用論的視点である。これまで、NLPにおける否定に関する研究はほぼすべて意味論的視点に従ってきた。本論文では、実用論的パラダイムを採用して、トランスフォーマーベースのPLMに焦点を当てた否定理解の研究を行う。我々の結果は、これまでの意味論的な研究とは異なり、PLMの否定理解に関するより包括的で、結果から判断すると楽観的な見方を提供する。
https://aclanthology.org/2022.acl-long.315/
Probing for Predicate Argument Structures in Pretrained Language Models
現代の事前学習済み言語モデル(PLMs)の効果的かつ広範な利用のおかげで、最近提案されたアプローチは、依存構造やスパンベース、多言語およびクロスリンガルの意味役割ラベリング(SRL)において驚くべき結果を達成しています。これらの結果は、研究者が現代のPLMsの内部機能を調査し、SRLに関する情報をどのように、どこに、どの程度エンコードするかを理解することを目的としています。本論文では、この研究の流れに従い、PLMs内の述語引数構造を探求します。私たちの研究は、PLMsが述語の文脈化表現に直接意味構造をエンコードすることを示し、また述語の意味とその構造の相関関係、名詞と動詞の構造の転移可能性の程度、およびそのような構造が言語間でどのようにエンコードされるかについての洞察を提供します。最後に、このような洞察の実用的な意義を検討し、述語引数構造情報をSRLモデルに埋め込むことの利点を示します。
https://aclanthology.org/2022.acl-long.316/
Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction
私たちは、多言語事前学習生成言語モデルを活用したゼロショットクロスリンガルイベント引数抽出(EAE)に関する研究を発表します。EAEを言語生成タスクとして定式化することにより、私たちの方法は効果的にイベント構造をエンコードし、引数間の依存関係を捉えます。私たちは、任意の言語に対応可能な言語非依存テンプレートを設計し、イベント引数構造を表現します。これにより、クロスリンガル転送が容易になります。私たちの提案モデルは、入力パッセージから抽出された引数を言語非依存テンプレートに埋め込む文を生成するために、多言語事前学習生成言語モデルを微調整します。モデルはソース言語でトレーニングされ、その後、ターゲット言語で直接イベント引数抽出に適用されます。実験により、提案モデルがゼロショットクロスリンガルEAEにおいて現在の最先端モデルを上回ることが示されました。包括的な研究とエラー分析が提示され、生成言語モデルを使用したゼロショットクロスリンガル転送EAEの利点と現在の制限をよりよく理解するためのものです。
https://aclanthology.org/2022.acl-long.317/
Identifying Moments of Change from Longitudinal User Text
オンラインプラットフォームで共有されるコンテンツを通じて、個人の行動や気分の変化を特定することが、ますます重要になっています。これまでの研究の多くは、(a) 投稿の一括に基づいてリスクのある個人や特定の精神的健康状態を特定するか、(b) 投稿レベルで同等のラベルを提供することに焦点を当てています。このような研究の欠点は、強い時間的要素の欠如と、個人の軌跡に沿った長期的な評価とタイムリーな介入を許さないことです。ここでは、オンラインで共有されるコンテンツに基づいて、個人の変化の瞬間を特定する新しいタスクを定義します。私たちが考慮する変化は、気分の急激な変化(スイッチ)または徐々に進行する気分の進行(エスカレーション)です。私たちは、変化の瞬間を捉えるための詳細なガイドラインと、500の手動注釈付きユーザータイムライン(18.7Kの投稿)のコーパスを作成しました。関連するタスクからインスピレーションを得たさまざまなベースラインモデルを開発し、文脈に応じたシーケンシャルモデリングによる最高のパフォーマンスが得られることを示しました。また、時間的ウィンドウで稀なイベントを捉えるための新しいメトリックを紹介しました。
https://aclanthology.org/2022.acl-long.318/
Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System
最近、事前学習された言語モデルは、タスク指向型対話(TOD)システムに利益をもたらすことが示されています。しかし、既存の方法は、このタスクを段階的な生成問題として定式化するため、異なるサブタスク間でのエラー蓄積や、より大きなデータ注釈のオーバーヘッドを引き起こす可能性があります。本研究では、タスク指向型対話のための統合型プラグアンドプレイモデルであるPPTODを提案します。さらに、異種の対話コーパスから主要なTODタスク完了スキルを学習することを可能にする新しい対話マルチタスク事前学習戦略を紹介します。私たちは、エンドツーエンドの対話モデリング、対話状態追跡、意図分類を含む3つのベンチマークTODタスクでモデルを広範にテストしました。実験結果は、PPTODが高リソースおよび低リソースの両方のシナリオで、すべての評価タスクで新しい最高水準を達成していることを示しています。さらに、以前のSOTA方法との比較では、PPTODによって生成された応答が、人間の注釈者によって判断されたより事実的に正確で意味的に整合性があることが示されています。
https://aclanthology.org/2022.acl-long.319/
Graph Enhanced Contrastive Learning for Radiology Findings Summarization
放射線学レポートの印象セクションは、所見セクションから最も顕著な観察を要約し、医師に伝えるために放射線科医にとって最も重要なセクションです。所見の要約は時間がかかり、経験の浅い放射線科医にとっては誤りが生じる可能性があり、自動的な印象生成は大きな注目を集めています。エンコーダ・デコーダのフレームワークを用いて、以前の多くの研究では、追加の知識(例えば、静的な事前定義の臨床オントロジーや追加の背景情報)を組み込むことが探求されてきました。しかし、彼らはそのような知識を別々のエンコーダでエンコードして、モデルへの追加の入力として扱っており、元の所見との関係を活用することに限界があります。この限界に対処するために、我々は追加の知識と元の所見を統合的に活用するための統一されたフレームワークを提案し、重要な情報(つまり、キーワードとその関係)を適切に抽出して印象生成を促進することができます。詳細には、各入力所見について、テキストエンコーダによってエンコードされ、そのエンティティと依存構造木を通じてグラフが構築されます。次に、グラフエンコーダ(例えば、グラフニューラルネットワーク(GNN))が構築されたグラフ内の関係情報をモデル化するために採用されます。最後に、所見のキーワードを強調するために、コントラスティブラーニングが導入され、非キーワードをマスキングして構築された正のサンプルを近づけ、キーワードをマスキングして構築された負のサンプルを遠ざけます。OpenIとMIMIC-CXRの2つのデータセットでの実験結果は、提案された方法の有効性を確認し、最先端の結果が得られました。
https://aclanthology.org/2022.acl-long.320/
Semi-Supervised Formality Style Transfer with Consistency Training
フォーマルスタイル転送(FST)は、意味を変えずに非公式な文を公式な文に言い換えるタスクである。既存の並列データセットのデータ不足問題に対処するため、以前の研究では、FSTモデルが主にターゲット側の非ラベル文から利益を得るために、サイクル再構築スキームを採用する傾向があった。本研究では、一貫性トレーニングに基づくシンプルで効果的な半教師ありフレームワークを提案し、ソース側の非ラベル文をより効果的に利用することを目的としている。具体的には、アプローチは、モデルがその摂動バージョンの類似した出力を生成するように強制することによって、ソース側の非公式な文から得られた疑似並列データを拡張する。さらに、さまざまなデータ摂動方法の効果を実証的に検討し、フレームワークを改善するための効果的なデータフィルタリング戦略を提案する。 GYAFCベンチマークの実験結果は、40%未満の並列データでも最先端の結果を達成できることを示している。
https://aclanthology.org/2022.acl-long.321/
Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure
多言語事前学習言語モデルであるmBERTやXLM-Rなどは、印象的なクロスリンガル能力を示しています。驚くべきことに、両方ともクロスリンガルな監視や整合されたデータなしで、多言語マスク言語モデル(MLM)を使用しています。励ましの結果にもかかわらず、私たちはまだ、なぜ多言語MLMからクロスリンガル能力が生じるのかについて明確な理解を欠いています。私たちの研究では、クロス言語能力は言語間の共通点から生じると主張しています。具体的には、構成順序、構成、および単語共起の3つの言語特性を研究します。まず、ソース言語の特性を変更して人工言語を作成します。次に、変更された特性の貢献を、ターゲット言語におけるクロス言語転送結果の変化を通じて研究します。6つの言語と2つのクロスリンガルNLPタスク(テキストエンテイルメント、文の検索)で実験を行います。私たちの主な結論は、構成順序と単語共起の貢献は限定的であり、構成がクロス言語転送の成功により重要であるということです。
https://aclanthology.org/2022.acl-long.322/
Rare and Zero-shot Word Sense Disambiguation using Z-Reweighting
単語意味の曖昧さ解消(WSD)は、自然言語処理(NLP)コミュニティにおける重要な問題です。現在の方法は、教師あり学習と大規模な事前学習言語モデルを利用することで、まずまずの性能を発揮しています。しかし、訓練データセットの不均衡は、稀な意味やゼロショットの意味に対して性能が低下する原因となります。訓練データセットにおいて、上位頻度ランクの単語には、下位頻度ランクの単語よりも多くの訓練インスタンスと意味があります。我々は、単語頻度ランクと単語意味数分布の統計的関係を調査しました。この関係に基づいて、我々は単語レベルでのZ重み付け法を提案し、不均衡なデータセットの訓練を調整します。実験結果は、Z重み付け戦略が標準的な英語全単語WSDベンチマークで性能向上を達成することを示しています。さらに、この戦略は、モデルが稀な意味やゼロショットの意味に対してより汎化性能を発揮するのに役立ちます。
https://aclanthology.org/2022.acl-long.323/
Nibbling at the Hard Core of Word Sense Disambiguation
最新のシステムが推定される人間のパフォーマンスに達したことで、単語意味曖昧性解消(WSD)は、Transformerベースの事前学習言語モデルにエンコードされた膨大な知識のおかげで解決されたように見える自然言語処理タスクの一つに加わりました。しかし、生の数字の下に見ると、現在のアプローチは、人間が決して犯さない些細なミスをまだ犯していることが容易にわかります。本研究では、F1スコアメトリックが単純に顔に取られるべきではない理由を示し、英語全単語WSDの最も代表的な7つの最新システムが従来の評価ベンチマークでどのようなエラーを犯すかについて徹底的な分析を提供します。さらに、(a)その語彙的および意味的な不正確さを修正した標準評価ベンチマークの修正版、(b)トレーニング時に見られない最も頻度の低い単語意味と意味に対するシステムの強靭性を評価するために考案されたチャレンジセットである42D、および(c)調査された最新のシステムのどれも解決できないインスタンスだけで構成されたチャレンジセットであるhardENを特集するテストセットのコレクションを作成してリリースします。すべてのテストセットとモデル予測をhttps://github.com/SapienzaNLP/wsd-hard-benchmarkで研究コミュニティに提供します。
https://aclanthology.org/2022.acl-long.324/
Large Scale Substitution-based Word Sense Induction
私たちは、大規模な語彙とコーパスに安価にスケーリングできる、事前にトレーニングされたマスクされた言語モデル(MLM)に基づく単語意味誘導方法を提案します。その結果、コーパスは、コーパス由来の意味インベントリに従って意味タグ付けされ、各意味に示唆的な単語が関連付けられたものになります。私たちの方法を使用して意味タグ付けされた英語のWikipediaでの評価では、誘導された意味と各インスタンスの意味割り当てが、BabelfyなどのWSD方法と比較しても高品質であることが示されました。さらに、意味タグ付けされたコーパスで静的な単語埋め込みアルゴリズムをトレーニングすることにより、高品質の静的な意味を持つ埋め込みを得ることができます。これらは、WiCデータセットや、私たちが開発した新しい外れ値検出データセットで、既存の意味を持つ埋め込み方法よりも優れています。アルゴリズムのデータ駆動型の性質により、科学分野の事例研究を使用して示されるように、標準的な意味インベントリには現れないコーパス固有の意味を誘導することができます。
https://aclanthology.org/2022.acl-long.325/
Can Synthetic Translations Improve Bitext Quality?
合成翻訳は、主にデータ拡張の手段として、広範なNLPタスクに使用されてきました。この研究では、代わりに、合成翻訳が、採掘されたバイリンガルテキスト内の潜在的に不完全な参照翻訳を修正するためにどのように使用できるかを探求しています。我々は、合成サンプルが、NMTノイズを緩和するために役立つ意味的等価分類器に基づいて、元のテキストを置き換える場合、追加のバイリンガル監視なしで、ビットキストの品質を改善できることを発見しました。改訂されたビットキストの改善された品質は、人間の評価によって内在的に確認され、バイリンガル誘導およびMTタスクを通じて外在的に確認されます。
https://aclanthology.org/2022.acl-long.326/
Unsupervised Dependency Graph Network
最近の研究では、事前学習された自己注意モデルの特性が依存構文構造と類似していることが明らかになっています。特に、一部の自己注意ヘッドは個々の依存関係タイプによく対応しています。これらの進展に着想を得て、我々はこれらの注意ヘッドが異なる依存関係をモデル化するように促す新しい競争メカニズムを提案します。我々は、生のコーパスとマスクされた言語モデリングタスクから依存構造を誘導できる新しいモデル、Unsupervised Dependency Graph Network(UDGN)を紹介します。実験結果は、UDGNが金のPOSタグや他の外部情報なしで非常に強力な非監視型依存解析性能を達成することを示しています。競争ゲートヘッドは、人間による注釈付き依存関係タイプと強い相関があります。さらに、UDGNはマスクされた言語モデリングと文のテキスト類似性タスクでも競争力のあるパフォーマンスを発揮することができます。
https://aclanthology.org/2022.acl-long.327/
WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types
多様なコンテキストとエンティティタイプを持つWikiDiverseという高品質の人手によるMELデータセットを提供し、そのデータセットを用いて、視覚情報をより適切に利用するように設計された一連のMELモデルを実装した。WikiDiverseは、Wikipediaを対応する知識ベースとして使用し、限られたコンテキストトピックとエンティティタイプ、簡略化された言及の曖昧さ、制限された利用可能性など、既存のMELデータセットの欠点を克服するために採用された適切な注釈手順によって品質が保証されている。異なるモダリティの貢献を調査するために、広範な実験分析が行われ、このタスクに関する将来の研究を促進する。
https://aclanthology.org/2022.acl-long.328/
Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge of Pre-trained Language Models
プレトレーニング言語モデル(PLM)の知識転移メカニズムを理解するためには、知識探査が重要です。一般的なドメインにおけるPLMの知識探査の進展にもかかわらず、バイオメディカルドメインのような専門分野は未だに十分に探査されていません。このために、Unified Medical Language System(UMLS)メタサウルスに基づいて構築された、よく整備されたバイオメディカル知識探査ベンチマークであるMedLAMAを公開します。我々は、最先端のPLMと探査手法を広範囲にテストし、最大でacc@10の3%に到達しました。この低い性能につながるドメイン固有の課題の様々な源を強調しながら、基礎となるPLMにはより高い探査タスクの可能性があることを示します。これを実現するために、探査データを使用せずに基礎となるPLMを調整する新しい自己教師あり対照探査アプローチであるContrastive-Probeを提案します。Contrastive-Probeはacc@10を28%まで押し上げますが、性能差はまだ顕著です。人間の専門家による評価では、UMLSにはまだ事実知識の全スペクトルが含まれていないため、Contrastive-Probeの探査性能は依然として過小評価されていると考えられます。MedLAMAとContrastive-Probeが、このドメインに適した探査技術のさらなる開発を促進することを願っています。我々のコードとデータセットは、https://github.com/cambridgeltl/medlamaで公開されています。
https://aclanthology.org/2022.acl-long.329/
Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT
Transformerベースの事前学習モデル(BERTなど)は、多くの自然言語処理アプリケーションで最先端の結果を達成することができるという驚異的な成功を示しています。しかし、これらのモデルを展開することは、Transformerの標準的な自己注意メカニズムが入力シーケンスの長さに対して二次計算コストを持つため、極めて高価になる可能性があります。これに対処するために、私たちはFCAを提案します。FCAは、自己注意において計算シーケンスの長さを段階的に短くすることで計算コストを削減する、細かい粒度と粗い粒度のハイブリッド自己注意です。具体的には、FCAは、各層でトークンの情報量を決定するための注意ベースのスコアリング戦略を実行します。次に、情報量の多いトークンは自己注意において細かい粒度の計算単位として機能し、情報量の少ないトークンは、1つまたは複数のクラスターに置き換えて粗い粒度の計算単位として機能します。標準的なGLUEベンチマークでの実験結果は、FCAを使用したBERTが、元のBERTに比べてFLOPsを2倍削減し、精度の損失が1%未満であることを示しています。私たちは、FCAが従来の方法と比較して、精度とFLOPsのトレードオフを大幅に改善することを示しています。
https://aclanthology.org/2022.acl-long.330/
Compression of Generative Pre-trained Language Models via Quantization
生成的Pre-trained Language Models(PLMs)のサイズが増加するにつれて、モデルの圧縮の需要が大幅に増加しています。BERTまたはその派生物を圧縮するためのさまざまな方法があるにもかかわらず、生成的PLMsを圧縮する試みはほとんどなく、その基礎的な難しさは不明です。本論文では、量子化によって生成的PLMsを圧縮します。我々は、容量の低下によって引き起こされる均質な単語埋め込みと重みの異なる分布により、以前の量子化方法が生成的タスクで失敗することを発見しました。それに応じて、区別可能な単語埋め込みを学習するためのトークンレベルの対照的な蒸留と、量子化器を異なるモジュールに適応させるためのモジュールごとの動的スケーリングを提案します。さまざまなタスクでの実証結果は、提案された方法が生成的PLMsにおいて最先端の圧縮方法を大幅に上回ることを示しています。フルプレシジョンモデルと同等の性能を持ち、GPT-2とBARTでそれぞれ14.4倍と13.4倍の圧縮率を達成しました。
https://aclanthology.org/2022.acl-long.331/
Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration
自然言語処理に関する論文の要約文を日本語に翻訳してください。 環境内の大きな探索空間のため、ビジョン・ランゲージ・ナビゲーション(VLN)は困難なタスクである。この問題に対処するため、以前の研究では、大規模なデータセットで事前学習された大規模なモデルを微調整するいくつかの方法が提案されてきた。しかし、従来の微調整方法は、追加の人間によるラベル付けナビゲーションデータが必要であり、環境内の自己探索能力が欠如しているため、未知のシーンの一般化を妨げている。クロスドメイン適応の能力を向上させるために、Prompt-based Environmental Self-exploration(ProbES)を提案し、軌跡をサンプリングして環境を自己探索し、大規模なクロスモーダル事前学習モデル(CLIP)を介して構造化された指示を自動生成することができる。当社の方法は、人間のラベル付けなしに自己探索によってドメイン内データセットを構築するため、CLIPから学習した知識を完全に活用する。従来の微調整アプローチとは異なり、プロンプトチューニングを導入して言語埋め込みの高速適応を実現し、事前知識を活用して学習効率を大幅に改善する。人間の監督や指示プロンプトチューニングなしで、どの環境でも軌跡-指示ペアを自動合成することにより、当社のモデルはVLNやREVERIEを含む多様なビジョン・ランゲージ・ナビゲーションタスクに適応することができる。定性的および定量的な結果の両方が、当社のProbESがナビゲーションモデルの一般化能力を大幅に改善することを示している。
https://aclanthology.org/2022.acl-long.332/
DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation
オープンドメインにおける対話応答生成は、関連性と多様性のある応答を生成することが主な課題である重要な研究トピックである。本論文では、DialogVEDと呼ばれる新しい対話事前学習フレームワークを提案し、強化エンコーダ・デコーダ事前学習フレームワークに連続的な潜在変数を導入して、応答の関連性と多様性を高める。Redditという大規模な対話コーパスを用いて、言語モデル(LMs)と変分オートエンコーダ(VAEs)の文献で使用される以下の4つのタスクを使用してモデルを事前学習する:1)マスクされた言語モデル、2)応答生成、3)単語袋の予測、および4)KLダイバージェンスの削減。また、対話のターン構造をモデル化するための追加のパラメータを追加して、事前学習モデルの性能を改善する。PersonaChat、DailyDialog、およびDSTC7-AVSDベンチマークで応答生成の実験を行った。実験結果は、当社のモデルがこれらのデータセットすべてで新しい最高の結果を達成したことを示している。
https://aclanthology.org/2022.acl-long.333/
Contextual Fine-to-Coarse Distillation for Coarse-grained Response Selection in Open-Domain Conversations
自然言語処理に関する論文の要約文を日本語に翻訳してください。 本研究では、検索ベースの対話システムにおける粗いレスポンス選択の問題を研究しています。この問題は、細かいレスポンス選択と同じくらい重要ですが、既存の文献ではあまり探究されていません。本論文では、オープンドメインの会話における粗いレスポンス選択のためのコンテキスト依存型ファイン・トゥ・コース(CFC)蒸留モデルを提案します。CFCモデルでは、コンテキストマッチングを用いたマルチタワーアーキテクチャに基づいて、クエリ、候補コンテキスト、レスポンスの密な表現を学習し、1つのタワーアーキテクチャ(細かい粒度)から学習されたより豊富な知識をマルチタワーアーキテクチャ(粗い粒度)に蒸留して、リトリーバーの性能を向上させます。提案されたモデルの性能を評価するために、RedditコメントダンプとTwitterコーパスに基づく2つの新しいデータセットを構築しました。2つのデータセットでの広範な実験結果は、提案手法が従来のベースライン手法と比較して、すべての評価指標で大幅な改善を達成したことを示しています。
https://aclanthology.org/2022.acl-long.334/
Textomics: A Dataset for Genomics Data Summary Generation
自然言語処理を用いたバイオメディカル・ジェノミクスデータからの発見の要約は、バイオメディカル研究において重要なステップであるが、ほとんど手動で行われている。本研究では、22,273ペアのジェノミクスデータ行列とその要約を含む、新しいデータセットであるTextomicsを紹介する。各要約は、データを生成した研究者によって書かれ、科学論文に関連付けられている。このデータセットを基に、ジェノミクスデータ行列からテキスト要約を生成するタスクとその逆のタスクを研究する。ジェノミクスデータのモデリングにおけるk最近傍法の成功した応用に着想を得て、kNN-Vec2Textモデルを提案し、データセットで大幅な改善を観察する。さらに、Textomicsが科学論文の埋め込みの評価や、科学論文理解のためのマスクされたテンプレートの生成など、他のアプリケーションの進歩にどのように役立つかを説明する。Textomicsは、ジェノミクスデータのテキスト要約を生成するための最初のベンチマークとして機能し、他のバイオメディカルおよび自然言語処理アプリケーションに広く適用されることを期待している。
https://aclanthology.org/2022.acl-long.335/
A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space
高品質な文表現の学習は、多岐にわたる下流タスクに利益をもたらす自然言語処理の基本的な問題である。BERTのような事前学習言語モデルは大きな成功を収めているが、その文表現を直接使用すると、意味的なテキスト類似性タスクでの性能が低下することが多い。最近、いくつかの対比学習方法が提案され、文表現の学習に有望な結果を示している。しかし、ほとんどの方法は、正負の表現ペアの構成に焦点を当て、NT-Xentのようなトレーニング目的にはあまり注意を払っておらず、区別力を獲得するには十分ではなく、文間の意味的な部分順序をモデル化することができない。そこで、本論文では、ペアワイズの区別力を高め、三つ組の文の含意関係をモデル化するために設計されたトレーニング目的を持つ新しい方法ArcCSEを提案する。STSやSentEvalを含む多様な文関連タスクで、我々のアプローチが従来の最先端を上回ることを示す広範な実験を行った。
https://aclanthology.org/2022.acl-long.336/
Packed Levitated Marker for Entity and Relation Extraction
最近のエンティティと関係抽出の研究は、事前学習されたエンコーダからより良いスパン表現を取得する方法を調査することに焦点を当てています。しかし、既存の研究の主な制限は、スパン(ペア)間の相互関係を無視していることです。本研究では、エンコーダにマーカーを戦略的にパックすることで、スパン(ペア)間の相互関係を考慮する新しいスパン表現アプローチ、Packed Levitated Markers(PL-Marker)を提案します。特に、隣接スパンを総合的に考慮する近隣指向のパッキング戦略を提案し、エンティティの境界情報をより良くモデル化します。さらに、より複雑なスパンペア分類タスクに対しては、同じ主語スパンペア間の相互関係をモデル化するために、主語指向のパッキング戦略を設計します。実験結果は、強化されたマーカー機能により、当社のモデルが6つのNERベンチマークでベースラインを上回り、ACE04およびACE05の以前の最先端モデルよりも高速で4.1%〜4.3%の厳密な関係F1改善を達成することを示しています。当社のコードとモデルは、https://github.com/thunlp/PL-Markerで公開されています。
https://aclanthology.org/2022.acl-long.337/
An Interpretable Neuro-Symbolic Reasoning Framework for Task-Oriented Dialogue Generation
本論文では、タスク指向型対話システムの解釈性の問題を研究しています。以前は、ほとんどのニューラルベースのタスク指向型対話システムは、モデルの予測を人間に解釈できない暗黙の推論戦略を採用していました。透明な推論プロセスを得るために、推論チェーンによってモデルの決定を正当化する明示的な推論を実行する神経記号を導入します。タスク指向の対話には多段階の推論が必要なため、推論チェーンを導出するには、既存の神経記号アプローチは1段階の設計によるエラー伝播を引き起こす可能性があります。これを克服するために、仮説ジェネレータと推論エンジンから構成される2段階アプローチを提案します。まず、仮説ジェネレータを使用して、望ましいタスクを実行するための複数の仮説、つまり潜在的な操作を取得します。次に、推論エンジンによって各仮説が検証され、有効な仮説が選択されて最終的な予測が行われます。全体のシステムは、推論チェーン注釈を使用せずに生のテキスト対話を利用してトレーニングされます。2つの公開ベンチマークデータセットでの実験的研究により、提案手法はより良い結果を達成するだけでなく、解釈可能な決定プロセスを導入します。
https://aclanthology.org/2022.acl-long.338/
Impact of Evaluation Methodologies on Code Summarization
コードの要約タスク、例えばコメント生成やメソッド命名のための機械学習(ML)モデルの開発に対する関心が高まっています。MLモデルの効果が大幅に向上しているにもかかわらず、データセットをトレーニング、バリデーション、テストセットに分割する方法である評価方法は十分に研究されていませんでした。具体的には、コードとコメントのタイムスタンプを評価中に考慮するコード要約に関する先行研究は存在しませんでした。これにより、意図されたユースケースと一致しない評価が行われる可能性があります。本論文では、コード要約研究コミュニティに新しい時間分割評価方法を導入し、一般的に使用されている混合プロジェクトおよびクロスプロジェクトの方法と比較します。各方法はいくつかのユースケースにマッピングでき、時間分割方法はコード要約のMLモデルの評価に採用すべきです。方法論の影響を評価するために、タイムスタンプ付きの(コード、コメント)ペアのデータセットを収集し、最近のコード要約のMLモデルをトレーニングおよび評価します。実験の結果、異なる方法論は相反する評価結果をもたらすことがわかりました。コミュニティには、評価に使用される方法論のセットを拡大するように呼びかけます。
https://aclanthology.org/2022.acl-long.339/
KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain Question Answering
現在のオープンドメイン質問応答(ODQA)モデルは、通常、検索モジュールと読み取りモジュールを含みます。検索モジュールは、与えられた質問に対してオープンソースのドキュメントから関連する可能性のあるパッセージを選択し、読み取りモジュールは、選択されたパッセージに基づいて回答を生成します。最近提案されたFusion-in-Decoder(FiD)フレームワークは、密なパッセージ検索器と生成リーダーをベースに構築され、最先端のパフォーマンスを達成する代表的な例です。本論文では、知識強化バージョンであるKG-FiDを導入することで、FiDアプローチをさらに改善します。新しいモデルは、知識グラフを使用して、取得されたパッセージ間の構造的な関係を確立し、グラフニューラルネットワーク(GNN)を使用してパッセージを再ランク付けし、さらに処理するために上位のパッセージのみを選択します。一般的なODQAベンチマークデータセット(Natural QuestionsおよびTriviaQA)での実験では、KG-FiDがFiDよりも少ない計算コストで同等またはより良い回答予測のパフォーマンスを達成できることが示されました。
https://aclanthology.org/2022.acl-long.340/
Which side are you on? Insider-Outsider classification in conspiracy-theoretic social media
ソーシャルメディアは脅威の物語や関連する陰謀論の温床である。これらの物語では、外部グループが内部グループの完全性を脅かし、鮮明に定義されたグループアイデンティティが浮かび上がる:内部者-著者が同一視するエージェントと、外部者-内部者を脅かすエージェント。これらのグループのメンバーを推測することは、新しいNLPタスクであり、以下のような課題がある:(i)情報は多数の構築が不十分な投稿に分散している。(ii)脅威と脅威エージェントは高度に文脈依存的であり、同じ投稿にはどちらのグループのメンバーシップに複数のエージェントが割り当てられる可能性がある。(iii)エージェントのアイデンティティはしばしば暗黙的で推移的である。(iv)外部者のステータスを示すために使用されるフレーズは、一般的な否定的感情パターンに従わないことが多い。これらの課題に対処するために、私たちは新しい内部者-外部者分類タスクを定義しました。適切な既存のデータセットや関連するモデルが存在しないため、私たちはラベル付きデータセット(CT5K)を導入し、このタスクに対処するためのモデル(NP2IO)を設計しました。NP2IOは、事前学習された言語モデルを活用して内部者と外部者を分類します。NP2IOは堅牢であり、トレーニング中に見られなかった名詞句にも一般化し、非自明なベースラインモデルの性能を20%上回ります。
https://aclanthology.org/2022.acl-long.341/
Learning From Failure: Data Capture in an Australian Aboriginal Community
多くの低資源言語技術開発は、統計モデルのトレーニングのためにデータを収集する必要性に基づいています。小規模な先住民言語のテキストを記録し、転写する典型的なプロセスに従うと、「転写のボトルネック」と呼ばれる問題に直面します。したがって、転写のボトルネックを回避しながらデータを生成する話者との新しい関わり方を探ることが価値があります。私たちは、単語スポッティングに基づく転写アプローチでシステムの推測を確認するために話者が使用するプロトタイプアプリを展開しました。しかし、アプリをテストする過程で、話者との関わりに関する多くの新しい問題に直面しました。本論文では、オーストラリアの先住民コミュニティでデータ収集技術を展開するプロセスについての詳細な研究を紹介します。私たちは参加者とのやり取りを振り返り、先住民コミュニティで言語データ収集の方法を開発する人々に適用できる教訓を引き出します。
https://aclanthology.org/2022.acl-long.342/
Deep Inductive Logic Reasoning for Multi-Hop Reading Comprehension
マルチホップ読解は、複数の文書を跨いで推論する能力を必要とします。一方、深層学習アプローチは、クエリに関連する情報を分散埋め込みに暗黙的にエンコードするため、正しい答えを推論するための離散的な関係推論プロセスを明らかにできません。他方、論理ベースのアプローチは、エンティティと関係が明確に定義された構造化データで主に機能するため、解釈可能なルールを提供して目標の答えを推論します。本論文では、クエリに関連する(候補に関連する)情報を最初に抽出し、その後、ターゲット関係を含む実行可能なルールを誘導することによって、フィルタリングされた情報の間で論理推論を行う、深層学習ベースの帰納的論理推論方法を提案します。推論プロセスは、新しい微分可能な論理演算子を持つ注意メモリを介して実現されます。モデルの効果を示すために、WikiHopとMedHopの2つの読解データセットで評価します。
https://aclanthology.org/2022.acl-long.343/
CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues
本論文は、文脈に基づく常識推論を用いた対話推論の問題に取り組んでいます。私たちは、CICEROというデータセットを編纂しました。このデータセットは、二人の会話における5種類の発話レベルの推論(原因、後続のイベント、前提、動機、感情的反応)を含みます。このデータセットには、5,672の対話から53,105の推論が含まれています。私たちは、このデータセットを使用して、関連する生成的および識別的タスクを解決しました。具体的には、原因と後続のイベントの生成、前提、動機、聴衆の感情的反応の生成、および妥当な代替案の選択です。私たちの結果は、対話中心の常識知識データセットの価値を確認しています。CICEROが常識に基づく対話推論の新しい研究の道を開くことを願っています。
https://aclanthology.org/2022.acl-long.344/
A Comparative Study of Faithfulness Metrics for Model Interpretability Methods
近年、機械学習モデルの内部推論プロセスを明らかにする解釈可能な手法が注目されています。特定の解釈が本来の意思決定メカニズムをどの程度反映しているかを定量化するために、様々な信頼性評価メトリックが提案されています。しかし、異なる信頼性メトリックは、異なる解釈を比較する際に相反する傾向を示すことがわかりました。この観察に基づき、広く採用されている信頼性メトリックの包括的かつ比較的な研究を行うことを目的としています。特に、診断性と複雑性という2つの評価次元を導入します。診断性は、信頼性メトリックが比較的忠実な解釈をランダムに生成された解釈よりも好む度合いを示し、複雑性はモデルの順方向パスの平均数で測定されます。実験結果によると、十分性と包括性メトリックは、他の信頼性メトリックよりも高い診断性と低い複雑性を持っていることがわかりました。
https://aclanthology.org/2022.acl-long.345/
SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer
事前学習された言語モデルを下流タスクに適用するためのパラメータ効率的な手法に対する関心が高まっています。Lesterら(2021)のPrompt Tuningアプローチに基づき、タスク固有のソフトプロンプトを学習して凍結された事前学習モデルを条件付けて異なるタスクを実行するようにするアプローチに、SPoT:Soft Prompt Transferという新しいプロンプトベースの転移学習アプローチを提案します。SPoTは、1つ以上のソースタスクでプロンプトを最初に学習し、それをターゲットタスクのプロンプトの初期化に使用します。SPoTがPrompt Tuningのパフォーマンスを多くのタスクで大幅に向上させることを示します。さらに、すべてのモデルサイズにおいて、SPoTは、最大27,000倍少ないタスク固有のパラメータを使用しながら、SuperGLUEベンチマークで標準のモデルチューニング(すべてのモデルパラメータを微調整する)と同等またはそれ以上のパフォーマンスを発揮します。SPoTが最も効果的である場所を理解するために、160の組み合わせで26のNLPタスクについて大規模なタスク転移性の研究を行い、多くのタスクがプロンプト転送によってお互いに利益を得ることができることを示します。最後に、タスクプロンプトをタスク埋め込みとして解釈して、類似したタスクを特定し、新しいターゲットタスクに最も転送可能なソースタスクを予測する効率的な検索アプローチを提案します。
https://aclanthology.org/2022.acl-long.346/
Pass off Fish Eyes for Pearls: Attacking Model Selection of Pre-trained Models
特定の下流タスクに適した事前学習モデル(PTM)を選択するには、通常、微調整の大きな努力が必要です。このプロセスを加速するために、研究者は、微調整なしでPTMの特定のタスクへの転送可能性を迅速に評価する特徴ベースのモデル選択(FMS)手法を提案しています。本研究では、現在のFMS手法は脆弱であると主張し、評価は主にPTMから抽出された静的な特徴に依存しているためです。しかし、このような特徴は、下流タスクでPTMをトレーニングせずに導出され、PTMの転送可能性の信頼できる指標ではない可能性があります。私たちは、FMSの堅牢性を評価するために2つの方法を設計し、私たちの視点を検証します。1つ目は、モデル偽装攻撃であり、劣ったPTMを対照的な目的で事後トレーニングします。2つ目は、K-meansクラスタリングに基づいてFMS評価のためのデータポイントのサブセットを選択する評価データ選択です。実験結果は、両方の方法がFMSを誤ってPTMの転送可能性を判断させることができることを証明しています。さらに、これら2つの方法は、バックドア攻撃と組み合わせて、FMSを誤ったモデルの選択に誘導することができます。私たちの知る限り、これは現在のFMSアルゴリズムの欠陥を示し、その潜在的なセキュリティリスクを評価する最初の研究です。FMSの以前に見られなかったリスクを特定することにより、私たちの研究は、FMSの堅牢性を改善するための新しい方向性を示唆しています。
https://aclanthology.org/2022.acl-long.347/
Educational Question Generation of Children Storybooks via Question Type Distribution Learning and Event-centric Summarization
童話や物語の教育的な問題を生成することは、子供たちの読み書き能力を向上させるために重要です。しかし、教育的な意味を持ちながらも、童話の興味深い側面を捉えた問題を生成することは困難です。本論文では、入力されたストーリー段落の問題タイプ分布を学習し、高い認知要求を持つ問題を生成するために使用できる重要なイベントを要約する、新しい問題生成方法を提案します。イベント中心の要約器をトレーニングするために、教育的な問答ペアで構成されたシルバーサンプルを使用して、事前にトレーニングされたトランスフォーマーベースのシーケンスツーシーケンスモデルを微調整します。新しく提案された教育的な問答データセットFairytaleQAでは、自動評価および人間の評価指標の両方で、当社の方法の良好なパフォーマンスを示します。私たちの研究は、教育的な問題生成のために問題タイプ分布学習とイベント中心の要約生成を分解する必要性を示しています。
https://aclanthology.org/2022.acl-long.348/
HeterMPC: A Heterogeneous Graph Neural Network for Response Generation in Multi-Party Conversations
最近、二者間の会話に対する様々な応答生成モデルが印象的な改善を達成しているが、より実用的で複雑な多者間の会話(MPC)にはあまり努力が払われていない。対話文脈が発話のシーケンスである二者間の会話と比較して、MPCの応答生成モデルを構築することはより困難である。なぜなら、複雑な文脈構造が存在し、生成された応答は発話者と受話者の両方と過去の発話に大きく依存するためである。これらの課題に対処するために、我々はHeterMPCを提案する。HeterMPCは、グラフ内の2種類のノードで同時に発話と発話者の意味をモデル化する異種グラフベースのニューラルネットワークであり、ノードエッジタイプ依存パラメータを持つ6種類のメタ関係を設計して、グラフ内の異種相互作用を特徴付ける。多段階更新を通じて、HeterMPCは会話の構造的知識を応答生成に十分に利用できる。Ubuntuインターネットリレーチャット(IRC)チャンネルベンチマークの実験結果は、HeterMPCがMPCの応答生成のための様々なベースラインモデルを上回ることを示している。
https://aclanthology.org/2022.acl-long.349/
The patient is more dead than alive: exploring the current state of the multi-document summarisation of the biomedical literature
バイオメディカル文献の多文書要約(MDS)は、最近注目を集めている非常に有用なタスクであるが、バイオメディカル要約の品質評価には一貫性と透明性が欠けている。本論文では、MDSタスクにおける課題の文脈で既存の評価手法の不備を理解するために、2つの現行モデルによって生成された要約を調査する。この分析に基づいて、人間による評価の新しいアプローチを提案し、効果的なバイオメディカルMDSシステムを開発するために克服しなければならないいくつかの課題を特定する。
https://aclanthology.org/2022.acl-long.350/
A Multi-Document Coverage Reward for RELAXed Multi-Document Summarization
近年、新しい専用データセットや大容量の言語モデルの利用により、多文書要約(MDS)は大きな進歩を遂げてきた。しかし、これらのモデルの持つ制限の一つは、限られた参照文献と単純な最尤推定目的に対して訓練されていることである。多くの生成タスクと同様に、強化学習(RL)はMDSモデルの訓練を改善する可能性を持っているが、適切な報酬を設計する必要がある。このため、本論文では、ROUGEなどの参照ベースの評価指標と入力文書のカバレッジをバランスさせる報酬でMDSベースラインを微調整することを提案する。このアプローチを実装するために、低分散かつバイアスのない現代的な勾配推定器であるRELAX(Grathwohl et al.、2018)を利用し、ベースラインを安定性と計算効率のためにフューショットスタイルで微調整する。Multi-NewsとWCEP MDSデータセットに対する実験結果は、ベースラインに比べ平均ROUGEスコアが+0.95 pp、METEORスコアが+3.17 pp向上し、文献と競合する結果を示した。また、入力文書のカバレッジが向上し、すべての文書に均等に分散していることが示された。
https://aclanthology.org/2022.acl-long.351/
KNN-Contrastive Learning for Out-of-Domain Intent Classification
Out-of-Domain(OOD)意図分類は、対話システムにとって基本的であり、かつ挑戦的なタスクです。以前の方法では、一般的にIn-domain(IND)意図特徴の領域(特徴空間内)をコンパクトまたは単純に接続されたものに制限し、OOD意図が存在しないと仮定して識別的な意味的特徴を学習することが想定されていました。その後、IND意図特徴の分布は、仮想的な分布(主にガウス分布)に従うと仮定され、この分布外のサンプルはOODサンプルと見なされます。本論文では、OOD意図分類の本質から出発し、その最適化目的を探求します。さらに、KNN-contrastive learningというシンプルで効果的な手法を提案します。当社のアプローチは、IND意図のk-nearest neighbors(KNN)を利用して、OOD検出により適した識別的な意味的特徴を学習します。特に、密度ベースの新規性検出アルゴリズムは、当社の手法の本質に非常に根付いているため、特徴分布に対する要件を一切設けずにOOD検出アルゴリズムとして使用することが合理的です。4つの公開データセットでの広範な実験により、当社のアプローチは、特徴分布に制限を設けることなく、OOD検出性能を大幅に向上させるだけでなく、IND意図分類を改善することができることが示されました。
https://aclanthology.org/2022.acl-long.352/
A Neural Network Architecture for Program Understanding Inspired by Human Behaviors
プログラム理解は、プログラム言語処理における基本的なタスクです。これまでの研究では成功しているものの、既存の作品はプログラム理解において人間の行動を参考にすることに失敗しています。本論文では、人間の行動を考慮し、2つの主要なコンポーネントから構成されるPGNN-EKモデルを提案します。一方で、人間の「分割と征服」の読み取り行動に着想を得て、コードのアップグレードされたASTに基づく分割ベースのグラフニューラルネットワークモデルPGNNを提供します。他方で、コード理解を助けるために他のリソースに頼る人間の行動を特徴づけるために、外部知識で生のコードを変換し、情報抽出のための事前トレーニング技術を適用します。最後に、2つのコンポーネントから生成された2つの埋め込みを組み合わせて、コードの埋め込みを出力します。私たちは、PGNN-EKがコード要約とコードクローン検出のタスクにおいて優れた性能を発揮することを示すために、広範な実験を行いました。特に、私たちのモデルの汎化能力を示すために、コードクローン検出にとってより難しい新しいデータセットを公開し、コミュニティの発展を促進することができます。私たちのコードとデータは、https://github.com/RecklessRonan/PGNN-EKで公開されています。
https://aclanthology.org/2022.acl-long.353/
FaVIQ: FAct Verification from Information-seeking Questions
一般的な事実検証モデルの開発に関心が高まっているにもかかわらず、現実的な現実世界の主張を含む大規模な事実検証データセットを構築することは困難です。既存の主張は、クラウドワーカーによって作成されるため、微妙なバイアスが導入され、制御が困難であるか、または専門の事実チェック担当者によって手動で検証されるため、高価で規模が限られています。本論文では、曖昧な情報収集質問の既存のコーパスから派生した188kの主張から構成される大規模で難解な事実検証データセットであるFAVIQを構築します。質問の曖昧さにより、ユーザーの混乱を反映した真偽の主張を自動的に構築できます(例:映画の撮影年と公開年)。FAVIQの主張は自然であり、ほとんどの語彙的バイアスを含まず、検証には証拠の完全な理解が必要です。私たちの実験では、最先端のモデルが新しいタスクを解決するには遠いことが示されました。さらに、私たちのデータでのトレーニングは、広く使用されているデータセットFEVERまたはドメイン内データでトレーニングされたモデルを最大17%上回るプロの事実チェックに役立ちます。全体として、私たちのデータは自然言語理解の難解なベンチマークとして機能し、プロの事実チェックの将来の進歩を支援します。
https://aclanthology.org/2022.acl-long.354/
Simulating Bandit Learning from User Feedback for Extractive Question Answering
私たちは、教師ありデータを用いたフィードバックのシミュレーションによる抽出型質問応答の学習を研究しています。この問題を文脈バンディット学習として捉え、データ注釈を減らすことに焦点を当てたいくつかの学習シナリオの特性を分析します。私たちは、ユーザーからのフィードバックによってモデル予測された回答を改善することで、最初にわずかな例でトレーニングされたシステムが劇的に改善できることを示し、既存のデータセットを使用して、注釈の努力なしに新しいドメインにシステムを展開し、代わりにユーザーフィードバックによってシステムをオンザフライで改善できることを示します。
https://aclanthology.org/2022.acl-long.355/
Beyond Goldfish Memory: Long-Term Open-Domain Conversation
最近のオープンドメインの対話モデルの改善にもかかわらず、最先端のモデルは短い会話に基づいて訓練および評価されており、文脈が少ない。これに対し、長期的な会話設定はほとんど研究されていない。本研究では、話し手がお互いの興味を学び、過去のセッションから学んだことを話し合う複数のチャットセッションからなる人間-人間のデータセットを収集および公開する。既存のデータセットで訓練された既存のモデルが、この長期的な会話設定で自動および人間の評価の両方で不十分であることを示し、長期的な文脈モデルがはるかに優れたパフォーマンスを発揮できることを研究する。特に、検索増強方法と、以前の会話を要約して記憶する能力を持つ方法が、現在最先端と考えられている標準のエンコーダー-デコーダーアーキテクチャを上回ることがわかった。
https://aclanthology.org/2022.acl-long.356/
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension
新しい視覚ドメインの指示表現理解(ReC)モデルのトレーニングには、ドメイン内の画像の指示表現、および可能であれば対応する境界ボックスを収集する必要があります。大規模な事前トレーニングモデルは、ドメインを横断した画像分類に役立ちますが、ReCのようなより複雑なタスクにゼロショットで適用できるかどうかはまだ不明です。私たちは、ReCLIPを提案します。これは、ReCのためにCLIPを再利用するシンプルで強力なゼロショットのベースラインです。ReCとCLIPの対比的な事前トレーニング目的の密接な関係に着想を得て、ReCLIPの最初のコンポーネントは、クロッピングとぼかしを介してオブジェクト提案を分離し、CLIPに渡す領域スコアリング方法です。しかし、合成データセットでの制御実験により、CLIPはオフシェルフで空間的推論を実行することがほとんどできないことがわかりました。私たちは、RefCOCOgで29%、RefGTA(ビデオゲーム画像)で、ReCLIPの相対的な改善率は、実際の画像でトレーニングされた監視されたReCモデルに比べて8%です。
https://aclanthology.org/2022.acl-long.357/
Dynamic Prefix-Tuning for Generative Template-based Event Extraction
私たちは、テンプレートベースの条件付き生成によるイベント抽出を考慮しています。イベント抽出のタスクをプロンプトを用いたシーケンス生成問題として捉える傾向があるが、これらの生成ベースの方法には、サブオプティマルなプロンプトの使用と静的なイベントタイプ情報の2つの重要な課題がある。本論文では、コンテキスト情報をタイプ固有のプレフィックスと統合し、各コンテキストに対してコンテキスト固有のプレフィックスを学習することで、動的プレフィックスを持つテンプレートベースのイベント抽出方法(GTEE-DynPref)を提案する。実験結果は、ACE 2005において最先端の分類ベースのモデルOneIEと競合する結果を達成し、EREにおいて最高の性能を発揮することが示された。さらに、我々のモデルは、新しいタイプのイベントに対して効果的に移植可能であることが証明されている。
https://aclanthology.org/2022.acl-long.358/
E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models
過去数年間、巨大で高性能な言語モデルの構築がトレンドとなっています。これらのモデルは優れた性能を発揮しますが、高い計算コストがかかります。一般的な解決策は、モデルの圧縮を適用するか、軽量なアーキテクチャを選択することですが、これらはしばしば望ましい計算予算ごとに別々の固定サイズのモデルが必要であり、重い圧縮の場合には性能が低下することがあります。本論文では、大規模で正確なスーパーモデルと軽量なスウィフトモデルの間で推論を分散する効果的な動的推論手法であるE-LANGを提案しています。このために、決定モジュールが潜在空間の表現のエネルギー特性に基づいて入力をスーパーまたはスウィフトモデルにルーティングします。この方法は採用が容易でアーキテクチャに依存しないため、アーキテクチャの操作、モジュールの再構築、または再トレーニングの必要がないブラックボックスの事前学習モデルに適用できます。エンコーダーのみのバックボーンと分類タスクにのみ適用可能な既存の方法とは異なり、本手法はエンコーダーデコーダー構造や翻訳などのシーケンスツーシーケンスタスクにも適用できます。E-LANGの性能は、GLUE、SuperGLUE、およびWMTでT5およびBERTバックボーンを用いた一連の実験によって検証されています。特に、GLUEで平均計算速度を3.3倍、SuperGLUEで2.9倍向上させ、T5-11Bを上回りました。また、GLUEでBERTベースのSOTAを3.2倍少ない計算で達成しました。コードとデモは補足資料で入手可能です。
https://aclanthology.org/2022.acl-long.359/
PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization
私たちは、PRIMERAというマルチドキュメント表現のための事前学習モデルを紹介します。このモデルは、サマリゼーションに焦点を当て、データセット固有のアーキテクチャや大量のラベル付きデータの微調整の必要性を減らすことを目的としています。PRIMERAは、ドキュメント間の情報の接続と集約をモデルに教えるために設計された新しい事前学習目的を使用しています。また、連結された入力ドキュメントの処理を簡素化するために、効率的なエンコーダー・デコーダー・トランスフォーマーを使用しています。3つの異なるドメインからの6つのマルチドキュメントサマリゼーションデータセットで、ゼロショット、フューショット、フルスーパーバイズドの設定で広範な実験を行った結果、PRIMERAは、大きなマージンで、ほとんどの設定で現在の最先端のデータセット固有のモデルや事前学習モデルを上回りました。
https://aclanthology.org/2022.acl-long.360/
Dynamic Global Memory for Document-level Argument Extraction
ニュース記事からイベントの情報的な議論を抽出することは、情報抽出において課題となる問題であり、各文書のグローバルな文脈理解を必要とします。最近の文書レベルの抽出に関する研究は、単一文を超えてエンドツーエンドモデルのクロスセンテンス推論能力を向上させていますが、入力シーケンスの長さの制約に制限され、通常、イベント間のグローバルな文脈を無視しています。この問題に対処するために、私たちは、文書メモリストアを構築して文脈的なイベント情報を記録し、後のイベントの引数のデコードを暗黙的におよび明示的に支援するためにそれを活用する、新しいグローバルニューラル生成ベースのフレームワークを導入します。実験結果は、私たちのフレームワークが従来の方法よりも大幅に優れており、制約付きデコード設計により、敵対的に注釈された例に対してより堅牢であることを示しています。
https://aclanthology.org/2022.acl-long.361/
Measuring the Impact of (Psycho-)Linguistic and Readability Features and Their Spill Over Effects on the Prediction of Eye Movement Patterns
自然言語処理と機械学習の組み合わせによる自然読解時の視線パターン予測に関心が高まっている。トランスフォーマーベースの言語モデルの使用により、有望な結果が得られているが、そのようなモデルの性能を一般的なテキスト特性と関連付ける研究はほとんど行われていない。本論文では、自然読解のアイ・トラッキングコーパスと2つの言語モデル(BERTとGPT-2)を用いた実験について報告する。すべての実験で、5つのカテゴリ(構文的複雑さ、語彙の豊かさ、登録ベースの複合語、読みやすさ、心理言語学的な単語特性)に分類される人間の読解行動を予測するための広範な特徴の効果をテストする。実験結果は、トランスフォーマーベースの言語モデルのアーキテクチャと含まれる特徴の両方が、自然読解時の複数のアイ・トラッキング測定値を予測する上で役割を果たすことを示している。また、SP-LIMEを使用して、異なるグループからの特徴の相対的な重要性を決定する実験の結果も報告する。
https://aclanthology.org/2022.acl-long.362/
Alternative Input Signals Ease Transfer in Multilingual Machine Translation
最近の多言語機械翻訳(MMT)の研究は、高リソース言語が低リソース言語に利益をもたらす可能性に焦点を当てています。MMTモデルのトレーニング中、1つの言語ペアから学習した監視信号は、複数のソース言語で共有されるトークンを介して他の言語ペアに転送できます。ただし、トークンのオーバーラップが小さい場合、つまり言語が異なる書記体系を使用する場合、転送が妨げられます。本論文では、音声、ローマ字、転写入力など、異なる書記体系を統一する代替信号をトレーニングデータに追加することで、転送を阻害する問題に取り組みます。インド・トルコ語のように、書記体系が異なるが言語に共通の特徴がある2つの言語ファミリーでこれらの信号をテストします。結果、異なる信号の混合物でモデルをトレーニングし、推論中に異なる信号でフィードされた同じモデルの出力をアンサンブルする単純なマルチソースセルフアンサンブルは、強力なアンサンブルベースラインを1.3 BLEUポイント上回ります。さらに、セルフアンサンブルを介した代替入力の組み込みは、トレーニングセットが小さい場合に特に効果的であり、トレーニングデータの総量の5%しかアクセスできない場合でも+5 BLEUになります。最後に、代替信号を含めることで、より一貫性があり、名前付きエンティティをより正確に翻訳できることが分かり、自動化システムの事実性の向上に重要です。
https://aclanthology.org/2022.acl-long.363/
Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data
マルチモーダル技術は、地域言語の改善されたNLP技術を開発するために未開発の可能性を提供しています。しかし、言語モデルの事前学習における多くの進歩はテキストに焦点を当てており、これにより世界の言語におけるNLPタスクの性能の不平等が増大しています。本研究では、言語に使用可能なテキストと/またはオーディオデータを使用して言語モデルをマルチモーダルアプローチでトレーニングすることを提案します。スワヒリ語とキニャルワンダ語のデータを使用した初期実験では、電話データで事前トレーニングされたモデルが、ゼロからトレーニングされたモデルよりも最大6%のF1スコアの改善を示すことが示唆されました。前処理とトレーニングコードは、https://github.com/sil-ai/phone-it-inにアップロードされます。
https://aclanthology.org/2022.acl-long.364/
Noisy Channel Language Model Prompting for Few-Shot Text Classification
我々は、少数派のテキスト分類における言語モデルのプロンプティングのためのノイズチャネルアプローチを紹介する。直接モデルと呼ばれる入力に対するラベルの尤度を計算する代わりに、チャネルモデルは入力に対するラベルの条件付き確率を計算し、入力のすべての単語を説明する必要がある。我々は、コンテキスト内デモンストレーションまたはプロンプトチューニングを介して、言語モデルパラメータの更新がないか非常に限られた少数派学習方法にチャネルモデルを使用する。我々の実験は、両方の方法において、チャネルモデルが直接モデルよりも優れていることを示しており、これは安定性、つまり分散が低く最悪の場合の精度が高いことに起因すると考えられる。また、チャネルプロンプトチューニングを他の競合モデル(例えば、直接ヘッドチューニング)よりも使用するタイミングについての推奨事項を提供する広範な実験を行っており、トレーニング例の数が少ない場合、トレーニングデータのラベルが不均衡な場合、または未知のラベルへの汎化が必要な場合には、チャネルプロンプトチューニングが好ましいとされている。
https://aclanthology.org/2022.acl-long.365/
Multilingual unsupervised sequence segmentation transfers to extremely low-resource languages
本研究では、Masked Segmental Language Model(Downey et al.、2021)を多言語的に事前学習することで、非常に低資源言語における非監督的なシーケンス・セグメンテーションの性能を転移できることを示します。さらに、この転移は、ターゲット言語と系統的には無関係であるが、形態論的に類似した低資源言語のコレクションをトレーニングすることによって達成できることを示します。実験では、10の先住民アメリカン言語(AmericasNLP、Mager et al.、2021)からマヤ語のK’iche’に転移します。多言語モデルを単一言語(ゼロから)のベースライン、およびQuechuaのみで事前学習されたモデルと比較します。多言語事前学習アプローチは、ターゲットデータセットサイズに関係なく一貫したセグメンテーション品質を提供し、10の実験設定のうち6つで単一言語ベースラインを上回ることを示します。特に、ゼロショットの性能は20.6 F1であり、小規模なターゲットサイズで特に強力な結果を示します。これらの結果は、Bird(2020)が提唱するスパーストランスクリプションフレームワークなど、人間の言語単位を含む低資源NLPパイプラインに有望な示唆を与えます。
https://aclanthology.org/2022.acl-long.366/
KinyaBERT: a Morphology-aware Kinyarwanda Language Model
BERTのような事前学習言語モデルは、多くの自然言語処理タスクに成功しています。しかし、これらのモデルで一般的に使用される非監督のサブワードトークナイズ方法(例:バイトペアエンコーディング-BPE)は、形態的に豊かな言語を扱うのに最適ではありません。形態素解析器があっても、形態素を標準的なBERTアーキテクチャに単純に並べることは、形態的な合成性を捉えることができず、単語相対的な構文的な規則性を表現することができません。私たちは、形態素解析器を活用し、形態的な合成性を明示的に表現するシンプルで効果的な2層のBERTアーキテクチャを提案することで、これらの課題に対処します。BERTの成功にもかかわらず、その評価のほとんどは高リソース言語で行われており、低リソース言語での適用性が不明瞭です。私たちは、低リソースの形態的に豊かなキニャルワンダ語で提案された方法を評価し、提案されたモデルアーキテクチャKinyaBERTと名付けました。堅牢な実験結果のセットにより、KinyaBERTは、名前エンティティ認識タスクのF1スコアで2%、機械翻訳GLUEベンチマークの平均スコアで4.3%の堅固なベースラインを上回ることがわかりました。 KinyaBERTの微調整は、翻訳ノイズが存在する場合でも、複数のタスクでより堅牢な結果を達成し、収束がより良くなります。
https://aclanthology.org/2022.acl-long.367/
On the Calibration of Pre-trained Language Models using Mixup Guided by Area Under the Margin and Saliency
よくキャリブレーションされたニューラルモデルは、期待される精度に近い確信(確率出力)を生成します。以前の研究では、データ拡張技術としてのmixupトレーニングが画像分類タスクにおけるモデルのキャリブレーションを改善できることが示されていますが、自然言語理解(NLU)タスクにおけるモデルのキャリブレーションにmixupを使用することについてはほとんど知られていません。本論文では、複数のNLUタスクにおけるモデルのキャリブレーションのためのmixupを探求し、モデルのキャリブレーションをさらに改善する新しい事前学習言語モデルのmixup戦略を提案します。提案されたmixupは、各サンプルのマージン下の面積(AUM)統計量(Pleiss et al.、2020)とサンプルの重要度マップ(Simonyan et al.、2013)の両方によって誘導されます。さらに、ラベルスムージングと温度スケーリングというモデルのキャリブレーション補正技術と組み合わせ、提案されたmixupの影響について詳細な分析を提供します。我々は、自然言語推論、パラフレーズ検出、常識的推論という3つのNLUタスクについて、系統的に実験を設計しました。提案手法は、競合力のある精度を維持しながら、ドメイン内外のテストサンプルにおいて強力なベースラインよりも期待されるキャリブレーションエラーが最も低い結果を達成しました。
https://aclanthology.org/2022.acl-long.368/
IMPLI: Investigating NLI Models’ Performance on Figurative Language
自然言語推論(NLI)は、言語理解のモデルを訓練および評価するためのタスクとして広く使用されています。しかし、慣用句や比喩などの比喩的な言語を理解するために必要な推論能力については、まだ研究が不十分です。本研究では、慣用句や比喩を含むペアの英語文からなるIMPLI(Idiomatic and Metaphoric Paired Language Inference)データセットを紹介します。24,000の半自動ペアと1,800の手動ペアを生成するための新しい方法を開発しました。MNLIデータセットでファインチューニングされたRoBERTaに基づくNLIモデルをIMPLIで評価しました。その結果、比喩的なフレーズとその文字通りの対応物の間の含意関係を信頼性高く検出できる一方、同様の構造を持つペアが含意関係を持たないように設計された例では、性能が低下することがわかりました。これは、現在のNLIモデルが比喩的な言語を理解する能力についての限界を示しており、このデータセットは今後の改善のためのベンチマークとなります。
https://aclanthology.org/2022.acl-long.369/
QAConv: Question Answering on Informative Conversations
この論文は、会話を知識源として使用する新しい質問応答(QA)データセットであるQAConvを紹介しています。私たちは、ビジネスのメール、パネルディスカッション、ワークチャネルなど、情報を含む会話に焦点を当てています。これらの会話は、オープンドメインやタスク指向の対話とは異なり、通常は長く、複雑で、非同期であり、強いドメイン知識が必要です。合計で、人間が書いた質問と機械生成の質問の両方を含む、10,259の選択された会話から34,608のQAペアを収集しました。質問ジェネレーターと対話要約器を補助ツールとして使用して、質問を収集し、推奨します。データセットには、部分的な会話が提供されるか、取得されるかに応じて、チャンクモードとフルモードの2つのテストシナリオがあります。実験結果は、最新の事前学習済みQAシステムが限られたゼロショット性能しか持たず、私たちの質問を回答不能と予測する傾向があることを示しています。私たちのデータセットは、会話に関するQAの研究を促進するための新しいトレーニングおよび評価テストベッドを提供します。
https://aclanthology.org/2022.acl-long.370/
Prix-LM: Pretraining for Multilingual Knowledge Base Construction
知識ベース(KB)には、構造化された世界的な共通知識が豊富に含まれています。そのため、分散テキストベースの情報を補完し、さまざまな下流タスクを促進することがよくあります。しかし、その手動構築はリソースと時間がかかるため、最近の取り組みでは、大規模な事前学習言語モデル(PLM)を活用して、KBの追加の単一言語の知識事実を生成することが試みられています。しかし、そのような方法は、多言語KBの構築と充実には試みられていません。広範な応用に加えて、このような多言語KBは、単一言語(例:英語)のKBよりも豊富な結合知識を提供できます。異なる言語で表現された知識は相補的であり、不均等に分布している場合があります。これは、高リソース言語で利用可能な知識が低リソース言語に転送できることを意味します。これを実現するには、多言語知識を共有/統一された空間で表現することが重要です。このため、私たちは、多言語KBの構築と完成のための統一表現モデル、Prix-LMを提案します。既存の多言語KBから抽出された単一言語のトリプルとクロスリンガルリンクの2種類の知識を活用し、因果言語モデリング目的を介して多言語言語エンコーダXLM-Rを調整します。Prix-LMは、有用な多言語およびKBベースの事実知識を単一のモデルに統合します。複数言語のリンク予測、クロスリンガルエンティティリンキング、バイリンガル語彙誘導などの標準的なエンティティ関連タスクにおける実験は、強力なタスク専用ベースラインに対する利益を報告し、その効果を示しています。
https://aclanthology.org/2022.acl-long.371/
Semantic Composition with PSHRG for Derivation Tree Reconstruction from Graph-Based Meaning Representations
私たちは、確率的同期ハイパーエッジ置換文法(PSHRG)を用いて、意味表現グラフから導出木を生成するデータ駆動型アプローチを紹介する。SHRGは、テキストや構文木から意味表現グラフを生成するために使用されてきたが、その逆の可能性についてはほとんど知られていない。特に、私たちは依存最小再帰意味論(DMRS)に実験を行い、PSHRGをDMRSグラフの意味的合成を近似する形式化手法として適応し、同時にDMRSグラフを許可する導出を回復する。アノテーションされたコーパスのコレクションで評価された一貫した結果が得られた。この研究は、PSHRGが構文-意味インターフェースを形式化し、合成的なグラフから木への翻訳をモデル化し、表層表現に説明可能性を提供する能力を明らかにしている。
https://aclanthology.org/2022.acl-long.372/
HOLM: Hallucinating Objects with Language Models for Referring Expression Recognition in Partially-Observed Scenes
物理的な世界に具現化されたAIシステムは、環境の限られた視野と知識だけで動作するという基本的な部分的観測の課題に直面しています。これにより、AIシステムが言語と環境の関係について推論しようとするときに課題が生じます。言語を通じて参照されるオブジェクト(例:多くの指示を与える)はすぐには見えません。AIシステムによるアクションが必要になる場合があります。この課題を研究するための良いベンチマークは、部分的に観測された360シーンで視野(FoV)を動的に調整してターゲットの場所を見つけるDynamic Referring Expression Recognition(dRER)タスクです。本論文では、部分的観測の課題に対処するために、言語モデルを使用したHOLM(Hallucinating Objects with Language Models)を紹介します。HOLMは、大規模な事前学習済み言語モデル(LM)を使用して、環境の未観測部分のオブジェクト幻覚を推論します。私たちの核心的な直感は、環境で頻繁に共起するオブジェクトのペアがある場合、言語の使用は世界に関するこの事実を反映するべきだということです。この直感に基づいて、言語モデルにオブジェクトの親和性に関する知識を抽出するよう促し、オブジェクトの空間的関係のプロキシを得ます。私たちの実験は、HOLMがdRERの2つのデータセットで最先端のアプローチよりも優れたパフォーマンスを発揮し、屋内外の両方の設定に対する一般化を研究することを可能にすることを示しています。
https://aclanthology.org/2022.acl-long.373/
Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models
大規模多言語Transformerベースの言語モデルは、ピボット言語によって言語ごとに性能が異なるものの、ゼロショット転移において驚くほど効果的であることが観察されています。本研究では、既存のいくつかの技術を拡張し、マルチタスク学習問題としてモデル化することで、タスクのゼロショット性能を予測するための手法を構築しました。異なるタスクの予測モデルを共同でトレーニングすることで、テストデータが非常に少ない言語でモデルの実際の性能を測定することができるより正確な予測モデルを構築することができます。また、私たちのアプローチは、より堅牢な特徴選択を実行し、様々なタスクにおいてゼロショット性能に影響を与える共通の特徴を特定する能力も提供します。
https://aclanthology.org/2022.acl-long.374/
∞-former: Infinite Memory Transformer
トランスフォーマーは、コンテキストの長さに応じて必要な計算量が増加するため、長期的な記憶を効果的にモデル化することができません。効率的なトランスフォーマーの変種が提案されていますが、すべて有限のメモリ容量を持ち、古い情報を削除する必要があります。本論文では、∞-formerを提案し、無限の長期記憶を持つバニラトランスフォーマーを拡張します。長期記憶に対して連続空間のアテンションメカニズムを使用することで、∞-formerのアテンション複雑度はコンテキストの長さに依存しなくなり、メモリ長さと精度をトレードオフします。精度がより重要な場所を制御するために、∞-formerは「スティッキーメモリ」を維持し、計算予算を固定したまま任意の長いコンテキストをモデル化できます。合成ソートタスク、言語モデリング、および文書に基づく対話生成の実験により、∞-formerは長いシーケンスから情報を保持する能力を示しました。
https://aclanthology.org/2022.acl-long.375/
Systematic Inequalities in Language Technology Performance across the World’s Languages
自然言語処理(NLP)システムは、コミュニケーション、教育、医療、人工知能、および多くの他の研究開発分野で中心的な技術となっています。過去10年間におけるNLP手法の性能向上は著しく、しかし、この進歩は世界の約6,500の言語の微小なサブセットに制限されています。本論文では、NLPの最近の出版物の包括的なスナップショットで明らかになる言語技術のグローバルな有用性を推定するためのフレームワークを紹介します。私たちの分析は、フィールド全体だけでなく、ユーザー向けの技術(機械翻訳、言語理解、質問応答、テキスト音声合成)および基礎的なNLPタスク(依存構造解析、形態論的屈折)についてもより詳細な研究を含みます。このプロセスで、私たちは(1)NLP研究の現状の不均衡を定量化し、(2)それに関連する社会的および学術的要因を探求し、(3)よりグローバルかつ公正な言語技術を促進するためのエビデンスに基づく政策提言を行います。本論文で議論された結果を再現するためのデータとコードは、GitHub(https://github.com/neubig/globalutility)で入手できます。
https://aclanthology.org/2022.acl-long.376/
CaMEL: Case Marker Extraction without Labels
私たちは、自然言語処理に関する論文の要約文を以下に示します。これらを日本語に翻訳してください。 私たちは、低資源言語に特に関連する、計算形態論における新しいかつ難解なタスクであるCaMEL(ラベルなしの格標識抽出)を紹介します。私たちは、名詞句チャンカーとアラインメントシステムのみを使用して、83の言語で格標識を抽出するための最初のモデルを提案します。CaMELを評価するために、私たちはUniMorphから自動的にシルバースタンダードを構築します。私たちのモデルによって抽出された格標識は、異なる言語の格システムの類似点と相違点を検出および視覚化するために使用できるだけでなく、明示的にマークされていない言語の細かい深い格を注釈するためにも使用できます。
https://aclanthology.org/2022.acl-long.377/
Improving Generalizability in Implicitly Abusive Language Detection with Concept Activation Vectors
機械学習モデルの堅牢性は、コンテンツモデレーションなど、人間の福祉に影響を与えるアプリケーションに特に重要であり、常に変化する現実世界のデータに対して堅牢であることが求められます。オンラインディスカッションにおいて、新しい種類の虐待的な言語が現れ続けており(例:COVID-19)、展開された虐待検出システムは正確性を維持するために定期的に更新される必要があります。本論文では、一般的な虐待的言語分類器は、ドメイン外の明示的な虐待的発言を検出するのにかなり信頼性があることを示しますが、より微妙で暗黙的な虐待の新しいタイプを検出することができません。次に、コンピュータビジョンのTesting Concept Activation Vector(TCAV)メソッドに基づく解釈可能性技術を提案し、トレーニングされたモデルの人間によって定義された明示的および暗黙的な虐待的言語の概念に対する感度を定量化し、新しいデータ(この場合、COVID関連の反アジア人憎悪スピーチ)におけるモデルの汎用性を説明するために使用します。この技術を拡張し、単一のインスタンスの明示性度という新しいメトリックを導入し、新しい情報を提供する暗黙的な虐待的テキストでトレーニングデータを効果的に豊富にするために、ドメイン外の未ラベル化された例を提案することが有益であることを示します。
https://aclanthology.org/2022.acl-long.378/
Reports of personal experiences and stories in argumentation: datasets and analysis
個人的な経験や物語の報告は、与えられたトピックに関する立場を支持するための直接的かつ(しばしば)共感を呼び起こす方法として、論証において重要な役割を果たすことができます。それらは理解しやすく、共感を高めるため、論証において強力なものとなります。個人的な報告や物語の影響は社会科学で研究されていますが、NLPではまだ十分に探究されていません。私たちの仕事は、個人的な経験や報告を含む文書を識別するための堅牢な分類器を開発することです。主な課題は注釈付きデータの不足です。私たちの解決策は、分析を拡大するために既存の注釈を活用することです。私たちの貢献は2つあります。まず、3つのデータセット(Argument Miningから2つ、社会科学から1つ)を対象に、ドメイン内およびクロスドメインの実験を行い、関連するドメインに合わせたモデリングアーキテクチャ、トレーニングセットアップ、ファインチューニングオプションをモデル化します。データセットや注釈の違いにもかかわらず、堅牢なクロスドメイン分類が可能であることを示します。次に、線形回帰を使用してパフォーマンスマイニングを行い、全体的な分類パフォーマンスと個々の分類器の予測のパフォーマンストレンドを特定します。
https://aclanthology.org/2022.acl-long.379/
Non-neural Models Matter: a Re-evaluation of Neural Referring Expression Generation Systems
近年、ニューラルモデルはNLGにおいて、ルールベースや古典的な機械学習アプローチよりも優れた性能を発揮することが多くなっています。これらの古典的なアプローチは、新しいニューラルモデルが評価される際にはしばしば無視されるようになっていますが、私たちは、いくつかのタスクにおいて、よく設計された非ニューラルアプローチがニューラルアプローチよりも優れた性能を発揮することがあるため、これらを見落とすべきではないと主張します。本論文では、言語的文脈における指示表現の生成タスクを例に挙げます。私たちは、2つの非常に異なる英語のデータセット(WEBNLGとWSJ)を調べ、各アルゴリズムを自動評価と人間の評価の両方で評価しました。全体的に、これらの評価の結果から、単純なルールセットを持つルールベースのシステムが、最新のニューラルREGシステムと比較して、両方のデータセットで同等またはより優れた性能を発揮することが示されました。より現実的なデータセットであるWSJの場合、よく設計された言語的特徴を持つ機械学習ベースのシステムが最も優れた性能を発揮しました。私たちは、今後の研究において非ニューラルモデルを考慮するよう研究者に呼びかけることができればと思っています。
https://aclanthology.org/2022.acl-long.380/
Bridging the Generalization Gap in Text-to-SQL Parsing with Schema Expansion
テキストからSQLへのパーサーは、自然言語の質問をテーブル上で実行可能なプログラムにマッピングして回答を生成し、通常はSpider(Yu et al.、2018)などの大規模なデータセットで評価されます。我々は、既存のベンチマークが、ドメイン固有のフレーズを列の複合操作にマッチングするという、実用上重要な特定のドメイン外汎化問題を捉えきれていないと主張します。この問題を研究するために、まず、Squallデータセット(Shi et al.、2020)の再利用可能なトレイン/テスト分割とともに、合成データセットを提案し、列操作のドメイン汎化を定量化する新しいベンチマークを提供します。そして、既存の最先端のパーサーがこれらのベンチマークで苦戦していることを発見します。我々は、テーブルスキーマの前処理に先行するドメイン知識を組み込むことによって、この問題に対処することを提案し、スキーマ拡張とスキーマ剪定の2つのコンポーネントから構成される方法を設計します。この方法は、複数の既存のベースパーサーに簡単に適用でき、このドメイン汎化問題でベースパーサーの全体的な性能を最大13.8%の相対精度向上(5.1%の絶対値)で向上させることを示します。
https://aclanthology.org/2022.acl-long.381/
Predicate-Argument Based Bi-Encoder for Paraphrase Identification
言語処理に関する論文の要約を日本語に翻訳してください。 言い換えの識別は、2つの文が同じまたは類似した意味を表しているかどうかを識別することを意味します。クロスエンコーダは、いくつかのベンチマークで高い性能を発揮していますが、SBERTなどのバイエンコーダは文のペアタスクに広く適用されています。彼らは計算複雑性が大幅に低く、対称的なタスクに適しています。本研究では、言い換えの識別タスクにバイエンコーダアプローチを採用し、SBERTに述語-引数情報を重み付け集約することで明示的に組み込む影響を調査します。6つの言い換え識別データセットでの実験は、パラメータの最小限の増加で、提案されたモデルがSBERT / SRoBERTaを大幅に上回ることを示しています。さらに、削除実験の結果、述語-引数ベースのコンポーネントが性能向上に重要な役割を果たしていることが明らかになりました。
https://aclanthology.org/2022.acl-long.382/
MINER: Improving Out-of-Vocabulary Named Entity Recognition from an Information Theoretic Perspective
NERモデルは、標準のNERベンチマークで有望なパフォーマンスを達成しています。しかし、最近の研究では、以前のアプローチがエンティティメンション情報に過度に依存しているため、語彙外のエンティティ認識のパフォーマンスが低下することが示されています。本研究では、情報理論的な観点からこの問題を解決するために、MINERという新しいNER学習フレームワークを提案します。提案されたアプローチには、相互情報量に基づく2つのトレーニング目標が含まれます。i)一般化情報最大化は、文脈とエンティティ表面形式の深い理解によって表現を強化します。ii)余分な情報最小化は、エンティティ名の回転的な記憶やデータ内のバイアスのある手がかりを利用した表現を抑制します。さまざまな設定とデータセットでの実験により、OOVエンティティの予測においてより優れたパフォーマンスを発揮することが示されています。
https://aclanthology.org/2022.acl-long.383/
Leveraging Wikipedia article evolution for promotional tone detection
バイアスのある言語を検出することは、ハイパーパーティザンなニュースソースの特定や片寄ったレトリックのフラッグ付けなど、さまざまなアプリケーションに役立ちます。本研究では、文書レベルのプロモーション音の検出のためのデータセットであるWikiEvolveを紹介します。以前提案されたデータセットとは異なり、WikiEvolveには、Wikipediaの同じ記事の7つのバージョンが含まれており、異なる改訂履歴のポイントから1つはプロモーション音を含み、6つは含まれていません。これにより、プロモーション音検出の学習モデルからより正確なトレーニングシグナルを取得できます。我々は、以前提案された勾配反転層フレームワークを適応して、2つの記事バージョンを同時にエンコードし、この追加のトレーニングシグナルを活用します。実験では、勾配反転の提案された適応は、4つの異なるアーキテクチャの正確さを、ドメイン内外の評価の両方で向上させます。
https://aclanthology.org/2022.acl-long.384/
From text to talk: Harnessing conversational corpora for humane and diversity-aware language technology
非公式な社交的相互作用は、人間の言語の原初的な発生場所です。言語的に多様な会話コーパスは、計算言語学や言語技術にとって重要であり、ほとんど活用されていない資源です。世界的な言語文書化運動の努力により、このようなコーパスがますます利用可能になっています。我々は、63の言語(26の系統)からの相互作用データが、ターンテイキング、タイミング、シーケンシャル構造、社会的行動に関する洞察を提供し、言語技術、自然言語理解、会話インタフェースの設計に影響を与えることを示します。言語的に多様な会話コーパスを活用することで、将来的に柔軟でローカライズ可能で人間らしい言語技術の実証的な基盤が提供されます。
https://aclanthology.org/2022.acl-long.385/
Flooding-X: Improving BERT’s Resistance to Adversarial Attacks via Loss-Restricted Fine-Tuning
最近、敵対的な堅牢性に注目が集まっており、主流の解決策は敵対的なトレーニングです。しかし、NLPの設定では、各入力埋め込みに対して敵対的な摂動を生成する伝統的な方法は、敵対的なサンプルを取得するために必要な勾配ステップの数によってトレーニングの計算複雑性がスケールアップします。この問題に対処するために、私たちは主に汎化を改善することを目的としたFlooding法を活用し、敵対的な攻撃に対する有望な防御策として見つけました。さらに、1エポック内に取られた勾配ステップが各バッチの損失にどのように影響するかを測定することにより、ハイパーパラメータに依存するFloodingを効果的に実現するための効果的な基準を提案します。私たちのアプローチは、トレーニングに敵対的なサンプルを必要とせず、時間の消費量はファインチューニングと同等であり、標準的な敵対的なトレーニングよりも2〜15倍高速です。私たちは実験的に、私たちの方法がBERTのテキスト敵対的攻撃に対する耐性を大幅に向上させ、さまざまなテキスト分類およびGLUEタスクで最新の堅牢性の高い精度を達成することを示しました。
https://aclanthology.org/2022.acl-long.386/
RoMe: A Robust Metric for Evaluating Natural Language Generation
自然言語生成(NLG)システムの評価は困難な課題である。まず、評価指標は生成された仮説が参照の意味を反映していることを保証する必要がある。次に、生成された文の文法的な品質を考慮する必要がある。第三に、生成された文のさまざまな表面形式を処理するために堅牢である必要がある。したがって、効果的な評価指標は多面的である必要がある。本論文では、自然言語理解のいくつかの核心的な側面(言語能力、構文および意味の変化)を組み込んだ自動評価指標を提案する。提案された指標であるRoMeは、意味的類似性と木構造編集距離、文法的受容性などの言語特徴を組み合わせた自己教示型ニューラルネットワークを使用して、生成された文の全体的な品質を評価する。さらに、最新の手法とRoMeの堅牢性分析を行う。実験結果は、RoMeが複数のNLGタスクでシステム生成の文を評価する際に、最新の評価指標よりも人間の判断とより強い相関関係を持つことを示唆している。
https://aclanthology.org/2022.acl-long.387/
Finding Structural Knowledge in Multimodal-BERT
この論文では、多様なモーダルBERTモデルの埋め込みで学習された知識を調査します。具体的には、言語データの文法的構造と視覚データのオブジェクトに関する学習された構造を格納する能力を調べます。この目標を達成するために、まず、画像を説明する文の依存構造解析と、画像内のオブジェクト領域間の依存関係によって、言語と視覚の固有の構造を明示的にします。これを明示的な視覚構造と呼び、言語説明の依存構造に基づくシーンツリーに基づいています。広範なプロービング実験により、多様なモーダルBERTモデルはこれらのシーンツリーをエンコードしないことが示されました。
https://aclanthology.org/2022.acl-long.388/
Fully Hyperbolic Neural Networks
双曲線型ニューラルネットワークは、複雑なデータのモデリングにおいて大きな可能性を示しています。しかし、既存の双曲線型ネットワークは完全に双曲線型ではなく、双曲線空間で特徴をエンコードしながら、ほとんどの操作を双曲線モデルの原点にある接線空間(ユークリッド部分空間)で形式化しています。このハイブリッド手法は、ネットワークのモデリング能力を大きく制限しています。本論文では、ローレンツモデルに基づいて、ローレンツ変換(ブーストと回転を含む)を適応してニューラルネットワークの必要な操作を形式化することで、完全に双曲線型のフレームワークを提案します。さらに、既存の双曲線型ネットワークで使用される接線空間の線形変換が、ローレンツ回転の緩和であり、ブーストを含まないことを証明し、既存の双曲線型ネットワークの能力を暗黙的に制限していることを示します。4つのNLPタスクの実験結果は、浅いネットワークと深いネットワークの両方を構築するための私たちの方法がより優れたパフォーマンスを持つことを示しています。私たちのコードは、後続の研究を促進するためにリリースされます。
https://aclanthology.org/2022.acl-long.389/
Neural Machine Translation with Phrase-Level Universal Visual Representations
多様なモーダル機械翻訳(MMT)は、追加の視覚情報によってニューラル機械翻訳(NMT)を改善することを目的としていますが、ほとんどの既存のMMT方法は、ソース文と画像のペア入力が必要であり、文-画像のペアが不足しているため、苦しんでいます。本論文では、既存の文-画像データセットからソース入力の視覚情報を取得するためのフレーズレベルの検索ベースのMMT方法を提案し、MMTがペアの文-画像入力の制限を破ることができます。私たちの方法はフレーズレベルで検索を実行し、ソースフレーズと接地領域のペアから視覚情報を学習するため、データのまばらさを緩和できます。さらに、私たちの方法は条件付き変分オートエンコーダを使用して視覚表現を学習し、冗長な視覚情報をフィルタリングし、フレーズに関連する視覚情報のみを保持できます。実験結果は、提案された方法が複数のMMTデータセットで強力なベースラインを大幅に上回り、特にテキストコンテキストが限られている場合に優れていることを示しています。
https://aclanthology.org/2022.acl-long.390/
M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database
話者の感情状態は、対話の場面、話題、相手の刺激など、多様な要因によって影響を受ける。しかしながら、現在利用可能なデータリソースは、対話における多様な感情分析をサポートするには規模や多様性が限られている。本研究では、56の異なるテレビシリーズから990の二人対話を含む、合計9,082のターンと24,449の発話を収録した、マルチモーダル・マルチシーン・マルチラベル感情対話データセット(M3ED)を提案する。M3EDは、発話レベルで7つの感情カテゴリ(喜び、驚き、悲しみ、嫌悪、怒り、恐れ、中立)を注釈として持ち、音声、視覚、テキストのモダリティを含む。M3EDは、中国語における初めてのマルチモーダル感情対話データセットであり、異文化間の感情分析と認識に貴重なものである。我々は、M3EDデータセットに対していくつかの最先端の手法を適用し、データセットの妥当性と品質を検証する。また、対話文脈をモデル化するための一般的なマルチモーダル対話認識フレームワーク(MDI)を提案し、M3EDにおいて最先端の手法と同等の性能を達成する。全データセットとコードは利用可能である。
https://aclanthology.org/2022.acl-long.391/
Few-shot Named Entity Recognition with Self-describing Networks
Few-shot NERは、限られたインスタンスから情報を効果的に捕捉し、外部リソースから有用な知識を転送する必要があります。本論文では、普遍的な概念セットを使用してエンティティタイプとメンションの両方を記述することにより、説明的なインスタンスを効果的に活用し、外部リソースから知識を正確に転送する自己記述メカニズムを提案します。具体的には、Self-describing Networks(SDNet)と呼ばれるSeq2Seq生成モデルを設計し、概念を使用してメンションを普遍的に記述し、新しいエンティティタイプを自動的に概念にマッピングし、必要に応じてエンティティを適応的に認識します。我々は、大規模なコーパスでSDNetを事前学習し、異なるドメインからの8つのベンチマークで実験を行いました。実験結果は、SDNetがすべてのベンチマークで競争力のある性能を発揮し、6つのベンチマークで新しい最高性能を達成したことを示し、その有効性と堅牢性を証明しています。
https://aclanthology.org/2022.acl-long.392/
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing
T5(Text-To-Text Transfer Transformer)の成功に刺激を受け、自己教師あり音声/テキスト表現学習のためのエンコーダ・デコーダの事前学習を探求する統合モーダルSpeechT5フレームワークを提案する。SpeechT5フレームワークは、共有エンコーダ・デコーダネットワークと6つのモーダル固有(音声/テキスト)のプレ/ポストネットワークで構成されている。入力音声/テキストをプレネットで前処理した後、共有エンコーダ・デコーダネットワークはシーケンス-シーケンス変換をモデル化し、その後、ポストネットはデコーダの出力に基づいて音声/テキストモダリティの出力を生成する。大規模な未ラベル化音声/テキストデータを活用して、SpeechT5を事前学習して統合モーダル表現を学習し、音声とテキストのモデリング能力を向上させることを期待している。テキスト情報と音声情報をこの統合された意味空間に整列させるために、エンコーダとデコーダのインターフェースとして、音声/テキスト状態を潜在ユニットとランダムに混合するクロスモーダルベクトル量子化アプローチを提案する。広範な評価により、自動音声認識、音声合成、音声翻訳、音声変換、音声強調、話者識別などの様々な話し言葉処理タスクにおいて、提案されたSpeechT5フレームワークの優越性が示された。
https://aclanthology.org/2022.acl-long.393/
Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation
近年、機械学習モデルは臨床相談ノートの生成において急速に向上してきたが、生成された相談ノートを適切に評価し、それが医師や患者の臨床的安全性に与える影響を理解するための研究はほとんど行われていない。この問題に対処するために、我々は5人の医師が(i)57件の模擬相談を聞き、(ii)自分自身でノートを書き、(iii)自動生成されたノートのいくつかをポスト編集し、(iv)すべての定量的および定性的なエラーを抽出する、広範な人間評価研究を行った。その後、18の自動品質メトリックと人間の判断との相関研究を行った。我々は、単純な文字ベースのレーベンシュタイン距離メトリックが、BertScoreなどの一般的なモデルベースのメトリックよりも同等かそれ以上の性能を発揮することを発見した。すべての結果と注釈はオープンソースである。
https://aclanthology.org/2022.acl-long.394/
Unified Structure Generation for Universal Information Extraction
情報抽出は、その対象の多様性、異種構造、および需要に応じたスキーマに苦しんでいます。本論文では、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識源から一般的なIE能力を共同学習する統一されたテキスト-構造生成フレームワークであるUIEを提案します。具体的には、UIEは、構造化抽出言語を介して異なる抽出構造を均一に符号化し、スキーマベースのプロンプトメカニズムである構造スキーマインストラクタによってターゲット抽出を適応的に生成し、大規模な事前学習済みテキスト-構造モデルを介して共通のIE能力を捉えます。実験の結果、UIEは、広範なエンティティ、関係、イベント、および感情抽出タスクとその統合のための監視された、低リソース、およびフューショット設定のすべてのIEタスク、13のデータセットで最先端のパフォーマンスを達成しました。これらの結果は、UIEの効果的で普遍的で移植可能であることを確認しました。
https://aclanthology.org/2022.acl-long.395/
Subgraph Retrieval Enhanced Model for Multi-hop Knowledge Base Question Answering
知識ベース質問応答(KBQA)に関する最近の研究では、より簡単な推論のためにサブグラフを取得することが行われています。望ましいサブグラフは、小さいものでは回答を除外する可能性があり、大きいものではより多くのノイズを導入する可能性があるため、重要です。しかし、既存の取得方法は、ヒューリスティックまたは推論と絡み合っているため、中間監視が欠落している場合には部分的なサブグラフでの推論が増加し、推論バイアスが増加します。本論文では、後続の推論プロセスから分離された訓練可能なサブグラフ取得器(SR)を提案し、任意のサブグラフ指向KBQAモデルを強化するためのプラグアンドプレイフレームワークを実現します。広範な実験により、SRが既存の取得方法よりも優れた取得およびQAパフォーマンスを達成することが示されています。弱く監視された事前トレーニングとエンドツーエンドのファインチューニングを通じて、SRは、埋め込みベースのKBQA方法のサブグラフ指向の推論器であるNSM(He et al.、2021)と組み合わせた場合に、新しい最先端のパフォーマンスを達成します。コードとデータセットはオンラインで利用可能です(https://github.com/RUCKBReasoning/SubgraphRetrievalKBQA)。
https://aclanthology.org/2022.acl-long.396/
Pre-training to Match for Unified Low-shot Relation Extraction
低ショット関係抽出(RE)は、非常に少数またはまったくサンプルがない状況で新しい関係を認識することを目的としており、実際のシナリオアプリケーションにおいて重要です。フューショットおよびゼロショットREは、類似したターゲットを持つように見えますが、完全に異なる基盤能力を必要とします。本論文では、マルチチョイスマッチングネットワークを提案し、低ショット関係抽出を統一します。ゼロショットとフューショットREのギャップを埋めるために、トリプレットパラフレーズメタトレーニングを提案し、トリプレットパラフレーズを活用してゼロショットラベルマッチング能力を事前学習し、メタラーニングパラダイムを使用してフューショットインスタンス要約能力を学習します。3つの異なる低ショットREタスクの実験結果は、提案手法が強力なベースラインを大幅に上回り、フューショットREリーダーボードで最高のパフォーマンスを達成したことを示しています。
https://aclanthology.org/2022.acl-long.397/
Can Prompt Probe Pretrained Language Models? Understanding the Invisible Risks from a Causal View
プロンプトベースのプロービングは、事前学習言語モデル(PLM)の能力を評価するために広く使用されています。残念ながら、最近の研究では、この評価が不正確で一貫性がなく信頼性がないことが発見されています。さらに、その内部機能の理解の欠如と広範な適用性が組み合わされると、PLMの評価と適用に予期しないリスクが生じる可能性があります。この論文では、因果関係の観点からプロンプトベースのプロービングを調査し、バイアスのある結果と結論を導く可能性がある3つの重要なバイアスを強調し、因果関係の介入によるデバイアスを行うことを提案しています。この論文は、バイアスのないデータセット、より良いプロービングフレームワーク、より信頼性の高い事前学習言語モデルの評価の設計について貴重な洞察を提供します。さらに、私たちの結論は、より良い事前学習言語モデルを特定するための基準を再考する必要があることを示しています。
https://aclanthology.org/2022.acl-long.398/
Evaluating Extreme Hierarchical Multi-label Classification
自然言語処理(NLP)のいくつかのタスクは、最も複雑な形式の分類問題として定義されます。多ラベル階層的極端分類として、アイテムは、階層的に組織化された数千の可能なクラスのセットから複数のクラスに関連付けられ、クラスの頻度とアイテムあたりのラベル数の両方において高度に不均衡な分布を示します。私たちは、一連の形式的な特性に基づく評価メトリックの最新の状況を分析し、情報対比モデル(ICM)に着想を得た情報理論に基づくメトリックを定義します。合成データ上の実験と実データのケーススタディにより、ICMがこのようなシナリオに適していることが示されます。
https://aclanthology.org/2022.acl-long.399/
What does the sea say to the shore? A BERT based DST style approach for speaker to dialogue attribution in novels
私たちは小説からキャラクターを抽出し、それらを直接話し言葉にリンクする完全なパイプラインを提供します。私たちのモデルは3つの独立したコンポーネントに分かれています:直接話し言葉の抽出、キャラクターのリストの編集、そしてそれらのキャラクターを彼らの発言に帰属させること。既存のシステムが最初の2つのタスクを正確に実行できることがわかりましたが、直接話し言葉にキャラクターを帰属させることは、ナレーターが明示的なキャラクターの言及を欠いていること、そしてそのような明示的な言及がある場合には名詞的および代名詞的な共参照の頻繁な使用のため、課題となります。私たちは、対話状態追跡で進展したことを適応して、新しい問題である話者の帰属を解決するために取り組んでいます。これは話者の帰属に深層学習を適用する最初のアプリケーションであり、過去に使用された手作りの特徴量やルールの必要性を克服できることを示しています。私たちの完全なパイプラインは、F1スコアで最先端のモデルの性能を相対的に50%向上させます。
https://aclanthology.org/2022.acl-long.400/
Measuring Fairness of Text Classifiers via Prediction Sensitivity
言語処理アプリケーションの急速な成長に伴い、データ駆動型の解決策において公平性が重要な考慮事項として浮上しています。最近の文献では、様々な公平性の定義が探求されていますが、どの指標がシステムの公平性を最も正確に反映するかについては合意が得られていません。本研究では、入力特徴量の摂動に対するモデルの予測感度に基づいて機械学習モデルの公平性を測定する新しい公式「累積予測感度」を提案します。この指標は、保護された属性が個人の保護グループのメンバーシップ状態をエンコードする場合に、単一の予測が保護された属性に依存する程度を定量化しようとします。この指標は、特定のグループ公平性(統計的公平性)と個人公平性の特定の概念と理論的に関連付けることができます。また、人間の公平性の認識とも良く相関します。Jigsaw ToxicityとBias in Biosの2つのテキスト分類データセットで実験を行い、モデルが公平な結果を出したかどうかに関する手動注釈と指標の相関を評価しました。予測感度に基づく提案された公平性指標は、既存の因果公平性指標よりも人間の注釈と統計的に有意に相関することが観察されました。
https://aclanthology.org/2022.acl-long.401/
RotateQVS: Representing Temporal Information as Rotations in Quaternion Vector Space for Temporal Knowledge Graph Completion
現実的なアプリケーションにおいて、疾患の進行や政治情勢の発展など、時間的要因は事実の成長に関連しており、そのため、時間的知識グラフ(TKG)に関する研究が注目を集めています。TKGでは、時間性に固有の関係パターンを研究し、時間的事実を跨いで表現学習と推論を行う必要があります。しかし、既存の方法では時間的関係パターンをモデル化することができず、時間の経過に伴う関係間の本質的なつながりを捉えることができず、解釈可能性に欠けています。本論文では、時間的エンティティを四元数ベクトル空間で回転として表現し、関係をハミルトンの四元数空間の複素ベクトルとして表現する新しい時間モデリング方法を提案します。我々の方法は、対称性、非対称性、逆関係など、TKGの主要な関係パターンをモデル化でき、理論によって時間的に進化する関係を捉えることができます。また、実証的に、我々の方法は、4つの時間的知識グラフベンチマークにおけるリンク予測タスクの性能を向上させることができることを示します。
https://aclanthology.org/2022.acl-long.402/
Feeding What You Need by Understanding What You Learned
マシンリーディングコンプリヘンション(MRC)は、与えられたテキストパッセージを理解し、それに基づいて質問に答える能力を示します。MRCに関する既存の研究は、Exact Match(EM)およびF1などのメトリックによって評価されるパフォーマンスを向上させるために、大規模なモデルとコーパスに重点を置いています。しかし、そのようなパラダイムには、モデルの能力をモデル化するための十分な解釈が欠けており、大規模なコーパスで効率的にモデルをトレーニングすることができません。本論文では、モデルの能力とデータの特性についての深い理解が、学習状況に基づいて適切なトレーニングデータをモデルに供給するのに役立つことを主張します。具体的には、モデルの能力を説明可能で多次元的に評価するMRC能力評価フレームワークを設計します。これに基づいて、さまざまなデータ特性とモデルパフォーマンスの関係を明らかにし、提案されたMRC能力評価フレームワークの効果を検証するために、カリキュラム学習パイプラインに組み込み、能力境界突破カリキュラム(CBBC)戦略を考案します。これにより、モデルの能力に基づいたトレーニングを実行し、データの価値を最大化し、トレーニング効率を改善します。広範な実験により、提案手法がパフォーマンスを大幅に改善し、MRCタスクでEM / F1の最大11.22%/ 8.71%の改善を達成することが示されました。
https://aclanthology.org/2022.acl-long.403/
Probing Simile Knowledge from Pre-trained Language Models
類比解釈(SI)と類比生成(SG)は、NLPにとって適切な世界知識が必要であるため、困難なタスクである。従来の研究では、モデルに知識をもたらすために多くの手作業リソースが使用されており、時間と労力がかかっていた。近年、大規模なコーパスから一般的な知識を学習するための事前学習言語モデル(PLMs)ベースのアプローチがNLPのデファクトスタンダードとなっている。PLMsに埋め込まれた知識は、SIおよびSGタスクに有用である可能性がある。しかし、それを探求する研究はほとんどない。本論文では、類比トリプル完了の統一フレームワークで、PLMsから類比知識を探求し、SIおよびSGタスクを解決する。フレームワークのバックボーンは、手動パターンを使用してマスクされた文を構築し、マスクされた位置の候補単語を予測することである。このフレームワークでは、マスクされた言語モデル(MLM)損失を使用した二次トレーニングプロセス(形容詞-名詞マスクトレーニング)を採用して、マスクされた位置の候補単語の予測多様性を強化する。さらに、パターンアンサンブル(PE)とパターンサーチ(PS)を適用して、予測された単語の品質を向上させる。最後に、自動評価と人間の評価により、SIおよびSGタスクの両方でフレームワークの有効性が示された。
https://aclanthology.org/2022.acl-long.404/
An Effective and Efficient Entity Alignment Decoding Algorithm via Third-Order Tensor Isomorphism
エンティティアラインメント(EA)は、複数の知識グラフを統合するための重要なステップである、知識グラフ間の同等なエンティティペアを発見することを目的としています。長い間、ほとんどの研究者はEAを純粋なグラフ表現学習タスクと見なし、グラフエンコーダーの改善に焦点を当ててきましたが、デコーディングプロセスにはほとんど注意を払っていませんでした。本論文では、第三階テンソル同型性を利用した効果的かつ効率的なEAデコーディングアルゴリズム(DATTI)を提案します。具体的には、2つの同型性方程式を導出します:(1)隣接テンソル同型性方程式と(2)グラミアンテンソル同型性方程式。これらの方程式を組み合わせることで、DATTIはKGの隣接および内部相関同型性を効果的に利用してEAのデコーディングプロセスを強化することができます。公開データセットでの広範な実験により、最も高度なEA方法でも、追加の必要時間が3秒未満であっても、デコーディングアルゴリズムが大幅な性能向上をもたらすことが示されました。
https://aclanthology.org/2022.acl-long.405/
Entailment Graph Learning with Textual Entailment and Soft Transitivity
タイプ付き含意グラフは、テキストから述語間の含意関係を学習し、述語ノード間のエッジとしてモデル化することを試みます。含意グラフの構築は、通常、分布類似性の深刻な疎密性と信頼性の欠如に苦しんでいます。我々は、テキスト含意と推移性を持つ含意グラフ(EGT2)という2段階の方法を提案します。EGT2は、タイプ付きCCG解析述語によって形成されたテンプレート文間のテキスト含意を認識することによって、ローカルな含意関係を学習します。生成されたローカルグラフに基づいて、EGT2は、3つの新しいソフト推移性制約を使用して、含意構造の論理的推移性を考慮します。ベンチマークデータセット上の実験結果は、EGT2が含意グラフの推移性をうまくモデル化して疎密性を緩和し、現在の最先端の方法よりも大幅に改善することを示しています。
https://aclanthology.org/2022.acl-long.406/
Logic Traps in Evaluating Attribution Scores
現代の深層学習モデルは、通常、予測の深層モデルの解釈方法の開発を促進する不透明性がある。この目標は、通常、モデル予測に対する特徴の影響を評価する帰属方法でアプローチされる。説明方法として、帰属方法の評価基準は、モデルの実際の推論プロセスをどの程度正確に反映するか(忠実度)である。一方、深層モデルの推論プロセスが不可視であるため、研究者は、自分たちの主張を示すためにさまざまな評価方法を設計している。しかし、これらの評価方法には、多くの作品で無視されている重要な論理トラップがあり、不正確な評価と不公平な比較を引き起こしている。本論文では、帰属スコアを評価するための既存の方法を体系的にレビューし、これらの方法の論理トラップをまとめる。さらに、各論理トラップの存在を実験で示す。理論的および実験的分析を通じて、帰属スコアの不正確な評価に対する注意を高めることを目的としています。さらに、本論文により、信頼性の低い評価システムの下でのパフォーマンスの改善に焦点を当てるのをやめ、提案された論理トラップの影響を減らす努力を開始することを提案します。
https://aclanthology.org/2022.acl-long.407/
Continual Pre-training of Language Models for Math Problem Understanding with Syntax-Aware Memory Network
本論文では、数学問題の理解を改善するために、言語モデルを継続的に事前学習する方法を研究します。具体的には、数式とテキストの意味を融合するという、数学問題モデリングにおける基本的な課題を解決することに焦点を当てます。この問題に対処するために、我々は、構文に注意したメモリネットワークを用いた数学問題理解のための言語モデルの継続的な事前学習を提案するCOMUSという新しいアプローチを提案します。このアプローチでは、まず、テキストと数式の構文木を組み合わせて数学構文グラフを構築し、その後、構文に注意したメモリネットワークを設計して、グラフとテキストからの特徴を深く融合します。構文関係の助けを借りて、テキストからのトークンと数式内の意味関連ノードとの相互作用をモデル化することができ、テキストと数式の微細な意味的相関を捉えるのに役立ちます。さらに、テキストと数学構文グラフの表現をさらに整列・融合するための3つの継続的な事前学習タスクを考案しました。数学領域の4つのタスクでの実験結果は、我々のアプローチの有効性を示しています。我々のコードとデータは、以下のリンクから公開されています:bluehttps://github.com/RUCAIBox/COMUS。
https://aclanthology.org/2022.acl-long.408/
Multitasking Framework for Unsupervised Simple Definition Generation
定義生成タスクは、未知の単語の説明を提供することで言語学習者を支援することができます。このタスクは近年注目を集めています。我々は、言語学習者や低識字読者を支援するためのSimple Definition Generation(SDG)という新しいタスクを提案します。このタスクの重要な課題は、多くの言語における学習者用辞書の不足と、教師あり学習のためのデータの不足です。我々はこのタスクを探求し、複雑な定義を持つ標準的な辞書と任意の簡単なテキストを含むコーパスのみを必要とするマルチタスキングフレームワークSimpDefinerを提案します。2つのデコーダー間のパラメータ共有スキームを注意深く設計することで、テキストから複雑な要因を分離します。これらのコンポーネントを共同でトレーニングすることにより、フレームワークは複雑な定義と簡単な定義を同時に生成することができます。英語と中国語のデータセットでの自動評価と手動評価により、フレームワークが対象単語の関連する簡単な定義を生成できることを示します。我々の手法は、英語のデータセットで1.77のSARIスコアでベースラインモデルを上回り、中国語の定義における低レベル(HSKレベル1-3)の単語の割合を3.87%増加させます。
https://aclanthology.org/2022.acl-long.409/
Learning to Reason Deductively: Math Word Problem Solving as Complex Relation Extraction
数学の文章問題を解くには、文章中の数量に対する演繹的推論が必要です。最近の研究では、主にシーケンス・トゥ・シーケンスまたはシーケンス・トゥ・ツリー・モデルを用いて、与えられた文脈内の数量の関係を明示的に推論することなく、数式を生成することが多かった。これらの手法は実証的に効果的であるが、生成された式の説明を提供することはできない。本研究では、このタスクを複雑な関係抽出問題と見なし、目標式を反復的に構築するための説明可能な演繹的推論手順を提案する。各ステップは、与えられた文脈内の2つの数量の関係を定義する2つの数量に対する原始的な操作を含みます。4つのベンチマークデータセットでの広範な実験により、提案されたモデルが既存の強力なベースラインを大幅に上回ることを示しました。さらに、演繹的手順はより説明可能なステップを提供するだけでなく、より複雑な推論が必要な質問に対してより正確な予測を可能にすることを示しました。
https://aclanthology.org/2022.acl-long.410/
When did you become so smart, oh wise one?! Sarcasm Explanation in Multi-modal Multi-party Dialogues
間接話法、例えば皮肉などは、人間のコミュニケーションにおいて多様な談話目標を達成する。比喩的な言語の間接性は、話者が特定の実用的な目標を達成することを保証するが、AIエージェントが人間のコミュニケーションのこのような特異性を理解することは困難である。皮肉の識別は、対話分析においてよく研究されたトピックであるが、会話の本来の意味を理解し、適切な応答を生成するためには、単に皮肉を検出するだけでは不十分であり、その真の本質を捉えるためにその根底にある皮肉の意味を説明することが重要である。本研究では、皮肉的な会話の談話構造を研究し、対話における皮肉の説明という新しいタスクを提案する。多様なモーダルとコードミックスの設定で行われるこのタスクは、風刺的な会話の自然言語の説明を生成することを目的としている。このために、私たちはWITSという新しいデータセットを作成し、私たちのタスクをサポートする。私たちは、多様なモーダルに対応したコンテキストに注意を払い、グローバル情報の融合モジュールであるMAF(Modality Aware Fusion)を提案し、これを使用してWITSをベンチマークに使用する。提案された注意モジュールは、従来の多様なモーダル融合のベースラインを超え、ほとんどすべてのメトリックで最高のパフォーマンスを報告する。最後に、私たちは定量的および定性的な詳細な分析を実施する。
https://aclanthology.org/2022.acl-long.411/
Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
最近、事前学習された言語モデルをファインチューニングして文の埋め込みの類似性を捉えることが、意味的テキスト類似性(STS)タスクにおいて最先端の性能を示すことが示されています。しかし、文の類似性の解釈方法がないため、モデルの出力を説明することが困難です。本研究では、輸送問題に基づいて文脈化されたトークンの距離の重み付き和として文の距離を明示的に説明し、意味的に整列したトークンペアを特定して活用する最適輸送ベースの距離尺度であるRCMDを提案します。最後に、文のペアのRCMDを最適化する対照的学習フレームワークであるCLRCMDを提案し、文の類似性とその解釈の品質を向上させます。広範な実験により、学習フレームワークがSTSおよび解釈可能なSTSベンチマークの両方で他のベースラインを上回り、効果的な文の類似性を計算し、人間の判断と一致する解釈を提供することが示されました。
https://aclanthology.org/2022.acl-long.412/
Pre-training and Fine-tuning Neural Topic Model: A Simple yet Effective Approach to Incorporating External Knowledge
近年、事前学習された単語埋め込み(PWE)や事前学習された言語モデル(PLM)などの外部知識をニューラルトピックモデリングに組み込むことに関心が高まっています。しかし、PWEやPLMをトピックモデリングに使用することは、計算オーバーヘッドが大きく、限定的な性能向上しか得られないことがわかりました。本論文では、ニューラルトピックモデリングに外部知識を組み込む新しい戦略を提案し、ニューラルトピックモデルを大規模なコーパスで事前学習し、その後、ターゲットデータセットで微調整することを提案します。3つのデータセットで実験を行い、提案手法が現在の最先端のニューラルトピックモデルやPWEやPLMを使用したトピックモデリング手法を大幅に上回ることが示されました。さらに、さらなる研究により、提案手法が大量のトレーニングデータの必要性を大幅に減らすことがわかりました。
https://aclanthology.org/2022.acl-long.413/
Multi-View Document Representation Learning for Open-Domain Dense Retrieval
密集検索は、大規模文書コレクションからの第1段階の検索において、バイエンコーダーアーキテクチャに基づいてクエリと文書の単一ベクトル表現を生成することで、印象的な進歩を達成しています。しかし、文書は通常、異なる視点から複数の潜在的なクエリに答えることができます。したがって、文書の単一ベクトル表現は、マルチビュークエリと一致させるのが難しく、意味的な不一致の問題に直面します。本論文では、マルチビュードキュメント表現学習フレームワークを提案し、ドキュメントを表現するためのマルチビュー埋め込みを生成し、それらを異なるクエリに合わせることを目的としています。まず、ビューアを介して複数の埋め込みを生成するための単純で効果的な方法を提案します。次に、マルチビュー埋め込みが同じものに収束するのを防ぐために、アニール温度を持つグローバルローカル損失をさらに提案し、複数のビューアが異なる潜在的なクエリによりよく合わせるようにします。実験結果は、当社の方法が最近の作品を上回り、最先端の結果を達成していることを示しています。
https://aclanthology.org/2022.acl-long.414/
Graph Pre-training for AMR Parsing and Generation
抽象意味表現(AMR)は、テキストの中心的な意味情報をグラフ構造で強調します。最近、事前学習言語モデル(PLMs)は、それぞれAMR解析とAMR-to-text生成のタスクを進化させています。しかし、PLMsは通常、テキストデータで事前学習されるため、構造的な知識をモデル化するのに最適ではありません。このため、私たちはグラフ自己教師付き学習を調査し、AMRグラフ上のPLMsの構造認識を改善することを目的としています。特に、グラフ間事前学習のための2つのグラフ自己符号化戦略と、事前学習中のテキストとグラフ情報の統合のための4つのタスクを紹介します。さらに、事前学習とファインチューニングタスクのギャップを埋めるための統一されたフレームワークを設計します。AMR解析とAMR-to-text生成の両方の実験により、私たちのモデルの優越性が示されました。私たちは、意味グラフでの事前学習を考慮する最初の人々であると思われます。
https://aclanthology.org/2022.acl-long.415/
Turning Tables: Generating Examples from Semi-structured Tables for Endowing Language Models with Reasoning Skills
言語モデル目的で事前学習されたモデルは、豊富な世界知識と言語スキルを持っていますが、推論を必要とするタスクに苦戦することが知られています。本研究では、半構造化テーブルを活用し、自動的に問題-段落ペアを大量生成し、問題に答えるためには段落内の複数の事実に対する推論が必要な例を含む合成データに対して事前学習ステップを追加します。この例には、数字の比較、接続詞、事実の構成など、16種類の推論スキルが必要なものが含まれます。モデルが現在エラーを起こしている推論スキルから例をサンプリングすることで、データ効率を改善します。我々は、3つの推論に焦点を当てた読解データセットでアプローチを評価し、PReasMというモデルが、人気のある事前学習エンコーダー・デコーダーモデルであるT5を大幅に上回ることを示しました。さらに、モデルのエラーに基づいて例をサンプリングすることで、より速いトレーニングと高いパフォーマンスが得られます。
https://aclanthology.org/2022.acl-long.416/
RNG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering
既存のKBQAアプローチは、i.i.d.テストデータで強力なパフォーマンスを達成しているにもかかわらず、未知のKBスキーマ項目を含む質問に対して一般化することがしばしば困難です。従来のランキングベースのアプローチは一般化に成功しているものの、カバレッジの問題に苦しんでいます。本論文では、ランクアンドジェネレートアプローチを用いたKBQAのRnG-KBQAを提案し、一般化能力を保持しながら生成モデルによってカバレッジの問題を解決します。本アプローチは、まず知識グラフを検索して得られた候補論理式のセットをランク付けするために対比ランカーを使用します。次に、質問とトップランクの候補に基づいて調整された生成モデルを導入して、最終的な論理式を構成します。GrailQAとWebQSPデータセットで新しい最高性能を達成しました。特に、GrailQAリーダーボードで従来の最高性能を大幅に上回りました。さらに、RnG-KBQAは、オラクルエンティティリンキングを使用するものを含め、すべての従来のアプローチを上回り、人気のあるWebQSPベンチマークでも最高のパフォーマンスを発揮しました。実験結果は、ランキングと生成の相互作用の効果を示し、特にゼロショット一般化において強力な改善をもたらす提案手法の優れたパフォーマンスを示しています。
https://aclanthology.org/2022.acl-long.417/
Rethinking Self-Supervision Objectives for Generalizable Coherence Modeling
様々な事前学習済みニューラルモデルによるテキスト生成品質の向上に関する主張を考慮すると、機械生成テキストの一貫性評価は、調和モデルの主要な応用の1つであると考えられます。ニューラル調和モデリングに関する以前の研究は、主に順列ドキュメントタスクを解決するための新しいアーキテクチャの開発に焦点を当てていました。代わりに、基本的なモデルアーキテクチャを使用し、同じトレーニングレジメン内で最新技術に対して重要な改善を示します。その後、コントラスティブラーニングのセットアップ内で負のサンプルの比率を増やすことにより、より困難な自己監督目標を設計し、モデルを自動的にハードネガティブマイニングと大規模なグローバルネガティブキューによってエンコードされたモーメンタムエンコーダと組み合わせてさらに強化します。負のサンプルの密度を増やすことが基本モデルを改善し、ハードネガティブサンプルでトレーニングする間にグローバルネガティブキューを使用することで、モデルをさらに改善し安定化することを実証的に示します。私たちは、現実世界のアプリケーションに似たタスク非依存のテストセットで調和モデルを評価し、下流タスクの一貫性評価において重要な改善を示します。
https://aclanthology.org/2022.acl-long.418/
Just Rank: Rethinking Evaluation with Word and Sentence Similarities
単語と文の埋め込みは、自然言語処理において有用な特徴表現である。しかし、埋め込みの内在的評価は遅れており、過去10年間に重要な更新はなかった。単語と文の類似性タスクが事実上の評価方法となっており、モデルがこのような評価に過剰適合することで、埋め込みモデルの開発に悪影響を与えている。本論文では、単語と文の埋め込み評価において意味的類似性を基準とする問題点を指摘する。さらに、EvalRankという新しい内在的評価方法を提案し、下流タスクとの相関がより強いことを示す。60以上のモデルと人気のあるデータセットに基づく広範な実験を行い、私たちの判断を証明する。最後に、将来のベンチマーク目的のために実用的な評価ツールキットをリリースする。
https://aclanthology.org/2022.acl-long.419/
MarkupLM: Pre-training of Text and Markup Language for Visually Rich Document Understanding
テキスト、レイアウト、画像を用いたマルチモーダルな事前学習は、特にスキャンされた文書画像などの固定レイアウト文書において、視覚的に豊かな文書理解(VRDU)において重要な進展を遂げています。しかし、レイアウト情報が固定されていない多数のデジタル文書があり、視覚化のために相互作用的かつ動的にレンダリングする必要があるため、既存のレイアウトベースの事前学習手法を適用することは容易ではありません。本論文では、HTML/XMLベースの文書など、マークアップ言語をバックボーンとする文書理解タスクにMarkupLMを提案し、テキストとマークアップ情報を共同で事前学習します。実験結果は、事前学習されたMarkupLMがいくつかの文書理解タスクにおいて既存の強力なベースラインモデルを大幅に上回ることを示しています。事前学習されたモデルとコードは、https://aka.ms/markuplmで公開されます。
https://aclanthology.org/2022.acl-long.420/
CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment
CLIPは、広範なビジョンタスクにおいて驚異的なゼロショット能力を示しています。以前は、CLIPは強力なビジュアルエンコーダーとしてしか認識されていませんでした。しかし、大量の画像キャプションペアからの言語監督による事前学習を受けた後、CLIP自体もビジョン言語タスクのフューショット能力をいくつか獲得しているはずです。本研究では、言語の力を活用して、CLIPが強力なビジョン言語フューショット学習者であることを実証的に示します。まず、CLIPのゼロショット性能を典型的なビジュアル質問応答タスクで評価し、ビジュアル含意タスクにおけるクロスモダリティ転送能力を示します。次に、パラメータ効率の良いファインチューニング戦略を提案し、vqaタスクのフューショット性能を向上させます。追加の事前学習手順を導入せずに、ビジュアル質問応答およびビジュアル含意タスクにおいて競争力のあるゼロ/フューショット結果を達成します。
https://aclanthology.org/2022.acl-long.421/
KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base
知識ベース上の複雑な質問応答(Complex KBQA)は、多段推論、属性比較、集合演算などの様々な合成推論能力を必要とするため、困難である。既存のベンチマークにはいくつかの欠点があり、Complex KBQAの開発を制限している。1)明示的な推論プロセスのないQAペアのみを提供する。2)質問が多様性やスケールに乏しい。このため、私たちはKQA Proという、約120Kの多様な自然言語質問を含むComplex KBQAのデータセットを紹介する。複雑な質問の推論プロセスを表現するために、合成的で解釈可能なプログラミング言語KoPLを紹介する。各質問に対して、対応するKoPLプログラムとSPARQLクエリを提供することで、KQA ProはKBQAと意味解析の両方のタスクに役立つ。実験結果は、最新のKBQA方法が現在のデータセットと同様にKQA Proで有望な結果を得られないことを示しており、KQA Proが挑戦的であり、Complex KBQAにはさらなる研究が必要であることを示唆している。私たちはまた、KQA Proを複数の推論スキルをテストする診断データセットとして扱い、既存のモデルの徹底的な評価を行い、Complex KBQAのさらなる方向性について議論する。私たちのコードとデータセットは、https://github.com/shijx12/KQAPro_Baselinesから入手できる。
https://aclanthology.org/2022.acl-long.422/
Debiased Contrastive Learning of Unsupervised Sentence Representations
最近、対照学習は、事前学習言語モデル(PLM)を改善し、高品質の文表現を導出するために効果的であることが示されています。対照学習は、正の例を引き寄せて整列を強化し、不要な負の例を遠ざけて表現空間全体の均一性を高めることを目的としています。しかし、以前の研究では、主にバッチ内の負の例を採用するか、ランダムにトレーニングデータからサンプリングする方法を採用しています。このような方法は、不適切な負の例(偽の負の例や異方性表現)が文表現を学習するために使用されるサンプリングバイアスを引き起こす可能性があり、表現空間の均一性に悪影響を与えます。これを解決するために、私たちは、不適切な負の影響を軽減するための新しいフレームワークDCLR(非監督学習文表現のバイアスのない対照学習)を提案します。DCLRでは、偽の負の例を罰するインスタンスの重み付け方法を設計し、表現空間の均一性を保証するためにノイズベースの負の例を生成します。7つの意味的テキスト類似性タスクでの実験結果は、私たちのアプローチが競合するベースラインよりも効果的であることを示しています。私たちのコードとデータは、リンク:bluehttps://github.com/RUCAIBox/DCLRで公開されています。
https://aclanthology.org/2022.acl-long.423/
MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better Translators
最近、プロンプティングは、事前学習された言語モデルを下流タスクに適用する有望な手法として示されています。本論文では、事前学習された言語モデルを翻訳タスクに活用するための簡単で自動的なアプローチであるMulti-Stage Promptingを提案します。MSPは、事前学習と翻訳の間の不一致をより良く緩和するために、事前学習された言語モデルによる翻訳プロセスをエンコーディングステージ、再エンコーディングステージ、デコーディングステージの3つの別々のステージに分割します。各ステージでは、事前学習された言語モデルが翻訳タスクに適応するために異なる連続的なプロンプトを独立して適用します。我々は3つの翻訳タスクで広範な実験を行いました。実験の結果、我々の手法は事前学習された言語モデルの翻訳性能を大幅に改善することができることが示されました。
https://aclanthology.org/2022.acl-long.424/
SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues
対話システムは通常、オープンドメイン型とタスク指向型の2つに分類されます。前者はユーザーとのチャットや会話を重視し、適切なトピックを選択して対話コンテキストに合わせることが成功の鍵となります。後者は、カジュアルな会話ではなく、特定のタスクに焦点を当てます。例えば、金曜日の夜に映画を見つけたり、曲を再生したりすることです。これら2つの方向は、異なる目的を持つため、別々に研究されてきました。しかし、社交的なチャットからタスク指向の対話にスムーズに移行する方法は、ビジネスの機会を引き起こすために重要であり、そのようなシナリオに焦点を当てた公開データはありません。したがって、本論文では、オープンドメインの社交的なチャットから始まり、徐々にタスク指向の目的に移行する会話を調査し、この研究方向を促進するための詳細な注釈付きの大規模データセットを公開することに焦点を当てています。この目標を達成するために、本論文では、人間の関与なしに多数の対話を自動生成するフレームワークを提案し、強力なオープンドメインの対話生成モデルを簡単に活用できるようにしています。人間の評価により、私たちが生成した対話データは自然な流れを持ち、合理的な品質を示しており、私たちが公開したデータは将来の研究方向や商業活動を指導する大きな可能性を持っていることが示されました。さらに、公開されたモデルにより、研究者はターゲットシナリオで無制限の対話を自動生成できるため、半教師ありおよび非教師ありアプローチに大きな利益をもたらすことができます。
https://aclanthology.org/2022.acl-long.425/
UCTopic: Unsupervised Contrastive Learning for Phrase Representations and Topic Mining
高品質のフレーズ表現は、ドキュメント内のトピックや関連用語を見つけるために不可欠です(トピックマイニングとも呼ばれます)。既存のフレーズ表現学習方法は、単語表現を単純にコンテキストフリーに組み合わせるか、コンテキストに関する知識を学習するために広範な注釈に依存しています。本論文では、コンテキストに関するフレーズ表現とトピックマイニングのための革新的な非監督対比学習フレームワークであるUCTopicを提案します。UCTopicは、2つのフレーズメンションのコンテキストが同じ意味を持つかどうかを区別するために、大規模に事前学習されます。事前学習の鍵は、フレーズ指向の仮定からの正のペア構築です。しかし、トピック数が少ないデータセットでの微調整時に、従来のバッチ内ネガティブは性能低下を引き起こすことがわかりました。そのため、クラスタ支援対比学習(CCL)を提案し、クラスタからネガティブを選択することでノイズを大幅に減らし、トピックに対するフレーズ表現をさらに改善します。UCTopicは、4つのエンティティクラスタリングタスクの平均で、最先端のフレーズ表現モデルよりも38.2% NMIで優れた性能を発揮します。トピックマイニングの包括的な評価により、UCTopicは、一貫性のある多様なトピックフレーズを抽出できることが示されています。
https://aclanthology.org/2022.acl-long.426/
XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
この論文では、ELECTRAスタイルのタスクをクロスリンガル言語モデルの事前学習に導入します。具体的には、多言語置換トークン検出と翻訳置換トークン検出の2つの事前学習タスクを提供します。さらに、多言語および並列コーパスの両方でXLM-Eというモデルを事前学習します。我々のモデルは、より少ない計算コストでさまざまなクロスリンガル理解タスクでベースラインモデルを上回る性能を発揮します。さらに、分析により、XLM-Eがより優れたクロスリンガル転移性を獲得する傾向があることが示されます。
https://aclanthology.org/2022.acl-long.427/
Nested Named Entity Recognition as Latent Lexicalized Constituency Parsing
ネスト型の固有表現認識(NER)は、ますます注目されています。最近、Fuら(2020)は、スパンベースの構成解析器を適応して、ネスト型NERに対処しました。彼らは、ネスト型のエンティティを部分的に観測された構成木として扱い、部分的マージナライゼーションのためのマスクされたインサイドアルゴリズムを提案しました。しかし、彼らの方法は、エンティティのヘッドを活用することができず、エンティティの言及検出やエンティティのタイピングに有用であることが示されています。本研究では、より表現力の高い構造、ヘッドワードで注釈付けされたレキシカル化された構成木を使用して、ネスト型エンティティをモデル化します。部分的マージナライゼーションと推論を効率的に行うために、Eisner-Sattaアルゴリズムを活用します。さらに、パフォーマンスを向上させるために、(1)2段階の戦略、(2)ヘッド正則化損失、および(3)ヘッドに関するラベリング損失を使用することを提案します。各コンポーネントの機能を調べるために、徹底的なアブレーション研究を行います。実験的に、当社の方法は、ACE2004、ACE2005、およびNNEで最先端のパフォーマンスを達成し、GENIAでは競争力のあるパフォーマンスを発揮し、同時に高速な推論速度を持っています。
https://aclanthology.org/2022.acl-long.428/
Can Explanations Be Useful for Calibrating Black Box Models?
自然言語処理の研究者は、既存のトレーニング済みモデルを取り、新しいドメインのデータに適用したいと考えることがよくある。ベースモデルを適応させるためにファインチューニングやフューショット学習を使用できるが、これらの技術を動作させるための単一のレシピは存在せず、また、ブラックボックスとして展開されている場合、元のモデルの重みにアクセスできない場合がある。本研究では、モデルの振る舞いの説明を活用して、ブラックボックスモデルの新しいドメインでのパフォーマンスを向上させる方法を研究する。我々のアプローチは、まず、人間の直感とブラックボックス解釈技術によって生成されたモデルの属性を組み合わせた特徴量のセットを抽出し、次に、分類器としての単純なキャリブレータを使用して、ベースモデルが正しいかどうかを予測する。我々は、抽出型質問応答と自然言語推論の2つのタスクで、限られたターゲットドメインデータからの適応をカバーするいくつかのドメインペアで、我々の方法を実験した。すべてのドメインペアにわたる実験結果は、説明がこれらのモデルのキャリブレーションに役立つことを示し、予測がすべての例に返される必要がない場合には、精度を向上させる。さらに、キャリブレーションモデルがある程度タスク間で転移することを示す。
https://aclanthology.org/2022.acl-long.429/
OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework
異なるオープン情報抽出(OIE)タスクには異なる情報が必要であり、OIEフィールドには異なるタスク要件を満たすためのOIEアルゴリズムの強い適応性が必要です。本論文では、既存のOIEシステムの適応性問題について議論し、新しい適応性の高い効率的なOIEシステムであるOIE@OIAを解決策として設計します。OIE@OIAは、Open Information eXpression(OIX)の方法論に従って、文をOpen Information Annotation(OIA)グラフに解析し、簡単なルールでOIAグラフを異なるOIEタスクに適応させます。OIE@OIAシステムのコアとして、データセットを注釈付けして(オープンに利用可能にします)、複雑なOIAグラフのための効率的な学習アルゴリズムを設計することで、エンドツーエンドのOIAジェネレータを実装します。私たちは、OIE@OIAシステムを簡単に適応させて、3つの人気のあるOIEタスクを達成します。実験結果は、私たちのOIE@OIAがこれらのタスクで新しいSOTAパフォーマンスを達成し、私たちのOIE@OIAシステムの大きな適応性を示しています。さらに、数百万のサンプルを必要とする他のエンドツーエンドのOIEベースラインと比較して、私たちのOIE@OIAははるかに少ないトレーニングサンプル(12K)を必要とするため、効率的な点で大きな利点があります。
https://aclanthology.org/2022.acl-long.430/
ReACC: A Retrieval-Augmented Code Completion Framework
コード補完は、コードの文脈に基づいて次のコードトークンを予測することを目的としており、ソフトウェア開発の生産性を向上させることができます。最近の研究により、トランスフォーマーを用いた統計的言語モデリングにより、大規模なソースコードデータセットから学習することで、コード補完タスクのパフォーマンスを大幅に向上させることができることが証明されています。しかし、現在のアプローチは、ファイルやプロジェクト内のコード文脈にのみ焦点を当てています。すなわち、内部文脈に限定されています。私たちの独自性は、コードを書く際に関連するコードスニペットからコピーする人間の行動に着想を得て、「外部」文脈を利用することです。具体的には、レキシカルコピーと検索による類似した意味を持つコードの参照を両方活用する検索増強型コード補完フレームワークを提案します。プログラミング言語のソースコードリトリーバーと自己回帰言語モデルを組み合わせた段階的なトレーニングアプローチを採用しています。PythonおよびJavaプログラミング言語のコード補完タスクで私たちのアプローチを評価し、CodeXGLUEベンチマークで最先端のパフォーマンスを達成しました。
https://aclanthology.org/2022.acl-long.431/
Does Recommend-Revise Produce Reliable Annotations? An Analysis on Missing Instances in DocRED
DocREDは、文書レベルの関係抽出のために広く使用されているデータセットです。大規模な注釈付けでは、作業量を減らすために推奨-修正スキームが採用されています。このスキームでは、注釈付け者に遠隔監視からの候補関係インスタンスが提供され、彼らは推奨に基づいて関係的な事実を手動で補足および削除します。しかし、スクラッチから再ラベル化されたサブセットと比較すると、このスキームはかなりの量の偽陰性サンプルと人気のあるエンティティと関係に対する明らかなバイアスを引き起こすことがわかります。さらに、DocREDで訓練されたモデルは、再ラベル化されたデータセットで低い再現率を示し、訓練データの同じバイアスを引き継ぎます。注釈付け者の行動の分析により、上記の問題の根本的な原因を把握しました。スキームは、実際には修正フェーズで十分なインスタンスを補足することを注釈付け者に妨げているのです。新しいモデルや注釈スキームを設計する際に、推奨-修正スキームの問題を考慮するように将来の研究に呼びかけます。再ラベル化されたデータセットは、https://github.com/AndrewZhe/Revisit-DocREDで公開されており、文書REモデルのより信頼性の高いテストセットとして役立ちます。
https://aclanthology.org/2022.acl-long.432/
UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
最近のパラメータ効率的言語モデル調整(PELT)手法は、訓練データが限られている場合でも、はるかに少ない訓練可能なパラメータで微調整の性能に匹敵することができる。しかし、異なるPELT手法は同じタスクでかなり異なるパフォーマンスを発揮するため、特定のタスクに最適な方法を選択することは容易ではなく、新しいPELT手法とタスクの急速な増加を考慮すると特に困難である。モデルの多様性とモデル選択の難しさを考慮して、私たちは統一されたフレームワーク、UniPELTを提案する。UniPELTは、異なるPELT手法をサブモジュールとして組み込み、ゲーティングメカニズムを介して現在のデータまたはタスクのセットアップに最適なものをアクティブに学習する。GLUEベンチマークでは、UniPELTは、組み込まれた最良の個々のPELT手法と比較して一貫して14%の利益を上げ、異なるセットアップで微調整を上回る性能を発揮する。さらに、UniPELTは、個々のタスクで個別に使用されるすべてのサブモジュールの最高性能を取り上げた上限を上回ることが一般的であり、複数のPELT手法の混合が単一の手法よりも本質的に効果的である可能性があることを示している。
https://aclanthology.org/2022.acl-long.433/
An Empirical Study of Memorization in NLP
Feldman(2020)による最近の研究では、深層学習モデルの記憶行動を説明するために長尾理論が提案されました。しかし、自然言語処理の文脈での記憶は実証的に検証されていません。本研究では、このギャップを埋めるために、3つの異なる自然言語処理タスクを使用して長尾理論が成立するかどうかを確認します。実験結果は、上位ランクの記憶されたトレーニングインスタンスが典型的でない可能性が高く、上位の記憶されたトレーニングインスタンスを削除すると、ランダムにトレーニングインスタンスを削除するよりもテスト精度がより大幅に低下することを示しています。さらに、私たちはトレーニングインスタンスがなぜ記憶されるのかをよりよく理解するための帰属方法を開発しました。私たちは、私たちの記憶帰属方法が忠実であることを実証し、トレーニングインスタンスの上位の記憶された部分がクラスラベルと負の相関がある特徴である傾向があるという興味深い発見を共有します。
https://aclanthology.org/2022.acl-long.434/
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages
事前学習された多言語モデルは、事前学習中に見たことのない言語に対しても、ゼロショット設定でクロスリンガル転送を実行できます。しかし、これまでの研究では、未知の言語に対するパフォーマンスの評価は、主に低レベルの構文タスクに限定されており、高レベルの意味タスクに対するゼロショット学習が未知の言語に対して可能かどうかは不明のままです。この問題を探るために、私たちはAmericasNLIを提案します。これは、XNLI(Conneau et al.、2018)をアメリカ先住民の10の言語に拡張したものです。私たちは、XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストしました。さらに、継続的な事前学習によるモデルの適応性を探求し、仮説のみのモデルを考慮してデータセットを分析します。私たちは、XLM-Rのゼロショットのパフォーマンスが10の言語すべてにおいて低く、平均パフォーマンスが38.48%であることを発見しました。継続的な事前学習により、平均精度は43.85%に向上します。驚くべきことに、翻訳が不十分なデータでのトレーニングは、すべての他の方法よりも優れた精度(49.12%)を示しました。
https://aclanthology.org/2022.acl-long.435/
Towards Learning (Dis)-Similarity of Source Code from Program Contrasts
ソースコードの機能的(非)類似性を理解することは、ソフトウェアの脆弱性やコードクローン検出などのコードモデリングタスクにとって重要です。本論文では、ソースコードの(非)類似機能を特定することに焦点を当てた新しい自己教師モデルであるDISCO(DIS-similarity of COde)を提案します。既存の研究とは異なり、我々のアプローチはランダムに収集された大量のデータセットを必要としません。代わりに、構造に基づくコード変換アルゴリズムを設計して、合成コードクローンを生成し、実世界のセキュリティバグを注入し、収集されたデータセットをターゲットに拡張します。我々は、このように自動生成されたプログラムの対比を用いてTransformerモデルを事前学習し、野生の類似コードをよりよく特定し、脆弱なプログラムと無害なプログラムを区別することを提案します。ソースコードの構造的特徴をよりよく捉えるために、親ノードや兄弟ノードなどのローカルツリーベースのコンテキストをエンコードする新しいクローズ目的を提案します。我々は、データ拡張と事前学習アプローチの効果を示すために、最新のモデルのトレーニングデータセットのわずか5%のサイズのデータセットでモデルを事前学習します。評価により、DISCOは、はるかに少ないデータでも、脆弱性とコードクローン検出のタスクで最新のモデルを上回ることが示されました。
https://aclanthology.org/2022.acl-long.436/
Guided Attention Multimodal Multitask Financial Forecasting with Inter-Company Relationships and Global and Local News
金融予測に関する多くの研究は、株価や企業のニュースなど、個々の企業に直接関連する情報(ローカル情報)を使用して、株式のリターンを予測するために行われています。株式のリターンは、一般的な経済に関するニュースなどのグローバル情報や、企業間の関係によっても影響を受ける可能性があります。このような多様な情報を捉えることは、異なる時間スケール、スパース性、および異なるモダリティからのグローバルおよびローカル情報の分布による低信号対ノイズ比のために困難です。本論文では、投資およびリスク管理に関連する予測タスクのために、グローバルおよびローカルのマルチモーダル情報を両方捉えるモデルを提案します。提案されたGuided Attention Multimodal Multitask Network(GAME)モデルは、新しいアテンションモジュールを使用して、異なるモダリティおよび動的な企業間関係ネットワークからのグローバルおよびローカル情報を学習するためにガイドを行います。広範な実験により、GAMEがいくつかの予測タスクおよび重要な実世界の応用事例において、他の最先端モデルを上回ることが示されました。
https://aclanthology.org/2022.acl-long.437/
On Vision Features in Multimodal Machine Translation
多言語機械翻訳(MMT)に関する以前の研究は、ビジョン機能を翻訳に組み込む方法に焦点を当ててきましたが、ビジョンモデルの品質にはほとんど注意が払われていません。本研究では、ビジョンモデルがMMTに与える影響を調査しました。Transformerがコンピュータビジョンで人気を博していることを考慮して、私たちはさまざまな強力なモデル(Vision Transformerなど)と強化された機能(オブジェクト検出や画像キャプションなど)で実験を行いました。私たちは、選択的注意モデルを開発して、MMTにおける画像のパッチレベルの貢献を研究しました。詳細なプロービングタスクで、より強力なビジョンモデルが視覚モダリティからの翻訳学習に役立つことがわかりました。私たちの結果は、現在のベンチマークが小規模で偏っている場合、特にMMTモデルを注意深く検討する必要があることを示唆しています。
https://aclanthology.org/2022.acl-long.438/
CONTaiNER: Few-Shot Named Entity Recognition via Contrastive Learning
Few-Shot設定におけるNamed Entity Recognition(NER)は、低リソースドメインにおけるエンティティタグ付けに必要不可欠です。既存のアプローチは、ソースドメインからクラス固有の意味的特徴と中間表現のみを学習します。これは、未知のターゲットドメインに対する汎用性に影響を与え、最適なパフォーマンスを発揮できなくなります。このため、我々は、Few-Shot NERの間トークン分布距離を最適化する新しい対照的学習技術であるCONTaiNERを提案します。CONTaiNERは、クラス固有の属性を最適化するのではなく、ガウス分布埋め込みに基づいてトークンカテゴリを区別するための一般化された目的を最適化します。これにより、トレーニングドメインから起因する過学習問題が効果的に緩和されます。OntoNotes、CoNLL'03、WNUT'17、GUMなどのいくつかの従来のテストドメインと、新しい大規模Few-Shot NERデータセット(Few-NERD)での実験により、CONTaiNERが平均で以前の方法よりも3%〜13%の絶対F1ポイントで優れたパフォーマンスを発揮し、一貫したパフォーマンス傾向を示すことが示されました。さらに、以前のアプローチでは適切なパフォーマンスを発揮できなかった困難なシナリオでも、一貫したパフォーマンスを示しました。
https://aclanthology.org/2022.acl-long.439/
Cree Corpus: A Collection of nêhiyawêwin Resources
プレーンズ・クリー語(nêhiyawêwin)は、カナダとアメリカで話されている先住民族の言語であり、クリー語の中で最も広く話されている方言であり、形態複雑な言語であり、多合成的で高度に屈折的で接着的です。これは、非常に低資源言語であり、言語技術の開発を支援するために利用可能で準備されたコーパスが存在しない言語です。nêhiyawêwinの復興と保存を支援するために、私たちは多様なジャンル、時代、および対象読者のテキストをカバーするコーパスを開発しました。データは検証され、クリーンアップされ、nêhiyawêwinの言語技術の開発に使用する準備ができています。コーパスには、英語のフレーズまたは音声ファイルがある場合はそれに対応するものが含まれています。私たちは、コミュニティの使用と、コミュニティメンバーが望む種類のサポートを提供できる言語技術の構築によって、コーパスの有用性を示しています。コーパスは一般に公開されています。
https://aclanthology.org/2022.acl-long.440/
Learning to Rank Visual Stories From Human Ranking Data
ビジュアルストーリーテリング(VIST)は、自然言語生成研究領域で広く開発されてきた典型的なビジョン・ランゲージ・タスクです。しかし、テキスト生成の従来の自動評価メトリックがVISTに適用可能かどうかはまだ不明です。本論文では、自動評価のために人間の評価結果を再利用するVHED(VIST Human Evaluation Data)データセットを提供し、ストーリー評価のための新しいリファレンスフリーVISTメトリックであるVrank(VIST Ranker)を開発します。まず、テキスト生成の一般的に採用されている自動メトリックの結果が人間の評価結果とほとんど相関しないことを示し、自動評価モデルを学習するために直接人間の評価結果を利用することを動機付けます。実験では、モデルを使用して生成されたテキストを評価し、他のリファレンスベースおよびリファレンスフリーメトリックとともにストーリーランクを予測します。結果は、Vrank予測が他のメトリックよりも人間の評価により合致しており、ストーリーペアのランキング時に約30%の高い精度を示していることを示しています。さらに、Vrankだけが、2つのストーリーの品質差が大きい場合により良いストーリーを見つける強い能力を持つ人間らしい行動を示すことを示します。最後に、純粋なテキストストーリーに対するVrankの汎用性を示し、人間の評価結果の再利用により、Vrankが今後の進歩に向けて強い立場にあることを結論付けます。
https://aclanthology.org/2022.acl-long.441/
Universal Conditional Masked Language Pre-training for Neural Machine Translation
事前学習されたシーケンス・ツー・シーケンスモデルは、ニューラル機械翻訳(NMT)を大幅に改善しています。従来の作業とは異なり、事前学習モデルは通常、単方向デコーダを採用していましたが、本論文では、双方向デコーダを使用してシーケンス・ツー・シーケンスモデルを事前学習することで、自己回帰型および非自己回帰型NMTの両方に対して注目すべき性能向上が得られることを示しています。具体的には、多言語の大規模なバイリンガルおよびモノリンガルコーパスで事前学習された条件付きマスク言語モデルであるCeMATを提案します。また、CeMATを強化するための2つのシンプルで効果的な方法、アラインドコードスイッチング&マスキングおよびダイナミックデュアルマスキングを紹介します。私たちは広範な実験を行い、CeMATが低から極めて高いリソース言語までのすべてのシナリオで有意な性能向上を達成できることを示しました。自己回帰型NMTの場合、低リソースで+14.4 BLEU、平均で+7.9 BLEUの改善があります。非自己回帰型NMTの場合、一貫した性能向上が得られることも示しており、最大+5.3 BLEUの改善があります。私たちの知る限り、これはNMTタスクの両方に微調整するための統一されたモデルを事前学習する最初の作業です。コード、データ、および事前学習モデルは、https://github.com/huawei-noah/Pretrained-Language-Model/CeMATで利用可能です。
https://aclanthology.org/2022.acl-long.442/
CARETS: A Consistency And Robustness Evaluative Test Suite for VQA
私たちは、CARETSというシステムテストスイートを紹介し、6つの細かい能力テストを通じて現代のVQAモデルの一貫性と堅牢性を測定することを提案します。既存のVQAテストセットとは異なり、CARETSはバランスの取れた質問生成を特徴とし、モデルをテストするためのインスタンスのペアを作成し、それぞれのペアは再表現、論理的対称性、または画像の曖昧さなどの特定の能力に焦点を当てます。私たちは、CARETSで6つの現代的なVQAシステムを評価し、否定、論理和、または上位語の不変性などの概念に特に弱点があることを特定しました。興味深いことに、最も洗練されたモデルでさえ、接続詞の順序を入れ替えたり、質問に言及される回答選択肢の数を変えたりするという点に敏感です。私たちは、CARETSをマルチモーダルモデルの堅牢性を評価するための拡張可能なツールとしてリリースします。
https://aclanthology.org/2022.acl-long.443/
Phrase-aware Unsupervised Constituency Parsing
最近の研究では、マスクされた言語モデリング(MLM)をプロキシタスクとして使用して、教師なしの文法誘導においてインスピレーションを与える成功を収めています。低レベルの構造を識別する高い精度を持つにもかかわらず、先行研究は、MLMタスクが通常ローカルコンテキストからの情報のみを必要とするため、節などの高レベルの構造を捉えるのに苦労する傾向があります。本研究では、句中心の観点からLMベースの構成解析を再検討します。人間の自然な読み取りプロセスに着想を得て、教師なしの句タガーによって抽出された句でパーサーを正規化し、LMモデルが低レベルの構造を迅速に処理するのを支援することを提案します。高レベルの構造をよりよく理解するために、非句単語の再構築に重点を置く句案内のマスキング戦略を提案します。初期の句の正規化が効果的なブートストラップとして機能し、句案内のマスキングが高レベルの構造の識別を改善することを示します。2つの異なるバックボーンモデルを使用した公開ベンチマークの実験により、当社の手法の有効性と汎用性が示されました。
https://aclanthology.org/2022.acl-long.444/
Achieving Reliable Human Assessment of Open-Domain Dialogue Systems
オープンドメインの対話システムの評価は非常に困難であり、より良い技術の開発が切望されていることが何度も強調されています。最近の競技会で信頼性の高いライブ評価を実施するための大規模な取り組みが行われてきましたが、注釈は放棄され、合理的な結果を生み出すにはあまりにも信頼性が低いと報告されています。これは深刻な問題であり、自動メトリックが高品質の会話を示すかどうかを示す良い指標ではないことが知られているためです。対話においてより良い評価技術が緊急に必要であると強調された競技会の救援要請に応えて、私たちは高信頼性でありながら実現可能かつ低コストな人間評価の成功した開発を提案します。自己複製実験により、相関係数r=0.969でほぼ完全に繰り返し可能な結果が得られました。さらに、統計的有意性テストの適切な方法がないため、対話評価においてシステムの潜在的な改善の可能性が偶然によって引き起こされることはめったに考慮されておらず、私たちが提案する評価は標準的なテストの適用を容易にします。高信頼性の評価方法を開発したため、システムのパフォーマンスに関する新しい洞察が明らかになります。したがって、私たちは、(i) 人格を持つ場合と持たない場合の最新のモデルの比較、および(ii) 指定されたトピックと自由に選択されたトピックの比較を含め、会話品質への人格の貢献を測定するための比較を行います。人格に関しては、結果は期待されたように、人格が会話品質に肯定的に貢献するわけではないことを示しています。
https://aclanthology.org/2022.acl-long.445/
Updated Headline Generation: Creating Updated Summaries for Evolving News Stories
私たちは、自然言語処理に関する論文の要約文を以下に示します。 私たちは、更新された記事に対して、以前の記事と見出しを考慮しながら、システムが見出しを生成するタスクを提案します。システムは、記事の更新における新しい情報を特定し、既存の見出しを適宜修正する必要があります。私たちは、NewsEditsコーパスを使用して、実質的な見出しの更新が必要であると思われる連続した記事のバージョンを自動的に特定することで、このタスクのためのデータを作成します。私たちは、以前の見出しと本文の改訂に基づくモデルが、標準的な見出し生成モデルと比較して、不必要な編集を少なくしながら、人間によって事実と判断される見出しを生成することを発見しました。私たちの実験は、この新しい文脈に基づく要約タスクのベンチマークを確立します。
https://aclanthology.org/2022.acl-long.446/
SaFeRDialogues: Taking Feedback Gracefully after Conversational Safety Failures
現在のオープンドメインの会話モデルは、不適切な方法で話すことが容易です。会話相手からの会話フィードバックによるオンライン学習は、モデルが改善し適応するための有望な手段であり、これによりこれらの安全性の失敗を少なく生成することができます。しかし、現在の最先端のモデルは、フィードバックに対して防御的または無頓着な反応を示す傾向があります。これは不快な体験をもたらし、将来的には会話相手がフィードバックを与えることを躊躇する可能性があります。本研究では、SaFeRDialoguesという、安全性の失敗に関する会話フィードバックに対する優雅な応答のタスクとデータセットを提案します。私たちは、安全性の失敗を示すフィードバックと、フィードバックを認める応答を示す8,000の対話のデータセットを収集します。このデータセットでの微調整が、人間の評価者が文明的な会話につながる可能性が高く、魅力的で一般的な会話能力を犠牲にすることなく、会話を生成することを示します。
https://aclanthology.org/2022.acl-long.447/
Compositional Generalization in Dependency Parsing
近年、人工知能において、単語などの既知の単位を新しいフレーズや文に組み合わせる能力である合成性が注目されている。Keysersら(2020)は、意味解析における合成的一般化をテストするために、Compositional Freebase Queries(CFQ)を導入した。このデータセットは、単語などの原始的な単位に関するテストとトレーニングの分布の類似性を最大化しながら、フレーズなどのより大きな構造に関するテストとトレーニングの分布の相違を最大化する。しかし、依存解析には合成的一般化のベンチマークが欠けている。本研究では、CFQの依存解析のゴールドスタンダードセットを導入し、これを使用して最新の依存解析器(Qiら、2020)のCFQデータセットにおける動作を分析する。我々は、複合的な分岐が増加すると依存解析の性能が低下することを発見したが、意味解析の性能ほど劇的には低下しないことも明らかにした。さらに、依存解析器の性能は複合的な分岐に対して一様に低下せず、同じ複合的な分岐を持つ異なる分割で異なる動作をすることがわかった。我々は、依存解析性能の非一様な低下の原因についていくつかの仮説を探求し、最も困難な分割における依存解析器の低い性能を引き起こすいくつかの構文構造を特定した。
https://aclanthology.org/2022.acl-long.448/
ASPECTNEWS: Aspect-Oriented Summarization of News Documents
一般的な要約は文書全体をカバーし、クエリベースの要約は文書固有の質問に答えようとする。しかし、実際のユーザーのニーズはしばしばこれらの極端の間にあり、類似した種類の文書で議論される高レベルのトピックに対応する。本論文では、ニュースのサブドメインの記事に関する異なるサブトピックをカバーする現実的なアスペクト指向の要約のデータセットであるAspectNewsを収集する。我々は、地震と詐欺調査の2つのドメインの記事にわたってデータを注釈し、各記事についてドメインごとに異なるアスペクトに焦点を当てた2つの異なる要約を注釈する。単一の一般的な要約を生成するシステムは、両方のアスペクトを簡潔に満たすことができない。我々の評価の焦点は、ドメイン内のトレーニングデータを見ずに既存の技術がこれらのドメインに一般化できるかどうかであり、クエリに焦点を当てた要約作業で使用された合成トレーニングデータを構築する技術に注目する。我々は、キーワードの使用の強さとオラクル要約の抽出方法が異なるいくつかのトレーニングスキームを比較する。我々の評価は、(a)一般的な要約システムやキーワードマッチングからより優れたフォーカスされた要約を生み出す; (b)キーワードの選択に敏感なシステムを生み出すことを示している。
https://aclanthology.org/2022.acl-long.449/
MemSum: Extractive Summarization of Long Documents Using Multi-Step Episodic Markov Decision Processes
私たちは、MemSum(Multi-step Episodic Markov decision process extractive SUMmarizer)を紹介します。これは、現在の抽出履歴に関する情報を各ステップで豊富に取り入れた強化学習ベースの抽出型要約器です。MemSumが要約に文を反復的に選択する際には、人間がこのタスクで直感的に使用する広範な情報セットを考慮します。1)文のテキスト内容、2)ドキュメントの残りの部分のグローバルなテキストコンテキスト、3)すでに抽出された文のセットで構成される抽出履歴です。軽量なアーキテクチャを持つMemSumは、PubMed、arXiv、GovReportから取得した長い文書を要約する際に、最新のテストセットパフォーマンス(ROUGE)を達成します。削除研究により、ローカル、グローバル、および履歴情報の重要性が示されます。人間の評価により、MemSumの抽出履歴に関する認識から生じる高品質かつ低冗長性の要約の高品質が確認されました。
https://aclanthology.org/2022.acl-long.450/
CLUES: A Benchmark for Learning Classifiers using Natural Language Explanations
従来の教師あり学習は、タスクのラベル付き例を観察することによる帰納学習に焦点を当ててきた。一方、人間の知能の特徴は、言語だけから新しい概念を学ぶ能力である。ここでは、言語だけから構造化データのゼロショット分類器をトレーニングすることを探求する。そのために、分類タスクと自然言語による説明の形での教育を含む、Classifier Learning Using natural language ExplanationS(CLUES)のベンチマークを紹介する。CLUESには、36の実世界の分類タスクと144の合成分類タスクが含まれている。それは、複数の教師からの実世界のタスクを説明するクラウドソーシングされた説明と、合成タスクのためのプログラム生成された説明を含んでいます。例を分類するための説明の影響をモデル化するために、説明を使用しないベースラインよりも18%以上一般化するExEntというエンテイルメントベースのモデルを開発する。説明からの自動学習の主要な課題を明確にし、将来的にCLUESで進展することができる。コードとデータセットは、https://clues-benchmark.github.ioで利用可能です。
https://aclanthology.org/2022.acl-long.451/
Substructure Distribution Projection for Zero-Shot Cross-Lingual Dependency Parsing
私たちは、サブストラクチャ分布射影(SubDP)という技術を提案します。これは、サブストラクチャ分布を別々に射影することにより、あるドメインの構造の分布を別のドメインに射影する技術です。射影された分布をソフトシルバーラベルとして使用して、ターゲットドメインのモデルをトレーニングすることができます。私たちは、依存構造をサブストラクチャとして扱い、ゼロショットクロスリンガル依存解析にSubDPを適用しました。つまり、ソース言語の予測された依存構造の分布をターゲット言語に射影し、その分布を用いてターゲット言語のパーサをトレーニングしました。英語のツリーバンクを唯一の人間の監督情報として使用した場合、SubDPは、8つの異なるターゲット言語において、Universal Dependencies v2.2(Nivre et al.、2020)のテストセットにおいて、すべての先行研究よりも優れた未ラベル付きアタッチメントスコアを達成し、6つの言語においては最高のラベル付きアタッチメントスコアを達成しました。さらに、SubDPは、わずか50の監督ビットキストペアを使用して、より広範なターゲット言語において、ゼロショットクロスリンガル依存解析を改善します。
https://aclanthology.org/2022.acl-long.452/
Multilingual Detection of Personal Employment Status on Twitter
ソーシャルメディア上で個人の雇用状況の開示を検出することは、求職者と適切な求人をマッチングするための貴重な情報を提供し、社会保護を提供するか、労働市場の流れを測定することができます。しかし、そのような個人的な開示を特定することは、社会メディアのコンテンツの海の中での稀少性と、それらを説明するために使用される言語形式の多様性のために、困難な課題です。ここでは、極端なクラスの不均衡の現実世界の設定で3つのアクティブラーニング(AL)戦略を検討し、BERTベースの分類モデルを使用して3つの言語で個人の雇用状況に関する5つの開示タイプ(例:雇用喪失)を特定します。私たちの調査結果は、極端な不均衡設定でも、同じラベル数を持つ監視されたベースラインと比較して、わずかなAL反復が精度、再現率、および結果の多様性の大きなかつ有意な利益を得るのに十分であることを示しています。また、どのAL戦略も一貫して他を上回るわけではないことがわかりました。質的分析は、ALがBERTの注意メカニズムをコア用語に集中させ、意味的拡張の境界を調整するのに役立つことを示唆し、解釈可能なモデルがこの動的な学習プロセスに対するより大きな制御と可視性を提供する重要性を強調しています。
https://aclanthology.org/2022.acl-long.453/
MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data
テキストと表形式の両方のデータを含むハイブリッドデータ上での数値推論(例:財務報告書)は、最近NLPコミュニティで注目を集めています。しかし、既存のハイブリッドデータ上の質問応答(QA)ベンチマークは、各ドキュメントに単一のフラットテーブルしか含まれておらず、複数の階層的テーブルを跨いだ多段階の数値推論の例が欠けています。データ分析の進展を促進するために、私たちはMulti Hierarchical Tabular and Textualデータ上のQAペアを持つ新しい大規模ベンチマーク、MultiHierttを構築しました。MultiHierttは、豊富な財務報告書から構築され、以下のユニークな特徴を持っています:1)各ドキュメントには複数のテーブルと長い非構造化テキストが含まれています。2)ほとんどのテーブルは階層的です。3)各質問に必要な推論プロセスは、既存のベンチマークよりも複雑で挑戦的です。4)複雑な数値推論を明らかにするために、推論プロセスとサポートファクトの細かい注釈が提供されます。さらに、MT2Netという新しいQAモデルを紹介し、まず事実検索を適用して、テーブルとテキストから関連するサポートファクトを抽出し、その後、抽出された事実に対してシンボリック推論を実行する推論モジュールを使用します。さまざまなベースラインで包括的な実験を行いました。実験結果は、MultiHierttが既存のベースラインにとって強力な課題を提供し、その結果が人間の専門家のパフォーマンスを大きく下回っていることを示しています。データセットとコードは、https://github.com/psunlpgroup/MultiHierttで公開されています。
https://aclanthology.org/2022.acl-long.454/
Transformers in the loop: Polarity in neural models of language
計算言語モデルにおける言語現象の表現は、通常、これらの現象の既存の言語理論の予測と比較して評価されます。極性を事例として使用し、これが常に最適な設定ではないことを示します。私たちは、負の極性項目(特に英語の「any」)を介して極性を探求し、2つの事前トレーニング済みTransformerベースのモデル(BERTとGPT-2)で行います。私たちは、少なくとも極性については、言語モデルから導出されたメトリックが、言語理論の予測よりも心理言語学的実験のデータとより一致していることを示します。これにより、言語モデルのパフォーマンスをより適切に評価し、既存の言語理論を超えた自然言語文法の新しい洞察を発見するために言語モデルを使用することができます。この研究は、心理言語学的実験と言語モデルの実験との間のより密接な関係を確立するのに貢献します。
https://aclanthology.org/2022.acl-long.455/
Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation
バックトランスレーションは、ターゲット単一言語データから疑似並列データを生成するUnsupervised Neural Machine Translation(UNMT)の重要なコンポーネントです。 UNMTモデルは、翻訳されたソースを使用して疑似並列データでトレーニングされ、推論で自然なソース文を翻訳します。トレーニングと推論の間のソースの不一致は、UNMTモデルの翻訳性能を妨げます。実験を慎重に設計することで、ソースのデータギャップの2つの代表的な特徴を特定しました:(1)スタイルギャップ(つまり、翻訳されたテキストスタイルと自然なテキストスタイル)は、一般化能力が低下する原因となります。 (2)コンテンツギャップは、モデルがターゲット言語に偏った幻覚コンテンツを生成する原因となります。データギャップを狭めるために、オンライン自己トレーニングアプローチを提案し、疑似並列データ{自然なソース、翻訳されたターゲット}を同時に使用して推論シナリオを模倣します。いくつかの広く使用されている言語ペアでの実験結果は、スタイルとコンテンツのギャップを修正することにより、アプローチが2つの強力なベースライン(XLMおよびMASS)を上回ることを示しています。
https://aclanthology.org/2022.acl-long.456/
SDR: Efficient Neural Re-ranking using Succinct Document Representation
BERTベースのランキングモデルは、さまざまな情報検索タスクで優れたパフォーマンスを発揮しています。しかし、大量のパラメータと複雑な自己注意操作は、著しいレイテンシーオーバーヘッドを伴います。この問題を解決するために、最近の研究では、中間ドキュメント表現の事前計算を許可する遅延相互作用アーキテクチャが提案されており、レイテンシーを低減しています。しかし、即座のレイテンシー問題を解決した後、これらの方法はストレージコストとネットワーク取得レイテンシーを導入し、実際のプロダクションシステムでの採用を制限します。本研究では、高度に圧縮された中間ドキュメント表現を計算するSuccinct Document Representation(SDR)スキームを提案し、ストレージ/ネットワークの問題を緩和します。我々のアプローチは、まず、ドキュメントのテキストコンテンツをエンコードおよびデコードフェーズの両方で使用する新しいオートエンコーダーアーキテクチャを使用して、トークン表現の次元を削減します。このトークンエンコーディングステップの後、現代の量子化技術を使用して、ドキュメント表現のサイズをさらに縮小します。MSMARCOのパッセージ再ランキングタスクでの評価では、圧縮されたドキュメント表現を使用する既存のアプローチと比較して、同じランキング品質の場合、我々の方法は非常に効率的であり、4倍から11.6倍の高い圧縮率を達成しています。同様に、TREC CARデータセットでは、同じランキング品質の場合、7.7倍の高い圧縮率を達成しています。
https://aclanthology.org/2022.acl-long.457/
The AI Doctor Is In: A Survey of Task-Oriented Dialogue Systems for Healthcare Applications
タスク指向型の対話システムは、医療現場でますます普及しており、多様なアーキテクチャや目的で特徴付けられています。これらのシステムは、医療コミュニティから非技術的な観点で調査されてきましたが、厳密な計算的観点からの体系的なレビューは、今まで著しく欠落していました。その結果、医療に特化した対話システムの重要な実装の詳細は限られており、この分野のイノベーションのペースが遅れています。このギャップを埋めるために、私たちは、よく知られたコンピュータサイエンス、自然言語処理、人工知能の会場からの初期の4070本の論文を調査し、医療アプリケーションのためのタスク指向型対話システムのシステムレベルの実装について70本の論文を特定しました。これらの論文を包括的に技術的にレビューし、特定されたギャップとそれに対応する推奨事項を含む主要な調査結果を提示します。
https://aclanthology.org/2022.acl-long.458/
SHIELD: Defending Textual Neural Networks against Multiple Black-Box Adversarial Attacks with Stochastic Multi-Expert Patcher
自然言語処理に関する論文の要約文を日本語に翻訳してください。 テキストニューラルネットワーク(NN)モデルをブラックボックス攻撃から守るために提案されたいくつかの手法があるにもかかわらず、それらはしばしば特定のテキスト摂動戦略に対して防御し、またはモデルをゼロから再トレーニングする必要があります。これにより、実践において一般化が不足し、冗長な計算が発生します。特に、最先端のトランスフォーマーモデル(例:BERT、RoBERTa)は、大量の時間と計算リソースを必要とします。これらの制限に対処するために、ソフトウェアエンジニアリングからアイデアを借りて、テキストNNの最後のレイヤーのみを修正および再トレーニングする新しいアルゴリズムであるSHIELDを提案します。これにより、NNを多数の専門家予測ヘッドの確率的加重アンサンブルに「パッチ」および「変換」します。現在のほとんどのブラックボックス攻撃が、敵対的な摂動を最適化するための反復的な検索メカニズムに依存していることを考慮すると、SHIELDは、入力に応じて異なる加重予測器のアンサンブルを自動的に利用することで攻撃者を混乱させます。つまり、SHIELDは攻撃の基本的な仮定である、被害者NNモデルが攻撃中に一定であるという仮定を破ります。包括的な実験を実施することにより、SHIELDによってパッチされたCNN、RNN、BERT、およびRoBERTaベースのテキストNNは、14種類の異なるブラックボックス攻撃に対して平均15%〜70%の相対的な精度向上を示し、3つの公開データセット全体で6つの防御ベースラインを上回ります。すべてのコードは公開されます。
https://aclanthology.org/2022.acl-long.459/
Accurate Online Posterior Alignments for Principled Lexically-Constrained Decoding
機械翻訳におけるオンラインアラインメントとは、ターゲットシーケンスが部分的にデコードされた場合に、ターゲット単語をソース単語にアラインするタスクを指します。良好なオンラインアラインメントは、ユーザー定義の辞書を使用して翻訳モデルに語彙制約を注入するレキシカル制約翻訳などの重要なアプリケーションを容易にします。我々は、既存の方法と比較してアラインメントエラー率が優れている真にオンラインの事後アラインメント技術を提案します。我々の提案する推論技術は、アラインメントとトークン確率を原理的に共同考慮し、既存の制約付きビームサーチデコーディングアルゴリズムにシームレスに統合できます。2つの遠隔言語ペアを含む5つの言語ペアで、アラインメントエラー率の一貫した低下を達成しました。7つのレキシカル制約翻訳タスクに展開された場合、制約位置周辺のBLEUに特に改善が見られました。
https://aclanthology.org/2022.acl-long.460/
Leveraging Task Transferability to Meta-learning for Clinical Section Classification with Limited Data
セクションの特定は、非構造化の臨床ノートから医療情報を理解し、臨床ノート作成タスクの支援技術を開発する上で、重要な要素の1つです。最新のテキスト分類システムのほとんどは、高い性能を達成するために、数千のドメイン内テキストデータが必要です。しかし、プライバシーと機密性の高い問題があるため、ドメイン内で最近の臨床ノートデータを収集することは困難です。本論文では、低リソースのターゲットデータの問題に対処するために、メタ学習ベースのテキスト分類のタスク転移性を改善するアルゴリズム的な方法を提案します。具体的には、ソースデータセットを最大限活用する方法を探求し、ノーマライズされた負の条件付きエントロピー(NNCE)という独自のタスク転移性尺度を提案します。NNCEを活用して、ソースタスクデータから臨床カテゴリとセクションを選択する戦略を開発し、クロスドメインのメタ学習精度を向上させます。実験結果は、タスク選択戦略がメタ学習アルゴリズムに比べてセクション分類の精度を大幅に改善することを示しています。
https://aclanthology.org/2022.acl-long.461/
Reinforcement Guided Multi-Task Learning Framework for Low-Resource Stereotype Detection
大量のデータを非監視学習でトレーニングされた大規模な事前学習言語モデル(PLM)が普及するにつれて、テキスト内のさまざまな種類のバイアスを特定することが注目されるようになってきました。既存の「ステレオタイプ検出」データセットは、主に大規模なPLMに対する診断的アプローチを採用しています。Blodgettら(2021)は、既存のベンチマークデータセットには重大な信頼性の問題があることを示しています。信頼性の高いデータセットを注釈するには、ステレオタイプがテキストでどのように現れるかの微妙なニュアンスを正確に理解する必要があります。本論文では、ステレオタイプがテキストでどのように現れるかを分解することによって、これらの落とし穴に対処する「ステレオタイプ検出」のための注目評価セットを注釈します。さらに、ヘイトスピーチ検出、攻撃的言語検出、女性嫌悪検出などのデータ豊富な隣接タスクを活用して、多目的モデルを提供します。これにより、「ステレオタイプ検出」の経験的パフォーマンスを向上させます。次に、強化学習エージェントを提案し、目標タスクに最も役立つ隣接タスクのトレーニング例を特定することを学習することにより、マルチタスク学習モデルをガイドします。提案されたモデルがすべてのタスクで既存のベースラインよりも重要な経験的利益をもたらすことを示します。
https://aclanthology.org/2022.acl-long.462/
Letters From the Past: Modeling Historical Sound Change Through Diachronic Character Embeddings
自然言語処理における語彙意味変化検出のNLPアプローチに関する多くの研究が行われてきたが、言語変化の他の側面はNLPコミュニティからはあまり注目されていない。本論文では、歴史的な綴りを通じた音韻変化の検出に取り組む。我々は、音韻変化が、変化前後の文字の分布の相対的な時間的距離を比較することによって捉えられると提案する。我々は、PPMI文字埋め込みを用いてこれらの分布をモデル化する。我々は、合成データでこの仮説を検証し、その後、デンマークの歴史的な文献における子音の緩和というよく知られた歴史的変化を追跡する方法の能力をテストする。我々は、モデルがいくつかの変化を識別し、それらが現れた意味のある文脈を明らかにすることができることを示す。この方法論は、音韻変化の相対的な年代順序と地理的分布などの未解決の問題の研究に貢献する可能性がある。
https://aclanthology.org/2022.acl-long.463/
A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation
GPT-3のような大規模な事前学習生成モデルは、非存在または不正確なコンテンツを幻覚することがよくあり、これは実際のアプリケーションでの潜在的な利点を損なう。既存の研究では、通常、文または文書レベルの対応するオラクルリファレンスに基づいてこれらの幻覚を検出しようとする。しかし、自由形式のテキスト生成アプリケーションでは、グラウンドトゥルースのリファレンスがすぐに利用できない場合があり、文または文書レベルの検出ではリアルタイムで誤ったコンテンツを防止するための細かい信号を提供できない場合がある。これらの問題に対処するための第一歩として、我々は新しいトークンレベル、リファレンスフリーの幻覚検出タスクと、関連する注釈付きデータセットであるHaDeS(HAllucination DEtection dataSet)を提案する。このデータセットを作成するために、まず英語のWikipediaから抽出した大量のテキストセグメントを変形させ、クラウドソーシングされた注釈で検証する。注釈付け中のラベルの不均衡を緩和するために、反復的なモデルインループ戦略を利用する。我々は包括的なデータ分析を実施し、複数のベースラインモデルを作成する。
https://aclanthology.org/2022.acl-long.464/
Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice
自然言語処理(NLP)における分類器は、しばしば多数の出力クラスを持っています。例えば、ニューラル言語モデル(LM)や機械翻訳(MT)モデルは、共に数千の語彙からトークンを予測します。これらのモデルのSoftmax出力層は、通常、低次元の密な特徴表現を入力として受け取りますが、出力よりもはるかに低い次元数です。理論的には、入力特徴に関係なく、いくつかの単語はargmaxを介して予測することが不可能であるため、小規模な言語モデルでは(Demeter et al.、2020)、経験的にもそのようなことが起こることがあるという証拠があります。本論文では、実用的な大規模言語モデルや翻訳モデルでもこのようなことが起こる可能性があるかどうかを調べます。そのために、公開されているモデルでこのようなargmax不可能なトークンを検出するアルゴリズムを開発しました。150のモデルのうち13つがこのようなトークンを持っていることがわかりましたが、非常にまれであり、モデルの品質に影響を与える可能性は低いです。私たちは、アルゴリズムとコードを公開します。
https://aclanthology.org/2022.acl-long.465/
Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction
本論文では、トレーニングデータが不足している場合でも汎用性が高く、文レベルおよび文書レベルのイベント引数抽出(EAE)に効果的かつ効率的なモデルPAIEを提案します。一方、PAIEは、抽出目的のためのプロンプトチューニングを利用して、事前学習言語モデル(PLM)の最大の利点を活用します。それは、各役割の入力テキストから開始/終了トークンを選択するためのプロンプトに基づく2つのスパンセレクタを導入します。他方、マルチロールプロンプトを介して引数の相互作用を捕捉し、二部マッチング損失を介した最適スパン割り当てとの共同最適化を実行します。また、柔軟なプロンプト設計により、従来のヒューリスティックな閾値チューニングではなく、同じ役割を持つ複数の引数を抽出できます。我々は、文レベルおよび文書レベルのEAEを含む3つのベンチマークで広範な実験を行いました。その結果、PAIE(PAIE-baseおよびPAIE-largeの平均で3.5%および2.3%のF1ゲイン)から有望な改善が示されました。さらに、抽出プロンプトチューニング戦略の効率性、少数ショット設定への汎用性、および効果を示すさまざまな分析を行いました。我々のコードはhttps://github.com/mayubo2333/PAIEで利用可能です。
https://aclanthology.org/2022.acl-long.466/
Reducing Position Bias in Simultaneous Machine Translation with Length-Aware Framework
同時機械翻訳(SiMT)は、ストリーミングソース入力を受け取りながら翻訳を開始するため、翻訳中にソース文が常に不完全な状態になります。従来のseq-to-seqアーキテクチャを使用した完全文MTとは異なり、SiMTはしばしば接頭辞から接頭辞へのアーキテクチャを適用し、各ターゲット単語が不完全なソースに適応するために部分的なソース接頭辞にのみアラインメントされるようにします。しかし、前方のソース単語は常に重要視されるため、位置バイアスが生じ、モデルがテスト中に前方のソース位置により多くの注意を払うことになります。本論文では、SiMTにおける位置バイアス現象を分析し、SiMTと完全文MTの構造的なギャップを埋めることで位置バイアスを減らすための長さに配慮したフレームワークを開発します。具体的には、ストリーミング入力を与えた後、完全文の長さを予測し、将来のソース位置に位置符号化を埋め込むことで、ストリーミング入力を疑似完全文に変換します。提案されたフレームワークは、既存のほとんどのSiMT方法に統合することができ、さらなる性能向上を実現します。最新の適応ポリシーを含む2つの代表的なSiMT方法に対する実験結果は、本手法が位置バイアスを成功裏に減らし、より良いSiMT性能を実現することを示しています。
https://aclanthology.org/2022.acl-long.467/
A Statutory Article Retrieval Dataset in French
法的質問に関連する法律条文を自動的に取得することを法的条文検索という。自然言語処理の最近の進歩により、多くの法的タスクに関心が集まっているが、大規模で高品質な注釈付きデータセットが不足しているため、法的条文検索は主に未開拓のままである。このボトルネックに対処するために、私たちはベルギー法的条文検索データセット(BSARD)を導入しました。これは、22,600以上のベルギー法律条文のコーパスから関連する条文を経験豊富な法律家によってラベル付けされた1,100以上のフランス語の法的質問から構成されています。BSARDを使用して、ゼロショットおよび監視されたセットアップの両方で、レキシカルおよび密なアーキテクチャを含むいくつかの最新の検索アプローチをベンチマークします。私たちは、ファインチューニングされた密な検索モデルが他のシステムよりも優れていることを発見しました。最も優れたベースラインは、74.8%のR@100を達成し、タスクの実現可能性に向けた有望な成果を示し、改善の余地があることを示しています。BSARDは、ドメインの特異性と対象タスクにより、法的情報検索の将来の研究におけるユニークな課題問題を提供します。私たちのデータセットとソースコードは公開されています。
https://aclanthology.org/2022.acl-long.468/
ParaDetox: Detoxification with Parallel Data
私たちは、解毒タスクのための並列データ収集のための新しいパイプラインを提案します。私たちは、10,000以上の英語の有害な文に対して非有害な言い換えを収集します。また、このパイプラインを使用して、大規模な既存の言い換えコーパスを蒸留して、有害-中立の文のペアを得ることができることを示します。私たちは、解毒モデルのトレーニングに使用できる2つの並列コーパスをリリースします。私たちの知る限り、これらはこのタスクの最初の並列データセットです。私たちは、パイプラインを詳細に説明し、新しい言語やドメインに対して簡単に設定できるようにすることで、新しい並列リソースのより速く、簡単な開発に貢献します。私たちは、収集したデータでいくつかの解毒モデルをトレーニングし、いくつかのベースラインと最先端の非監視アプローチと比較します。自動評価と手動評価の両方を実施します。並列データでトレーニングされたすべてのモデルは、最先端の非監視モデルを大幅に上回ります。これは、私たちの新しいデータセットが解毒システムの性能を向上させることができることを示唆しています。
https://aclanthology.org/2022.acl-long.469/
Interpreting Character Embeddings With Perceptual Representations: The Case of Shape, Sound, and Color
多くのNLPモデルには文字レベルの情報が含まれていますが、文字表現にエンコードされた情報を評価することは未解決の問題です。私たちは、形状、音、色の埋め込みという知覚的な表現を活用し、表現の類似性分析を実行して、5つの言語でのテキスト表現との相関を評価します。このクロスリンガル分析は、アルファベットスクリプトを使用する言語では、テキスト文字表現が音声表現と強く相関する一方、形状は特徴スクリプトと相関することを示しています。さらに、文字埋め込みにエンコードされた音韻情報を内在的に評価するための一連のプロービング分類器を開発しました。私たちの結果は、声調などの特徴情報がLSTMとトランスフォーマーベースの表現に埋め込まれていることを示唆しています。
https://aclanthology.org/2022.acl-long.470/
Fine-Grained Controllable Text Generation Using Non-Residual Prompting
極めて大きな因果言語モデル(CLM)の導入により、オープンエンドのテキスト生成に対する関心が再び高まっています。ただし、これらのTransformerベースのモデルの生成プロセスを制御することは、大きな未解決の問題です。以前の研究では、プラグアンドプレイのデコーディング戦略またはプロンプトなど、より強力であるが鈍いアプローチが探求されてきました。したがって、細かい制御とより表現力の高い高レベルの指示の能力との間には、現在、トレードオフが存在しています。このトレードオフを緩和するために、任意の時間ステップで中間テキストプロンプトを可能にするエンコーダーデコーダーアーキテクチャを提案します。事前にトレーニングされたCLMをこのアーキテクチャに変換するためのリソース効率の高い方法を提案し、文脈に基づいた単語の含有の新しいタスクを含むさまざまな実験でその可能性を示します。私たちの方法は、複数の実験設定で強力な結果を提供し、表現力と多目的性の両方を証明しています。
https://aclanthology.org/2022.acl-long.471/
Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features
ニューラルテキスト・トゥ・スピーチシステムは、高リソースのシナリオでは驚くほど優れた性能を発揮しますが、適切なトレーニングデータがないため、世界で6,000以上の話されている言語の大多数には適用できません。本研究では、音素のアイデンティティから派生した埋め込みではなく、口腔運動ベクトルから派生した埋め込みを使用して、言語を超えて音素表現を学習します。言語に依存しないメタ学習と組み合わせることで、以前に見たことのない話者が話す以前に見たことのない言語で、わずか30分のデータで高品質のテキスト・トゥ・スピーチモデルを微調整することができます。
https://aclanthology.org/2022.acl-long.472/
TwittIrish: A Universal Dependencies Treebank of Tweets in Modern Irish
現代アイルランド語は、ツイートなどのユーザー生成コンテンツの正確な自動構文解析のための十分な計算リソースを欠いている少数派言語である。アイルランド語の言語技術は近年発展してきたが、これらのツールはユーザー生成コンテンツに対しては性能が低い傾向がある。他の言語と同様に、アイルランド語のツイートで観察される言語スタイルは、正書法、語彙、構文の面で、言語モデルやパーサーの開発によく使われる標準テキストと異なる。本論文では、アイルランド語ツイートと標準アイルランド語テキストの違いと、アイルランド語ツイートの依存解析に関連する課題について探究し、アイルランド語ユーザー生成コンテンツの自然言語処理を可能にする初めてのアイルランド語ツイートのUniversal Dependencies treebankを公開する。また、treebankの開発のブートストラップ方法を説明し、初期の解析実験について報告する。
https://aclanthology.org/2022.acl-long.473/
Length Control in Abstractive Summarization by Pretraining Information Selection
従来の長さ制御可能な要約モデルは、デコード段階で長さを制御することが多く、ソースドキュメントからのエンコーディングや情報の選択は設計された長さに敏感ではありませんでした。また、トレーニングデータと同じ長さの要約を生成する傾向がありました。本論文では、望ましい長さに基づいてソースのエンコーディングを適応させる長さに注意したメカニズム(LAAM)を提案します。このアプローチは、元のトレーニングデータから構築された要約長バランスの取れたデータセットでLAAMをトレーニングし、通常通りファインチューニングすることで機能します。結果は、このアプローチが望ましい長さで高品質な要約を生成するのに効果的であり、元のトレーニングセットにはなかった短い長さの要約を生成することもできることを示しています。
https://aclanthology.org/2022.acl-long.474/
CQG: A Simple and Effective Controlled Generation Framework for Multi-hop Question Generation
マルチホップ質問生成は、入力パッセージの複数の情報を推論することを必要とする複雑な質問を生成することに焦点を当てています。最新の性能を持つ現在のモデルは、答えに対応する正しい質問を生成することができました。しかし、ほとんどのモデルは生成された質問の複雑さを保証できないため、マルチホップ推論なしで回答できる浅い質問を生成する可能性があります。この課題に対処するために、私たちはシンプルで効果的な制御フレームワークであるCQGを提案します。CQGは、マルチホップ推論チェーン内のキーとなるエンティティを含むマルチホップ質問を生成するためのシンプルな方法を採用し、質問の複雑さと品質を保証します。さらに、キーとなるエンティティが質問に現れるようにするための新しい制御Transformerベースのデコーダを導入します。実験結果は、私たちのモデルが性能を大幅に向上させ、HotpotQAで最新のモデルを5 BLEUポイントで25%上回ることを示しています。
https://aclanthology.org/2022.acl-long.475/
Word Order Does Matter and Shuffled Language Models Know It
最近の研究により、ランダムに並べ替えられた文章に事前学習および/または微調整された言語モデルがGLUEで競争力のあるパフォーマンスを発揮することが示され、単語順序情報の重要性に疑問が投げかけられています。これらの研究の中には、位置エンベッディングがシャッフルされたテキストのモデルの良好なパフォーマンスに重要であるように見えると報告するものもあり、やや直感に反する結果となっています。我々はこれらの言語モデルを単語順序情報について調査し、シャッフルされたテキストから学習された位置エンベッディングが何をエンコードしているかを調べ、これらのモデルが単語順序情報の概念を保持していることを示します。これは、以前の研究でシャッフルがサブワード分割の前に行われていたという微妙な点によるものの一部です。驚くべきことに、サブワード分割後にシャッフルされたテキストで訓練された言語モデルでも、文の長さとユニグラム確率の統計的依存関係のために、単語順序情報の情報が一部残っていることがわかりました。最後に、GLUEを超えて、様々な言語理解タスクには単語順序情報が必要であり、微調整では学習できない程度に必要であることを示します。
https://aclanthology.org/2022.acl-long.476/
An Empirical Study on Explanations in Out-of-Domain Settings
自然言語処理における最近の研究は、入力内の最も重要なトークンを特定することによって忠実な説明を抽出するアプローチを開発することに焦点を当てています(つまり、事後説明)または最も重要なトークンを最初に選択し、それらを使用して正しいラベルを予測することができる本質的に忠実なモデルを設計することによって(つまり、選択して予測するモデル)。現在、これらのアプローチは主にドメイン内の設定で評価されています。しかし、事後説明と本質的に忠実なモデルがドメイン外の設定でどのように機能するかはほとんど知られていません。本論文では、5つの特徴の帰属方法によって生成されたドメイン外の事後説明の十分性と包括性を評価するとともに、6つのデータセット上で2つの本質的に忠実なモデルのドメイン外の性能を評価する、広範な実証的研究を行います。私たちの期待に反して、結果は、多くの場合、ドメイン外の事後説明の忠実性が、十分性と包括性によって測定された場合、ドメイン内よりも高いことを示しています。これは誤解を招くものであり、事後説明の忠実性を評価する基準としてランダムベースラインを使用することを提案します。また、私たちの調査結果は、選択して予測するモデルが、フルテキストトレーニングモデルと同等の予測性能をドメイン外の設定で示すことを示しています。
https://aclanthology.org/2022.acl-long.477/
MILIE: Modular & Iterative Multilingual Open Information Extraction
オープン情報抽出(OpenIE)は、自然言語文から(主語、述語、目的語)トリプルを抽出するタスクです。現在のOpenIEシステムは、すべてのトリプルスロットを独立して抽出します。それに対して、私たちは、簡単なスロットを最初に抽出し、簡単なスロットに基づいて難しいスロットを抽出することが有益である可能性があるという仮説を探求しています。この仮説に基づいて、私たちは、イテレーション方式で動作するニューラルOpenIEシステム、MILIEを提案します。イテレーションの性質により、システムはモジュール化されます。ルールベースの抽出システムをニューラルエンドツーエンドシステムにシームレスに統合することができるため、ルールベースのシステムが抽出スロットを提供し、MILIEが残りのスロットを抽出するために活用できます。私たちは、MILIEが中国語からアラビア語までの複数の言語でSOTAシステムを上回ることを実証しました。さらに、私たちは、アラビア語とガリシア語のOpenIEテストデータセットを提供する最初の人です。
https://aclanthology.org/2022.acl-long.478/
What Makes Reading Comprehension Questions Difficult?
自然言語理解のベンチマークが研究に役立つためには、現在の最先端システムと近い将来のシステムを区別するのに十分多様で難しい例から構成されている必要があります。しかし、どのようにして多様な難しい例を収集するためのテキストソースを選択するのが最適かはまだわかっていません。本研究では、7つの質的に異なるソースから抜粋された文章に対して、クラウドソーシングによる多肢選択式読解問題を収集し、収集された例の難易度と問題タイプに寄与する文章の属性を分析しました。驚くべきことに、文章のソース、長さ、読みやすさの指標は問題の難易度にほとんど影響しないことがわかりました。7つの推論タイプを手動で注釈付けした結果、文章のソースと推論タイプの間にいくつかの傾向が観察されました。例えば、技術的な文章に書かれた問題では論理的な推論がより頻繁に必要とされます。これらの結果から、新しいベンチマークデータセットを作成する際には、多様な文章を選択することで多様な問題タイプを確保できることが示唆されますが、文章の難易度は優先される必要はないということがわかります。
https://aclanthology.org/2022.acl-long.479/
From Simultaneous to Streaming Machine Translation by Leveraging Streaming History
最近、同時機械翻訳は品質の大幅な向上とストリーミングアプリケーションの登場により注目を集めています。同時翻訳システムは翻訳品質と応答時間のトレードオフを見つける必要があり、この目的のために複数のレイテンシー測定が提案されています。しかし、同時翻訳のレイテンシー評価は文レベルで推定され、ストリーミングシナリオの連続性を考慮していません。実際、これらの文レベルのレイテンシー測定は、連続ストリーム翻訳には適しておらず、評価されるシステムの同時翻訳方針と一致しない数字を示します。本研究では、出力翻訳に適用される再セグメンテーションアプローチに基づく現在のレイテンシー測定のストリームレベルの適応を提案し、参照IWSLTタスクのストリーミング条件で成功裏に評価されました。
https://aclanthology.org/2022.acl-long.480/
A Rationale-Centric Framework for Human-in-the-loop Machine Learning
私たちは、人間を含めた合理的な中心のフレームワークである「Rationales-centric Double-robustness Learning(RDL)」を提案し、モデルのアウトオブディストリビューションパフォーマンスをフューショット学習シナリオで向上させます。静的な半事実的生成と動的な人間介入により、RDLは合理的な「帰納的バイアス」のように作用し、理由(つまり、予測を引き起こすフレーズ)、人間の介入、および半事実的な拡張を利用して、偽の関連性を分離し、モデルを一般的に適用可能な基礎分布にバイアスをかけ、迅速かつ正確な一般化を可能にします。実験結果は、RDLが、多くの最新のベンチマークに比べて、インディストリビューションテストとアウトオブディストリビューションテストの両方で、特にフューショット学習シナリオで、重要な予測の利点をもたらすことを示しています。また、フレームワークの各コンポーネントの詳細な分析をサポートするために、包括的な除去研究を実施しています。
https://aclanthology.org/2022.acl-long.481/
Challenges and Strategies in Cross-Cultural NLP
自然言語処理(NLP)コミュニティでは、言語の多様性に対応し、多言語話者にサービスを提供するための様々な取り組みが行われています。しかし、言語と文化は密接に関連しているものの、話者と彼らが生産し必要とするコンテンツは、言語だけでなく文化によっても異なることを認識することが重要です。クロスリンガルおよびマルチリンガルNLPに類似して、クロスカルチャーおよびマルチカルチャーNLPは、これらの違いを考慮してNLPシステムのユーザーにより良いサービスを提供するために検討されます。我々は、これらの取り組みを枠組みとする原則的なフレームワークを提案し、既存および潜在的な戦略を調査します。
https://aclanthology.org/2022.acl-long.482/
Prototypical Verbalizer for Prompt-based Few-shot Tuning
事前学習言語モデル(PLMs)のプロンプトベースの調整は、フューショット学習においてその効果を示しています。通常、プロンプトベースの調整は、入力テキストをクローズ質問にラップします。予測を行うために、モデルは出力単語をラベルにマッピングするためのバーバライザを使用します。このバーバライザは、手動で設計されるか、自動的に構築されます。しかし、手動バーバライザは、ドメイン固有の事前知識と人間の努力に大きく依存しており、適切なラベル単語を自動的に見つけることはまだ困難です。本研究では、トレーニングデータから直接構築されたプロトタイプバーバライザ(ProtoVerb)を提案します。具体的には、ProtoVerbは対比学習によってバーバライザとしてプロトタイプベクトルを学習します。この方法により、プロトタイプはトレーニングインスタンスを要約し、豊富なクラスレベルの意味を包含することができます。トピック分類およびエンティティタイピングタスクの両方で実験を行い、結果は、ProtoVerbが現在の自動バーバライザよりも優れており、特にトレーニングデータが極端に少ない場合に顕著であることを示しています。さらに驚くべきことに、ProtoVerbは、調整されていないPLMsでもプロンプトベースの調整を一貫して向上させるため、PLMsを利用するためのエレガントな非調整方法を示唆しています。私たちのコードはhttps://github.com/thunlp/OpenPromptで利用可能です。
https://aclanthology.org/2022.acl-long.483/
Clickbait Spoiling via Question Answering and Passage Retrieval
私たちは、クリックベイトの台頭によって引き起こされる好奇心を満たす短いテキストを生成するタスクである「クリックベイトスポイリング」を紹介し、研究しました。クリックベイトは、情報的な要約を提供する代わりに好奇心をかき立てることで、ウェブページへのリンクを宣伝します。私たちの貢献は、必要なスポイラーのタイプ(フレーズまたはパッセージ)を分類するアプローチと、適切なスポイラーを生成するアプローチです。新しいコーパスである「Webis Clickbait Spoiling Corpus 2022」の5,000件の手動スポイリングされたクリックベイト投稿に対する大規模な評価とエラー分析により、スポイラータイプ分類器は80%の精度を達成し、質問応答モデルであるDeBERTa-largeは、両方のタイプのスポイラーを生成するために他のすべてを上回る性能を発揮しました。
https://aclanthology.org/2022.acl-long.484/
BERT Learns to Teach: Knowledge Distillation with Meta Learning
私たちは、メタ学習を用いた知識蒸留(MetaDistil)を提案し、従来の知識蒸留(KD)手法の代替として、教師モデルがトレーニング中に固定されることがないようにします。私たちは、メタ学習フレームワークで蒸留された学生ネットワークのパフォーマンスに対するフィードバックを用いて、教師ネットワークが知識をより効果的に転移することができることを示します。さらに、改善された内部学習者に焦点を当てたメタ学習アルゴリズムにおいて、内部学習者とメタ学習者の整合性を改善するためのパイロット更新メカニズムを導入します。様々なベンチマーク実験により、MetaDistilは従来のKDアルゴリズムと比較して、有意な改善をもたらすことができ、異なるタスクやモデルでKDを使用することを容易にすることができることが示されました。
https://aclanthology.org/2022.acl-long.485/
STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation
限られたラベル付きデータでエンドツーエンドの音声からテキストへの翻訳(ST)のためにより良い音声表現を学ぶ方法は何ですか?既存の技術はしばしば強力な機械翻訳(MT)の能力をSTに転送しようとしますが、モダリティ間の表現の不一致を無視します。本論文では、Speech-TExt Manifold Mixup(STEMM)方法を提案し、このような不一致を調整します。具体的には、異なるモダリティの表現シーケンスを混ぜ合わせ、単一モーダル音声シーケンスと多モーダル混合シーケンスの両方を並列に翻訳モデルの入力として取り、自己学習フレームワークで出力予測を正則化します。MuST-C音声翻訳ベンチマークでの実験とさらなる分析により、当社の方法はクロスモーダル表現の不一致を効果的に緩和し、8つの翻訳方向で強力なベースラインに比べて有意な改善を実現していることが示されました。
https://aclanthology.org/2022.acl-long.486/
Integrating Vectorized Lexical Constraints for Neural Machine Translation
単語制約を持つニューラル機械翻訳(NMT)は、事実上の多くのシナリオで重要である。NMTモデルの離散制約と連続ベクトルの表現ギャップのため、既存の多くの研究では、合成データを構築するか、デコーディングアルゴリズムを変更して、NMTモデルをブラックボックスとして扱い、単語制約を課している。本研究では、制約を直接NMTモデルに統合することで、このブラックボックスを開くことを提案する。具体的には、ソースとターゲットの制約を連続的なキーと値にベクトル化し、NMTモデルのアテンションモジュールで利用できるようにする。提案された統合方法は、アテンションモジュール内のキーと値の対応が制約ペアのモデリングに自然に適しているという仮定に基づいています。実験結果は、ベクトル化された単語制約を統合する優位性を示し、4つの言語ペアでいくつかの代表的なベースラインを一貫して上回ることを示しています。
https://aclanthology.org/2022.acl-long.487/
MPII: Multi-Level Mutual Promotion for Inference and Interpretation
最近の研究では、モデルの振る舞いの理論をより理解するために、推論予測をサポートする解釈を提供することが試みられています。しかし、既存の方法は人間にとって不親切な解釈を提供する傾向があり、推論促進と解釈促進のどちらか一方に偏りがちであるため、最適なパフォーマンスを発揮することができません。本論文では、自己進化型推論と文レベル解釈のための多レベル相互促進メカニズム(MPII)を提案します。具体的には、モデルレベルから、ステップワイズ統合メカニズムを提案し、自己回帰的に推論と解釈を深く統合します。最適化レベルからは、敵対的相互情報学習戦略を用いた敵対的忠実度正則化を提案し、推論と解釈の忠実度を向上させます。NLIとCQAタスクでの広範な実験により、提案されたMPIIアプローチが、推論パフォーマンスと解釈品質の両方においてベースラインモデルを大幅に上回ることが示されました。
https://aclanthology.org/2022.acl-long.488/
StableMoE: Stable Routing Strategy for Mixture of Experts
Mixture-of-Experts(MoE)技術は、手頃な計算オーバーヘッドでTransformersのモデルサイズを拡大できます。既存の学習ルートMoE方法は、ルーティングの変動問題、つまり、同じ入力のターゲットエキスパートがトレーニングに従って変化するが、推論中には入力に対して1つのエキスパートのみがアクティブになるため、問題があることを指摘します。ルーティングの変動は、同じ入力が異なるエキスパートを更新するが、最終的には1つしか使用されないため、サンプル効率に悪影響を与える傾向があります。本論文では、ルーティングの変動問題に対処するために、2つのトレーニングステージを持つStableMoEを提案します。最初のトレーニングステージでは、バランスの取れた結束したルーティング戦略を学習し、バックボーンモデルから切り離された軽量ルーターに蒸留します。2番目のトレーニングステージでは、蒸留されたルーターを利用してトークンからエキスパートへの割り当てを決定し、安定したルーティング戦略に凍結します。言語モデリングと多言語機械翻訳で私たちの方法を検証します。結果は、StableMoEが収束速度とパフォーマンスの両方の面で既存のMoE方法を上回ることを示しています。
https://aclanthology.org/2022.acl-long.489/
Boundary Smoothing for Named Entity Recognition
自然言語処理に関する論文の要約文を日本語に翻訳してください。 ニューラルネットワークを用いた固有表現認識(NER)モデルは、過信の問題に直面することがあり、性能やキャリブレーションが低下する可能性があります。ラベルスムージングに着想を得て、NERエンジニアリングにおける境界注釈の曖昧さに駆られ、スパンベースのニューラルNERモデルの正則化技術として、バウンダリースムージングを提案します。これにより、注釈付きスパンから周囲のスパンにエンティティの確率を再割り当てします。シンプルで強力なベースラインに基づいて構築された当社のモデルは、8つのよく知られたNERベンチマークで、以前の最先端システムと同等またはそれ以上の結果を達成しています。さらなる実証分析により、バウンダリースムージングは過信を効果的に緩和し、モデルのキャリブレーションを改善し、より平らなニューラルミニマとよりスムーズな損失ランドスケープをもたらすことが効果的であることが示されています。
https://aclanthology.org/2022.acl-long.490/
Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchical Text Classification
階層的なテキスト分類は、複雑なラベル階層のため、マルチラベル分類の難しいサブタスクです。既存の方法では、テキストとラベル階層を別々にエンコードし、分類のためにそれらの表現を混合します。ここでは、階層をすべての入力テキストに対して変更せずに、それらを別々にモデル化する代わりに、Hierarchy-guided Contrastive Learning(HGCLR)を提案します。トレーニング中、HGCLRはラベル階層のガイダンスの下で入力テキストの正のサンプルを構築します。入力テキストとその正のサンプルを引き合わせることで、テキストエンコーダは階層に注意したテキスト表現を独立して生成することを学ぶことができます。したがって、トレーニング後、HGCLR強化されたテキストエンコーダは冗長な階層を省略できます。3つのベンチマークデータセットでの広範な実験により、HGCLRの効果が検証されました。
https://aclanthology.org/2022.acl-long.491/
Signal in Noise: Exploring Meaning Encoded in Random Character Sequences with Character-Aware Language Models
自然言語処理モデルは、単語の文脈(例:共起)が意味と相関するという分布仮説に基づいて単語表現を学習します。私たちは、ランダムな文字列のn-gram、またはgarbleから構成されるものが、既存の言語内外で単語の意味を研究するための新しい文脈を提供すると提案します。特に、ランダムに生成された文字n-gramには意味はありませんが、含まれる文字の分布に基づく原始的な情報が含まれています。CharacterBERTを使用して、garble、既存の言語、および疑似単語の大規模なコーパスの埋め込みを研究することにより、これらのn-gramのクラスを分離するモデルの高次元埋め込み空間の軸を特定します。さらに、この軸が、単語の品詞、形態論、および概念の具体性など、既存の言語内の構造に関連していることを示します。したがって、既存の言語に主に限定された研究とは対照的に、私たちの研究は、意味と原始的な情報が本質的に関連していることを明らかにします。
https://aclanthology.org/2022.acl-long.492/
Hyperlink-induced Pre-training for Passage Retrieval in Open-domain Question Answering
質問応答システムのトレーニングにおけるデータ不足問題を緩和するため、最近の研究では、密なパッセージ検索のための追加の中間プレトレーニングが提案されている。しかし、上流の信号と下流の質問-パッセージの関連性の間には依然として大きな乖離があり、改善が少なくなる。このギャップを埋めるために、我々はHyperLink-induced Pre-training (HLP)を提案する。これは、Webドキュメント内のハイパーリンクベースのトポロジーによって誘発されるテキストの関連性を用いて、密なリトリーバーをプレトレーニングする方法である。デュアルリンクと共起のハイパーリンクベースの構造が、ダウンストリームのパッセージ検索をより効果的に促進する大規模なプレトレーニングのための効果的な関連性信号を提供できることを示す。我々は、ゼロショット、フューショット、マルチホップ、およびアウトオブドメインのシナリオにおける広範なオープンドメインQAデータセットでのアプローチの効果を調査する。実験結果は、ゼロショットシナリオにおいて、HLPがBM25を最大7ポイント上回り、トップ20のリトリーバル精度に関して他のプレトレーニング方法を10ポイント以上上回ることを示している。さらに、HLPは他のシナリオでも他のプレトレーニング方法を大幅に上回る。
https://aclanthology.org/2022.acl-long.493/
AdaLoGN: Adaptive Logic Graph Network for Reasoning-Based Machine Reading Comprehension
最近の機械読解データセットであるReClorとLogiQAは、テキスト上で論理的推論を行う必要があります。従来のニューラルモデルは論理的推論に不十分であり、一方、記号的推論者は直接テキストに適用することができません。この課題に対応するため、我々はニューラル-記号的アプローチを提案します。このアプローチは、テキストユニット間の論理関係を表すグラフ上でメッセージを送信して回答を予測します。アダプティブ論理グラフネットワーク(AdaLoGN)を組み込み、グラフを拡張するために論理的関係を適応的に推論し、本質的にニューラルと記号的推論の相互および反復的な強化を実現します。また、複数選択問題に答えるために、新しいサブグラフからノードへのメッセージパッシングメカニズムを実装して、コンテキスト-オプションの相互作用を強化します。我々のアプローチは、ReClorとLogiQAで有望な結果を示しています。
https://aclanthology.org/2022.acl-long.494/
CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing
モデルアンサンブルは、低分散かつよく一般化されたモデルを生成するための人気のある手法です。しかし、それは大きなメモリと推論コストを引き起こし、現実世界での展開にはしばしば手が届かないことがあります。既存の研究は、モデル間で重みを共有することに頼っています。しかし、共有される重みの割合を増やすと、生成されるモデルは類似しており、モデルアンサンブルの利点が減少する傾向があります。低メモリコストを維持しながらアンサンブルの利点を保持するために、私たちは摂動モデルに基づく一貫性正則化アンサンブル学習アプローチを提案します。具体的には、すべてのモデルで下層の重みを共有し、異なるモデルに対して異なる摂動を隠れた表現に適用することで、モデルの多様性を効果的に促進します。同時に、摂動モデル間で予測の一貫性正則化を適用して、モデル多様性による分散を制御します。大規模言語モデルを使用した実験により、CAMEROがアンサンブルモデルの一般化性能を大幅に改善することが示されました。具体的には、CAMEROは、標準的な8つのBERT-baseモデルのアンサンブルに比べて、モデルサイズが大幅に小さい(114.2M vs. 880.6M)GLUEベンチマークで0.7を上回ります。
https://aclanthology.org/2022.acl-long.495/
Interpretability for Language Learners Using Example-Based Grammatical Error Correction
文法エラー訂正(GEC)は、言語学習のための解釈可能性にも焦点を当てる必要がある。しかし、既存のニューラルベースのGECモデルは主に精度の向上を目的としており、解釈可能性は未だに探求されていない。解釈可能性を向上させる有望なアプローチは、類似の検索例を使用して訂正を生成する例ベースの方法である。また、例は言語学習において有益であり、文法的に正しくない/正しいテキストの基礎を理解し、自信を持って文章を書くことができるように支援する。したがって、我々は、例ベースの方法をGECに組み込むことで、解釈可能性を向上させると同時に言語学習者を支援できると仮説を立てた。本研究では、言語学習者に訂正結果の基礎となる例を提示するExample-Based GEC(EB-GEC)を紹介する。例は、与えられた入力と予測された訂正に類似した正しい文と誤った文のペアで構成される。実験は、EB-GECによって提示された例が、言語学習者がGECの出力から提案を受け入れるか拒否するかを決定するのに役立つことを示している。さらに、実験は、検索された例が訂正の精度を向上させることも示している。
https://aclanthology.org/2022.acl-long.496/
Rethinking Negative Sampling for Handling Missing Entity Annotations
ネームドエンティティ認識(NER)の欠損注釈を処理するために、ネガティブサンプリングは非常に効果的である。私たちの貢献の1つは、ミスサンプリングと不確実性という2つの洞察的な概念を導入することによって、どのように意味を成すかについての分析である。実証研究により、低いミスサンプリング率と高い不確実性の両方が、ネガティブサンプリングで有望なパフォーマンスを達成するために不可欠であることが示されている。また、ネームドエンティティの疎らさに基づいて、ミスサンプリング率がゼロである確率の下限を理論的に導出し、これは文の長さにのみ関連する。もう1つの貢献は、以前の分析を通じてネガティブサンプリングをさらに改善する適応的で重み付けされたサンプリング分布である。合成データセットやよく注釈されたデータセット(例:CoNLL-2003)での実験により、提案されたアプローチがF1スコアと損失収束の観点でネガティブサンプリングを改善することが示されている。さらに、改善されたネガティブサンプリングを備えたモデルは、実世界のデータセット(例:EC)で新しい最高の結果を達成している。
https://aclanthology.org/2022.acl-long.497/
Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unlabeled Learning
本論文では、遠隔監視下での固有表現認識(NER)問題を研究します。外部辞書や知識ベースの不完全性により、このような遠隔監視下で注釈付けされたトレーニングデータは、通常、高い偽陰性率に苦しんでいます。このため、Multi-class Positive and Unlabeled(MPU)学習を介してDistantly Supervised NER(DS-NER)問題を定式化し、理論的にも実用的にも新しいCONFidence-based MPU(Conf-MPU)アプローチを提案します。不完全な注釈を処理するために、Conf-MPUは2つのステップで構成されています。まず、各トークンがエンティティトークンである可能性の信頼スコアが推定されます。次に、提案されたConf-MPUリスク推定を使用して、NERタスクのマルチクラス分類器をトレーニングします。さまざまな外部知識によってラベル付けされた2つのベンチマークデータセットでの徹底的な実験により、提案されたConf-MPUが既存のDS-NER方法よりも優れていることが示されました。私たちのコードはGithubで利用可能です。
https://aclanthology.org/2022.acl-long.498/
UniXcoder: Unified Cross-Modal Pre-training for Code Representation
プログラミング言語の事前学習済みモデルは、コードインテリジェンスにおいて最近大きな成功を収めている。コード関連の理解と生成の両方をサポートするために、最近の研究では、統合エンコーダ・デコーダモデルを事前学習する試みが行われている。しかし、このようなエンコーダ・デコーダフレームワークは、特にデコーダのみを使用して効率的な推論を行うコード補完などの自己回帰タスクにおいては、サブオプティマルである。本論文では、プログラミング言語のための統合クロスモーダル事前学習モデルであるUniXcoderを提案する。モデルは、マスクアテンション行列とプレフィックスアダプタを使用してモデルの動作を制御し、ASTやコードコメントなどのクロスモーダルコンテンツを活用してコード表現を強化する。木構造で表現されるASTを並列にエンコードするために、ASTを木からすべての構造情報を保持するシーケンス構造に変換する1対1のマッピング方法を提案する。さらに、コントラスティブ学習を用いてコードフラグメントの表現を学習し、クロスモーダル生成タスクを使用してプログラミング言語間の表現を整列させることを提案する。UniXcoderを9つのデータセット上の5つのコード関連タスクで評価する。さらに、コードフラグメントの表現の性能を評価するために、ゼロショットコード検索という新しいタスクのためのデータセットを構築する。結果は、ほとんどのタスクで最先端の性能を発揮し、コメントとASTの両方がUniXcoderを強化することが分かった。
https://aclanthology.org/2022.acl-long.499/
One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia
自然言語処理の研究は、資源の不足と、代表的でない言語や方言が抱える課題に対する認識の欠如によって妨げられています。インドネシアで話されている言語に焦点を当て、世界で2番目に言語が多様で、4番目に人口の多い国であるインドネシアの700以上の言語に対する現在の自然言語処理の状況を概観します。インドネシアの自然言語処理における課題と、これらが現在の自然言語処理システムの性能にどのように影響するかを強調します。最後に、インドネシアの言語だけでなく、他の代表的でない言語の自然言語処理技術の開発を支援するための一般的な推奨事項を提供します。
https://aclanthology.org/2022.acl-long.500/
Is GPT-3 Text Indistinguishable from Human Text? Scarecrow: A Framework for Scrutinizing Machine Text
現代のニューラル言語モデルは、驚くほど流暢で文法的に優れたテキストを生成することができます。実際、Clarkらの最近の研究(2021)によると、従来のクラウドソーシングでは、機械生成(GPT-3)と人間による執筆を信頼性をもって区別することができなくなっています。機械生成のエラーがますます微妙で見つけにくくなるにつれ、堅牢な機械テキスト評価のための新たな課題が研究コミュニティに課せられています。本論文では、クラウドアノテーションを用いた機械テキストの厳密な検証のための新しいフレームワーク「Scarecrow」を提案します。Scarecrowは、事前定義されたオントロジーなしに、冗長性、常識的なエラー、不一致などの10のエラーカテゴリを、複数のラウンドのクラウドアノテーション実験によって特定することで、一般の人々によって特定できる幅広い実際の機械エラーをサポートします。その後、Scarecrowを使用して、英語のニューステキストの人間による執筆と機械生成の段落から、41,000以上のエラースパンを収集します。パラメータ数、トレーニングデータ、およびさまざまなデコード時間の構成など、詳細な分析のための要因を分離します。私たちのアプローチは、GPT-3の14の構成を含む複数のサイズのモデルの生成物と人間による執筆テキストの間の測定可能なギャップを成功裏に定量化します。さらに、私たちの分析は、大きなモデルでは常識的な能力が向上している一方で、数学的な能力は向上していないこと、そして単純なデコードハイパーパラメータの選択が機械テキストの知覚される品質に著しい違いをもたらすことなど、新しい洞察を明らかにします。私たちは、https://yao-dou.github.io/scarecrow/で私たちのトレーニング資料、アノテーションツールキット、およびデータセットを公開しています。
https://aclanthology.org/2022.acl-long.501/
Transkimmer: Transformer Learns to Layer-wise Skim
トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなどの多くの機械学習タスクにおいて、デファクトモデルとなっています。そのため、その計算効率の改善は極めて重要です。トランスフォーマーベースのモデルの主要な計算効率の問題の1つは、すべてのレイヤーで同じ量の計算を行うことです。これに対処するために、トークンをスキミングする機能をトランスフォーマーモデルに追加することが提案されてきました。しかし、これらは離散的なスキミング予測子の効果的でエンドツーエンドの最適化を持たないため、問題があります。これらの制限に対処するために、私たちはTranskimmerアーキテクチャを提案します。これは、各レイヤーで必要ない隠れ状態トークンを特定することを学習するものです。スキミングされたトークンは、直接最終出力に転送され、その後続レイヤーの計算を減らします。Transkimmerのキーとなるアイデアは、スキミング決定を行うためのパラメータ化された予測子を各レイヤーの前に追加することです。また、再パラメータ化トリックを採用し、Transkimmerのエンドツーエンドトレーニングのためにスキミング損失を追加することを提案します。Transkimmerは、1%未満の精度低下で、GLUEベンチマークにおいて、バニラBERT-baseベースラインに比べて10.97倍の平均高速化を実現します。
https://aclanthology.org/2022.acl-long.502/
SkipBERT: Efficient Inference with Shallow Layer Skipping
本論文では、浅いレイヤーの計算をスキップすることでBERTの推論を加速するSkipBERTを提案する。このために、我々のアプローチは小さなテキストチャンクを独立した表現にエンコードし、それらを実現してBERTの浅い表現を近似する。このような近似の使用はトランスフォーマーの計算に比べて安価であるため、BERTの浅いレイヤーを置き換えてランタイムオーバーヘッドをスキップするためにそれを活用する。また、早期終了メカニズムを使用して、最上位の数層から冗長な計算をスキップして推論効率をさらに改善する。GLUEの結果から、我々のアプローチは性能を犠牲にすることなくレイテンシを65%削減できることが示された。2層のトランスフォーマー計算のみを使用しても、BERTの95%の精度を維持できる。
https://aclanthology.org/2022.acl-long.503/
Pretraining with Artificial Language: Studying Transferable Knowledge in Language Models
私たちは、ニューラルネットワークエンコーダーで学習されたどのような構造的知識が自然言語処理に転移可能かを調査しました。私たちは、自然言語を模倣する構造的特性を持つ人工言語を設計し、そのデータでエンコーダーを事前学習し、エンコーダーが自然言語の下流タスクでどの程度の性能を発揮するかを調べました。実験結果は、入れ子の依存構造を持つ人工言語での事前学習が、自然言語に転移可能な知識を提供することを示しています。追加のプロービング分析により、転移の成功はエンコードされた文脈情報の量に関連しており、転移されるのは言語の位置に応じた文脈依存性の知識です。私たちの結果は、ニューラルネットワークエンコーダーが人間の言語をどのように処理するか、そして最近の多言語言語モデルの言語間転移可能性の源についての洞察を提供します。
https://aclanthology.org/2022.acl-long.504/
mLUKE: The Power of Entity Representations in Multilingual Pretrained Language Models
最近の研究により、多言語事前学習言語モデルは、Wikipediaエンティティからのクロスリンガルアラインメント情報を効果的に活用することができることが示されています。しかし、既存の方法は、事前学習時にエンティティ情報のみを利用し、ダウンストリームタスクでは明示的にエンティティを使用していません。本研究では、エンティティ表現を活用したダウンストリームクロスリンガルタスクの効果を探究しました。24言語の多言語言語モデルをエンティティ表現でトレーニングし、モデルが様々なクロスリンガル転移タスクで単語ベースの事前学習モデルよりも一貫して優れた性能を発揮することを示しました。また、モデルを分析し、エンティティ表現を入力に組み込むことで、より言語に依存しない特徴を抽出できることが重要な洞察であることを示しました。さらに、mLAMAデータセットを用いた多言語クローズプロンプトタスクでモデルを評価しました。エンティティベースのプロンプトを使用することで、単語表現のみを使用するよりも正確な事実知識を引き出すことができることを示しました。
https://aclanthology.org/2022.acl-long.505/
Evaluating Factuality in Text Simplification
自動簡素化モデルは、入力テキストをより読みやすくすることを目的としています。このような方法は、複雑な情報を広い層にアクセス可能にする可能性があります。例えば、一般読者には理解不能な最新の医学文献にアクセスできるようにすることができます。しかし、このようなモデルは、自動的に簡素化されたテキストに、対応する元のテキストに支持されていない文を挿入することや、重要な情報を省略することによって、誤りを導入するリスクがあります。読みやすくなったが不正確なテキストを提供することは、多くの場合、全くアクセスを提供しないよりも悪い場合があります。事実の正確性(または不正確性)の問題は、要約モデルの文脈で高い関心を集めていますが、自動的に簡素化されたテキストの事実性は調査されていません。我々は、既存の簡素化データセットから引用されたものと最新のモデルの出力の両方を分析するために使用するエラーの分類法を紹介します。我々は、既存の評価メトリックに捉えられていないエラーが両方に頻繁に現れることを発見し、自動簡素化モデルの事実性を保証するための研究の必要性を促しています。
https://aclanthology.org/2022.acl-long.506/
Requirements and Motivations of Low-Resource Speech Synthesis for Language Revitalization
本論文は、言語復興のための音声合成システムの動機と開発について説明しています。カナダで話される3つの先住民族言語、カニエンケハ語、ギトクサン語、センチョーテン語の音声合成システムを構築することで、最新のニューラルモデルを搭載した低リソース音声合成システムを構築するために必要なデータ量について再評価します。例えば、英語のデータを用いた予備的な結果では、1時間のトレーニングデータでトレーニングされたFastSpeech2モデルは、10時間のデータでトレーニングされたTacotron2モデルと同等の自然さを持つ音声を生成できることが示されました。最後に、言語復興のための音声合成の分野における評価と教室での統合に向けた将来の研究を動機付けます。
https://aclanthology.org/2022.acl-long.507/
Sharpness-Aware Minimization Improves Language Model Generalization
超人的な能力に魅了されたことから、GPT-3やT5のような言語モデルに対する関心が高まっており、研究は主に新しいモデルアーキテクチャ、トレーニングタスク、損失目的、モデル容量およびデータセットサイズの拡大に向けた大規模なエンジニアリング努力に焦点を当ててきた。これに比べ、これらのモデルの汎化性能を改善するための研究はほとんど行われていない。本研究では、収束をより平坦な最小値に促す最近提案された最適化手法であるSharpness-Aware Minimization(SAM)が、計算オーバーヘッドをほとんど増やすことなく、言語モデルの汎化性能を大幅に改善できることを示す。SuperGLUE、GLUE、Web Questions、Natural Questions、Trivia QA、TyDiQAのパフォーマンスを向上させることができ、特にこれらのタスクのトレーニングデータが限られている場合に大きな利益をもたらすことを示す。
https://aclanthology.org/2022.acl-long.508/
Adversarial Authorship Attribution for Deobfuscation
自然言語処理の最近の進歩により、強力なプライバシー侵害の著者特定が可能になりました。著者特定に対抗するため、研究者は様々なルールベースと学習ベースのテキスト曖昧化アプローチを提案しています。しかし、既存の著者曖昧化アプローチは敵対的脅威モデルを考慮していません。具体的には、潜在的な曖昧化を認識している敵対的にトレーニングされた著者特定者に対して評価されていません。このギャップを埋めるために、我々は敵対的著者特定のための曖昧化解除の問題を調査します。我々は、敵対的にトレーニングされた著者特定者が、既存の曖昧化器の効果を20-30%から5-10%に低下させることができることを示します。また、特定者が使用された曖昧化器について正しい仮定をしているかどうかを評価した場合の敵対的トレーニングの効果も評価します。正確性には明らかな低下がありますが、この低下はまだ全く敵対的にトレーニングされていない特定者の特定精度以上であることに注意すべきです。我々の結果は、曖昧化解除に耐性のある著者曖昧化アプローチを開発する必要性を促します。
https://aclanthology.org/2022.acl-long.509/
Weakly Supervised Word Segmentation for Computational Language Documentation
単語と形態素の分割は、語彙が不明な言語において、言語文書化の基本的なステップであり、言語内の語彙単位を発見することができます。しかし、ほとんどの言語文書化のシナリオでは、言語学者は白紙の状態から始めるわけではありません。彼らはすでに既存の辞書を持っているか、またはデータの一部を手動で分割を開始している場合があります。本論文では、ベイズ非パラメトリックモデルの分割において、このような弱い監視がどのように活用できるかを研究しています。私たちの実験は、まだ進行中の非常に低資源言語(MboshiとJaphug)において、弱い監視が分割の品質に有益であることを示しています。さらに、手動分割が順次提供されるインクリメンタル学習シナリオについても調査しています。この研究は、文書化言語学者のためのインタラクティブ注釈ツールの可能性を開くものです。
https://aclanthology.org/2022.acl-long.510/
SciNLI: A Corpus for Natural Language Inference on Scientific Text
既存の自然言語推論(NLI)データセットは、自然言語理解(NLU)研究の進歩に重要な役割を果たしている一方、科学的なテキストに関連していません。本論文では、NLPと計算言語学に関する学術論文から抽出された107,412の文のペアを含む、科学的なテキストの形式を捉えた大規模なNLIデータセットであるSciNLIを紹介します。科学文献で使用されるテキストは、語彙や文構造の面で日常語で使用されるテキストと大きく異なるため、当社のデータセットは科学的NLUモデルの評価のためのベンチマークとして適しています。私たちの実験は、SciNLIが既存のNLIデータセットよりも分類が難しいことを示しています。XLNetを使用した最高のパフォーマンスを発揮するモデルは、マクロF1スコアがわずか78.18%、精度が78.23%であり、改善の余地が十分にあることを示しています。
https://aclanthology.org/2022.acl-long.511/
Neural reality of argument structure constructions
レキシカリスト言語学理論では、動詞の意味から引数構造が予測されると仮定されています。その結果、動詞は節の意味の主要な決定要因となります。一方、構文学者は、引数構造が動詞とは異なる構成物(または形式-意味ペア)にエンコードされると提唱しています。20年にわたる心理言語学的研究により、構成物の視点が支持される実証的な証拠が蓄積されています。本稿では、心理言語学的研究を適応して、Transformerベースの言語モデル(LM)に引数構造構成物(ASC)が存在するかどうかを調べます。まず、文のソート実験を使用して、同じ構成物を共有する文は同じ動詞を共有する文よりも埋め込み空間で近くなることを発見します。さらに、LMは、より多くの入力データによって構成物によるグループ化を好むようになり、非母語話者の行動を反映します。第二に、「ジャバウォッキー」プライミングベースの実験では、LMが、意味的に意味のない文でもASCを意味に関連付けることがわかりました。本研究は、LMにおけるASCの最初の証拠を提供し、心理言語学的研究に基づく新しいプロービング方法の可能性を示しています。
https://aclanthology.org/2022.acl-long.512/
On the Robustness of Offensive Language Classifiers
ソーシャルメディアプラットフォームは、機械学習に基づく攻撃的な言語分類システムを展開し、悪意のある、人種差別的な、その他の攻撃的なスピーチに対処しています。しかし、実際に展開されているにもかかわらず、攻撃的な言語分類器が敵対的攻撃に対してどの程度堅牢であるかはまだ包括的に理解されていません。この領域の先行研究は、つづりの誤りや余分なスペースなどの原始的な攻撃に対する攻撃的な言語分類器の堅牢性を研究することに限定されています。このギャップに対処するために、我々は、貪欲な単語選択や文脈に敏感な埋め込みを利用した巧妙な敵対的攻撃に対する最先端の攻撃的な言語分類器の堅牢性を系統的に分析します。複数のデータセットにおける結果は、これらの巧妙な敵対的攻撃が、修正されたテキストの可読性と意味を保持しながら、攻撃的な言語分類器の精度を50%以上低下させることができることを示しています。
https://aclanthology.org/2022.acl-long.513/
Few-shot Controllable Style Transfer for Low-Resource Multilingual Settings
スタイル転送は、コンテンツをほぼ保持しながら、文を目標のスタイルに書き換えるタスクです。以前の文献のほとんどは、大規模なスタイルラベル付きコーパスにアクセスできることを前提としていますが、最近の研究(Riley et al. 2021)では、スタイル抽出のために推論時に3〜10の文のみを使用する「few-shot」スタイル転送を試みています。本研究では、スタイルラベル付きコーパスが存在しない言語のスタイル転送という関連する低リソース設定を研究しています。既存のfew-shot方法は、入力をそのままコピーすることが多く、このタスクを不十分に実行します。我々は、パラフレーズ間のスタイルの違いをモデル化する新しい方法でfew-shotスタイル転送の最先端を推し進めます。従来の研究と比較して、我々のモデルは、7つの言語でフォーマリティ転送とコードミキシング追加において2〜3倍の性能を発揮します。さらに、我々の方法は、入力スカラーノブを使用してスタイル転送の強度をより制御することができます。我々は、モデルを再トレーニングすることなく、感情転送、簡素化、ジェンダーニュートラル化、テキスト匿名化などのいくつかの属性転送タスクについて有望な定性的結果を報告しています。最後に、多くの言語に対してデータセットやメトリックが不足しているため、モデルの評価が困難であることがわかりました。今後の研究を促進するために、我々は4つのインド系言語の4000の文のペアについてフォーマリティ注釈をクラウドソーシングし、このデータを使用して自動評価を設計しました。
https://aclanthology.org/2022.acl-long.514/
ABC: Attention with Bounded-memory Control
トランスフォーマーアーキテクチャは、さまざまな自然言語処理(NLP)タスクで最先端の結果を達成しています。しかし、そのアテンションメカニズムは、シーケンス長に対して二次的な複雑性を持ち、特に長いシーケンスに対して計算オーバーヘッドが禁止されるため、効率が悪いです。アテンションコンテキストは、各トークンがスロットを占有するランダムアクセスメモリと見なすことができます。この観点から、メモリサイズはシーケンス長に比例して増加し、それに伴って読み取りのオーバーヘッドも増加します。効率を改善する方法の1つは、メモリサイズを制限することです。我々は、異なるアプローチが1つの抽象化で包括されることができることを示し、境界付きメモリ制御を持つアテンション(ABC)という抽象化があり、それらはメモリの組織によって異なります。 ABCは、新しい、未開拓の可能性を示します。まず、いくつかの効率的なアテンション変種を接続し、それ以外には別のように見えることができます。第二に、この抽象化は、確定的なアテンションに適用できないと以前に考えられていた確立されたアプローチ(Wang et al.、2020b)が実際に適用できることを示します。最後に、我々は、既存のABCアプローチからインスピレーションを得て、ヒューリスティックなメモリ組織関数を学習されたコンテキストに置き換えた新しいABCのインスタンスを提示します。言語モデリング、機械翻訳、およびマスクされた言語モデルの微調整に関する私たちの実験は、私たちのアプローチが以前の効率的なアテンションモデルを上回ることを示しています。強力なトランスフォーマーベースラインと比較して、推論時間とスペース効率を大幅に改善し、精度の損失がないか無視できる程度に改善します。
https://aclanthology.org/2022.acl-long.515/
The Dangers of Underclaiming: Reasons for Caution When Reporting How NLP Systems Fail
自然言語処理(NLP)の研究者は、しばしば、広く言われる熱狂的な期待に対応して、分野の成功を軽視するような研究結果の枠組みや議論を行っています。これは善意から来るものですが、最高技術の限界に関する誤解や虚偽の主張を多数生み出しています。これは問題であり、それは見かけよりも深刻かもしれません。なぜなら、これはバイアスのあるコンテンツモデレーションや履歴書のスクリーニングなど、現在の害を軽減するのがより困難になることで信頼性に損害を与えるからです。また、より遠い未来の進歩の可能性に対する影響を準備する能力も制限されます。この論文は、研究者がこれらの主張に注意を払い、それらを回避または反論するための研究方向とコミュニケーション戦略を提案しています。
https://aclanthology.org/2022.acl-long.516/
RELiC: Retrieving Evidence for Literary Claims
人文学者は、文学作品(例えば小説)に関する主張を引用形式で証拠を提供することが一般的です。本研究では、78,000の文学引用とその周辺の批評分析からなる大規模なデータセット(RELiC)を収集し、小説の証拠検索という新しいタスクを定式化します。このタスクでは、モデルにマスクされた引用文を含む文学分析の抜粋が与えられ、作品中のすべての文章から引用された部分を検索するように求めます。この検索タスクを解決するには、語彙的および意味的類似性マッチングに圧倒的に依存する方法にとって、複雑な文学的および言語現象の深い理解が必要であり、困難を伴います。本研究では、このタスクのためにRoBERTaベースの密なパッセージ検索器を実装し、既存の事前学習済み情報検索ベースラインを上回る性能を発揮しました。しかし、人間のドメイン専門家による実験と分析により、改善の余地があることが示されました。
https://aclanthology.org/2022.acl-long.517/
Analyzing Generalization of Vision and Language Navigation to Unseen Outdoor Areas
ビジョンと言語ナビゲーション(VLN)は、視覚的に基盤となる言語理解の課題であり、自然言語のナビゲーション指示に従って、視覚エージェントがパノラマ画像を備えたグラフベースの環境と相互作用し、指示されたルートに従おうとします。これまでのほとんどの研究は、トレーニングルートに似たルートでのナビゲーションに最も優れた結果が得られ、未知の環境でのテストでは性能が急激に低下する屋内シナリオで行われてきました。私たちは屋外シナリオでのVLNに焦点を当て、屋外VLNでは、屋内VLNとは対照的に、ジャンクションタイプの埋め込みやヘッディングデルタなどの特定の環境グラフに固有の特徴が未知のデータに対する屋外VLNのほとんどの利益をもたらすことを発見しました。一般的に、画像情報は未知の屋外エリアにVLNを一般化するために非常に小さな役割を果たします。これらの結果は、都市環境のグラフ表現の特定に偏りがあることを示しており、VLNタスクが地理的環境の規模と多様性を増やす必要があることを要求しています。
https://aclanthology.org/2022.acl-long.518/
Adapting Coreference Resolution Models through Active Learning
1つのデータセットでトレーニングされたニューラル共参照解決モデルは、新しい低リソースドメインに転送できない場合があります。アクティブラーニングは、アノテーターがラベルを付けるために小さなデータサブセットをサンプリングすることによって、この問題を緩和します。アクティブラーニングは分類タスクに対してよく定義されていますが、共参照解決に対するその適用は、十分に定義されていないか、または完全に理解されていません。本論文では、モデルの不確実性とドキュメントの読み取りコストのソースを調べ、どのように共参照をアクティブにラベル付けするかを探求します。私たちは、不確実性サンプリング戦略とその利点を徹底的なエラー分析を通じて比較します。合成実験と人間の実験の両方で、同じドキュメント内のスパンにラベルを付けることが、ドキュメント間のスパンに注釈を付けるよりも効果的であることがわかりました。この研究成果は、より現実的な共参照解決モデルの開発に貢献します。
https://aclanthology.org/2022.acl-long.519/
An Imitation Learning Curriculum for Text Editing with Non-Autoregressive Models
私たちは、編集タスクのための非自己回帰シーケンス・トゥ・シーケンス・モデルのトレーニングのためのフレームワークを提案します。元の入力シーケンスを編集して出力を生成するために反復的に編集されます。機械翻訳のために設計された模倣学習アルゴリズムが、トレーニングと推論の間に不一致を導入し、編集シナリオでの過少トレーニングと一般化の悪さを引き起こすことを示します。私たちは、この問題に対して2つの補完的な戦略で対処します。1つは、モデルを推論中により頻繁に遭遇する可能性のある中間トレーニングシーケンスにさらすロールインポリシーです。2つ目は、簡単に学習できる編集操作を最初に提示し、モデルが能力を獲得するにつれてトレーニングサンプルの難易度を徐々に上げるカリキュラムです。私たちは、2つの難しい英語編集タスク、制御可能なテキスト簡素化と抽象的要約において、これらの戦略の有効性を示します。私たちのアプローチは、両方のタスクで出力品質を大幅に改善し、簡素化タスクでは出力の複雑さをより制御します。
https://aclanthology.org/2022.acl-long.520/
Memorisation versus Generalisation in Pre-trained Language Models
最新の事前学習言語モデルは、事実を記憶し、限られたトレーニングデータでも優れたパフォーマンスを発揮することが示されています。これらのモデルがどのように学習するかをよりよく理解するために、我々はノイズの多い低リソースシナリオでの一般化と記憶能力を研究しました。我々は、これらのモデルのトレーニングがラベルノイズにほとんど影響を受けないことを発見し、非常にノイズの多いデータセットでもほぼ最適な結果を得ることができることを示しました。しかし、我々の実験は、これらのモデルが主に高頻度のパターンから学習し、フューショット学習やレアエンティティ認識などの低リソースタスクでテストされた場合には大きく失敗することを示しています。このような制限を緩和するために、我々はプロトタイプネットワークに基づく拡張を提案し、低リソースの固有名詞認識タスクでのパフォーマンスを改善します。
https://aclanthology.org/2022.acl-long.521/
ChatMatch: Evaluating Chatbots by Autonomous Chat Tournaments
チャットボットの既存の自動評価システムは、主に静的なチャットスクリプトを基準としており、入手が困難であり、「ホワイトボックステスト」としてボットのモデルにアクセスする必要があります。対話型評価はこの問題を緩和しますが、人間の関与が必要です。本研究では、柔軟なスコアリングメトリックを使用して、チャットボットがスポーツトーナメントのように競い合うインタラクティブなチャットボット評価フレームワークを提案します。このフレームワークは、モデルアーキテクチャやトレーニングされたドメインに関係なく、チャットボットを効率的にランク付けすることができます。
https://aclanthology.org/2022.acl-long.522/
Do self-supervised speech models develop human-like perception biases?
音声処理のための自己教師ありモデルは、外部のラベルを使用せずに表現空間を形成します。これらのモデルは、低資源言語に特に関心がある問題である高価な手動注釈を少なくとも部分的に排除することができる可能性があります。しかし、これらのモデルはどのような表現空間を構築するのでしょうか?人間の知覚は、聴衆の母語の音に特化しています。自己教師ありモデルでも同じことが起こるのでしょうか?私たちは、wav2vec、HuBERT、および対比的予測符号化(CPC)の3種類の最新の自己教師ありモデルの表現空間を調べ、フランス語を話す人と英語を話す人の知覚空間と比較します。両言語グループの行動的な違いを考慮して、グローバルに比較します。CPCモデルは小さな母語効果を示しますが、wav2vecとHuBERTは言語に特化しない普遍的な音声知覚空間を開発するようです。教師ありの音素認識器の予測との比較から、3つの自己教師ありモデルは比較的細かい知覚現象を捉える一方、教師ありモデルは粗い音素レベルの効果や聴衆の母語の影響をよりよく捉えることができます。
https://aclanthology.org/2022.acl-long.523/
Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions
AI研究の長期的な目標の1つは、自然言語で人間とコミュニケーションを取り、環境を認識し、現実世界のタスクを実行できる知的エージェントを構築することです。ビジョン・アンド・ランゲージ・ナビゲーション(VLN)は、この目標に向けた基本的で学際的な研究トピックであり、自然言語処理、コンピュータビジョン、ロボット工学、機械学習のコミュニティからますます注目を集めています。本論文では、VLNの新興分野におけるタスク、評価指標、手法などをカバーした現代の研究をレビューします。現在の進歩と課題の構造化された分析を通じて、現在のVLNの限界と将来の研究の機会を強調します。本論文は、VLN研究コミュニティの包括的な参照資料として役立ちます。
https://aclanthology.org/2022.acl-long.524/
Learning to Generate Programs for Table Fact Verification via Structure-Aware Semantic Parsing
テーブル事実検証は、与えられた半構造化データに基づいて、テキスト文の正確性を確認することを目的としています。既存の多くの手法は、論理演算とテーブルをより理解することに専念していますが、文から潜在的なプログラムを生成することにはほとんど取り組んでおらず、これにより、証拠を効率的に取得するだけでなく、検証の理由を自然に説明することができます。しかし、既存の弱く監視された意味解析器では、多数の誤ったプログラムが存在する巨大な検索空間のため、正しいプログラムを取得することは困難です。本論文では、プログラム生成のために語彙的特徴と構造的特徴の両方を活用することで、この課題に取り組みます。プログラムツリーと依存ツリーの接続を分析することにより、操作指向ツリーという統一的な概念を定義し、構造的特徴を採掘するための構造的意味解析を導入します。さらに、語彙的特徴と違反罰則を組み合わせた洗練された目的関数を設計し、誤ったプログラムをさらに回避します。実験結果は、提案された手法が既存の意味解析器よりも正確にプログラムを生成し、大規模なベンチマークTABFACTでSOTAと同等の性能を発揮することを示しています。
https://aclanthology.org/2022.acl-long.525/
Cluster & Tune: Boost Cold Start Performance in Text Classification
現実世界のシナリオでは、ラベル付きデータが不足している場合、テキスト分類タスクはしばしばコールドスタートで始まります。そのような場合、BERTなどの事前学習済みモデルをファインチューニングするという一般的な方法は、パフォーマンスが低下する可能性があります。我々は、事前学習とファインチューニングの間に、中間の非監視分類タスクを追加することで、そのようなモデルのパフォーマンスを向上させる方法を提案します。この中間タスクとして、クラスタリングを実行し、事前学習済みモデルをクラスタラベルの予測にトレーニングします。我々は、さまざまなデータセットでこの仮説をテストし、ファインチューニングに利用可能なラベル付きインスタンスの数が数十から数百に限定される場合、この追加の分類フェーズが主にトピック分類タスクのパフォーマンスを大幅に改善できることを示します。
https://aclanthology.org/2022.acl-long.526/
Overcoming a Theoretical Limitation of Self-Attention
トランスフォーマーは多くのタスクに対して非常に効果的であるが、驚くほど簡単に見える正則言語には苦戦する。Hahnは、入力記号が1つに依存する言語では、入力文字列が長くなるにつれてトランスフォーマーの分類決定がランダムな推測に近づくことを示している(つまり、クロスエントロピーが1になる)。本稿では、PARITY(1の数が奇数のビット列の言語)とFIRST(1で始まるビット列の言語)の2つの言語を用いて、Hahnの補題によって示される制限を3つの方法で克服することを示す。第1に、PARITYとFIRSTを完全に正確に認識するトランスフォーマーを構築することで、未解決の問題を解決する。第2に、レイヤー正規化を使用して、両モデルのクロスエントロピーを任意の値に近づける。第3に、FIRSTのようにトランスフォーマーが単一の位置に焦点を当てる必要がある場合、長い文字列に一般化できなくなることがある。この問題に対する簡単な解決策を提供し、機械翻訳における長さの一般化も改善する。
https://aclanthology.org/2022.acl-long.527/
Prediction Difference Regularization against Perturbation for Neural Machine Translation
入力摂動を適用する正則化手法は、近年、NMTタスクで注目を集め、頻繁に探求されています。その単純さと効果的さにもかかわらず、これらの手法はトレーニングデータの過少適合によって制限されていると主張します。本論文では、グラウンドトゥルーストークンの予測差を利用してトークンレベルのサンプルの適合性を分析し、過少適合が過剰適合と同様に一般的であることを発見しました。我々は、過剰適合と過少適合の両方を同時に減らすことができる、単純で効果的な予測差正則化(PD-R)を導入します。すべてのトークンレベルのサンプルに対して、PD-Rは、元のパスと入力摂動されたパスの予測差を最小化し、モデルを小さな入力変更に対してより感度が低く、摂動と過少適合のトレーニングデータの両方に対してより堅牢にします。WMT翻訳タスクの3つの広く使用されているタスクでの実験結果は、当社のアプローチが既存の摂動正則化手法よりも大幅に改善できることを示しています。WMT16 En-Deタスクでは、当社のモデルはバニラトランスフォーマーに比べて1.80 SacreBLEUの改善を達成しています。
https://aclanthology.org/2022.acl-long.528/
Make the Best of Cross-lingual Transfer: Evidence from POS Tagging with over 100 Languages
大規模な多言語事前学習モデルを用いたクロスリンガル転移学習は、ラベル付きトレーニングデータのない低リソース言語に対して有効なアプローチである。既存の大規模事前学習モデルのゼロショットクロスリンガル汎化性能の評価は、英語のトレーニングデータを使用し、選択されたターゲット言語のテストデータを使用している。本研究では、品詞タグ付けのために65の異なるソース言語と105のターゲット言語を使用したより広範な転移学習セットアップを探究する。分析により、ソース言語とターゲット言語の両方の事前学習、言語ファミリー、書記システム、語順システム、および語彙音韻的距離の一致がクロスリンガルパフォーマンスに重要な影響を与えることを示す。本論文で説明されている知見は、ゼロリソースおよび低リソース言語への効果的なゼロショットクロスリンガル転移のために重要な要因を示す指標として使用できる。
https://aclanthology.org/2022.acl-long.529/
Should a Chatbot be Sarcastic? Understanding User Preferences Towards Sarcasm Generation
自然言語処理に関する論文の要約文を日本語に翻訳してください。 従来の皮肉生成研究は、より人間らしい相互作用を作成するために、人々が皮肉として認識するテキストを生成する方法に焦点を当ててきました。本論文では、人間は多くの入力発話に対して皮肉な応答を不適切と考えるため、まず皮肉を生成すべきタイミングに注目すべきだと主張します。次に、理論駆動型の枠組みを使用して皮肉な応答を生成し、生成中に含まれる言語デバイスを制御することができます。各デバイスについて、人間がどの程度それを皮肉と関連付けているかを調査し、実用的な不誠実さと感情的なマーカーが皮肉を認識するために重要なデバイスであることがわかりました。
https://aclanthology.org/2022.acl-long.530/
How Do Seq2Seq Models Perform on End-to-End Data-to-Text Generation?
深層学習の急速な発展に伴い、Seq2Seqパラダイムはエンドツーエンドのデータからテキスト生成において普及し、BLEUスコアは近年増加しています。しかし、モデルによって生成されたテキストの品質と人間が書いたテキストの品質の間にはまだギャップがあることが広く認識されています。Seq2Seqモデルの能力をよりよく理解し、そのパフォーマンスを評価し、結果を分析するために、我々は多次元品質メトリック(MQM)を使用して、エンドツーエンドのデータからテキスト生成においていくつかの代表的なSeq2Seqモデルを評価することを選択しました。我々は、5つのモデルの出力を4つのデータセットで8つのエラータイプで注釈し、以下のことを発見しました。1)コピー機構は、省略と不正確な外的エラーの改善に役立ちますが、追加などの他のタイプのエラーを増加させます。2)事前トレーニング技術は非常に効果的であり、事前トレーニング戦略とモデルサイズは非常に重要です。3)データセットの構造もモデルのパフォーマンスに大きく影響します。4)特定のタイプのエラーは、一般的にSeq2Seqモデルにとって課題となります。
https://aclanthology.org/2022.acl-long.531/
Probing for Labeled Dependency Trees
プロービングは、自然言語処理(NLP)における表現の分析において重要なツールとなっています。依存解析などのグラフィカルNLPタスクにおいて、線形プローブは現在、直接的またはラベルのない構文木の抽出に限定されており、完全なタスクを捉えることができません。本研究では、より少ないパラメータと計算を使用しながら、埋め込みからラベル付きおよび方向付きの依存構文木を抽出できる線形プローブであるDepProbeを紹介します。完全なタスクカバレッジと軽量なパラメータ化を活用して、フルバイアフィンアテンションパーサーのトレーニングに最適な転移言語を選択するための予測力を調査します。13の言語にわたって、提案手法は競合するベースラインや先行研究を上回り、94%の確率で最適なソースツリーバンクを特定します。最後に、コンテキスト埋め込みのタスク固有のサブスペースの情報量と、フルパーサーの非線形パラメータ化が提供する利点を分析します。
https://aclanthology.org/2022.acl-long.532/
DoCoGen: Domain Counterfactual Generation for Low Resource Domain Adaptation
自然言語処理(NLP)アルゴリズムは非常に成功していますが、分布外の例に適用するとまだ苦労しています。本論文では、このドメイン適応(DA)の課題に対処するために、制御可能な生成アプローチを提案します。入力テキスト例が与えられた場合、DoCoGenアルゴリズムはドメイン-反事実的なテキスト例(D-con)を生成します。これは、タスクラベルを含めすべての側面が元のものと似ていますが、ドメインが望ましいものに変更されています。重要なことに、DoCoGenは、NLPタスクラベルやテキスト例とそのドメイン-反事実的な対応ペアは必要とせず、複数のドメインからのラベルのない例のみを使用してトレーニングされます。DoCoGenは、複数の文から構成される一貫した反事実的なものを生成できることを示します。DoCoGenによって生成されたD-conを使用して、ソースドメインのラベル付きデータが不足している20および78のDAセットアップで感情分類器とマルチラベル意図分類器を拡張します。当社のモデルは、強力なベースラインを上回り、最先端の非監視型DAアルゴリズムの精度を向上させます。
https://aclanthology.org/2022.acl-long.533/
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding
構造化文書理解は、知的文書処理における重要な役割を果たすため、最近注目を集め、重要な進展を遂げています。しかし、既存の関連モデルのほとんどは、事前学習コレクションに含まれる特定の言語(通常は英語)の文書データのみを扱うことができ、非常に限られています。この問題に対処するために、我々は構造化文書理解のための言語非依存レイアウトトランスフォーマー(LiLT)を提案します。LiLTは、単一言語の構造化文書で事前学習され、対応するオフシェルフの単一言語/多言語事前学習テキストモデルで直接ファインチューニングされることができます。8つの言語での実験結果は、LiLTが多様な広く使用されているダウンストリームベンチマークで競争力のある、あるいは優れたパフォーマンスを発揮できることを示しており、文書レイアウト構造の事前学習から言語非依存の利益を得ることができます。コードとモデルはhttps://github.com/jpWang/LiLTで公開されています。
https://aclanthology.org/2022.acl-long.534/
Dependency-based Mixture Language Models
構文構造の知識をニューラル言語モデルに組み込むための様々なモデルが提案されてきた。しかし、これまでの研究では、特定の言語モデル(通常は再帰型ニューラルネットワーク(RNN))に対して緻密なコンポーネントに大きく依存しており、他のニューラル言語モデル(TransformerやGPT-2など)に適用することが実際には困難であった。本論文では、依存ベースの混合言語モデルを紹介する。具体的には、まず、未来の依存トークンの確率分布をコンテキストから学習するための新しい依存モデリング目的でニューラル言語モデルをトレーニングする。次に、前の依存モデリング確率分布を自己注意と混合して、次のトークンの確率を定式化する。広範な実験と人間の評価により、本手法は異なるニューラル言語モデルに簡単かつ効果的に適用でき、様々なタスクでニューラルテキスト生成を改善することが示された。
https://aclanthology.org/2022.acl-long.535/
Can Unsupervised Knowledge Transfer from Social Discussions Help Argument Mining?
論点マイニングの主要な2つのステップは、非構造化テキストから論点の構成要素を特定し、それらの間に表現される関係を予測することです。これらのタスクの固有の複雑さは、強力な学習モデルを必要とします。事前学習されたTransformerベースの言語モデル(LM)は、さまざまなNLPタスクで最先端の結果を提供することが示されていますが、手動で注釈付けされたデータの不足と論争の高度にドメイン依存性のため、そのようなモデルの能力は制限されています。本研究では、このような課題を克服するための新しい転移学習戦略を提案します。私たちは、ChangeMyView subredditからの論争豊富な社会的議論を、選択的にマスクされた言語モデリングタスクで事前学習されたLMを微調整することにより、教師なしの論争に関する知識源として利用します。さらに、私たちは、提示ベースの戦略を導入し、ディスコースコンテキストを活用しながら、構成要素間の関係予測を補完することができます。徹底的な実験により、提案された微調整方法と戦略の両方によるこれら2つのタスクの汎化能力が、ドメイン内およびドメイン外のデータセットで、いくつかの既存の強力なベースラインを上回ることが示されました。
https://aclanthology.org/2022.acl-long.536/
Entity-based Neural Local Coherence Modeling
本論文では、従来のニューラル連続性モデルよりも言語学的に優れたエンティティベースのニューラルローカル連続性モデルを提案する。最近のニューラル連続性モデルは、大規模な事前学習言語モデルを使用して入力文書をエンコードする。したがって、彼らのローカル連続性を計算する基盤は単語やサブワードである。彼らの出力の分析から、これらのモデルは、言語学的には役割を果たすべきでない(サブ)単語間の接続に基づいて頻繁に連続性を計算することがわかった。それでも、これらのモデルはいくつかのエンドアプリケーションで最先端のパフォーマンスを達成している。これらのモデルとは対照的に、私たちは名詞句と固有名詞に制限して入力を制限することで、エンティティに基づいて連続性を計算する。これにより、文の中で最も重要なアイテムの明示的な表現が得られ、焦点の概念が生まれる。これにより、私たちのモデルは、連続性を計算するためのニューラル以前のモデルと言語学的に一致する。また、モデルの振る舞いについてより良い説明が得られるため、より良い説明性を提供する。私たちのアプローチは、トランスフォーマーベースの言語モデルにおいて、名詞と動詞が最も有用な情報を捕捉することを示した最近の研究(O'Connor and Andreas、2021)とも一致する。私たちは、エンドアプリケーションにおいて、私たちのモデルが従来のモデルよりも言語学的に優れているだけでなく、それらを上回るパフォーマンスを発揮することを示す3つのダウンストリームタスクで評価する。
https://aclanthology.org/2022.acl-long.537/
“That Is a Suspicious Reaction!”: Interpreting Logits Variation to Detect NLP Adversarial Attacks
敵対的攻撃は、現在の機械学習研究が直面する主要な課題です。これらの目的を持って作られた入力は、最も高度なモデルでも騙すため、安全に関わるアプリケーションの展開を妨げます。コンピュータビジョンにおいては、信頼性の高い防御戦略を開発するための広範な研究が行われています。しかし、自然言語処理においては、同じ問題があまり探求されていません。本研究では、モデルに依存しない敵対的なテキスト例の検出器を提供します。この手法は、入力テキストを摂動させたときに、ターゲット分類器のロジットにパターンを識別します。提案された検出器は、敵対的な入力を認識する現在の最先端の性能を向上させ、異なるNLPモデル、データセット、および単語レベルの攻撃に対して強力な汎化能力を示します。
https://aclanthology.org/2022.acl-long.538/
Local Languages, Third Spaces, and other High-Resource Scenarios
自然言語処理に関する論文の要約の以下の文章を日本語に翻訳してください。 世界の言語の多様な状況に対して、言語技術はどのように対応できるのでしょうか?一つの見方では、言語はリソースの連続体上に存在し、課題は既存の解決策をスケールアップし、リソースが不足している言語を高リソースの世界に取り込むことです。別の見方では、標準化された言語、地方言語、接触言語を含む世界の言語生態系が存在すると考えられます。これらはしばしば「リソースが不足している言語」というラベルの下に包括されますが、それぞれ異なる機能と展望を持っています。私はこの立場を探究し、生態学的に意識した言語技術のアジェンダを提案します。
https://aclanthology.org/2022.acl-long.539/
That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation with Switch-memory
言語の進化は、徐々な変化のルールに従います。文法、語彙、および語彙意味の変化が時間の経過とともに起こり、歴史的な言語的ギャップが生じます。そのため、異なる時代の言語で書かれたかなりの量のテキストがあり、単語分割や機械翻訳などの自然言語処理タスクに障害を引き起こします。中国語は長い歴史を持っていますが、以前の中国語自然言語処理研究は主に特定の時代のタスクに焦点を当てていました。したがって、私たちは中国語の単語分割(CWS)のための時代を超えた学習フレームワーク、CROSSWISEを提案します。これは、Switch-memory(SM)モジュールを使用して時代特有の言語知識を組み込みます。異なる時代の4つのコーパスでの実験では、各コーパスのパフォーマンスが大幅に向上することが示されました。さらに、SMが時代の知識をニューラルネットワークに効果的に統合できることも示されました。
https://aclanthology.org/2022.acl-long.540/
Fair and Argumentative Language Modeling for Computational Argumentation
自然言語処理において、セマンティック空間におけるステレオタイプ的なバイアスの測定と軽減に焦点を当てた研究が多く行われてきたが、計算論理学におけるバイアスに対する研究はまだ初期段階にある。本論文では、この研究の空白を埋め、論証言語モデルにおけるバイアスについて徹底的な調査を行う。このために、論証に特化したバイアス測定のための新しいリソースであるABBAを紹介する。我々は、軽量なアダプタベースのアプローチを用いて、トランスフォーマーベースの言語モデルにおける論証の微調整とバイアス除去の効果を評価するために、このリソースを使用する。最後に、計算論理学の下流タスクである論証品質予測の性能に対する言語モデルのバイアス除去の潜在的な影響を分析する。我々の結果は、一般的な言語モデルと論証言語モデルのバイアスを成功裏に持続的に除去することができ、下流タスクにおけるモデルの性能を維持(そして時には改善)することができることを示している。我々は、すべての実験コードとデータをhttps://github.com/umanlp/FairArgumentativeLMで公開している。
https://aclanthology.org/2022.acl-long.541/
Learning Adaptive Segmentation Policy for End-to-End Simultaneous Translation
エンドツーエンド同時音声テキスト翻訳は、高品質で低レイテンシーの翻訳を実現するために、ストリーミングソース音声から直接ターゲットテキストへの翻訳を行うことを目的としています。典型的な同時翻訳(ST)システムは、音声翻訳モデルとポリシーモジュールから構成されており、いつ待機し、いつ翻訳するかを決定するポリシーが重要です。したがって、ポリシーは翻訳品質とレイテンシーのバランスを取るために重要です。従来の方法では、ソース音声を固定長でセグメンテーションし、翻訳を生成するなど、固定ポリシーを採用することが一般的でした。しかし、この方法は文脈情報を無視し、翻訳品質が低いという問題があります。本論文では、エンドツーエンドSTのための適応型セグメンテーションポリシーを提案しています。人間の通訳者から着想を得て、ポリシーは音響特徴と翻訳履歴の両方を考慮して、ソースストリーミング音声を意味のある単位に分割することを学習し、セグメンテーションと翻訳の一貫性を維持します。英独と中英の実験結果から、提案手法は最近提案された最先端の手法に比べて、良好な精度とレイテンシーのトレードオフを実現しています。
https://aclanthology.org/2022.acl-long.542/
Can Pre-trained Language Models Interpret Similes as Smart as Human?
類比解釈は自然言語処理において重要なタスクである。現在、事前学習言語モデル(PLMs)は多くのタスクで最先端の性能を発揮している。しかし、PLMsが類比を解釈できるかどうかはまだ十分に探究されていない。本論文では、PLMsの類比解釈能力を調査するために、新しいタスク「Simile Property Probing」を設計し、つまり、PLMsに類比の共通の特性を推論させることを目的とする。我々は、一般的なテキストコーパスと人間が設計した質問から、7つの主要なカテゴリをカバーする1,633の例を含む類比プロパティプロービングデータセットを構築する。構築されたデータセットに基づく実証研究により、PLMsは類比の共通の特性を推論できることが示されたが、まだ人間の性能には及ばない。人間の性能との差を埋めるために、我々は知識埋め込み法を用いて類比知識をPLMsに組み込むことで、知識強化トレーニング目的を追加的に設計した。この方法により、プロービングタスクで8.58%、感情分類の下流タスクで1.37%の利益が得られた。データセットとコードはhttps://github.com/Abbey4799/PLMs-Interpret-Simileで公開されている。
https://aclanthology.org/2022.acl-long.543/
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
人工知能(AI)は、最近のバイオメディカル言語理解の進歩とともに、医療現場において大きな可能性を持っています。バイオメディカル言語理解のベンチマークの開発により、AIアプリケーションは医療分野で広く使用されています。しかし、ほとんどのベンチマークは英語に限定されているため、他の言語で英語の成功を複製することは困難です。この方向性の研究を促進するために、我々は実世界のバイオメディカルデータを収集し、中国初のバイオメディカル言語理解評価(CBLUE)ベンチマークを提供します。このベンチマークには、固有表現認識、情報抽出、臨床診断の正規化、単文/文ペア分類などの自然言語理解タスクが含まれ、モデルの評価、比較、分析のための関連オンラインプラットフォームも提供されます。これらのタスクの評価を確立するために、現在の11つの事前学習済み中国語モデルについて実証結果を報告し、実験結果は、最先端のニューラルモデルが人間の限界よりもはるかに劣っていることを示しています。
https://aclanthology.org/2022.acl-long.544/
Learning Non-Autoregressive Models from Search for Unsupervised Sentence Summarization
テキスト要約は、入力テキストの短い要約を生成することを目的としています。本研究では、並列データを必要としない非自己回帰無監督要約(NAUS)アプローチを提案します。NAUSは、まずヒューリスティックに定義されたスコアに向けて編集ベースの検索を実行し、疑似グラウンドトゥルースとして要約を生成します。その後、検索結果に基づいてエンコーダーのみの非自己回帰トランスフォーマーをトレーニングします。また、要約タスクに重要な長さ制御デコーディングのための動的プログラミングアプローチを提案します。2つのデータセットでの実験結果から、NAUSは無監督要約において最先端の性能を発揮し、推論効率を大幅に向上させています。さらに、アルゴリズムは明示的な長さ転送要約生成を実行することができます。
https://aclanthology.org/2022.acl-long.545/
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation
教師ありニューラル機械翻訳(NMT)における主要なタスクは、一連の並列文ペアからソース入力に基づいてターゲット文を生成することを学習し、未知のインスタンスに汎化できるモデルを生成することです。しかし、モデルの汎化性能は、トレーニングに使用される並列データの量に強く影響を受けることが一般的に観察されています。トレーニングデータを豊富にするためにデータ拡張が広く使用されていますが、従来の離散的な操作を用いた方法では、多様で忠実なトレーニングサンプルを生成することができません。本論文では、連続的な意味的拡張(CsaNMT)と呼ばれる新しいデータ拡張パラダイムを提案し、各トレーニングインスタンスに隣接する意味的領域を拡張することで、同じ意味の下で適切なリテラル表現のバリアントをカバーします。WMT14英語→{ドイツ語、フランス語}、NIST中国語→英語、および複数の低リソースIWSLT翻訳タスクを含む、さまざまな言語ペアで豊富なリソースと低リソースの両方の設定で広範な実験を行いました。提供された実証は、CsaNMTが既存の拡張技術の中で新しいパフォーマンスレベルを設定し、最新技術を大幅に改善することを示しています。コアコードは付録Eに含まれています。
https://aclanthology.org/2022.acl-long.546/
Lexical Knowledge Internalization for Neural Dialog Generation
私たちは、自然言語処理に関する論文の要約文を以下に示します。以下の文を日本語に翻訳してください。 私たちは、知識内部化(KI)を提案し、ニューラル対話モデルに語彙知識を補完することを目的としています。外部から取得した知識に基づく対話(KGD)モデルをさらに条件付けする代わりに、各入力トークンに関する知識をモデルのパラメータに内部的に統合することを目指しています。語彙知識の大規模性による課題に対処するために、対照学習アプローチを採用し、Wikipediaから採掘された弱い監視だけで動作する効果的なトークンレベルの語彙知識リトリーバーを作成します。私たちは、さまざまなデータセットと多様なモデル構造で私たちのアプローチの有効性と一般的な適用性を示します。
https://aclanthology.org/2022.acl-long.547/
Modeling Syntactic-Semantic Dependency Correlations in Semantic Role Labeling Using Mixture Models
本論文では、シンタックス・セマンティック依存関係の相関をモデル化するために、混合モデルベースのエンドツーエンド手法を提案する。Semantic Role Labeling(SRL)における意味的依存関係は、述語と引数単語に依存する意味的依存関係ラベルの分布としてモデル化される。意味的ラベル分布は、最短シンタックス依存パス(SSDP)ホップパターンに応じて異なる。我々は、混合モデルを用いて意味的ラベル分布の変動をターゲットにし、異なるホップパターンに対して意味的ラベル分布を別々に推定し、類似した意味的ラベル分布を持つホップパターンを確率的にクラスタリングする。実験結果は、提案手法が意味的ラベル分布の変動を反映したクラスタ割り当てを成功裏に学習することを示している。変動をモデル化することで、従来の構文に基づく手法が達成した長距離意味的依存関係の改善に加えて、短距離意味的依存関係の予測性能も向上する。提案手法は、英語、ドイツ語、スペイン語でベースライン手法よりもわずかに統計的に有意な改善を達成し、英語では最先端の手法と競合する性能を発揮する。
https://aclanthology.org/2022.acl-long.548/
Learning the Beauty in Songs: Neural Singing Voice Beautifier
私たちは、新しいタスクである歌声美化(SVB)に興味を持っています。アマチュア歌手の歌声が与えられた場合、SVBは、内容と声質を維持しながら、音程と声のトーンを改善することを目的としています。現在の自動ピッチ補正技術は未熟であり、ほとんどのものが音程に制限され、全体的な美的品質を無視しています。したがって、私たちは、SVBタスクを解決する最初の生成モデルであるニューラル歌声美化器(NSVB)を導入します。NSVBは、条件付き変分オートエンコーダをバックボーンとして採用し、声のトーンの潜在表現を学習します。NSVBでは、ピッチ補正のための新しいタイムワーピングアプローチであるShape-Aware Dynamic Time Warping(SADTW)を提案し、アマチュア録音をテンプレートピッチ曲線に同期させるために既存のタイムワーピングアプローチの堅牢性を改善します。さらに、アマチュアの声のトーンをプロのものに変換するための潜在マッピングアルゴリズムを提案します。これを実現するために、アマチュア版とプロ版の両方の平行な歌唱録音を含む新しいデータセットも提案します。中国語と英語の両方の曲についての広範な実験により、客観的および主観的指標の両方において、私たちの手法の有効性が示されました。オーディオサンプルはhttps://neuralsvb.github.ioで入手できます。コード:https://github.com/MoonInTheRiver/NeuralSVB。
https://aclanthology.org/2022.acl-long.549/
A Model-agnostic Data Manipulation Method for Persona-based Dialogue Generation
知的な対話エージェントを構築するために、生成モデルに明示的なペルソナを導入することに関心が高まっています。しかし、限られたペルソナベースの対話データしか手元にないため、対話生成モデルを十分に訓練することは困難かもしれません。この生成タスクのデータ上の課題は、2つの側面にあることを指摘します。第一に、現在のペルソナベースの対話データセットを拡大するのはコストがかかります。第二に、このタスクの各データサンプルは、従来の対話データよりも複雑で学習が難しいです。上記のデータ問題を緩和するために、我々はデータ操作方法を提案します。この方法は、どのペルソナベースの対話生成モデルにもパックできるモデルに依存しないもので、パフォーマンスを向上させることができます。最初に、元のトレーニングサンプルを蒸留し、より簡単に適合することが期待されます。次に、このような簡単に蒸留されたデータを多様化するためのさまざまな効果的な方法を示します。与えられたベースモデルは、構築されたデータカリキュラムに従ってトレーニングされます。つまり、まず拡張された蒸留サンプルで、次に元のサンプルでトレーニングされます。実験は、2つの強力なベース対話モデル(TransformerエンコーダーデコーダーとGPT2)で我々の方法の優越性を示しています。
https://aclanthology.org/2022.acl-long.550/
LinkBERT: Pretraining Language Models with Document Links
言語モデル(LM)の事前学習は、テキストコーパスから様々な知識を抽出し、下流タスクを支援する。しかし、BERTなどの既存の方法は単一の文書をモデル化し、文書間の依存関係や知識を捉えることができない。本研究では、文書間のリンク(例えばハイパーリンク)を活用するLM事前学習方法であるLinkBERTを提案する。テキストコーパスを文書のグラフとして捉え、リンクされた文書を同じ文脈に配置してLM入力を作成する。そして、マスクされた言語モデリングと新しい提案である文書関係予測の2つの共同自己教師あり目的でLMを事前学習する。LinkBERTは、一般ドメイン(ハイパーリンクを持つWikipediaで事前学習)とバイオメディカルドメイン(引用リンクを持つPubMedで事前学習)の2つのドメインで、様々な下流タスクでBERTを上回ることを示した。LinkBERTは、マルチホップ推論とフューショットQAに特に効果的であり、HotpotQAとTriviaQAで+5%の絶対改善を達成し、バイオNLPタスクの様々な分野で新しい最高値を記録した(BioASQとUSMLEで+7%)。我々は、事前学習モデルのLinkBERTとBioLinkBERT、コード、データを公開する。
https://aclanthology.org/2022.acl-long.551/
Improving Time Sensitivity for Question Answering over Temporal Knowledge Graphs
時間的知識グラフ上の質問応答は、自然言語の質問(例:「オバマの前のアメリカ合衆国大統領は誰でしたか?」)に答えるために、エンティティ関係とそれらが時間において発生する時期を記録する時間的知識グラフに含まれる事実を効率的に利用します。これらの質問には、以前の研究が十分に対処できなかった3つの時間関連の課題がしばしば含まれます:1)質問はしばしば興味のある正確なタイムスタンプを指定しない(例:「2000年」ではなく「オバマ」);2)時間関係の微妙な語彙的違い(例:「前」vs「後」);3)以前の研究で構築されたオフシェルフの時間的知識グラフ埋め込みは、タイムスタンプの時間的順序を無視するため、時間的順序に関連する質問に答えるためには重要です。本論文では、これらの問題に対処するために、時間に敏感な質問応答(TSQA)フレームワークを提案します。TSQAには、質問から書かれていないタイムスタンプを推定するタイムスタンプ推定モジュールがあります。また、時間に敏感なKGエンコーダを使用して、TSQAが基づく時間的KG埋め込みに順序情報を注入します。潜在的な回答の検索空間を減らす技術の支援を受けて、TSQAは、時間的KG上の質問応答の新しいベンチマークで以前の最先端を大幅に上回り、特に複数のステップの推論が必要な複雑な質問において32%(絶対)のエラー削減を達成します。
https://aclanthology.org/2022.acl-long.552/
Self-supervised Semantic-driven Phoneme Discovery for Zero-resource Speech Recognition
音素は単語との関係によって定義されます。音素を変更すると単語が変わります。少ない監視で音声技術のリソース不足に重要な応用がある音素の在庫を学習することは、長年の課題でした。本論文では、言語学的および統計的な音素の定義のギャップを埋め、生の音声と単語ラベルを用いた自己監督学習のための新しいニューラル離散表現学習モデルを提案します。穏やかな仮定の下、我々のアプローチによって学習された音素在庫が真の音素在庫に指数的に低い誤差率で収束することを証明します。さらに、TIMITおよびMboshiベンチマークの実験では、我々のアプローチが一貫してより良い音素レベルの表現を学習し、従来の最先端の自己監督表現学習アルゴリズムよりもゼロリソース音素認識タスクで低い誤差率を達成します。
https://aclanthology.org/2022.acl-long.553/
Softmax Bottleneck Makes Language Models Unable to Represent Multi-mode Word Distributions
ニューラル言語モデル(LM)は、GPT-2などのモデルは、語彙に対する埋め込みと単一の隠れ状態のドット積に基づいて、ソフトマックス層を使用して次の単語の確率分布を推定します。しかし、我々は、他の干渉する単語の埋め込みがある場合、単一の隠れ状態の埋め込みが同時にすべての可能な次の単語の埋め込みに近づくことができないため、この単一の隠れ状態では、LMのサイズやトレーニングデータのサイズに関係なく、すべての確率分布を生成できないことを発見しました。本研究では、この制限の重要性を理論的にも実践的にも示し、ソフトマックスのボトルネックとソフトマックスの混合(MoS)の制限を深めるだけでなく、MoSの制限に対処するためにマルチファセットソフトマックス(MFS)を提案することを示唆しています。広範な実証分析により、提案されたMFSは、GPT-2とBERTのPerplexityにおいてMoSに対して2倍の改善を実現することが示されています。
https://aclanthology.org/2022.acl-long.554/
Ditch the Gold Standard: Re-evaluating Conversational Question Answering
会話型質問応答は、情報検索の会話において自然言語でユーザーに回答を提供することを目的としています。既存の会話型QAベンチマークは、人間-人間の会話を事前に収集し、会話履歴で提供される正解を使用してモデルを比較します。この静的評価をモデル開発に頼ることができるか、また現在のシステムが現実世界の人間-機械の会話にうまく一般化できるかどうかは不明です。本研究では、最新の会話型QAシステムの初の大規模な人間評価を実施し、人間の評価者がモデルと会話し、回答の正確さを判断します。人間とゴールド履歴の評価において、人間-機械の会話の分布が人間-人間の会話と大きく異なり、モデルのランキングに関して意見が分かれていることがわかりました。さらに、自動評価を改善する方法を調査し、予測された履歴に基づく質問書き換えメカニズムを提案し、人間の判断とよりよく相関することを示しました。最後に、さまざまなモデリング戦略の影響を分析し、より良い会話型質問応答システムの構築に向けた将来の方向性について議論します。
https://aclanthology.org/2022.acl-long.555/
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity
ごくわずかなトレーニングサンプルのみでプライムされたGPT-3などの非常に大きな事前学習言語モデルは、完全に監視された、ファインチューニングされた、大規模な事前学習言語モデルと比較して競争力のある結果を示しています。私たちは、提供されるサンプルの順序が、ほぼ最新の状態とランダムな推測のパフォーマンスの違いを生むことを示します。つまり、いくつかの順列は「素晴らしい」ものであり、いくつかはそうではありません。私たちは、この現象を詳しく分析し、次のことを確立しました。それはモデルサイズ全体に存在し(現在の最大のモデルでも)、特定のサンプルのサブセットに関連していないこと、そして1つのモデルにとって良い順列が別のモデルに移植できないことです。開発セットを使用してパフォーマンスの良い順列を決定することができますが、これは追加の注釈付きデータが必要であり、真のフューショット設定から逸脱します。代わりに、言語モデルの生成的性質を利用して人工的な開発セットを構築し、このセット上の候補の順列のエントロピー統計に基づいて、パフォーマンスの良いプロンプトを特定します。私たちの方法は、11種類の確立されたテキスト分類タスク全体でGPTファミリーモデルに対して13%の相対的な改善をもたらします。
https://aclanthology.org/2022.acl-long.556/
Situated Dialogue Learning through Procedural Environment Generation
私たちは生成されたカリキュラムでトレーニングすることにより、目的志向エージェントが状況に即して相互作用し、話すことを教えます。私たちのエージェントは、LIGHT(Urbanek et al. 2019)で動作します。これは、テキスト自然言語を介して世界を知覚し、相互作用する大規模なクラウドソーシングファンタジーテキストアドベンチャーゲームです。この環境での目標は、人物と動機から成るキャラクターベースのクエストの形を取ります。私たちは、LIGHTを拡張し、追加の新しいテキストワールドとクエストを手続き的に生成することで、エージェントがそのような目標を達成するための徐々に難易度が上がるカリキュラムを作成します。特に、私たちは、カリキュラムの難易度を、元のトレーニング分布のクエストの希少性で測定します。より簡単な環境は、拡張されていないデータセットでより頻繁に見つかる可能性があるためです。削除研究により、分布のテールから学習するこの方法は、前例のないクエストに対するゼロショットパフォーマンスによって測定される汎化能力が大幅に向上することが示されています。
https://aclanthology.org/2022.acl-long.557/
UniTE: Unified Translation Evaluation
自然言語処理に関する論文の要約を以下に示す。以下の文章を日本語に翻訳せよ。 機械翻訳において、翻訳品質の評価は重要な役割を果たす。入力形式に応じて、主に参照のみ、ソースのみ、ソースと参照の組み合わせの3つのタスクに分けられる。最近の手法は、有望な結果にもかかわらず、それらのうちの1つに特化して設計および最適化されている。これにより、これらの手法の利便性が制限され、タスク間の共通点が見落とされている。本論文では、これらの3つの評価タスクをすべて処理できる最初の統一フレームワークを提案する。具体的には、入力セグメント間の相互作用を制御するための単調な地域的な注意と、マルチタスクトレーニングに適応するための統一された事前学習を提案する。WMT 2019 MetricsおよびWMT 2020 Quality Estimationベンチマークでフレームワークを検証する。詳細な分析により、単一モデルがタスク全体でさまざまな最先端または優勝手法を普遍的に上回ることが示された。ソースコードと関連するモデルは、https://github.com/NLP2CT/UniTEで入手可能である。
https://aclanthology.org/2022.acl-long.558/
Program Transfer for Answering Complex Questions over Knowledge Bases
知識ベース(KB)上で複雑な質問に答えるためのプログラム誘導は、質問をマルチステッププログラムに分解し、KBに対する実行によって最終的な答えを生成することを目的としています。プログラム誘導の学習は、与えられたKBの大量の並列質問-プログラムペアに依存します。しかし、ほとんどのKBにおいて、金のプログラム注釈は通常欠落しており、学習が困難になっています。本論文では、プログラム転送アプローチを提案し、豊富なリソースを持つKB上の貴重なプログラム注釈を外部の監視信号として活用し、プログラム注釈が欠落している低リソースKBのプログラム誘導を支援することを目的としています。プログラム転送には、効率的なオントロジーによる剪定戦略を備えた新しい2段階の解析フレームワークを設計しています。最初に、スケッチ解析器が質問を高レベルのプログラムスケッチに変換し、関数の合成になります。次に、質問とスケッチが与えられた場合、引数解析器が関数の詳細な引数をKBから検索します。検索中に、KBオントロジーを組み込んで検索空間を剪定します。ComplexWebQuestionsとWebQuestionSPの実験結果は、プログラム転送とフレームワークの有効性を示し、SOTA方法を大幅に上回ることを示しています。私たちのコードとデータセットは、https://github.com/THU-KEG/ProgramTransferから入手できます。
https://aclanthology.org/2022.acl-long.559/
EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation
完全な多言語ニューラル機械翻訳(C-MNMT)は、異なる言語ペアのバイリンガルトレーニング例を多方向に整列させることにより、従来のMNMTに比べて優れた性能を発揮します。ただし、異なる言語ペアから完全に同一の文が得られることはまれであるため、多方向に整列されたコーパスのパワーはそのスケールに制限されます。この問題を解決するため、本論文では「抽出と生成」(EAG)という2段階のアプローチを提案し、バイリンガルデータから大規模で高品質な多方向に整列されたコーパスを構築します。具体的には、まず、高度に類似したソースまたはターゲット文と異なる言語ペアのバイリンガル例をペアリングして候補の整列例を抽出し、その後、よく訓練された生成モデルで候補から最終的な整列例を生成します。この2段階のパイプラインにより、EAGは、多様性が元のバイリンガルコーパスとほぼ同じである大規模で多方向に整列されたコーパスを構築できます。WMT-5およびOPUS-100という2つの公開データセットでの実験結果は、提案手法が強力なベースラインに比べて有意な改善を達成し、それぞれ2つのデータセットで+1.1および+1.4 BLEUポイントの改善が見られました。
https://aclanthology.org/2022.acl-long.560/
Using Context-to-Vector with Graph Retrofitting to Improve Word Embeddings
大規模な事前学習モデルから生成された文脈埋め込みは多くのタスクで良い性能を発揮するが、低リソースや軽量な環境では、低い計算コスト、展開の容易さ、安定性のために従来の静的埋め込み(例:Skip-gram、Word2Vec)が重要な役割を果たしている。本論文では、1)既存の事前学習モデルからより多くの文脈情報をSkip-gramフレームワークに組み込むことで単語埋め込みを改善する「Context-to-Vec」を提案し、2)事前の同義語知識と重み付けベクトル分布を用いた静的埋め込みの事後処理リトロフィット法を提案する。外的および内的タスクにより、我々の手法は大幅にベースラインを上回ることが証明されている。
https://aclanthology.org/2022.acl-long.561/
Multimodal Sarcasm Target Identification in Tweets
社交メディアにおける感情分析において、皮肉は重要である。皮肉の深い理解を得るために、皮肉の対象特定(STI)についてのさらなる研究が必要である。しかし、文脈が欠落したり、皮肉の対象が欠落しているテキストは、対象特定を非常に困難にする。本論文では、STIに多様性を導入し、多様性皮肉の対象特定(MSTI)タスクを提案する。我々は、テキストの対象ラベリングと視覚的対象検出を同時に行うことができる新しいマルチスケールクロスモダリティモデルを提案する。モデルでは、異なるサイズの視覚的皮肉の対象のために空間情報を豊富にするために、マルチスケールの視覚的特徴を抽出する。我々は、クロスモーダルな注意学習のために、マルチスケールの視覚的特徴をテキスト特徴と統合する一連の畳み込みネットワークを設計し、それに対応して、マルチスケールの視覚的情報を復元する一連の転置畳み込みネットワークを設計する。結果は、視覚的手がかりがTSTIの性能を大幅に向上させることができ、VSTIは良好な精度を達成していることを示している。
https://aclanthology.org/2022.acl-long.562/
Flexible Generation from Fragmentary Linguistic Input
現代の自然言語処理タスクにおいて、高性能モデルの主流は、スクラッチからのトレーニングまたは大規模な事前学習モデルのファインチューニングによる直接のタスク専用モデルです。しかし、直接の専門化は、人間が新しい言語タスクに取り組む方法を捉えているのでしょうか?私たちは、人間のパフォーマンスは、人間の言語ユーザーが利用できる基本的な計算モチーフの柔軟な推論によってよりよく特徴付けられると仮説を立てています。この仮説を検証するために、私たちは新しい断片的なテキスト補完タスクのセットを定式化し、3つの直接専門化モデルの振る舞いを、私たちが紹介する新しいモデルであるGibbsCompleteと比較します。GibbsCompleteは、現代のモデルに中心的な2つの基本的な計算モチーフ、マスクされた単語予測と自己回帰的単語予測を組み合わせます。私たちは、3つの評価を行います。補完品質の人間の判断、入力フラグメントに課せられた構文制約の満足度、および補完の構造統計における人間の行動との類似性。タスク固有のパラメータの調整を行わずに、GibbsCompleteは、最初の2つの評価において直接専門化モデルと同等のパフォーマンスを発揮し、第3の評価においては、すべての直接専門化モデルを上回ります。これらの結果は、人間の新しい言語タスクや環境における行動は、直接専門化ではなく、基本的な計算モチーフの柔軟な組み合わせによってよりよく特徴付けられる可能性があることを支持しています。
https://aclanthology.org/2022.acl-long.563/
Revisiting Over-Smoothness in Text to Speech
非自己回帰テキスト音声合成(NAR-TTS)モデルは、高速な生成速度により、学術界と産業界の両方から注目を集めています。NAR-TTSモデルの制限の1つは、音声メルスペクトログラムを生成する際に時間と周波数領域の相関を無視するため、ぼやけた結果を引き起こすことです。本研究では、この過度の平滑化問題を新しい観点から再検討します。平滑化の度合いは、データ分布の複雑さとモデリング手法の能力のギャップによって決定されるため、データ分布の簡素化とモデリング手法の改善の両方が問題を緩和できます。したがって、まず、データ分布の複雑さを減らす方法を研究します。次に、いくつかの高度なモデリング手法を使用するNAR-TTSモデルについて包括的な研究を行います。これらの研究に基づいて、以下のことがわかりました。1)追加の条件入力を提供する方法は、データ分布の複雑さをモデル化するために簡素化するため、過度の平滑化問題を緩和し、より良い音声品質を実現できます。2)高度なモデリング手法の中で、ラプラシアン混合損失は多峰性分布をモデル化するのに適しており、その単純さを楽しんでいます。一方、GANとGlowはトレーニングまたはモデルの複雑さの増加に苦しんでいるにもかかわらず、最高の音声品質を実現しています。3)2つの方法のカテゴリを組み合わせることで、過度の平滑化をさらに緩和し、音声品質を改善できます。4)マルチスピーカーデータセットでの実験は、上記と同様の結論を導き、より多様性のある情報を提供することで、ターゲットデータ分布のモデリングの難しさを減らし、モデル容量の要件を緩和できます。
https://aclanthology.org/2022.acl-long.564/
Coherence boosting: When your pretrained language model is not paying enough attention
長距離の意味的一貫性は、自動言語生成と理解において依然として課題である。我々は、大規模言語モデルが遠い単語が次のトークン予測に与える影響を不十分に学習していることを示す。我々は、長い文脈に焦点を当てるLMの推論手順である「一貫性ブースティング」を提案する。我々は、事前学習済みモデルによる一般的なテキストと対話応答の分布分析による一貫性ブースティングの利点を示す。また、ゼロショットNLPタスクの最先端モデルに対する一貫性ブースティングは、追加のトレーニングなしで性能向上をもたらすことがわかった。
https://aclanthology.org/2022.acl-long.565/
Uncertainty Estimation of Transformer Predictions for Misclassification Detection
モデルの予測の不確実性推定(UE)は、アクティブラーニング、誤分類検出、敵対的攻撃検出、分布外検出など、さまざまなタスクにおいて重要なステップです。深層ニューラルネットワークの不確実性をモデリングする作業のほとんどは、画像分類タスクで評価されています。自然言語処理におけるUEにはあまり注目されていません。このギャップを埋めるために、私たちは、Transformerモデルに対する最新のUE手法の広範な実証的調査を行い、固有表現認識とテキスト分類タスクにおける誤分類検出において、2つの計算効率の高い修正を提案し、そのうちの1つは計算負荷の高い手法に匹敵またはそれを上回る性能を発揮します。
https://aclanthology.org/2022.acl-long.566/
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
私たちは、自然言語処理に関する論文の要約文を以下に示します。日本語に翻訳してください。 私たちは、一般的な事前学習済みのビジョンと言語(V&L)モデルの視覚言語接続能力を特定の言語現象に対してテストするために設計された新しいベンチマークであるVALSE(Vision And Language Structured Evaluation)を提案します。VALSEは、さまざまな言語構造をカバーする6つのテストスイートを提供します。これらを解決するには、モデルが視覚的モダリティで言語現象を接続する必要があり、これまでに比べてより詳細な評価が可能になります。私たちは、有効なフォイルの構築をサポートする方法を使用してVALSEを構築し、5つの広く使用されているV&Lモデルの評価結果を報告します。私たちの実験は、現在のモデルがほとんどの現象に対処するのが非常に困難であることを示唆しています。したがって、私たちは、VALSEが言語的観点から事前学習済みのV&Lモデルの将来の進歩を測定するための重要なベンチマークとして役立つことを期待しており、従来のタスク中心のV&L評価を補完します。
https://aclanthology.org/2022.acl-long.567/
The Grammar-Learning Trajectories of Neural Language Models
人間の言語現象の学習軌跡は、成人話者の行動を検査することでは得られない言語表現についての洞察を提供する。同様のアプローチを神経言語モデル(NLM)の分析に適用するためには、異なるモデルが行う一般化が十分に類似していることを確立する必要がある。本論文では、異なる初期化、アーキテクチャ、およびトレーニングデータを持つNLMが、異なる最終パフォーマンスにもかかわらず、類似した順序で言語現象を習得することを示す。これらの結果は、これらのモデルの言語現象の学習に基づく相互誘導バイアスがあることを示唆している。心理言語学からのインスピレーションを得て、この相互誘導バイアスを研究することは、NLMに暗黙的に含まれる言語表現を研究する機会であると主張する。これらの発見を活用して、異なる現象における相対的なパフォーマンスを、より単純な参照モデルと比較する。結果は、NLMが一貫した「発達段階」を示すことを示唆している。さらに、学習軌跡はおおよそ一次元であることがわかった。つまり、ある全体的なパフォーマンスを持つNLMが既に習得した言語一般化を予測することができる。これらの段階の初期分析では、形態論的なものを含む現象クラスターが提示され、その背後にある一般化の間に潜在的な関連性があることを示唆している。
https://aclanthology.org/2022.acl-long.568/
Generating Scientific Definitions with Controllable Complexity
科学の理解には、馴染みのない専門用語や複雑な言語が障壁となることがあります。自然言語処理は、馴染みのない用語を自動的に定義することで、これらの問題に対処することができます。本研究では、読者の背景知識に適応するために、科学用語の定義と生成された定義の複雑さを制御する新しいタスクとデータセットを紹介します。この新しいタスクのために、4つの定義生成方法をテストし、シーケンス・トゥ・シーケンス・アプローチが最も成功したことを発見しました。次に、定義が目標の複雑さレベルで生成されるバージョンのタスクを探索します。我々は新しい再ランキングアプローチを導入し、人間の評価において、いくつかの制御可能な生成ベースラインに比べて、優れた流暢性を提供しながら複雑さを制御することができることを発見しました。
https://aclanthology.org/2022.acl-long.569/
Label Semantic Aware Pre-training for Few-shot Text Classification
テキスト分類タスクにおいて、有用な情報はラベル名にエンコードされています。ラベル意味認識システムは、微調整と予測中にこの情報を活用して、テキスト分類のパフォーマンスを改善しています。しかし、事前学習中にラベル意味を使用することは、ほとんど探求されていません。したがって、我々はラベル意味認識事前学習(LSAP)を提案し、テキスト分類システムの汎化とデータ効率を改善します。LSAPは、さまざまなドメインからラベル付き文を二次事前学習することにより、ラベル意味を事前学習された生成モデル(私たちの場合はT5)に組み込みます。ドメイン一般の事前学習には大量のデータが必要なため、我々はフィルタリングとラベリングパイプラインを開発し、ラベルのないテキストから自動的に文-ラベルペアを作成します。我々は意図(ATIS、Snips、TOPv2)とトピック分類(AG News、Yahoo! Answers)の実験を行いました。LSAPは、少数のショットテキスト分類において最新のモデルよりも有意な精度向上を達成し、高リソース設定において最新技術と同等のパフォーマンスを維持します。
https://aclanthology.org/2022.acl-long.570/
ODE Transformer: An Ordinary Differential Equation-Inspired Model for Sequence Generation
残差ネットワークは、常微分方程式(ODE)の解のオイラー離散化です。本論文では、Transformerと数値ODE法のより深い関係を探求します。まず、Transformerの残差ブロックがODEの高階解として記述できることを示します。これに着想を得て、ODE Transformerという新しいアーキテクチャを設計しました。ODE Transformerは、ODEでよく動機づけられるルンゲ・クッタ法に類似しています。Transformerの自然な拡張として、ODE Transformerは実装が容易で効率的です。大規模機械翻訳、要約、文法エラー訂正タスクの実験結果は、ODE Transformerの高い汎用性を示しています。推論効率のわずかなコストで、強力なベースラインに比べて大幅なモデル性能の向上が得られます(例えば、WMT'14英独および英仏ベンチマークで30.77および44.11 BLEUスコア)。
https://aclanthology.org/2022.acl-long.571/
A Comparison of Strategies for Source-Free Domain Adaptation
自然言語処理において、特に臨床領域においてデータ共有制限が一般的であるが、元のトレーニングデータにアクセスできない状況で新しいドメインにモデルを適応させる研究は限られている。このような状況をソースフリードメイン適応と呼ぶ。本研究では、通常ソースドメインのトレーニングデータにアクセスすることを前提とするアルゴリズム、アクティブラーニング、セルフトレーニング、データ拡張をソースフリードメイン適応に適応させ、複数のタスクとドメインでこれらの異なる戦略を系統的に比較した。その結果、アクティブラーニングはすべてのSemEval 2021タスク10タスクとドメインで一貫して利益をもたらすことがわかったが、共有タスクではセルフトレーニングとデータ拡張に成功したモデルがあったものの、系統的な比較ではこれらの戦略はソースフリードメイン適応には信頼性がないことがわかった。
https://aclanthology.org/2022.acl-long.572/
Ethics Sheets for AI Tasks
感情認識システムの大規模な弱者人口へのテストや、道徳的判断を下すために質問応答システムを使用するなど、いくつかの注目すべきイベントが、技術が既にマージナライズされた人々にとってより不利な結果をもたらすことを示しています。問題は、個々のシステムやデータセットだけでなく、AIタスク自体にもあります。このポジションペーパーでは、個々のモデルやデータセットだけでなく、AIタスクのレベルでも倫理的考慮事項を考えることの重要性を主張します。私は、タスクが一般的にどのようにフレーム化され、データ、方法、評価に関する選択に隠れた仮定と倫理的考慮事項を明らかにするために専用の「AIタスクの倫理シート」の新しい形式を提案します。また、感情認識のタスクをランニング例として使用し、50の倫理的考慮事項を含む倫理シートのテンプレートを提示します。倫理シートは、データセットやシステムを構築する前に倫理的考慮事項に取り組み、文書化するためのメカニズムです。調査記事と同様に、少数の注意深く作成された倫理シートは、多数の研究者や開発者に役立ちます。
https://aclanthology.org/2022.acl-long.573/
Learning Disentangled Representations of Negation and Uncertainty
否定と不確実性のモデリングは、自然言語処理における長年の課題です。言語学理論は、否定と不確実性の表現が、それらが修飾する内容と意味的に独立していると仮定しています。しかし、これまでの表現学習に関する研究では、この独立性を明示的にモデル化していませんでした。そこで、Variational Autoencoderを使用して、否定、不確実性、および内容の表現を分離する試みを行いました。潜在表現を単純に監視するだけでも、良好な分離が得られることがわかりましたが、敵対的学習と相互情報最小化に基づく補助的な目的は、追加の分離の利益を提供することができます。
https://aclanthology.org/2022.acl-long.574/
latent-GLAT: Glancing at Latent Variables for Parallel Text Generation
最近、並列テキスト生成は、生成効率の成功により広く注目されています。多くの高度な技術が提案されているにもかかわらず、データセット内の1対多の多様性現象を克服するためにトレーニングに自己回帰モデルの支援が必要であり、その応用範囲が限られています。本論文では、単語のカテゴリ情報を捕捉するために離散的な潜在変数を使用し、高度なカリキュラム学習技術を呼び出すGLATを提案し、多様性問題を緩和します。実験結果は、自己回帰モデルの支援なしで強力なベースラインを上回ることを示し、並列デコーディングパラダイムの応用シナリオをさらに広げることができます。
https://aclanthology.org/2022.acl-long.575/
PPT: Pre-trained Prompt Tuning for Few-shot Learning
事前学習済み言語モデル(PLMs)のプロンプトは、事前学習タスクと様々なダウンストリームタスクのギャップを埋めることで、驚異的なパフォーマンスを発揮しています。その中でも、PLMsを凍結してソフトプロンプトのみを調整するプロンプトチューニングは、大規模なPLMsをダウンストリームタスクに適応させるための効率的かつ効果的な解決策を提供しています。しかし、プロンプトチューニングはまだ完全に探求されていません。私たちのパイロット実験では、ダウンストリームデータが十分な場合、プロンプトチューニングは従来のフルモデルチューニングと同等のパフォーマンスを発揮することがわかりましたが、フューショット学習設定でははるかに劣っており、プロンプトチューニングの応用を妨げる可能性があります。この低いパフォーマンスは、ソフトプロンプトの初期化方法に起因すると考えられます。したがって、本研究では、事前学習段階にソフトプロンプトを追加してプロンプトを事前学習することで、より良い初期化を得ることを提案します。この事前学習済みプロンプトチューニングフレームワークを「PPT」と名付けました。PPTの汎化を確保するために、類似の分類タスクを統一されたタスク形式に形式化し、この統一されたタスクのためにソフトプロンプトを事前学習します。広範な実験により、ダウンストリームタスクのために事前学習されたプロンプトをチューニングすることで、フルデータおよびフューショット設定の両方でフルモデルファインチューニングに達するか、それを上回ることができることが示されました。私たちのアプローチは、実践的に大規模なPLMsを使用するために効果的で効率的です。
https://aclanthology.org/2022.acl-long.576/
Deduplicating Training Data Makes Language Models Better
我々は、既存の言語モデリングデータセットには、多数の近似重複例と長い繰り返し部分文字列が含まれていることを発見しました。その結果、これらのデータセットで訓練された言語モデルの自発的な出力の1%以上が、訓練データから完全にコピーされています。我々は、2つのツールを開発し、訓練データセットを重複排除することができます。たとえば、C4から60,000回以上繰り返される61語の英語の文を1つ削除することができます。重複排除により、記憶されたテキストを10倍以上排出するモデルを訓練し、同じまたはより高い精度を達成するために必要な訓練ステップを減らすことができます。また、標準的なデータセットの検証セットの4%以上に影響を与えるトレイン-テストの重複を減らすこともできます。重複排除のコードは、https://github.com/google-research/deduplicate-text-datasetsで公開されています。
https://aclanthology.org/2022.acl-long.577/
Improving the Generalizability of Depression Detection by Leveraging Clinical Questionnaires
自然言語処理に関する論文の要約文を日本語に翻訳してください。 自動化された手法は、ソーシャルメディアを含む様々な情報源から、精神的健康状態(うつ病など)を特定し分析するために広く使用されています。しかし、このようなモデルを現実の医療アプリケーションに展開することには、ドメイン外の一般化の不足やブラックボックスモデルへの信頼の欠如などの課題があります。本研究では、うつ病検査プロセスで臨床医によって使用されるPHQ9に記載された症状の存在によって異なる程度に制約されたうつ病検出のアプローチを提案しています。3つのソーシャルメディアデータセットでのデータセット転送実験において、PHQ9の症状に基づくモデルは、標準的なBERTベースのアプローチに比べて、ドメイン外のデータに対する一般化能力を大幅に向上させることがわかりました。さらに、このアプローチはドメイン内のデータでも競争力のあるパフォーマンスを発揮することができます。これらの結果と質的分析から、臨床的に関連する症状に基づくモデル予測は、一般化能力を向上させ、検査が容易なモデルを生み出すことが示唆されています。
https://aclanthology.org/2022.acl-long.578/
Internet-Augmented Dialogue Generation
地球上で最も継続的に更新される知識の最大の蓄積は、インターネット検索を通じてアクセスできます。本研究では、この情報を会話エージェントにアクセスさせることを研究しています。大規模言語モデルは、その重み内に印象的な量の知識を保持しているにもかかわらず、ダイアログを生成する際に事実を幻視することが知られています(Shuster et al.、2021)。さらに、それらの事実はモデルトレーニングの時点で凍結されています。それに対して、私たちは、文脈に基づいてインターネット検索クエリを生成する方法を提案し、その後、検索結果に基づいて応答を生成する方法を提案しています。この方法は、最新の関連情報を利用できます。私たちは、知識に基づく議論中にインターネット検索にアクセスできるようになった人間-人間の会話の新しく収集されたデータセットで、このようなモデルをトレーニングおよび評価しました。私たちは、会話中の検索クエリに基づくインターネットへのアクセスが、既存のアプローチ(拡張なしまたはFAISSベースの検索(Lewis et al.、2020b))と比較して優れたパフォーマンスを提供することを発見しました。
https://aclanthology.org/2022.acl-long.579/
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities
近年、転移学習は音声および自然言語処理研究の進歩において重要な役割を果たしている。音声においては、自己教師あり学習によって事前学習されたモデルが複数のタスクにおいて驚くほど優れた転移性能を示すことが証明されている。しかし、一貫した評価方法の欠如は、そのようなモデルの効果を包括的に理解することを制限している。SUPERBは、様々な音声タスクにおいて事前学習されたモデルを評価するための共通のベンチマークを導入するための一歩であった。本論文では、SUPERBを上回るタスクの多様性と難易度を持つ、事前学習モデルの意味的および生成的能力を評価するための新しいベンチマークであるSUPERB-SGを紹介する。我々は、事前学習モデルによって学習された表現の堅牢性を、異なるタイプのタスクにおけるデータドメインと品質の変化に対してテストするために、軽量な方法論を使用する。これには、事前学習モデルのパラメータを凍結し、単純なタスク固有のトレーニング可能なヘッドのみを使用する。目標は、すべての研究者を包括し、計算リソースの効率的な使用を促進することである。また、SUPERB-SGのタスクの多様性と限られたタスク監視の組み合わせが、モデル表現の汎化性を評価するための効果的な方法であることを示す。
https://aclanthology.org/2022.acl-long.580/
Knowledge Neurons in Pretrained Transformers
大規模な事前学習言語モデルは、トレーニングコーパスで提示された事実知識を驚くほど正確に記憶することができます。本論文では、知識ニューロンの概念を導入することで、事前学習済みトランスフォーマーにおける事実知識の格納方法についての予備的な研究を行います。具体的には、BERTの穴埋めクローズタスクを調べます。関係性のある事実が与えられた場合、私たちは知識属性方法を提案して、その事実を表現するニューロンを特定します。そのような知識ニューロンの活性化は、それらに対応する事実の表現と正の相関があることがわかりました。私たちの事例研究では、知識ニューロンを活用して、微調整せずに特定の事実知識を編集(更新、削除など)することを試みました。私たちの結果は、事前学習済みトランスフォーマー内での知識の格納方法を理解する上での示唆を与えます。
https://aclanthology.org/2022.acl-long.581/
Meta-Learning for Fast Cross-Lingual Adaptation in Dependency Parsing
メタ学習、すなわち学習することを学ぶことは、新しいタスクに素早く適応することができるため、クロスリンガルNLP問題におけるリソース不足を克服するのに役立つ技術です。我々は、モデルに依存しないメタ学習(MAML)をクロスリンガル依存構造解析のタスクに適用します。我々は、多様な言語でモデルをトレーニングして、新しい言語に素早く適応できるパラメータ初期化を学習します。我々は、事前トレーニングを伴うメタ学習が、多様な未知の、形態論的に異なる、低リソースの言語に対して、少数のショット学習セットアップで、言語転送と標準の教師あり学習のベースラインの性能を大幅に改善することができることを発見しました。
https://aclanthology.org/2022.acl-long.582/
French CrowS-Pairs: Extending a challenge dataset for measuring social bias in masked language models to a language other than English
警告:この論文には、不快なステレオタイプの明示的な表現が含まれている可能性があります。自然言語処理におけるバイアスに関する多くの研究は、アメリカの英語話者の社会的文化的経験に関連するバイアスに対処してきました。私たちは、フランスの特定の人口グループに対する言語モデル(LM)の社会的バイアスを測定するための材料を作成することによって、バイアス研究の範囲を広げることを目指しています。私たちは、米国中心のCrowS-pairsデータセットを拡張して、言語ごとに特定のバイアスも特徴づける多言語ステレオタイプデータセットを作成します。私たちは、10種類のバイアス(性別や年齢など)に関するステレオタイプをカバーする1,679のフランス語の文のペアを紹介します。1,467の文のペアはCrowS-pairsから翻訳され、212の文のペアは新たにクラウドソーシングされました。文のペアは、不利なグループに関するステレオタイプと有利なグループに関する同じ文を対比させます。私たちは、4つの広く使用されている言語モデル(3つのフランス語、1つの多言語)が、ほとんどのバイアスカテゴリーでステレオタイプを表現する文を好むことを発見しました。私たちは、英語からフランス語への翻訳プロセスについて報告し、CrowS-pairsのステレオタイプの特徴付け、米国中心の文化的特徴の特定を行いました。私たちは、他の言語や文化環境にデータセットをさらに拡張するためのガイドラインを提供します。
https://aclanthology.org/2022.acl-long.583/
Few-Shot Learning with Siamese Networks and Label Tuning
私たちは、少ないまたはほとんどトレーニングデータを使用してテキスト分類器を構築する問題、一般的にゼロおよびフューショットテキスト分類として知られている問題を研究しています。近年、ニューラルテキスト推論モデルに基づくアプローチが、多様なタスクで強力な結果を示すことがわかっています。この研究では、適切な事前トレーニングを行うことで、テキストとラベルを埋め込むシャムネットワークが競争力のある代替手段を提供することを示します。これらのモデルにより、推論コストを大幅に削減できます。ラベルの数に比例するのではなく、定数になります。さらに、ラベルチューニングを導入し、ラベル埋め込みを変更するだけで、モデルをフューショットセットアップに適応させることができる、シンプルで計算効率の良いアプローチを紹介します。モデルのファインチューニングよりも低いパフォーマンスを示しますが、このアプローチには、単一のエンコーダを多くの異なるタスクで共有できるアーキテクチャ上の利点があります。
https://aclanthology.org/2022.acl-long.584/
Inferring Rewards from Language in Context
古典的な指示に従う場合、「JetBlueのフライトが欲しい」という言語は、そのフライトを選択するなどのアクションにマップされます。しかし、言語はまた、ユーザーの基礎となる報酬関数(例えば、JetBlueに対する一般的な好み)についての情報を伝えることができます。これにより、モデルは新しい文脈で望ましいアクションを実行することができます。本論文では、話者が発話を選択する方法について推論することで、言語から報酬を実用的に推論するモデルを提案します。これにより、自分たちの好みに関する情報を明らかにするだけでなく、望ましいアクションを引き出すために発話を選択する話者の推論についても考えます。自然言語を用いた新しい対話型フライト予約タスクにおいて、従来の言語をアクションにマップする(指示に従う)ことから始め、その後アクションを報酬にマップする(逆強化学習)過去の研究と比較して、当モデルは報酬をより正確に推論し、未知の環境で最適なアクションを予測します。
https://aclanthology.org/2022.acl-long.585/
Generating Biographies on Wikipedia: The Impact of Gender Bias on the Retrieval-Based Generation of Women Biographies
Wikipediaの記事のような事実に基づく長文テキストを生成することは、関連する証拠を収集する方法、情報を適切な形式のテキストに構造化する方法、生成されたテキストが事実に基づいていることを確認する方法の3つの主要な課題を提起します。私たちは、ウェブ上で関連する支援情報を特定するための検索機構を使用する英語テキストのモデルを開発し、キャッシュベースの事前学習エンコーダ・デコーダを使用して、引用情報を含む長い伝記をセクションごとに生成することでこれらの課題に対処します。利用可能なウェブ証拠が出力テキストに与える影響を評価するために、女性に関する伝記(ウェブ上で利用可能な情報が少ない)と一般的な伝記を生成する場合のアプローチのパフォーマンスを比較します。このために、1,500の女性に関する伝記のデータセットを編成します。生成されたテキストの違いがどのように影響するかを理解するために、生成されたテキストを分析します。自動メトリックと人間の評価を使用して、生成されたテキストの事実性、流暢性、品質を評価します。これらの技術が、長文の事実に基づくテキストの作成に固有の複雑さを軽減するために、人間の作家の出発点として使用されることを望んでいます。
https://aclanthology.org/2022.acl-long.586/
Your Answer is Incorrect... Would you like to know why? Introducing a Bilingual Short Answer Feedback Dataset
論文や演習を提出し、「悪い」または「間違っている」というフィードバックを受け取るだけでは、改善するためにはあまり役に立ちません。残念ながら、自動短答評価(ASAG)システムが提供するのはこの種のフィードバックです。その理由の1つは、コンテンツに焦点を当てた詳細なフィードバックデータセットが不足していることです。説明可能で理解しやすいフィードバックシステムの研究を促進するために、私たちは短答フィードバックデータセット(SAF)を提供します。SAFは、他のASAGデータセットと同様に、ドイツ語と英語の質問に対する学習者の回答と参照回答を含んでいます。ただし、SAFは、学習者の回答にラベルまたはスコアを割り当てるだけでなく、与えられたスコアを説明する詳細なフィードバックも含んでいます。したがって、SAFは、回答を評価し、どこでどのような間違いがあったかを説明するモデルの監視付きトレーニングを可能にします。本論文では、現実の教育シナリオでの強化されたフィードバックモデルの必要性について説明し、データセットの注釈プロセスを説明し、SAFの包括的な分析を提供し、将来の比較のためのT5ベースラインを提供します。
https://aclanthology.org/2022.acl-long.587/
Towards Better Characterization of Paraphrases
専門家の人手注釈なしで、言い換えペアの性質を効果的に特徴付けるために、私たちは2つの新しいメトリック、単語位置偏差(WPD)と語彙偏差(LD)を提案します。WPDは構造の変更の程度を測定し、LDは使用される語彙の違いを測定します。これらのメトリックを適用して、一般的に使用されるMRPCデータセットをよりよく理解し、別の言い換え識別データセットであるPAWSとどのように異なるかを研究します。また、MRPCについて詳細な研究を行い、データセットの改善を提案し、データセットで訓練されたモデルの汎用性が向上することを示します。最後に、私たちは言い換え生成モデルの出力をフィルタリングするために私たちのメトリックを適用し、NLPモデルのデータ拡張または堅牢性テストのために特定の形式の言い換えを生成する方法を示します。
https://aclanthology.org/2022.acl-long.588/
SummScreen: A Dataset for Abstractive Screenplay Summarization
私たちは、テレビシリーズのトランスクリプトと人間による要約のペアから構成される要約データセットであるSummScreenを紹介します。このデータセットは、いくつかの理由から抽象的な要約に対する厳しいテストベッドを提供します。プロットの詳細は、キャラクターの対話で間接的に表現され、トランスクリプト全体に散らばっている場合があります。これらの詳細を見つけ出し、要約で簡潔なプロットの説明を形成する必要があります。また、テレビの脚本には、中心的なプロットとは直接関係のないキャラクターの発展やコミックリリーフを提供するコンテンツが含まれています。この情報は、要約にはほとんど含まれていません。キャラクターがテレビシリーズの基本であるため、私たちは2つのエンティティ中心の評価メトリックを提案しています。実証的には、ニューラルモデルや最近傍に基づくモデルを含むいくつかの方法を評価することで、データセットを特徴付けます。オラクル抽出アプローチは、自動メトリックによると、すべてのベンチマークモデルを上回り、ニューラルモデルが入力トランスクリプトを十分に活用できないことを示しています。人間の評価と質的分析により、私たちの非オラクルモデルは、忠実なプロットイベントを生成する点でオラクルモデルと競合し、より良いコンテンツセレクターから利益を得ることができることがわかりました。オラクルモデルと非オラクルモデルの両方が不忠実な事実を生成することから、将来の研究方向が示唆されています。
https://aclanthology.org/2022.acl-long.589/
Sparsifying Transformer Models with Trainable Representation Pooling
私たちは、Transformerモデルの注意を疎にするための新しい方法を提案します。トレーニングプロセス中に最も情報量の多いトークン表現を選択することを学習することで、入力のタスク固有の部分に焦点を当てます。堅牢なトレーニング可能なトップk演算子により、二次時間およびメモリの複雑さを亜線形に削減しました。私たちの難しい長文要約タスクにおける実験では、単純なベースラインでも現在のSOTAと同等のパフォーマンスを発揮し、トレーニング中に1.8倍、推論中に4.5倍、デコーダーで最大13倍の計算効率を維持しながら、トレーニング中に1.8倍、推論中に4.5倍、デコーダーで最大13倍の計算効率を維持することができます。
https://aclanthology.org/2022.acl-long.590/
Uncertainty Determines the Adequacy of the Mode and the Tractability of Decoding in Sequence-to-Sequence Models
自然言語処理(NLP)の多くのタスクでは、同じ入力(例:ソース文)に対して複数の可能な出力(例:翻訳)が存在する。ニューラルシーケンスモデルが学習する分布にこの曖昧さ(内在的不確実性とも呼ばれる)がどのように影響するかを分析するために、我々は2つの異なるNLPタスク、機械翻訳(MT)と文法エラー訂正(GEC)のマルチリファレンステストセットのリファレンス間の重複度を計算して、文レベルの不確実性を測定する。文レベルとタスクレベルの両方で、内在的不確実性は、ビームサーチの帰納的なバイアスや正確な検索の複雑さなど、検索のさまざまな側面に重大な影響を与える。特に、高い曖昧性を持つMTなどのタスクに適用されるビームサーチエラーの高い数、モードの不適切さ、および大きなビームサイズでのシステム性能の低下などのよく知られた病理学が、より不確実性の低いGECなどのタスクには適用されないことを示す。さらに、我々はニューラルシーケンスモデルのための新しい正確なn-best検索アルゴリズムを提案し、内在的不確実性がモデルの不確実性に影響を与えることを示し、モデルが不確実なタスクや文に対して確率質量を過剰に広げる傾向があることを示す。
https://aclanthology.org/2022.acl-long.591/
FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning
テキストデータ拡張の以前の方法は、単純なタスクと弱いベースラインに限定されていた。我々は、ハードなタスク(つまり、フューショット自然言語理解)と強力なベースライン(つまり、10億以上のパラメータを持つ事前学習モデル)でデータ拡張を探求した。この設定下で、我々は多数の以前の拡張方法を再現し、これらの方法が最大でもわずかな利益をもたらし、時には性能を低下させることがわかった。この課題に対処するために、我々は、生成モデルと分類器を共同して使用してラベル反転データを生成する新しいデータ拡張方法FlipDAを提案する。FlipDAのアイデアの中心は、ラベル反転データを生成することが、ラベル保存データを生成することよりも性能にとってより重要であることを発見したことである。実験結果は、FlipDAが効果と堅牢性の間の良好なトレードオフを実現し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を与えないことを示している。
https://aclanthology.org/2022.acl-long.592/
Text-Free Prosody-Aware Generative Spoken Language Modeling
音声の事前学習は、主に分類タスクでの有効性が示されてきましたが、GPT-2が連続した段落を生成するように、新しい音声を生成する能力はほとんど探求されていませんでした。Generative Spoken Language Modeling(GSLM)(引用)は、発見されたユニットを使用してテキストフリーの言語モデルを構築することで、音声の生成側面に対処する唯一の先行研究です。残念ながら、GSLMで使用されるユニットは、ほとんどの韻律情報を破棄するため、GSLMは韻律を活用してより良い理解を促進することができず、表現力豊かな音声を生成することができません。本研究では、韻律に注意を払った音声生成言語モデル(pGSLM)を提案します。これは、発見されたユニットと韻律特徴ストリームから構成される音声のマルチストリームトランスフォーマーランゲージモデル(MS-TLM)と、MS-TLMの出力を波形に変換する適応型HiFi-GANモデルから構成されています。実験結果は、pGSLMが韻律を利用して韻律と内容のモデリングを改善し、話し言葉のプロンプトが与えられた場合に自然で意味のある、つながりのある音声を生成できることを示しています。オーディオサンプルはhttps://speechbot.github.io/pgslmで入手できます。コードとモデルはhttps://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslmで入手できます。
https://aclanthology.org/2022.acl-long.593/
Lite Unified Modeling for Discriminative Reading Comprehension
機械読解(MRC)の広範で主要なカテゴリーである識別的MRCの一般的な目標は、与えられた資料からの回答予測である。しかし、さまざまな識別的MRCタスクの焦点は十分に多様である可能性がある。多肢選択MRCは、モデルがすべての潜在的な重要な証拠をグローバルに強調して統合する必要がある一方、抽出型MRCは回答抽出のためのより高い局所的境界精度に焦点を当てている。以前の研究の中で、全体的な識別的MRCタスクに関連性のある統一された設計が欠けている。このギャップを埋めるために、我々は軽量なPOS-Enhanced Iterative Co-Attention Network(POI-Net)を提案し、多様な識別的MRCタスクを同期的に処理するための最初の試みとして、関連性を持つ統一モデリングを行います。ほとんどパラメータを導入せずに、私たちの軽量な統一設計は、エンコーダーとデコーダーの両方でモデルの重要な改善をもたらします。4つの識別的MRCベンチマークの評価結果は、私たちのモデルの一般的な有効性と適用可能性を一貫して示しており、コードはhttps://github.com/Yilin1111/poi-netで利用可能です。
https://aclanthology.org/2022.acl-long.594/
Bilingual alignment transfers to multilingual alignment for unsupervised parallel text mining
この論文では、対訳または非対訳のバイリンガルテキストを使用して、クロスリンガルな文表現を学習する方法を提案しています。私たちは、クロスリンガルなアラインメント戦略が転移可能であると仮定し、2つの言語のみをアラインメントするためにトレーニングされたモデルは、より多言語的にアラインされた表現をエンコードできると考えています。したがって、私たちはデュアルピボット転送を導入し、1つの言語ペアでトレーニングして他のペアで評価します。この理論を研究するために、非対訳の文に基づく教師なしモデルとバイリンガルテキストに基づく単一ペア教師ありモデルの両方を設計し、そのパラメータを凍結した教師なし言語モデルXLM-Rに基づいています。実験では、2つのデータセットで教師なしビットキストマイニングのタスクでモデルをユニバーサル文エンコーダーとして評価し、教師なしモデルは教師なし検索の最先端に到達し、代替の単一ペア教師ありモデルは多言語教師ありモデルの性能に近づいています。結果は、提案されたバイリンガルトレーニング技術を適用して、多言語アラインメントを持つ文表現を取得できることを示唆しています。
https://aclanthology.org/2022.acl-long.595/
End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video Grounding
自然言語空間ビデオグラウンディングは、記述的な文をクエリとして使用し、ビデオフレーム内の関連するオブジェクトを検出することを目的としています。多くの既存の方法は、膨大な人的労力を必要とする密なビデオフレーム注釈に依存しているため、限られた注釈予算の下で効果的なグラウンディングを実現するために、我々はワンショットビデオグラウンディングを調査し、エンドツーエンドの方法で単一のフレームのみをラベル付けし、すべてのビデオフレームで自然言語をグラウンドすることを学びます。エンドツーエンドのワンショットビデオグラウンディングの主な課題は、言語クエリまたはラベル付けされたフレームに関係のないビデオフレームが存在することです。また、限られた監視下では、効果的な表現学習ができない可能性があります。これらの課題に対処するために、情報ツリーを使用したエンドツーエンドのモデルを設計しました。情報ツリーは、枝検索と枝切り技術に基づいて、関係のないフレームの干渉を排除することができます。さらに、情報ツリーに基づくいくつかの自己監督タスクを提案し、不十分なラベリングの下で表現学習を改善します。ベンチマークデータセットでの実験は、当社のモデルの有効性を示しています。
https://aclanthology.org/2022.acl-long.596/
RNSum: A Large-Scale Dataset for Automatic Release Note Generation via Commit Logs Summarization
リリースノートは、ソフトウェア製品の最新の変更内容を説明する技術文書であり、オープンソースソフトウェア開発において重要です。しかし、自動的にリリースノートを生成することはまだ困難です。本論文では、GitHubのオンラインリポジトリから派生した約82,000の英語のリリースノートと関連するコミットメッセージを含む新しいデータセットであるRNSumを提案します。そして、特定の制約なしにさまざまなリポジトリに適用できる、BARTのような現代のトランスフォーマーベースのseq2seqネットワークを使用できる、クラスごとの抽出-要約/要約アプローチを提案します。RNSumデータセット上の実験結果は、提案手法がベースラインよりも高いカバレッジでノイズの少ないリリースノートを生成できることを示しています。また、人間のリファレンスと比較した場合、必要な情報のカバレッジには大きなギャップがあることも観察されました。私たちのデータセットとコードは公開されています。
https://aclanthology.org/2022.acl-long.597/
Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge
機械読解タスクにおいて高い性能を発揮するためには、機械リーダーは通常、与えられた文書に明示的に記載されていない常識的な知識が必要です。本論文では、スクリプトから新しい種類の構造化された知識を抽出し、MRCを改善することを目的としています。スクリプトに焦点を当てる理由は、豊富な言語的および非言語的メッセージを含んでおり、短時間内に異なるモダリティで伝えられた2つの関連メッセージは、日常のコミュニケーションにおいて一緒に機能するため、常識的な知識の引数として機能する可能性があるためです。関係を命名するための人間の労力を節約するために、我々はそのような引数ペアを文脈に配置して暗黙的に関係を表現することを提案し、これを文脈化された知識と呼びます。抽出された知識をMRCの改善に使用するために、文脈化された知識に基づいて構築された弱くラベル付けされたMRCデータを使用するためのいくつかの微調整戦略を比較し、複数の教師を持つ教師-生徒パラダイムを設計して、弱くラベル付けされたMRCデータの知識の転移を促進します。実験結果は、我々のパラダイムが弱くラベル付けされたデータを使用する他の方法よりも優れており、中国語の多肢選択MRCデータセットC3において、事前に述べられていない知識が必要な質問がほとんどである場合に、最新のベースラインを4.3%の精度で改善することを示しています。また、結果として得られた生徒リーダーを単純に適応することで、知識を他のタスクに転移することも試み、関係抽出データセットDialogREにおいてF1を2.9%改善し、文書理解が必要なMRC以外のタスクにおいて知識の潜在的な有用性を示しています。
https://aclanthology.org/2022.acl-long.598/
Modeling Persuasive Discourse to Adaptively Support Students’ Argumentative Writing
私たちは、学生が書いたビジネスモデルのピッチにおける議論的な論述の構造をモデル化するための議論注釈アプローチを紹介します。さらに、注釈スキームは、ピッチと個々のコンポーネントの特異性、強度、証拠、関連性などの一連の説得力スコアを捉えます。このスキームに基づいて、私たちは200のドイツ語のビジネスモデルピッチのコーパスを注釈付けしました。さらに、私たちは議論的な論述構造を検出するための予測モデルをトレーニングし、学生に個別の議論フィードバックを提供する適応型ライティングサポートシステムに埋め込みました。このシステムは、教師、時間、場所に依存せずに個別のフィードバックを提供します。私たちは、実際のライティング演習でツールを評価し、測定された自己効力感と知覚された使いやすさについて有望な結果を得ました。最後に、私たちは、3,207のドイツ語の注釈付きの説得力のあるビジネスモデルピッチの自由に利用可能なコーパスと注釈ガイドラインを提供します。
https://aclanthology.org/2022.acl-long.599/
Active Evaluation: Efficient NLG Evaluation with Few Pairwise Comparisons
最近の研究では、直接評価に代わってペアワイズ比較を使用してNLGシステムを評価する利点が示されています。 k個のシステムが与えられた場合、トップランクのシステムを特定するための素朴なアプローチは、すべてのk \choose 2ペアのシステムからペアワイズ比較を均等に取得することです。しかし、これはkの2乗に比例して人間の注釈が必要になるため、非常に高価になる可能性があります。本研究では、デュエリングバンディットアルゴリズムを使用してシステムペアを選択することにより、効率的にトップランクのシステムを特定するActive Evaluationフレームワークを紹介します。5つのタスクをカバーする13のNLG評価データセットで13のデュエリングバンディットアルゴリズムで広範な実験を行い、人間の注釈の数を80%削減できることを示します。さらに、自動評価メトリックと人間の評価を組み合わせたモデルベースのデュエリングバンディットアルゴリズムを提案し、人間の注釈の数を89%削減します。結果として、トップランクのシステムを特定するには、kに比例して線形に増加するわずか数百の人間の注釈が必要であることを示します。最後に、トップランクのシステムを効率的に特定するための実用的な推奨事項とベストプラクティスを提供します。私たちのコードはhttps://github.com/akashkm99/duelnlgで公開されています。
https://aclanthology.org/2022.acl-long.600/
The Moral Debater: A Study on the Computational Generation of Morally Framed Arguments
聴衆の先行信念と道徳は、与えられた議論にどの程度影響を受けるかの強い指標である。このような知識を利用することで、異なる意見を持つ当事者を合意に向けるために共有される価値観に焦点を当てることができる。しかし、議論技術においては、これがほとんど活用されていない。本論文では、道徳的に枠組まれた議論を自動生成することの可能性と、異なる聴衆に与える影響について研究する。道徳的基盤理論に従い、異なる道徳に焦点を当てた議論を効果的に生成するシステムを提案する。詳細なユーザースタディにおいて、リベラル派と保守派にこれらの議論の影響を評価してもらった。その結果、先行信念が挑戦された場合には、道徳的に枠組まれた議論により聴衆がより影響を受けることが示唆された。
https://aclanthology.org/2022.acl-long.601/
Pyramid-BERT: Reducing Complexity via Successive Core-set based Token Selection
Transformerベースの言語モデル、例えばBERTは、様々なNLPタスクで最先端の性能を発揮していますが、計算上の制約があります。最近の研究では、シングルトークンの埋め込みを予測する分類やランキングのタスクで、エンコーダを通してトークンを変換しながらシーケンス長を段階的に短くするための様々なヒューリスティックを使用しています。本論文では、理論的な結果に基づくコアセットベースのトークン選択方法で以前に使用されていたヒューリスティックを置き換えたPyramid-BERTという問題の新しい解決策を提案します。コアセットベースのトークン選択技術により、高価な事前学習を回避し、スペース効率の良いファインチューニングを実現し、より長いシーケンス長を扱うことができます。GLUEベンチマークとLong Range ArenaデータセットにおけるPyramid-BERTの複数のベースラインや既存の研究に対する優位性を確立するための広範な実験を提供します。
https://aclanthology.org/2022.acl-long.602/
Probing for the Usage of Grammatical Number
プロービングの中心的な課題は、事前学習されたモデルがその表現内に言語的な特性をエンコードする方法を明らかにすることです。ただし、エンコードは偽物である可能性があります。つまり、モデルが予測を行う際にそれに依存しない可能性があります。本論文では、モデルが実際に使用するエンコードを見つけるために、使用ベースのプロービングセットアップを導入します。まず、言語的特性を使用しないと解決できない行動課題を選択します。次に、モデルの表現に介入して特性を削除しようとします。モデルがエンコードを使用している場合、その削除は選択した行動課題のパフォーマンスに悪影響を与えるはずだと主張します。ケーススタディとして、BERTが文法的数をどのようにエンコードし、このエンコードを使用して数の一致タスクを解決するかに焦点を当てます。実験的に、BERTが文法的数の線形エンコードを使用して正しい行動出力を生成することがわかりました。また、BERTが名詞と動詞の文法的数の別々のエンコードを使用していることもわかりました。最後に、どのレイヤーで名詞からその先頭動詞に文法的数の情報が転送されるかを特定します。
https://aclanthology.org/2022.acl-long.603/