French CrowS-Pairs: Extending a challenge dataset for measuring social bias in masked language models to a language other than English
警告:この論文には、不快なステレオタイプの明示的な表現が含まれている可能性があります。自然言語処理におけるバイアスに関する多くの研究は、アメリカの英語話者の社会的文化的経験に関連するバイアスに対処してきました。私たちは、フランスの特定の人口グループに対する言語モデル(LM)の社会的バイアスを測定するための材料を作成することによって、バイアス研究の範囲を広げることを目指しています。私たちは、米国中心のCrowS-pairsデータセットを拡張して、言語ごとに特定のバイアスも特徴づける多言語ステレオタイプデータセットを作成します。私たちは、10種類のバイアス(性別や年齢など)に関するステレオタイプをカバーする1,679のフランス語の文のペアを紹介します。1,467の文のペアはCrowS-pairsから翻訳され、212の文のペアは新たにクラウドソーシングされました。文のペアは、不利なグループに関するステレオタイプと有利なグループに関する同じ文を対比させます。私たちは、4つの広く使用されている言語モデル(3つのフランス語、1つの多言語)が、ほとんどのバイアスカテゴリーでステレオタイプを表現する文を好むことを発見しました。私たちは、英語からフランス語への翻訳プロセスについて報告し、CrowS-pairsのステレオタイプの特徴付け、米国中心の文化的特徴の特定を行いました。私たちは、他の言語や文化環境にデータセットをさらに拡張するためのガイドラインを提供します。
https://aclanthology.org/2022.acl-long.583/