OpenAIのGPT-3などの大規模言語処理モデルについて

大規模言語処理モデルは大量のテキストの手軽な入手先としてネットに頼るためオンライン活動が少ない国や民族のデータが少なく、裕福な国の慣習に偏る
0
sih5632 @sih5632

FacebookのCC-100。日本語は15G、ケチュア語は1.5M。 CC-100: Monolingual Datasets from Web Crawl Data data.statmt.org/cc-100/

2020-10-31 12:52:20
sih5632 @sih5632

大規模言語処理モデルは大量のテキストの手軽な入手先としてネットに頼るため、差別的、罵倒的な言葉が訓練データに含まれやすい。オンライン活動が少ない国や民族のデータが少なく、裕福な国の慣習に偏る 揺れるGoogle AI倫理研究者の退社問題 cloud.watch.impress.co.jp/docs/column/in… #NLP #AI #人工知能

2020-12-15 23:29:39