第6回言語学×自然言語処理合同勉強会

1
langstat @langstat

今日はこれに参加します。RT @ling_nlp #ling_nlp 第6回言語学×自然言語処理合同勉強会は5月22日17:00-19:30開催、会場は国立情報学研究所 20階2006室です。発表の詳細などは https://t.co/FYjEDnEyGJ をご覧ください。

2013-05-22 15:39:40
langstat @langstat

第6回言語学×自然言語処理合同勉強会 http://t.co/CW2IQapG0Y 最初の発表は、田中佑さんの「 日本語助数詞語彙体系変化の一要因―『-店』『-店舗』の成立を例に」(発表順が当初の予定と入れ替わりました) #ling_nlp

2013-05-22 17:05:03
langstat @langstat

(1) a. サロン4店舗を持つ b. サロンを4店舗持つ (2) a. 塚本ら3社長が非力だ b. *塚本らが3社長非力だ → いずれも数詞+名詞だが、何か性質が異なるように思われる。 #ling_nlp

2013-05-22 17:19:05
langstat @langstat

(1) 彼は[5店/5店舗/5軒/*5戸]の飲食店を経営している (2) 農家[*5店/*5店舗/5軒/5戸]が倒壊した → これはコロケーションの問題か? #ling_nlp

2013-05-22 17:29:05
langstat @langstat

大正期以前に商業空間の数を表す場合、建物を数える「-軒」、さらには現代語において居住空間を数える「-戸」が用いられており、「-店」「-店舗」は「-戸」の意味領域を浸食しながら成立(太陽コーパス、近代女性雑誌コーパス、日本古典文学大系データベースによる調査結果) #ling_nlp

2013-05-22 17:32:13
langstat @langstat

日本古典文学大系データベース(近世以前の言語データが検索可能) http://t.co/D7P72RUepM 神戸大学附属図書館 デジタルアーカイブ 【 新聞記事文庫 】(明治末から昭和45年までの記事が検索可能) http://t.co/0ukhVYOdds #ling_nlp

2013-05-22 17:35:06
langstat @langstat

「-店」が数詞と結合している例は、1912年から見られ、1929年には副詞的位置に生起した例も散見される。また、「-店舗」が数詞と結合している例は1913年から見られた(副詞的位置に生起した例は発見できず)。この頃、助数詞「-店」「-店舗」が成立。 #ling_nlp

2013-05-22 17:40:52
langstat @langstat

昭和初期以前、「-戸」は現代語よりも多様な語と共起(八百屋、会社、銀行、商店、商家など)。だが、徐々に「-店」「-店舗」は【職】空間、「-戸」は【住】空間のみと共起するようになる。ただし、【職住一体】の「農家」は例外的に、「養豚農家9戸」などで生起する。 #ling_nlp

2013-05-22 17:46:13
langstat @langstat

建築史的には、「近代の社会は、産業革命以降、『職住分離』の社会をつくってきた」(鈴木博之『夢の住む家ー20世紀をひらいた住宅』平凡社)と言われている。助数詞の成立に関しても、このような言語外的要因も考慮する必要がある。 #ling_nlp

2013-05-22 17:51:00
langstat @langstat

第6回言語学×自然言語処理合同勉強会 http://t.co/GmsRKUvEYS 2つめの発表は、藤田彬さんの「教師による添削事項を付記した児童書き言葉コーパスの作成」(発表順が当初の予定と入れ替わりました) #ling_nlp

2013-05-22 18:18:50
langstat @langstat

この方は、藤田彬・藤田央・田村直良(2012)「国語教育的評価項目を考慮した機械学習による日本語文章の自動評価と評価モデルの構築」『自然言語処理』19(4)を書いた人なのか。 http://t.co/FGhG6KcikC #ling_nlp

2013-05-22 18:23:14
langstat @langstat

(1) 常に一定の基準に沿って、(2) 全ての問題点に言及し、(3) 適切な助言を与える、作文添削の必要性。人間でも難しい「一定の基準」というものを実現できるのか、という質問あり。英文添削の場合、人間(添削者)間の一致率が60%程度とも言われているしねえ。。。 #ling_nlp

2013-05-22 18:29:44
langstat @langstat

先行研究としては、永田さんたちの甲南大学こどもコーパス http://t.co/ycWEZtd8Dr など。 #ling_nlp

2013-05-22 18:31:36
langstat @langstat

発表者のコーパスは、東京都・神奈川県の公立小学校でデータ収集し、個人を特定できるような情報はマスク。収集時期は2011〜2012年。約1300本の手書きの作文を電子化。テーマは、本の紹介文、学校行事の感想文など。国語科教諭2名が1編の作文を添削。 #ling_nlp

2013-05-22 18:35:29
langstat @langstat

チェックする項目としては、表記上の誤り、習得済みの漢字の不使用、句読法の不適切さ、文法・語法の誤り、主述関係の曖昧性、段落分けの不適切さなど。 #ling_nlp

2013-05-22 18:46:02
langstat @langstat

「点検タグ」は、文字列の挿入・削除・置換、添削者のコメントなどをアングル・ブラケットでマークアップ。ユニークな点としては、添削者が花まるをつけた部分も情報として残していること。 #ling_nlp

2013-05-22 18:50:09
langstat @langstat

全国で作文を収集するとなると、方言が自動解析の障壁となる? → でも、関西弁は、ある程度MeCabで解析できるらしい。 → 「関西弁講座」 http://t.co/eM2J3wTmBB というサイトにあった例文を解析してみたw(続 #ling_nlp

2013-05-22 19:14:01
langstat @langstat

◆食べたらあかん → 食べ/動詞 たら/助動詞 あかん/感動詞 ◆あほか!それもいうなら、夏は暑いやろ! → あ/フィラー ほか/名詞 !/記号 それ/名詞 も/助詞 いう/動詞 なら/助動詞 、/記号 夏/名詞 は/助詞 暑い/形容詞 やろ/助動詞 !/記号 #ling_nlp

2013-05-22 19:17:52
langstat @langstat

(承前)「あほか!」は明らかに失敗している。「あかん」が感動詞で、「やろ」が助動詞という点については、ネイティブではないので、全く内省が効かないww 今回はMeCabでipadicを使ったので、unidicだったら結果が変わるかも知れないけど。 #ling_nlp

2013-05-22 19:20:39
langstat @langstat

小学生が作文をしている時に、システムがエラー箇所を指摘したとして、書き手はどれぐらい素直に修正するのか、と訊いてみた。エラーを修正すると、「よく出来ましたね」的な花まるコメントが表示されるようになっていて、臨床実験によると、提出された作文の質が向上したらしい。 #ling_nlp

2013-05-22 19:31:35
langstat @langstat

小学校では接続詞を明示的に使わせるような指導をするが、その結果、接続詞が過剰使用ぎみになり、うまく使い分けができずに「そして」が頻出する。また、逆接の文脈で逆接になっていない例なども多い。 #ling_nlp

2013-05-22 19:40:13