自然言語処理・機械学習・帰納推論

自然言語処理における機械学習と、それに関連した帰納推論の論理学についてのつぶやきをまとめました。厳密な時系列にはなってません。
14
Takayuki Kihara @tri_iro

@yoriyuki 実用的な機械学習の話はさっぱり知らないのですが、やはり計算論的学習理論の比較的すっきりした部分(古典的な極限同定の話とか)とは全然違ってごちゃごちゃしてるんだろうなあとは予想しています。

2010-10-03 00:14:11
yoriyuki @yoriyuki

@tri_iro ごちゃごちゃさせているというよりは、よって立つものが違う、という印象です。確率論(ベイズの定理とか)がベースですね。

2010-10-03 00:23:44
いちまさん @itimasan

.@tri_iro 言語処理のお人の話で感動したんが「90%の精度で良いなら、誰でも美しく実装することが出来る。実務で使うためには精度は99.x%まで上げなくてはならない。現実のデータは汚いため、泥臭い処理で少しずつ精度を上げていくしかない」という内容でした。煩雑さは宿命ですねー

2010-10-03 00:26:15
いちまさん @itimasan

例えば95%の精度で文字認識出来るようになったって言うたら凄い気がするんやけど、その精度では400字詰め原稿で20文字も誤字が出てしまうんよね。これでは本の自動読み取りなんて夢のまた夢。単純に、ただひたすら精度を99.x%まで上げんと使われへん

2010-10-03 00:32:17
いちまさん @itimasan

そして、言語学や自然言語処理で文章の意味を解析する困難を「沢山の既存文章から単語同士の繋がりを全部パターンとして記憶させておいて、既存パターンから機械的マッチングで文脈を解析する」という情報科学のお力で達成する「腕力」の時代到来。プログラミングやネットワーク、DBの知識が必要やね

2010-10-03 00:39:10
Funyako Funyao @D946_2

個人的には工学は役に立って何ぼだと思うから、ナイーブベイズごとき全く気にならないなあ。結果さえ出せれば。そもそもウチの会社の人間のほとんどは線形モデルを仮定する以外の統計をしてない

2010-10-02 23:43:17
Funyako Funyao @D946_2

制御理論がどんなに新しいのを作っても、現場ではほぼ全部PIDなのと同じように、統計といえば線形回帰ばっかり

2010-10-03 00:33:39
いちまさん @itimasan

.@D946_2 そーですねー。やっぱり実務ではiid全般に対して「これは明らかになりたたへんやろ…でもそう仮定した方が精度上がるしなー」て葛藤があります。結局は精度優先やけど。純粋数学のような厳密さが必要と言うんやないけど、どこまで厳密さに拘るかの水準を自分で持たへんとねー

2010-10-03 00:16:11
Funyako Funyao @D946_2

釈迦に説法かもしれませんが機械学習の場合細かくモデルを設計して精度上げても変化への対応が弱くなりますしね RT: @itimasan: やっぱり実務ではiid全般に対して「これは明らかになりたたへんやろ…でもそう仮定した方が精度上がるしなー」て葛藤があります。結局は精度優先やけど

2010-10-03 00:29:03
いちまさん @itimasan

.@D946_2 そうですねー。モデル複雑にしても過学習起すだけやし、処理重たくなるし…結局、極端にシンプルにして、データの量をひたすらに流し込んで何とかするこの風潮…。うーん…うーん、あの…うーん、色々工夫せんとあかんねー…

2010-10-03 00:42:39
いちまさん @itimasan

NLPのお人が言うてた「量が質を超える時代になった」言うんはウチの心に響きました。モデルはシンプルで(が)ええんです。今、コーパスは巨大なものが入手・取得出来ます。より大きく速くデータを食べるための工夫をせんと…Hadoopとか学んだ方がええんやろか…あー、世界広い、広すぎるなー

2010-10-03 00:45:30
いちまさん @itimasan

言語処理について。プログラマ、物理、工学屋さんとは、全く専門用語通じひんでもお話しできたのに、言語学の方とは話が通じひんかったんよ。前者は、ツールこそ違うけど、何か作るて気があったんね。後者は自分のハッピーを最大化するためだけに研究してるて明言しはってんね。

2010-10-03 01:33:51
いちまさん @itimasan

ツールが違うお人とも、話を重ねれば通じ合えると信じてるんやけど、そもそもの目的が違う人とは何をどうお話ししても通じひんかったんよ。うーん、役立つ気はないて言われたら、そやね、難しいね

2010-10-03 01:35:19
finalvent @finalvent

つうか、言語は帰納的に学習されてないと考えたほうが妥当だと思うが。

2010-10-03 10:07:09
戸次大介/Daisuke Bekki @kaleidotheater

文法は極限同定可能だけど、現実に各人が触れるデータは必ずしもエルゴード性を持たない、ということではないでしょうか。 RT @finalvent: つうか、言語は帰納的に学習されてないと考えたほうが妥当だと思うが。

2010-10-03 21:59:13
finalvent @finalvent

ルールは均衡からは無理では。“@kaleidotheater: 文法は極限同定可能だけど、現実に各人が触れるデータは必ずしもエルゴード性を持たない、ということではないでしょうか。 RT @finalvent: つうか、言語は帰納的に学習されてないと考えたほうが妥当だと思うが。”

2010-10-03 22:02:52
いちまさん @itimasan

RT @langstat: 石川慎一郎・前田忠彦・山崎誠(編著) 石川有香・小林雄一郎・高見敏子・中尾桂子・水本篤(著)『言語研究のための統計入門』(くろしお出版) まだ出版社などのHPには載っていませんが、10月31日出版予定(編者が某所に書いているので、ここでも宣伝)

2010-10-03 18:24:03
いちまさん @itimasan

RT @langstat: ワタクシは「判別分析」の章と「コレスポンデンス分析」の章を分担執筆 RT @langstat 石川慎一郎・前田忠彦・山崎誠(編著) 石川有香・小林雄一郎・高見敏子・中尾桂子・水本篤(著)『言語研究のための統計入門』(くろしお出版) 10月31日出版予定

2010-10-03 18:24:04
いちまさん @itimasan

言語学の事例も豊富で、数学的な厳密さを適度に抑えた、文系の言語処理入門に相応しい「言語研究のための統計入門」。主要な分析手法をきっちりと数学的に記述し、言語処理の必要最小限をコンパクトにまとめた「言語処理のための機械学習入門」。この2冊はウチのバイブルになるねー。ええ時代やねー

2010-10-03 18:56:47