COCAの検索に苦しむ過程の記録

自分メモです。
1
langstat @langstat

【ゆるぼ】COCAとBNCwebで、help+(obj.)+to-infinitiveと、help+(obj.)+bare infinitiveの頻度を算出する方法。これからいろいろと試してみるけど、普通の正規表現が使えない環境だと少し面倒(特に、COCA) #へるぷの使用法

2013-08-15 14:59:29
langstat @langstat

She_PNP helped_VVD me_PNP choose_VVI some_DT0 new_AJ0 ties_SENT ._PUN 要は、helpのレマ+(代名詞か名詞)+to+動詞の原形を検索すればよい。 #へるぷの使用法

2013-08-15 15:04:38
langstat @langstat

She_PNP walked_VVD to_PRP the_AT0 window_SENT ._PUN CLAWSは、ちゃんと不定詞のtoと前置詞のtoを区別してくれる模様。 http://t.co/Nxk9PLmXqY #へるぷの使用法

2013-08-15 15:06:38
langstat @langstat

[help] [pp*] toだと、とりあえずCOCAで結果が出る。でも、そのあとに来る「動詞の原型」に対応するタグが複数あるのだが、正規表現の|みたいなものはあるのかしら? #へるぷの使用法

2013-08-15 15:15:00
langstat @langstat

[help] [pp*]|[n*] to COCAでも|が使えた。では、toの後にも、いろいろと並べればいい訳だ(すでに面倒になってきたw) #へるぷの使用法

2013-08-15 15:18:35
langstat @langstat

CLAWSの場合、to不定詞に続く動詞の原形は、VBI、VDI、VHI、VVIのように、V*Iで表現できる模様。 http://t.co/yKeTYvvIyA #へるぷの使用法

2013-08-15 15:21:49
langstat @langstat

むむむ、[help] [pp*]|[n*] to [v*i]だと、エラーが出る。。。 COCAのこういうところがイヤ。。。 #へるぷの使用法 http://t.co/U8eUvH94S4

2013-08-15 15:26:04
langstat @langstat

COCAは後回しにして、BNCwebへ。{help/V} (_{N}|_{PRON})? to_TO0 (_VBI|_VDI|_VHI|_VVI)でアッサリ成功。やっぱりBNCwebの方が好き(単に慣れているだけという説もある)。 #へるぷの使用法

2013-08-15 15:39:38
langstat @langstat

BNCwebでbare infinitiveの方を検索するには、{help/V} (_{N}|_{PRON})? (_VBI|_VDI|_VHI|_VVI) やはり、問題はCOCAか。だからアレを使うことに反対したのだ。。。(愚痴) #へるぷの使用法

2013-08-15 15:41:09
langstat @langstat

COCA [help] [pp*] to [v*i] 1000 [help] [pp*] [v*i] 8744 helpのあとを人称代名詞に限定すれば、エラーが出ないのか(何故???) #へるぷの使用法

2013-08-16 13:18:57
langstat @langstat

BNCweb {help/V} _{PRON} to_TO0 (_VBI|_VDI|_VHI|_VVI) 1710 {help/V} _{PRON} (_VBI|_VDI|_VHI|_VVI) 2501 COCAほど差がないな。 #へるぷの使用法

2013-08-16 13:22:52
langstat @langstat

BROWNとLOBを比べた中村(2005)では、to-infinitiveが英語に多く、bare infinitiveが米語に多いという結果だった。obj.に名詞を含めるかどうかの違いもあるが、30年(以上)たって、どちらも米語っぽくなってきたということ? #へるぷの使用法

2013-08-16 13:27:00
langstat @langstat

chisq.test(matrix(c(1000, 8744, 1710, 2501), nrow = 2, byrow = T), correct = F) X-squared = 1730.230, df = 1, p-value < 2.2e-16 #へるぷの使用法

2013-08-16 13:29:34
langstat @langstat

中村(2005)だと、BROWNではto-infinitiveが38、bare infinitiveが81、LOBではそれぞれ71と22。これをRでカイ自乗検定(補正なし)すると、p-value = 1.361e-10 #へるぷの使用法

2013-08-16 13:34:28
langstat @langstat

むむ、昨日はエラーになった[help] [pp*]|[n*] to [v*i]が、今日は検索できたぞ。COCAのこういうところが嫌。。。 #へるぷの使用法

2013-08-16 14:12:46