ネコでもできた歌詞分析

適当なメモです。結果の妥当性は一切保証しません。
2
langstat @langstat

とある筋から、過去約30年分の年間売上ランキング上位20曲(+α)のコーパスをお預かりしたので、ほんの少しだけいぢってみた。1980年代、1990年代、2000年代(それぞれ200曲以上)から特徴語を出してみたのだけれど、歌詞における繰り返しの影響がデカイなあ、、、という感じ。

2015-07-13 15:18:40
langstat @langstat

1980年代の特徴語トップ10:わ_助詞、お前_名詞、の_助詞、わたし_名詞、cha_名詞、sick_名詞、あゝ_感動詞、han_名詞、ね_助詞、あなた_名詞 (LLRを使用)

2015-07-13 15:20:24
langstat @langstat

1990年代の特徴語トップ10:yeh_名詞、wow_名詞、yah_名詞、war_名詞、男_名詞、oly_名詞、yely_名詞、きみ_名詞、la_名詞、chance_名詞 (LLRを使用)

2015-07-13 15:22:03
langstat @langstat

2000年代の特徴語 twitter.com/langstat/statu… にある"pala"って何よ、と思って検索したら、"Pala_名詞 Pala_名詞 Pala_名詞 Pala_名詞 Pala_名詞 Pala_名詞 Pa_名詞 Pa_名詞 ..."という一節がヒットして悶絶したw

2015-07-13 15:34:23
langstat @langstat

2000年代の特徴語トップ10:ー_名詞、da_名詞、超_接頭詞、僕ら_名詞、イェイ_名詞、pala_名詞、what_名詞、mickey_名詞、boom_名詞、peace_名詞 (LLRを使用)

2015-07-13 15:23:51
langstat @langstat

(承前)モーニング娘。の「ハッピーサマーウェディング」 kasi-time.com/item-4438.html という曲の一節らしい。初めて読んだ歌詞だけど、恐ろしくtype/token ratioが低いwww

2015-07-13 15:36:56
langstat @langstat

歌詞のように、(1)各文書が短い、(2)繰り返しが多い、データの頻度を扱う場合は、TF-IDF ja.wikipedia.org/wiki/Tf-idf みたいに、その単語を含む文書数を考慮に入れないといけないのかも。

2015-07-13 15:44:42
langstat @langstat

先ほどの歌詞コーパスには、ジャンル情報がついている模様。試しに、演歌の特徴語トップ10:酒、あゝ、おんな、こい、北、宿、帰っ、吹け、酒場、ヨ  (年代別よりもジャンル別の方が結果が分かりやすい)

2015-07-13 17:17:42
langstat @langstat

ロックの特徴語トップ10:オマエ、got、many、ラララ、dive、sexual、violet、hero、僕、を #セクシャルヴァイオレット

2015-07-13 17:20:36
langstat @langstat

R&B、ソウルの特徴語トップ10:oly、yely、da、traveling、lu、like、everything、secret、won、you #邦楽なのに横文字ばかり

2015-07-13 17:23:35
langstat @langstat

J-popの特徴語トップ10:yeh、yah、magic、mickey、war、monkey、ooh、事、sunshine、私 #ジェイポップの定義イズ何

2015-07-13 17:26:52
langstat @langstat

男性アイドルの特徴語トップ10:男、wonderful、ー、おっ、イェイ、goin、u、up、bye、do

2015-07-13 17:30:05
langstat @langstat

女性アイドルの特徴語トップ10:na、超、ha、pala、わ、私、ぴょん、あなた、boom、pa #繰り返しの影響が絶大

2015-07-13 17:32:15
langstat @langstat

串_名詞 に_助詞 ささっ_動詞 て_助詞 だ_助動詞 ん_名詞 ご_接頭詞 だ_助動詞 ん_名詞 ご_接頭詞 3_名詞 つ_助動詞 なら_助動詞 んで_助詞 だ_助動詞 ん_名詞 ご_接頭詞 だ_助動詞 ん_名詞 ご_接頭詞 #だんごの形態素解析がメカブで失敗

2015-07-16 16:08:37
langstat @langstat

#ふわっとした質問 「近年、日本のヒット曲の文章が少しずつ難しくなっている」という結果って、皆さんの直感に合いますか? 具体的には、漢語率や漢字率の微増がリーダビリティの値に影響を与えているっぽいのですが。

2015-07-16 17:16:13
langstat @langstat

日本のヒット曲における漢語と漢字の比率が増えているという点 twitter.com/langstat/statu… に関して。それと呼応するように、90年代半ばから外来語とカタカナの比率がガクっと落ちている。80年代からTKファミリーあたりは、たしかに英語「風」の歌詞が多かった印象。

2015-07-20 15:36:28
langstat @langstat

2001年年間シングルヒットチャート entamedata.web.fc2.com/music/music200… 首位が宇多田ヒカルで、トップ20に浜崎あゆみが5曲か。 そんなに漢語率の高い歌手が入っている印象はないなあ。。。

2015-07-21 13:03:49
langstat @langstat

2002年年間シングルヒットチャート entamedata.web.fc2.com/music/music200… トップ20に、この年もあゆが4曲、宇多田が3曲。あと、Mr ChildrenとDragon Ashが2曲ずつ。ふーむ。。。

2015-07-21 13:06:21
langstat @langstat

ほほう、普通名詞と連体詞はノーマークであった。 pic.twitter.com/Q8WX3lJ9tY

2015-07-21 13:23:24
拡大
langstat @langstat

回帰木だと、若干趣が異なる模様。 pic.twitter.com/Fu9ioiyF5t

2015-07-21 13:29:37
拡大
langstat @langstat

ポエムを口ずさみながら、ガラガラポンw pic.twitter.com/eVc0d18tVx

2015-07-21 13:37:44
拡大
langstat @langstat

KL divergence距離を使って、樹のお絵かきをしてみたけど、いまひとつだな。。。 pic.twitter.com/JDitLonrLT

2015-07-21 13:43:49
拡大
langstat @langstat

藤掛和美ほか(1992)「現代流行歌歌詞の移り変わり : 1970 年代と 1992 年ヒット曲との比較から」CUWC gazette 5, 49-60. ci.nii.ac.jp/naid/110000486…

2015-07-21 14:12:59
langstat @langstat

鈴木直枝・山口孝志(2000))流行歌の歌詞にみる言語の変遷: 過去34 年間のヒット曲を通して,東北生活文化大学三島学園女子短期大学紀要,31,55-65. ci.nii.ac.jp/naid/110007173…

2015-07-21 14:14:27
langstat @langstat

棚田輝嘉・山内博之(2012)「ニューミュージックの歌詞の分析 フォークソング的特徴の喪失」『實踐國文學』81, 左1-左23. ci.nii.ac.jp/naid/110008916…

2015-07-21 14:16:46
langstat @langstat

久保正敏(1995)「ニューミュージックに見る恋愛風景」『情報処理学会研究報告』CH-25, 49-57. ci.nii.ac.jp/naid/110002930…

2015-07-21 14:20:07