同じ140文字でも英語より日中韓語は2~3倍多くかけて超お得。各言語の密度を計算してみた

例えば「犬」と「i」が同じ文字数と考えただけでも結構違いますよね
79
Ken Kawamoto(ガリのほう) @kenkawakenkenke

同じ140文字でも日本語のほうが英語より沢山書けて便利だよな、と思って各言語の「密度」を計算してみた。それぞれの言語で書かれたツイートを英語に自動翻訳した文章の長さと比較。中日韓語は英語より2~3倍ぐらい多く書ける。超お得。 pic.twitter.com/RJa2GlXuul

2015-03-27 22:31:55
拡大
Ken Kawamoto(ガリのほう) @kenkawakenkenke

デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、どんな会話してんだろう。日本語だと30文字で書けることが140文字に収まらないんだぜ。このツイートも「デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、ど」で終わり。

2015-03-27 22:36:41
Ken Kawamoto(ガリのほう) @kenkawakenkenke

河本健/Staff Software Engineer @Google Sydney🇦🇺/https://t.co/FTYOuNwzCAとか「子供がマッサージしたくなるTシャツ」とか1Click飲み.jpとかソフトからハードまでなんでも作る人です。作ったものは全部ここ:俺.jp

https://t.co/apxCRFYaGf

um @nanasi0003

@kenkawakenkenke 学生の頃、翻訳演習で「翻訳すると元の分量の1.5倍ぐらいになる」って聞いた覚えがあります 大抵の場合、母語では表現の最適化が行われるんで必ずしもこの倍率通りにはならないと思いますが、面白いデータでした @hayano

2015-03-27 23:34:42
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@nanasi0003 なので参考値として英語のツイートを日本語に翻訳して英語に再翻訳しなおしたデータを「英語(reference)」として載せてます。5%増ぐらいです。とはいいつつ仰る通り色んなバイアスが考えられるんで、まあ遊び程度に捉えてくださいな

2015-03-27 23:38:40
歳納京子 @1__p0

@kenkawakenkenke これって先行研究はありますよね

2015-03-27 23:47:24
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@1__p0 ありますよ。僕は機械翻訳使ってるんで、あなたの挙げた論文とは方法が違いますが。僕と同じ方法とってる人も過去に複数あります。 people.oii.ox.ac.uk/hanteng/2013/0…

2015-03-27 23:58:40
はいど☆れんじあ @qwertytappy

@kenkawakenkenke データを見ると日中韓が飛び抜けて多い気がします。中国は漢字、日本も漢字+平仮名等で納得なのですが、韓国語のハングルは発音の記述をする言語(アルファベットと同じ)のように理解しています。英語やその他の言語より情報量が多くなる理由は何なのでしょうか?

2015-03-27 23:51:35
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@ajisaitakeoka ハングル知らないんで分からんす。ぜひ詳しい人に聞いてみてくださいな。

2015-03-28 00:04:26
7219546170.42BTC @9YbrUHWt

@kenkawakenkenke バイト数でカウントしてないですね。バイト数換算のハンディ付けないと表意文字・表音文字の情報量の差ということくらいしか言えないのでは。確かにツイッターの仕様上”お得”ではあるけれど。

2015-03-27 23:59:44
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@9YbrUHWt ツイッターの仕様の話をしてるんで。各国で同じツール使ってるつもりでも言語が違うだけで使い方が(多分)かなり変えられてしまうのが面白いな、と思って公開したデータです。

2015-03-28 00:02:51
電子つんどく🐶 @tundoc

ハングルも表音文字のはずなのに密度が際立って高いのはなぜだろう。フランス語の密度が英語の約半分。これはどういうことだろう? >RT

2015-03-28 08:16:40
電子つんどく🐶 @tundoc

情報理論的には、漢字の数やアルファベットの数が密度を決定付けるところまではわかる。

2015-03-28 08:20:14
電子つんどく🐶 @tundoc

韓国語では、漢字の音読みをハングルで表記することが多いから密度が高いのかな。つまり、表音文字でありながら漢字の意味を伝達しているとか、そういうことかな。ならば、聞き手あるいは読み手は「同音異字」ならぬ「同音意味」を認識できないといけない。つまり、コンテキストに依存することになる。

2015-03-28 08:25:22
電子つんどく🐶 @tundoc

韓国語は高度にcontext-drivenな言語なのかもしれないな。

2015-03-28 08:27:20
電子つんどく🐶 @tundoc

表音文字クラスターの中では英語も密度が高い。英語もコンテキスト依存性が大きい言語なのかな。だとしたら、これは英語の習得を難しくさせている要因の一つかも。

2015-03-28 08:58:14
電子つんどく🐶 @tundoc

東アジア三ヶ国(日中韓)の文化や世界観、人生観、ものの見方、考え方は世界の中で異彩を放っている。これは言語の特徴が影響しているのかな。それとも逆に、人々の文化的な特性が特異な言語を生み出したのかな。

2015-03-28 09:06:54
すだち @sounds_so_good

東アジアの言語圧倒的だな。概ね漢字のおかげだとは思うんだけど、表象文字だったらなんでも密度が高い、っていうことなのか、文法の特性とかもあるのかな。

2015-03-27 23:55:25
やまねこ⚙楢ノ木技研 @felis_silv

中国語の言語の密度は半端ないよね。。中国製のゲームを日本語や英語に翻訳したら、表示枠に文字列がぜんぜん収まらないとか、よくある。。

2015-03-28 08:27:15
けふくわ🌱にら @onuzim0128

こんな違うのかー マルチリンガルがノーマルになったらSMSによって言語使い分けるとかしたらむねあつ、てか利便性からしたら密度が低い言語は淘汰されていく可能性もあるのかな

2015-03-28 10:47:48
野菜サラダ @salad831

デンマーク語めっちゃかわいそう

2015-03-28 11:10:02
野菜サラダ @salad831

日本語の1/4くらいしかツイートできないってことだよな、日本語の35文字までしかツイートできん

2015-03-28 11:11:22
野菜サラダ @salad831

35文字というとほんとうに軽い挨拶ていどのことしかツイートできないよね(35文字)

2015-03-28 11:12:00
フィッターR∃ @su22m4r

表意文字があるのはでかいよなあ

2015-03-28 11:27:14