2015年3月28日

同じ140文字でも英語より日中韓語は2~3倍多くかけて超お得。各言語の密度を計算してみた

例えば「犬」と「i」が同じ文字数と考えただけでも結構違いますよね
65
Ken Kawamoto(ガリのほう) @kenkawakenkenke

同じ140文字でも日本語のほうが英語より沢山書けて便利だよな、と思って各言語の「密度」を計算してみた。それぞれの言語で書かれたツイートを英語に自動翻訳した文章の長さと比較。中日韓語は英語より2~3倍ぐらい多く書ける。超お得。 pic.twitter.com/RJa2GlXuul

2015-03-27 22:31:55
拡大
Ken Kawamoto(ガリのほう) @kenkawakenkenke

デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、どんな会話してんだろう。日本語だと30文字で書けることが140文字に収まらないんだぜ。このツイートも「デンマーク語なんか日本語と比べると5倍ぐらい薄いんだけど、ど」で終わり。

2015-03-27 22:36:41
Ken Kawamoto(ガリのほう) @kenkawakenkenke

河本健/GoogleのSenior Software Engineer/tempescope.comとか「子供がマッサージしたくなるTシャツ」とか1Click飲み.jpとかソフトからハードまでなんでも作る人です。作ったものは全部ここ:俺.jp

俺.jp

um @nanasi0003

@kenkawakenkenke 学生の頃、翻訳演習で「翻訳すると元の分量の1.5倍ぐらいになる」って聞いた覚えがあります 大抵の場合、母語では表現の最適化が行われるんで必ずしもこの倍率通りにはならないと思いますが、面白いデータでした @hayano

2015-03-27 23:34:42
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@nanasi0003 なので参考値として英語のツイートを日本語に翻訳して英語に再翻訳しなおしたデータを「英語(reference)」として載せてます。5%増ぐらいです。とはいいつつ仰る通り色んなバイアスが考えられるんで、まあ遊び程度に捉えてくださいな

2015-03-27 23:38:40
歳納京子 @1__p0

@kenkawakenkenke これって先行研究はありますよね

2015-03-27 23:47:24
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@1__p0 ありますよ。僕は機械翻訳使ってるんで、あなたの挙げた論文とは方法が違いますが。僕と同じ方法とってる人も過去に複数あります。 people.oii.ox.ac.uk/hanteng/2013/0…

2015-03-27 23:58:40
はいど☆れんじあ @qwertytappy

@kenkawakenkenke データを見ると日中韓が飛び抜けて多い気がします。中国は漢字、日本も漢字+平仮名等で納得なのですが、韓国語のハングルは発音の記述をする言語(アルファベットと同じ)のように理解しています。英語やその他の言語より情報量が多くなる理由は何なのでしょうか?

2015-03-27 23:51:35
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@ajisaitakeoka ハングル知らないんで分からんす。ぜひ詳しい人に聞いてみてくださいな。

2015-03-28 00:04:26
7219546170.42BTC @9YbrUHWt

@kenkawakenkenke バイト数でカウントしてないですね。バイト数換算のハンディ付けないと表意文字・表音文字の情報量の差ということくらいしか言えないのでは。確かにツイッターの仕様上”お得”ではあるけれど。

2015-03-27 23:59:44
Ken Kawamoto(ガリのほう) @kenkawakenkenke

@9YbrUHWt ツイッターの仕様の話をしてるんで。各国で同じツール使ってるつもりでも言語が違うだけで使い方が(多分)かなり変えられてしまうのが面白いな、と思って公開したデータです。

2015-03-28 00:02:51
電子つんどく🐶 @tundoc

ハングルも表音文字のはずなのに密度が際立って高いのはなぜだろう。フランス語の密度が英語の約半分。これはどういうことだろう? >RT

2015-03-28 08:16:40
電子つんどく🐶 @tundoc

情報理論的には、漢字の数やアルファベットの数が密度を決定付けるところまではわかる。

2015-03-28 08:20:14
電子つんどく🐶 @tundoc

韓国語では、漢字の音読みをハングルで表記することが多いから密度が高いのかな。つまり、表音文字でありながら漢字の意味を伝達しているとか、そういうことかな。ならば、聞き手あるいは読み手は「同音異字」ならぬ「同音意味」を認識できないといけない。つまり、コンテキストに依存することになる。

2015-03-28 08:25:22
電子つんどく🐶 @tundoc

韓国語は高度にcontext-drivenな言語なのかもしれないな。

2015-03-28 08:27:20
電子つんどく🐶 @tundoc

表音文字クラスターの中では英語も密度が高い。英語もコンテキスト依存性が大きい言語なのかな。だとしたら、これは英語の習得を難しくさせている要因の一つかも。

2015-03-28 08:58:14
電子つんどく🐶 @tundoc

東アジア三ヶ国(日中韓)の文化や世界観、人生観、ものの見方、考え方は世界の中で異彩を放っている。これは言語の特徴が影響しているのかな。それとも逆に、人々の文化的な特性が特異な言語を生み出したのかな。

2015-03-28 09:06:54
すだち @sounds_so_good

東アジアの言語圧倒的だな。概ね漢字のおかげだとは思うんだけど、表象文字だったらなんでも密度が高い、っていうことなのか、文法の特性とかもあるのかな。

2015-03-27 23:55:25
やまねこ⚙楢ノ木技研 @felis_silv

中国語の言語の密度は半端ないよね。。中国製のゲームを日本語や英語に翻訳したら、表示枠に文字列がぜんぜん収まらないとか、よくある。。

2015-03-28 08:27:15
けふくわ🌱にら @onuzim0128

こんな違うのかー マルチリンガルがノーマルになったらSMSによって言語使い分けるとかしたらむねあつ、てか利便性からしたら密度が低い言語は淘汰されていく可能性もあるのかな

2015-03-28 10:47:48
野菜サラダ @salad831

デンマーク語めっちゃかわいそう

2015-03-28 11:10:02
野菜サラダ @salad831

日本語の1/4くらいしかツイートできないってことだよな、日本語の35文字までしかツイートできん

2015-03-28 11:11:22
野菜サラダ @salad831

35文字というとほんとうに軽い挨拶ていどのことしかツイートできないよね(35文字)

2015-03-28 11:12:00
フィッターR∃ @su22m4r

表意文字があるのはでかいよなあ

2015-03-28 11:27:14
残りを読む(3)

コメント

岡一輝 @okaikki 2015年3月28日
ちょとWikisourceで探してみた。 中:元始有道、道偕上帝、道卽上帝也、 日:初めに言があった。言は神と共にあった。言は神であった。 英:In the beginning was the Word, and the Word was with God, and the Word was God. なるほどなーと思った。
10
y2_naranja@🦀ナランハ🍊 @y2_naranja 2015年3月28日
中国語の効率の良さは異常。ハングルは「表音文字」といっても、1文字に漢字1文字分位の発音を含む複雑な文字体系なので情報の圧縮率は高いと思う。 英語の圧縮率が高いのは単語当たりの文字数が少なめなせいだろうか。スペイン語も圧縮率高い方だと思うけど、どうだろう。
3
カスガ @kasuga391 2015年3月28日
単純に、ハングルは一文字で「子音+母音(+子音)」を表しているからではないでしょうか。>ハングルも表音文字のはずなのに密度が際立って高いのはなぜだろう。
5
カスガ @kasuga391 2015年3月28日
あと、フランス語を含めた他の印欧語の密度が一見英語より低く見えるのも、単に機械翻訳の冗長性のためで、実際の密度は大して変わらないのではないかと思います。
7
カスガ @kasuga391 2015年3月28日
たとえば「This is a pen.」をgoogle翻訳でフランス語にすると、「Il se agit d'un stylo.」と長ったらしい文章に変換されてしまいます。逆に「C'est un stylo.」をエキサイト翻訳すると、「It is a fountain pen.」と余計なfountainがくっついてきます。
8
y2_naranja@🦀ナランハ🍊 @y2_naranja 2015年3月28日
あ、自動翻訳だとスペイン語は長くなっちゃうのか。 スペイン語は主語を省略できたり(自動翻訳では省略されない)、何かとお得な文法を持つので、もう少し圧縮率は良いです。
4
y2_naranja@🦀ナランハ🍊 @y2_naranja 2015年3月28日
圧縮率悪い言語の話者の間で絵文字が流行るのも、これなら納得いく
2
tstyu @delusuzarla 2015年3月28日
韓国は指摘されている通り、元々が「表意文字」の読みであったがための圧縮でしょう。例えば水素をスソというわけですが2文字で済みます。これが最初から「表音文字」だけで水素という概念を表そうとしたら英語を始め見ればわかるようにかなりの文字数になっていたわけです。その代わり漢字を失った事によって文脈の中に置かない限り意味の判別ができない「同音異義語」が多数になったとか。
2
ハチマキくろだ @hatimaki_kuroda 2015年3月28日
同じ表音どうしのタイ語とベトナム語が明らかに違うのが面白いですよね。
0
ハチマキくろだ @hatimaki_kuroda 2015年3月28日
コンピュータでのハングルの実装が「音素+わかち書き」だったら、というifを考えたら面白いかも。
0
ざの人 @zairo21 2015年3月28日
やはり表意文字と表音文字の差。ツイッターで140字以内に収めようと考える。もっと少ない単語や表現に置き換えようと悩んだ人が実感できる話←これかなり短縮して推敲した結果ですw
0
hide @samayoumono 2015年3月28日
ハングル一文字はアルファベット三文字分ぐらいかな?
0
まいんどふれいあ🥃🍶 @et2_o 2015年3月28日
単語間のスペースも地味に痛いですよね 1単語5~6文字と見積もっても1割以上+スペースで使わされてしまう
1
まいんどふれいあ🥃🍶 @et2_o 2015年3月28日
海外の有名人の呟きとかスラングというか略語(uとか4とか2とか)バンバン出てきてワケワカメな時が有ったけど、日本人の想像する以上に苦労してるんだろうなぁ
5
緑川⋈だむ @Dam_midorikawa 2015年3月28日
漢字一文字が英単語一つに該当するんだから、英語圏も16ビットコードを6万個ぐらいの単語に割り振って「英単語という文字」をこさえれば密度あげられるんじゃないかな
4
欲rigst🔞 @rigst 2015年3月28日
IPAで書いて比較したらどうなるんだろうとふと思った。
0
みながわ あおい @Minagawa_Aoi 2015年3月28日
ハングルは、ローマ字に直せば cheong のような音節を1文字で表記できます。1文字平均にすればローマ字3文字ぐらいに相当すると思います。
0
狐謡 @Towa_towa_to 2015年3月29日
Dam_midorikawa その6万個を暗記しなきゃ文章が読めない訳だから、効率性が損なわれるんじゃないか?言わば「6万種の暗号文字」な訳だし。漢字ですら、常用漢字は二千字強。それですら、魚の名前とか知ってなきゃちんぷんかんぷんだからな。普段使いの漢字は、慣れもあるけど、音や意味が通じやすいように工夫されてる訳で、「圧縮英単語」にもそういう仕組みが要ると思う。
0
3mのちくわ(20禁) @tikuwa_zero 2015年3月29日
日中韓語の効率が良いという話から、本来Twitterが想定しているのは「極短い短文」を投稿するって事なんだろうなあとか、真にローカライズするなら、日中韓語版のみ制限70文字とかにすべきだったのかもなあとか色々想像したり。
6
nekosencho @Neko_Sencho 2015年3月29日
漢字その他で高密度で書けるかわり、文字の学習が相当に負担になってるわけで、単に一長一短じゃないですかね。漢字だとまだ中学とかでも新しい文字を習うけど、たとえば英語圏で中学相当の学年でまだアルファベット習ってるってことはないだろうしさ
3
namoshika @namoshika 2015年3月29日
言語仕様的に効率は良いが実際のところ中身があるわけではないそうな。 「日本語ツイートの情報量は、世界で2番目に少ないらしい」(http://blog.yubais.net/3.html)"1ツイートあたりの情報量は、26言語中で2番目に小さい"
1
ハドロン @hadoron1203 2015年3月29日
日本語は感情や動作を顔文字や記号で表現できるしな♪圧縮表現や短縮表現も自在。orzとかさ。まぁ世代にも依ると思うけど。
0
緑川⋈だむ @Dam_midorikawa 2015年3月29日
Towa_towa_to かな漢字変換と同様に、アルファベットを入力したら圧縮単語フォントに変換して、表示されるのは「英単語一つ分を盛り込んだ横長の文字」にすればいいんじゃないかな
1
ハチマキくろだ @hatimaki_kuroda 2015年3月29日
「メートル」は4文字だけど「㍍」は1文字みたいな。
5
茨 二科 @ibaranika 2015年3月29日
日本語の140文字相当だと、結構な情報量になる一方、悪意ある人間による文章の改変もしやすい。 大量のタグをbotやスパムが貼付可能など、運営側からするとデメリットはあるかも
0
Ukat.U @t_UJ 2015年3月29日
話し言葉の密度だとどうなるんだろう? 歌詞を訳す時になかなか収まらなくて困るなんて話も聞くし、感覚的には、日本語はシラブルを単位にすると長くなりがちな気がする。
0
sleepsounds @sleepsounds 2015年3月29日
たまに英語圏の人あてにツイートしようとすると大体いつも言いたいことの半分も入らなくて四苦八苦するんだよなあ。逆にと言うか、俳句みたいに音の数でカウントすると英語のが長くなったりするよね。
0
҉ @chika_hrs 2015年3月29日
「漢字その他で高密度で書けるかわり、文字の学習が相当に負担になってる」との関連でこんな話を思い出しました、こっちはプログラミング言語の処理系の話ですが "404 Blog Not Found:Math - 01者で読んでいないと恥ずかしい必読論文" http://blog.livedoor.jp/dankogai/archives/51526130.html
0
H.Hiro @h_hiro_ 2015年7月27日
一時Twitterで、文字数の制限が「140文字」ではなく「UTF-8で140バイト」ってときがあったようななかったような。そうすると日本語でも欧米語と似たような情報量になりそう
0
k_wakita 今さら円形アイコン対応 @k_wakita 2015年7月30日
Twitter知った時は「日本語では70文字」と思っていました
3
スイスイ @Naotibus 2016年5月21日
なんでデンマーク語はこんなにも低いの? 英語もあまり変わらないと思うけど。
0