「ぼくたちのかんがえたさいきょうのi18n国家」の元ネタと補足

Qiitaにまとめた記事(https://qiita.com/yugui/items/55f2529c5a731badeff7)の元ネタや、足りない項目を補足してくださったtweetをまとめました
26
Masaki Hara @qnighy

i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、

2018-08-06 09:38:52
Masaki Hara @qnighy

文字が日常的にリガチャされ、多国語と字形の異なる文字を同じコードポイントで共有していて、名詞の数変化が複雑で、国内に複数のタイムゾーンを持ち、独自の太陰暦法を採用し、サマータイム制が途中から導入されていて、Excelの関数名が自国語で記述される。

2018-08-06 09:38:53
Yuki Yugui Sonoda @yugui

@qnighy 10進法でない通貨補助単位があり、タイムゾーンのUTC時差は12h以上かつ1時間未満の端数を含み、20世紀以降も異なる暦法を使っていた時期があり、隣国との係争領域を持つが隣国に地理情報を含む製品を輸出していて、街区方式と道路方式の住所システムが混在し、小数点はカンマ, 桁区切りはピリオド

2018-08-06 19:38:39
Yuki Yugui Sonoda @yugui

@qnighy 華氏でヤード・ポンド法, 首都領域が法的根拠を持つ行政区画として存在せず, 選挙区や学区が住所体系や基礎自治体と直交していて, 非法人地域を持ち, 姓を持たない氏族と任意個の父称やミドルネームを名乗る氏族がおり、選択的夫婦別姓で、敬称が複雑に変化し、相対敬語を持ち、動詞が性や数で変化する

2018-08-06 20:08:58
Yuki Yugui Sonoda @yugui

@qnighy 分かち書きしない表記法を持ち、よくわかってない外国人が文字集合を作った経緯があるので混乱した規格が存在し、Unicode未収録の文字やグリフは同一だが支配者一族専用の文字符号があり、姓名の変更が届出制で中二病にかかるとは3回ぐらい変えることがあり、性別変更手続きが存在する

2018-08-06 20:48:58
Masaki Hara @qnighy

大文字小文字があったりなかったりして、しかも大文字小文字が綺麗に一対一対応しないとか。手前から結合する母音記号とか。

2018-08-06 20:14:43
ざぎん 𒎎𒍝𒆳@C102 2日目東ペ-22a @na4zagin3

2つ以上の貨幣が併用されており、2つの公用語での表記を常に要求され、照合順序が互いに異なったり同一の言語の書記体系のみ異なったりするロケールがあり、同一の文字列がロケールの違いによって異なるものを指す固有名詞として解釈される場合があり、住所表記は街区式と道路式が並用されていると強い

2018-08-06 10:59:54
Yuki Yugui Sonoda @yugui

@qnighy qiita.com/yugui/items/55… 野暮な解題を書きました。一部、途中で力尽きました。

2018-08-06 23:40:49
gifu @gifumaster

インドは桁区切りは3桁、2桁、2桁…なのも注意(3桁区切りでも問題ないようですが) en.wikipedia.org/wiki/Indian_nu… twitter.com/yugui/status/1…

2018-08-07 07:47:20
Masaki Hara @qnighy

UI翻訳の文脈で数変化が大変な言語としてはロシア語などがある。ロシア語は文法上の数としては単数と複数しかないが、主格の位置に数詞つきの名詞が来たときは次のような規則になる: 数詞を英語と同様の規則で書き下し、最後の単語が1なら単数主格、2,3,4なら複数主格、それ以外なら複数生格。

2018-08-07 00:33:29
Masaki Hara @qnighy

つまり基本的には10で割った余りが1なら単数主格、2,3,4なら複数主格、5,6,7,8,9,0なら複数生格となる。ただし、100で割った余りが11,12,13,14のときは特別に複数生格となる。 このような規則を言語ごとに書き下したものが以下のページにまとめられている。 gnu.org/savannah-check…

2018-08-07 00:36:09
Teppei Sato @teppeis

「夏時間の期間は毎年都度発表される(ブラジル式)」を追加すると各種言語・ツールのtzdataの更新を強制できるのでおすすめ / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/eZTqju

2018-08-07 08:58:07
VM持田 @mike_neck

敬称の数が複数あって、かつその位置が full name の前後にくることがあるシステムならやったことある twitter.com/yugui/status/1…

2018-08-07 09:11:06
nishio hirokazu @nishio

「姓を先にしたい集団と後にしたい集団が同程度の人数いて、どちらを選択してももう片方が文化をないがしろにしたと激怒してクレームを入れてくる」をつけよう twitter.com/teppeis/status…

2018-08-07 09:18:07
やまけそ @ymkjp

名字のないひと、航空券の購入がパスポートと完全一致が求められるのに空欄が許容されていなくて詰むことが多い。空欄の代字がNONEあるいはMS/MRなのか航空会社によって仕様が違ってさらに詰む。標準仕様あるのかしら。 htn.to/m6Pq7bW1V7

2018-08-07 20:37:02
(call me #'knjname) @knjname

苗字必須はやめてほしい。名前はフリーテキストでよかろう。パスポートは出会ったミャンマー人は皆、 1音(苗字) + ほか(名前) で区切ってた。あとFirst Nameとかも何がファーストなのか意味不明なのでやめてほしい。 htn.to/8sh2WHqAQEt

2018-08-08 01:11:45
Michinobu Nishimoto @nismit_

文字とタイムゾーンについて。各国の違いだけでなく、地域によって言語が違う。カナダだと英語とフランス語のマルチ言語の実装が多いので、ハードコーディングはあんまりしない。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/CRRM7SYQ

2018-08-08 01:11:30
たすく a.k.a. のな @ttuusskk

@yugui @Qiita 面白いですね!他にも、大文字小文字のマッピングが違う(トルコ)とか、大文字と小文字で文字数が違う(ドイツ)とか、同じ文字だけどソート順が言語によって違うとか、RTLでも数字はLTRが普通だけど、数字もRTLな言語があるとか、無限に出てくる気がするw

2018-08-07 03:24:45
藤枝和宏 @kfujieda

僕が経験した面白事案はトルコ語のi (LATIN SMALL LETTER I)の大文字がI (LATIN CAPITAL LETTER I)じゃないというのがある。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/jKGNcCXd

2018-08-07 13:28:01
orumin @orumin

エスツェットの小文字で SS も ss もというのは最近エスツェットの大文字が正書法に現れた覚えがあるな >> ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55…

2018-08-07 23:33:02
すがや @edelweiss_zzz

unicodeおまかせでソートすると「カラカラ」と「ガラガラ」がごちゃまぜになるぞ >ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55… #Qiita

2018-08-07 19:58:47
かせいさん @kasei_san

“グリフは同一だが支配者一族を表記するための専用の文字がある” → KPS9566 / 他147コメント b.hatena.ne.jp/entry/s/qiita.… “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/rtoX6V

2018-08-07 18:42:22
Ichiro Ota (太田 一郎) 🍜 @ichiohta

LigatureのタフなやつはArabicとかですね。機能面で見落としがちなのは人名・地名のソート - qiita.com/yugui/items/55… #Qiita

2018-08-07 01:27:28
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian

i18n ホント頭痛い……。Google とか Facebook とか Twitter とか多言語対応しっかりやっててマジすごいよな……。話者少なすぎてリガチャアルゴリズムを開発する予算が取れないクメール文字とかいう話も聞いたこと… htn.to/ty9Mbd

2018-08-07 06:58:28
Takashi Kawasaki @espresso3389

あとは縦書きフォントぐらい?半角カタカナとか全角文字も正規化とかTraditionalな運用との互換性とか考えると意外と凶悪かも。 ぼくたちのかんがえたさいきょうのi18n国家 on @Qiita qiita.com/yugui/items/55…

2018-08-07 00:09:57