「ぼくたちのかんがえたさいきょうのi18n国家」の元ネタと補足
i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、
2018-08-06 09:38:52文字が日常的にリガチャされ、多国語と字形の異なる文字を同じコードポイントで共有していて、名詞の数変化が複雑で、国内に複数のタイムゾーンを持ち、独自の太陰暦法を採用し、サマータイム制が途中から導入されていて、Excelの関数名が自国語で記述される。
2018-08-06 09:38:53@qnighy 10進法でない通貨補助単位があり、タイムゾーンのUTC時差は12h以上かつ1時間未満の端数を含み、20世紀以降も異なる暦法を使っていた時期があり、隣国との係争領域を持つが隣国に地理情報を含む製品を輸出していて、街区方式と道路方式の住所システムが混在し、小数点はカンマ, 桁区切りはピリオド
2018-08-06 19:38:39@qnighy 華氏でヤード・ポンド法, 首都領域が法的根拠を持つ行政区画として存在せず, 選挙区や学区が住所体系や基礎自治体と直交していて, 非法人地域を持ち, 姓を持たない氏族と任意個の父称やミドルネームを名乗る氏族がおり、選択的夫婦別姓で、敬称が複雑に変化し、相対敬語を持ち、動詞が性や数で変化する
2018-08-06 20:08:58@qnighy 分かち書きしない表記法を持ち、よくわかってない外国人が文字集合を作った経緯があるので混乱した規格が存在し、Unicode未収録の文字やグリフは同一だが支配者一族専用の文字符号があり、姓名の変更が届出制で中二病にかかるとは3回ぐらい変えることがあり、性別変更手続きが存在する
2018-08-06 20:48:582つ以上の貨幣が併用されており、2つの公用語での表記を常に要求され、照合順序が互いに異なったり同一の言語の書記体系のみ異なったりするロケールがあり、同一の文字列がロケールの違いによって異なるものを指す固有名詞として解釈される場合があり、住所表記は街区式と道路式が並用されていると強い
2018-08-06 10:59:54@qnighy qiita.com/yugui/items/55… 野暮な解題を書きました。一部、途中で力尽きました。
2018-08-06 23:40:49インドは桁区切りは3桁、2桁、2桁…なのも注意(3桁区切りでも問題ないようですが) en.wikipedia.org/wiki/Indian_nu… twitter.com/yugui/status/1…
2018-08-07 07:47:20UI翻訳の文脈で数変化が大変な言語としてはロシア語などがある。ロシア語は文法上の数としては単数と複数しかないが、主格の位置に数詞つきの名詞が来たときは次のような規則になる: 数詞を英語と同様の規則で書き下し、最後の単語が1なら単数主格、2,3,4なら複数主格、それ以外なら複数生格。
2018-08-07 00:33:29つまり基本的には10で割った余りが1なら単数主格、2,3,4なら複数主格、5,6,7,8,9,0なら複数生格となる。ただし、100で割った余りが11,12,13,14のときは特別に複数生格となる。 このような規則を言語ごとに書き下したものが以下のページにまとめられている。 gnu.org/savannah-check…
2018-08-07 00:36:09「夏時間の期間は毎年都度発表される(ブラジル式)」を追加すると各種言語・ツールのtzdataの更新を強制できるのでおすすめ / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/eZTqju
2018-08-07 08:58:07敬称の数が複数あって、かつその位置が full name の前後にくることがあるシステムならやったことある twitter.com/yugui/status/1…
2018-08-07 09:11:06「姓を先にしたい集団と後にしたい集団が同程度の人数いて、どちらを選択してももう片方が文化をないがしろにしたと激怒してクレームを入れてくる」をつけよう twitter.com/teppeis/status…
2018-08-07 09:18:07名字のないひと、航空券の購入がパスポートと完全一致が求められるのに空欄が許容されていなくて詰むことが多い。空欄の代字がNONEあるいはMS/MRなのか航空会社によって仕様が違ってさらに詰む。標準仕様あるのかしら。 htn.to/m6Pq7bW1V7
2018-08-07 20:37:02苗字必須はやめてほしい。名前はフリーテキストでよかろう。パスポートは出会ったミャンマー人は皆、 1音(苗字) + ほか(名前) で区切ってた。あとFirst Nameとかも何がファーストなのか意味不明なのでやめてほしい。 htn.to/8sh2WHqAQEt
2018-08-08 01:11:45文字とタイムゾーンについて。各国の違いだけでなく、地域によって言語が違う。カナダだと英語とフランス語のマルチ言語の実装が多いので、ハードコーディングはあんまりしない。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/CRRM7SYQ
2018-08-08 01:11:30@yugui @Qiita 面白いですね!他にも、大文字小文字のマッピングが違う(トルコ)とか、大文字と小文字で文字数が違う(ドイツ)とか、同じ文字だけどソート順が言語によって違うとか、RTLでも数字はLTRが普通だけど、数字もRTLな言語があるとか、無限に出てくる気がするw
2018-08-07 03:24:45僕が経験した面白事案はトルコ語のi (LATIN SMALL LETTER I)の大文字がI (LATIN CAPITAL LETTER I)じゃないというのがある。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/jKGNcCXd
2018-08-07 13:28:01エスツェットの小文字で SS も ss もというのは最近エスツェットの大文字が正書法に現れた覚えがあるな >> ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55…
2018-08-07 23:33:02unicodeおまかせでソートすると「カラカラ」と「ガラガラ」がごちゃまぜになるぞ >ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55… #Qiita
2018-08-07 19:58:47“グリフは同一だが支配者一族を表記するための専用の文字がある” → KPS9566 / 他147コメント b.hatena.ne.jp/entry/s/qiita.… “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/rtoX6V
2018-08-07 18:42:22LigatureのタフなやつはArabicとかですね。機能面で見落としがちなのは人名・地名のソート - qiita.com/yugui/items/55… #Qiita
2018-08-07 01:27:28i18n ホント頭痛い……。Google とか Facebook とか Twitter とか多言語対応しっかりやっててマジすごいよな……。話者少なすぎてリガチャアルゴリズムを開発する予算が取れないクメール文字とかいう話も聞いたこと… htn.to/ty9Mbd
2018-08-07 06:58:28あとは縦書きフォントぐらい?半角カタカナとか全角文字も正規化とかTraditionalな運用との互換性とか考えると意外と凶悪かも。 ぼくたちのかんがえたさいきょうのi18n国家 on @Qiita qiita.com/yugui/items/55…
2018-08-07 00:09:57