「ぼくたちのかんがえたさいきょうのi18n国家」の元ネタと補足

Qiitaにまとめた記事(https://qiita.com/yugui/items/55f2529c5a731badeff7)の元ネタや、足りない項目を補足してくださったtweetをまとめました
地理 i18n 言語学 国際化
5232view 14コメント
23
Masaki Hara @qnighy
i18n力が最強の国は国内に複数の言語があり、そのうちいくつかは他国でも使われている言語の方言で、1バイト文字での代替表記が困難で、歴史的にISO-2022ベースの文字コードとUnicodeと独自エンコーディングが混在していて、フリガナなどの特殊な組版規則があり、右書き左書き縦書きを併用し、
Masaki Hara @qnighy
文字が日常的にリガチャされ、多国語と字形の異なる文字を同じコードポイントで共有していて、名詞の数変化が複雑で、国内に複数のタイムゾーンを持ち、独自の太陰暦法を採用し、サマータイム制が途中から導入されていて、Excelの関数名が自国語で記述される。
Yuki Yugui Sonoda @yugui
@qnighy 10進法でない通貨補助単位があり、タイムゾーンのUTC時差は12h以上かつ1時間未満の端数を含み、20世紀以降も異なる暦法を使っていた時期があり、隣国との係争領域を持つが隣国に地理情報を含む製品を輸出していて、街区方式と道路方式の住所システムが混在し、小数点はカンマ, 桁区切りはピリオド
Yuki Yugui Sonoda @yugui
@qnighy 華氏でヤード・ポンド法, 首都領域が法的根拠を持つ行政区画として存在せず, 選挙区や学区が住所体系や基礎自治体と直交していて, 非法人地域を持ち, 姓を持たない氏族と任意個の父称やミドルネームを名乗る氏族がおり、選択的夫婦別姓で、敬称が複雑に変化し、相対敬語を持ち、動詞が性や数で変化する
Yuki Yugui Sonoda @yugui
@qnighy 分かち書きしない表記法を持ち、よくわかってない外国人が文字集合を作った経緯があるので混乱した規格が存在し、Unicode未収録の文字やグリフは同一だが支配者一族専用の文字符号があり、姓名の変更が届出制で中二病にかかるとは3回ぐらい変えることがあり、性別変更手続きが存在する
Masaki Hara @qnighy
大文字小文字があったりなかったりして、しかも大文字小文字が綺麗に一対一対応しないとか。手前から結合する母音記号とか。
ざぎん@C95月曜日3日目東L-08b @na4zagin3
2つ以上の貨幣が併用されており、2つの公用語での表記を常に要求され、照合順序が互いに異なったり同一の言語の書記体系のみ異なったりするロケールがあり、同一の文字列がロケールの違いによって異なるものを指す固有名詞として解釈される場合があり、住所表記は街区式と道路式が並用されていると強い
Yuki Yugui Sonoda @yugui
@qnighy qiita.com/yugui/items/55… 野暮な解題を書きました。一部、途中で力尽きました。
gifu @gifumaster
インドは桁区切りは3桁、2桁、2桁…なのも注意(3桁区切りでも問題ないようですが) en.wikipedia.org/wiki/Indian_nu… twitter.com/yugui/status/1…
Masaki Hara @qnighy
UI翻訳の文脈で数変化が大変な言語としてはロシア語などがある。ロシア語は文法上の数としては単数と複数しかないが、主格の位置に数詞つきの名詞が来たときは次のような規則になる: 数詞を英語と同様の規則で書き下し、最後の単語が1なら単数主格、2,3,4なら複数主格、それ以外なら複数生格。
Masaki Hara @qnighy
つまり基本的には10で割った余りが1なら単数主格、2,3,4なら複数主格、5,6,7,8,9,0なら複数生格となる。ただし、100で割った余りが11,12,13,14のときは特別に複数生格となる。 このような規則を言語ごとに書き下したものが以下のページにまとめられている。 gnu.org/savannah-check…
Teppei Sato @teppeis
「夏時間の期間は毎年都度発表される(ブラジル式)」を追加すると各種言語・ツールのtzdataの更新を強制できるのでおすすめ / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/eZTqju
石◯王 もちだ @mike_neck
敬称の数が複数あって、かつその位置が full name の前後にくることがあるシステムならやったことある twitter.com/yugui/status/1…
nishio hirokazu @nishio
「姓を先にしたい集団と後にしたい集団が同程度の人数いて、どちらを選択してももう片方が文化をないがしろにしたと激怒してクレームを入れてくる」をつけよう twitter.com/teppeis/status…
ヤマケソ 🏳️ @ymkjp
名字のないひと、航空券の購入がパスポートと完全一致が求められるのに空欄が許容されていなくて詰むことが多い。空欄の代字がNONEあるいはMS/MRなのか航空会社によって仕様が違ってさらに詰む。標準仕様あるのかしら。 htn.to/m6Pq7bW1V7
(call me #'knjname) @knjname
苗字必須はやめてほしい。名前はフリーテキストでよかろう。パスポートは出会ったミャンマー人は皆、 1音(苗字) + ほか(名前) で区切ってた。あとFirst Nameとかも何がファーストなのか意味不明なのでやめてほしい。 htn.to/8sh2WHqAQEt
Michinobu Nishimoto @nismit_
文字とタイムゾーンについて。各国の違いだけでなく、地域によって言語が違う。カナダだと英語とフランス語のマルチ言語の実装が多いので、ハードコーディングはあんまりしない。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/CRRM7SYQ
たすく a.k.a のな @ttuusskk
@yugui @Qiita 面白いですね!他にも、大文字小文字のマッピングが違う(トルコ)とか、大文字と小文字で文字数が違う(ドイツ)とか、同じ文字だけどソート順が言語によって違うとか、RTLでも数字はLTRが普通だけど、数字もRTLな言語があるとか、無限に出てくる気がするw
藤枝和宏 - ぱんなこった@佐鎮 @kfujieda
僕が経験した面白事案はトルコ語のi (LATIN SMALL LETTER I)の大文字がI (LATIN CAPITAL LETTER I)じゃないというのがある。 / “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/jKGNcCXd
出雲国エリカちゃん@orumin @kotatsu_mi
エスツェットの小文字で SS も ss もというのは最近エスツェットの大文字が正書法に現れた覚えがあるな >> ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55…
すがや @edelweiss_zzz
unicodeおまかせでソートすると「カラカラ」と「ガラガラ」がごちゃまぜになるぞ >ぼくたちのかんがえたさいきょうのi18n国家 qiita.com/yugui/items/55… #Qiita
かせいさん @kasei_san
“グリフは同一だが支配者一族を表記するための専用の文字がある” → KPS9566 / 他147コメント b.hatena.ne.jp/entry/s/qiita.… “ぼくたちのかんがえたさいきょうのi18n国家” htn.to/rtoX6V
Ichiro Ota @ichiohta
LigatureのタフなやつはArabicとかですね。機能面で見落としがちなのは人名・地名のソート - qiita.com/yugui/items/55… #Qiita
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian
i18n ホント頭痛い……。Google とか Facebook とか Twitter とか多言語対応しっかりやっててマジすごいよな……。話者少なすぎてリガチャアルゴリズムを開発する予算が取れないクメール文字とかいう話も聞いたこと… htn.to/ty9Mbd
Takashi Kawasaki @espresso3389
あとは縦書きフォントぐらい?半角カタカナとか全角文字も正規化とかTraditionalな運用との互換性とか考えると意外と凶悪かも。 ぼくたちのかんがえたさいきょうのi18n国家 on @Qiita qiita.com/yugui/items/55…
残りを読む(17)

コメント

りお @rioriost 8月9日
読んでると涙が止まらない内容なんだが
CD @cleardice 8月9日
リアリティがないので没(なんかの編集者)
さとうあきひろ @akihirosato1975 8月9日
現実的には、自分でこれらのi18n情報を一から実装するのはとても無理なので、Windowsだったら.NETのCultureInfoあたりの機能を使うことになるのかなぁ。セキュリティ的に網羅的にチェックしたいときはカルチャにCULTURE_INVARIANTを指定したりして。Linuxだとlibicui18nあたり使う?(libicu系はあまり使った経験がないのでよくわからない)
しょーた @shota243 8月9日
ほとんど良いのだが…「1バイト文字」ってのと「国」ってのはどうしてももにょる。
山吹色のかすてーら @sir_manmos 8月9日
大阪市内には1番2番3番の次が「渡辺」って場所がある。
いぬだわん @InuWang 8月10日
ISO-8859-1ならそうそう化けないだろうと指定したのに勝手にCP-1252にしてくれる奴が居たりする
小熊善之 @0guma 8月10日
そういえば日本語のソート順というと「電話帳順」という発音でも文字でもないその中間くらいのソートオーダーというものが昔あった。
小熊善之 @0guma 8月10日
あと上では「太陰暦」(恐らくヒジュラ暦)に限ってたけど、この世界にはペルシャ暦やインド国定暦という非グレゴリオ暦の太陽暦というものが存在する。また、インド国定暦ではない民間で使用されてい[た|る]「インド暦」は太陽年ではなく恒星年基準なので、歳差を考慮しない太陽暦だったりする。
さく @sakuro 8月10日
いつだったか、JavaのCalenderインターフェイスを実装した天晶暦の実増そうを試みて、1週7日しか想定していないことが分かって挫折した。
denev @_denev_ 8月10日
こんなにも矛盾だらけでいい加減なフォーマットを当然のように使いこなす人間の頭はどうなってるんだろう。
小熊善之 @0guma 8月12日
ふと思い出したのだが、言語の中には一つの言語で複数の書記系を持っている言語ってのもあるんだよね。カザフ語みたいに、アラビア文字表記とキリル文字表記とラテン文字表記があって、最近カザフスタンがキリルからラテンに切り替えると言い出したとか。一番多いのは多分モンゴル語だろうけど。
ログインして広告を非表示にする
ログインして広告を非表示にする