80〜90年代のシフトJISの諸方言について

日本のPCの黎明期には、各社がシフトJISにベンダ外字セットを独自に付け加えていたものでした。ついこの間のことだと思っていたら、今それらの機種依存文字の詳細を調べようと思うとなかなか骨なようです。
35
小形克宏 @ogwata

ただ今シフトJIS外字について調べているのだけど、頭の中を整理するためにまとめておきます。

2013-05-14 16:54:36
小形克宏 @ogwata

1980年代から1990年代にかけて登場した、パソコンにおけるシフトJISについて、信頼できる先行文献としては次の2つ。「日経バイト」1996年5月号所収「土台揺らぐ日本語処理」(pp.184-211)、Ken Lunde 『CJKV』オライリー・ジャパン、2002年。

2013-05-14 16:59:33
小形克宏 @ogwata

(なお、不勉強ことにCJKVのセカンド・エディションは未読のまま。なるべく早くオライリーのe-bookバーゲンの折りを捉えて購入するつもり)

2013-05-14 17:01:46
小形克宏 @ogwata

ところが、このふたつで数字が微妙に食い違っている。双方とも記述はしっかりしていて信頼できるだけに、悩みどころ。

2013-05-14 17:03:11
小形克宏 @ogwata

なお、CJKVは対象を仕様として捉えとうとしているのに対し、日経バイトはピンポイントの実装を調査しているという違いがある。そうした姿勢から違いが出たとも考えられるが……正直どうして数字が食い違うのか理解に苦しむ。

2013-05-14 17:05:46
小形克宏 @ogwata

以下、その例。なお、括弧内は日経バイトの表記。漢字Talk7文字集合(漢字Talk 7.1)、9区〜15区:CJKV→260文字、日経バイト→259文字、ユーザ定義外字:CJKV→2,444文字、日経バイト→記載なし

2013-05-14 17:07:45
UTF-8はBOMなしでって言ったよね? @moji_memo

@ogwata わたしは漢字Talk 7以降のユーザなのでよく知らないのですが、漢字Talk 6.0.7にはユーザ定義外字を作成・登録する仕組み(外字コントロールパネル)があったようなので、たぶんそれが0xF040以降を使う仕様だったんじゃないかと。 @ken_lunde

2013-05-15 11:40:05
Ken Lunde 小林剣 @ken_lunde

@moji_memo 漢字Talk 6.0.7の外字は0xF040から0xF9FCまで(1,880字)だと思います。@ogwata

2013-05-15 11:59:20
小形克宏 @ogwata

DBCS-PC及びDBCS-PCーEUC(OS/2)、144区~119区:CJKV→388文字、日経バイト→386文字

2013-05-14 17:08:26
小形克宏 @ogwata

FMR漢字(FMR)、87区~93区:CJKV→記載なし、日経バイト→583文字、119区~120区:CJKV→記載なし、日経バイト→33文字(以上「富士通拡張」として)、ユーザ定義外字:CJKV→2,444文字、日経バイト→1,880文字

2013-05-14 17:09:38
小形克宏 @ogwata

NEC漢字:日経バイトには記載なし、AX:CJKVには記載なし

2013-05-14 17:10:19
小形克宏 @ogwata

先行文献に食い違いがある場合、一次資料にあたる他ない。しかしこの場合どうやって入手すればよいか……。安岡先生にお聴きする他ないかなあ……。以上。

2013-05-14 17:12:38
小形克宏 @ogwata

中でもFMRでの食い違いが目につく。とくに日経バイトでは「富士通拡張」としたレパートリについて、CJKVではまったく言及がない。註の文言から、日経バイトでは富士通ミドルウェアのFontcityを調べたようだが、CJKVはなぜ触れていないのだろう…?

2013-05-14 17:20:12
小形克宏 @ogwata

ありがとうございます。そうか、OSFの調査がありましたね。これは信頼できる。RT @nalsh: @ogwata http://t.co/hIORvKXmu3 とか http://t.co/KrvxxJw603

2013-05-14 17:25:20
小形克宏 @ogwata

うーん、 http://t.co/hIORvKXmu3 における富士通の実装は、日経バイトともCJKVとも違うよ。シフトJISの闇は深い…ww

2013-05-14 17:31:11
狩野宏樹 @KAN0U

@ogwata 「富士通FMRシリーズ徹底解析マニュアル」に文字表が載ってませんかね? FMモードのあるドットプリンタに583文字もの外字はない http://t.co/Zhn5Vbe7jE ので、Fontcityの外字はOASYS外字のサポート用途を疑う必要があると思いました。

2013-05-14 19:00:44
SASANO Takayoshi @uaa

外字の定義ってユーザ定義の外字って訳じゃないよね?だとすると…AXはBIOS越しに漢字フォントをダンプしたのが確かどっかに転がってから、それチェックすれば良いって話になる?

2013-05-14 20:26:40
SASANO Takayoshi @uaa

本当は漢字ROMそのものを吸い出してチェックするのが筋だとは思うんだけど、とはいえ文字コードからグリフの参照が本当にできるかどうかって問題もあるだろうし。

2013-05-14 20:27:35
SASANO Takayoshi @uaa

ちなみにPanasonic FS-A1GT(MSXturboR)の漢字ROMを吸い出してみるとこんな感じ。著作権対策として縮小してるけど。 http://t.co/ZNAcjpXoth

2013-05-14 20:32:00
SASANO Takayoshi @uaa

もう面倒くせえからあの時代の漢字ROMとかのイメージデータはばばーんと公開してくれよ。文字コードに関する話とかでこの手のデータが気軽に参照できなかったら話のしようが無いと思うんだけど。

2013-05-14 20:35:02
SASANO Takayoshi @uaa

FMR互換のPanacomは持っているけどFDD壊れてて手も足も出ない状態…やっぱ分解してROM吸い出しやるしかないですかね?ソフトウェア側から紳士的に作業できるよう、資料も揃えてはあるんですが…

2013-05-14 20:36:43
狩野宏樹 @KAN0U

@uaa そういえば、PC-9801は78JISだったのに、EPSONのPC98互換機は83JISでしたね…。それどころか、私の使っていた機種(PC-386無印)では「檜」も「桧」も両方「桧」になっているバグがありました。@ogwata

2013-05-14 21:59:05
小形克宏 @ogwata

@KAN0U ありがとうございます。 「富士通FMRシリーズ徹底解析マニュアル」県立図書館に蔵書があるようなので取り寄せてみます。

2013-05-14 22:25:24
小形克宏 @ogwata

1980年代~2000年代におけるパソコンでのシフトJISの一覧表を作る場合、①NECのPC-9801、②日本IBMのマルチステーション 5550、③富士通のFMR、Appleの④漢字Talk 6および⑤漢字Talk 7.1、⑥マイクロソフト標準キャラクタセット、でいいかな。

2013-05-14 22:30:39
1 ・・ 4 次へ