たちばなまさし@帰省のため返信が送れましたです。
みなさんフィードバックありがとうございます。
>0xED40 〜 0xEEFC に存在するNEC選定IBM拡張漢字は、SJIS で JIS X 0208 の
>未定義区域用に予約されていた空間に NEC が勝手に文字を割り当てたもので
>す。ただ「未定義区域」とはいえ、スペース的には確保されていた区域に存在
>しているため、機械的に EUC などへのマッピングが可能と言うだけですね。
そうですね。ちょっといろいろと探ってみたのですが、機種依存文字に該当
する漢字の UNICODE へのマッピングが「正確には」よくわかりませんでした。
とはいえ、以下のように割り当てているソフトがあることはわかりました。
UNICODE EUC SJIS
8A 7E F9 A1 ED 40
1C 89 F9 A2 ED 41
48 93 F9 A3 ED 42
. . .
. . .
. . .
02 FF FC FE EE FC
ここらへんの正確な定義がわかる方っていますか?
標準規格でなくても、「より実用的」になるのであれば取り入れたいと思います。
(できれば対応表を送って頂けると助かります。)
ところで、さらに修正版をアップしました(同じ場所に置いてある 2.01 という
のがそれです)。オリジナルの 4.13 に対して patch してください。
以下は主な変更点です。かなり気合いを入れて、細かいところを修正しました。
・ UTF-8 の自動判別部分のバグを修正
・ UTF-8 の文字列に 1 バイト文字が含まれている場合の不具合を修正
・ UTF-8 --> EUC コード変換の高速化(UNICODE <--> EUC 対応表の処理を
二分岐検索化)
・ UTF-8 2バイト文字への対応(従来は 3バイトのもののみ)
-----------------------------------------
たちばなまさし
moomin@happymusic.com
http://www.happymusic.com/moomin/
-----------------------------------------