Index: [Article Count Order] [Thread]

Date:  Tue, 9 Jan 2001 05:18:46 +0900
From:  Tachibanamasashi <moomin@happymusic.com>
Subject:  [analog-jp:00242] Re: patch update!
To:  analog-jp@monyo.com
Message-Id:  <200101082018.FAA18550@happymusic.com>
In-Reply-To:  <20010106221455J.monyo@home.monyo.com>
References:  <20010106143659G.monyo@home.monyo.com>	<NDBBLHMFCLODDAJNHNEIMELKCEAA.matsuki@tokyo-kasei.ac.jp>	<20010106221455J.monyo@home.monyo.com>
Posted:  Tue, 09 Jan 2001 05:20:40 +0900
X-Mail-Count: 00242

たちばなまさし@帰省のため返信が送れましたです。

みなさんフィードバックありがとうございます。

>0xED40 〜 0xEEFC に存在するNEC選定IBM拡張漢字は、SJIS で JIS X 0208 の
>未定義区域用に予約されていた空間に NEC が勝手に文字を割り当てたもので
>す。ただ「未定義区域」とはいえ、スペース的には確保されていた区域に存在
>しているため、機械的に EUC などへのマッピングが可能と言うだけですね。

そうですね。ちょっといろいろと探ってみたのですが、機種依存文字に該当
する漢字の UNICODE へのマッピングが「正確には」よくわかりませんでした。
とはいえ、以下のように割り当てているソフトがあることはわかりました。

  UNICODE    EUC    SJIS
   8A 7E    F9 A1   ED 40
   1C 89    F9 A2   ED 41
   48 93    F9 A3   ED 42
   .        .       .
   .        .       .
   .        .       .
   02 FF    FC FE   EE FC

ここらへんの正確な定義がわかる方っていますか?
標準規格でなくても、「より実用的」になるのであれば取り入れたいと思います。
(できれば対応表を送って頂けると助かります。)

ところで、さらに修正版をアップしました(同じ場所に置いてある 2.01 という
のがそれです)。オリジナルの 4.13 に対して patch してください。
以下は主な変更点です。かなり気合いを入れて、細かいところを修正しました。

・ UTF-8 の自動判別部分のバグを修正
・ UTF-8 の文字列に 1 バイト文字が含まれている場合の不具合を修正
・ UTF-8 --> EUC コード変換の高速化(UNICODE <--> EUC 対応表の処理を
     二分岐検索化)
・ UTF-8 2バイト文字への対応(従来は 3バイトのもののみ)

-----------------------------------------
    たちばなまさし

    moomin@happymusic.com
    http://www.happymusic.com/moomin/
-----------------------------------------