マクロツイーター

はてダから移行した記事の表示が崩れてますが、そのうちに直せればいいのに(えっ)

第 3 水準にあるけど大事な漢字(1)

新しい JIS 文字コードである JIS X 0213(JIS 拡張漢字)が普及する前は、普通の PC で普通に使える漢字は JIS X 0208:1997(JIS 基本漢字)の 6355 文字*1に限られていた。これに対して JIS 拡張漢字(JIS X 0213:2004)では 10050 文字、Unicode 6.1 では 74617 文字*2もの漢字が使用可能になる。といっても、我々が普通に現代日本語を書き表す場合には、基本漢字(第 1・第 2 水準漢字)以外の漢字を使う機会は殆どない。*3というか、基本漢字内の漢字ですら、多くの人にとっては、先述の「場合」において大半は使わない文字ばかりであろう。

ところが、「字体」を考慮すると話は異なってくる。といっても、JIS や Unicode の包摂基準を超えて細かい字体・字形の区別を気にしてもそのような区別は普通の情報機器のシステム上では表せない(JIS 文字コードUnicode が使用されるので)のが通例なので、ここでは包摂基準を JIS X 0213:2004 に合わせる。*4この場合、「ある程度の使用頻度のある文字」の「公的規則により正式と定められた字体」が「第 1・第 2 水準の範囲」にないという事例が存在する。この記事ではそういう漢字についての話をしたい。

そのような例の 1 つが(漢字コード愛好者にとってお馴染みの)〈鷗〉である。この文字について、「表外漢字字体表」では、〈鷗〉を印刷標準字体*5、〈鴎〉を簡易慣用字体としている。この「漢字」自体は「ある程度使われる」*6ので、JIS X 0208 では第 1 水準に入っているが、そこでは〈鷗〉と〈鴎〉の 2 つの字体が包摂されていた。*7従って、実装のフォントではどちらの字体にもなり得るのであるが、実際にはほとんどが〈鴎〉を採用していて、従って、「正字体である〈鷗〉が事実上使えない」という不満が言われていた。JIS X 0213 ではこの包摂が解除されて、この 2 つに別々の符号位置が与えられることになったが、その時に JIS X 0208 のものに対応する符号位置 1-18-10 *8には「JIS X 0208 でよく用いられている方」の〈鴎〉を当てて、新たな符号位置 1-94-69 に〈鷗〉を割り当てた。結果として、「印刷標準字体」*9である〈鷗〉は第 3 水準*10にあるという状態になっている。

一覧表

ここでは以下の条件を満たす異体字の組のリストを挙げる。

  • 「表外漢字字体表」にある漢字である。
  • 「字体表」に「印刷標準字体」として例示される字形に対応する JIS X 0213:2004 の字体(A)が第 3・4 水準にある。
  • 該当の漢字の異体字である JIS X 0213:2004 の字体(B)が第 1・2 水準にある。
(A)(B)
字体UCSJIS属性字体UCSJIS特記属性
555E1-15-0855161-16-02a
71301-87-4971141-17-75a-
9DD71-94-699D0E1-18-10a
64511-84-8963B41-36-47a-
9EB41-94-799EB91-25-77a
56531-84-0756181-17-19b-
4FE01-14-264FA01-22-02a-
98301-93-90標/常982C1-43-43a-
8EC01-92-428EAF1-22-77a-
4FF11-14-0150361-22-70b
7E6B1-94-947E4B1-23-50b-
59F81-94-90598D1-53-11b-
9E7C1-94-749E781-24-20a
56991-15-26565B1-19-90a
65221-85-0665051-58-25a-
𠮟20B9F1-47-52標/常53F11-28-24b標/常
7E611-90-227E4D1-29-11a
85231-91-22848B1-30-53a
91AC1-92-8991A41-30-63a
87EC1-91-6687491-32-70a-
64141-84-8663BB1-33-63a
76261-94-9375E91-33-73b慣/常
9A521-94-209A281-34-45a-
7C1E1-89-737BAA1-35-29a-
58611-15-56標/常586B1-37-22a-
985A1-94-03985B1-37-31a-
79B11-89-3579771-37-88a
70061-87-296D9C1-38-34a-
541E1-47-9454511-38-61b
56CA1-15-3256A21-39-25a-
525D1-15-94標/常52651-39-77b-
6F511-87-096E8C1-40-14a-
91B11-92-9091971-40-16a-
5C5B1-94-915C4F1-54-02b
5E771-94-925E761-54-85b
9EB51-94-809EBA1-44-45a慣/常
840A1-91-0683B11-45-73a-
5C621-47-645C611-28-40a-
FA1F1-91-2681C81-71-37--
881F1-91-71874B1-47-25a

[凡例]

  • 「(A)」「(B)」は先述の「条件」で述べた 2 つの字体を指す。
  • 「JIS」は当該字体の JIS X 0213:2004 での符号位置。(これが一番大事な項目。)
  • 「UCS」は前項の JIS 符号位置に対応すると(JIS X 0213 で)定められた UCS(Unicode)符号位置。(今回は「UCS の包摂規準」は全く考慮していないことに注意。)*11
  • 「字体」は前項の UCS 符号位置の文字を「今の環境」で出力したもの。*12
  • 「属性」欄について:
    • 「標」は当該字体が「表外漢字字体表」において「印刷標準字体」と見做せることを表す。厳密にいうと、「IPA 明朝(Ver003.03)」の当該の「UCS 符号位置」のグリフが、「字体表」の定める規準に従って、「印刷標準字体」の例示字形と「同じ字体」と見做せる、ということ。(以下同様。)*13
    • 「慣」は当該字体が「表外漢字字体表」において「簡易慣用字体」と見做せることを表す。
    • 「常」は当該字体が 2010 年改訂「常用漢字表」において定められた字体と見做せることを表す。*14
  • 「特記」欄について:
    • 「a」は JIS X 0208 においては(A)と(B)の字体が「過去の規格との互換性を維持するための包摂規準」によって((B)の符号位置に)包摂されていることを示す。JIS X 0213 ではこの規準は適用されないので分離される。
    • 「b」は JIS X 0213:2000 においては(A)と(B)の字体が((B)の符号位置に)包摂されていたが、2004 年の改訂で(包摂除外が設定されて)分離されたことを示す。
(続く)

*1:これは正確には「字体」の数。以下も同じ。

*2:「統合漢字」に属するもの、すなわち Unified_Ideograph の属性をもつ文字の総数。

*3:固有名詞を書く場合が典型的な例外となるだろう。この記事では、固有名詞の表記については除外する。

*4:つまり、JIS X 0208 でも Unicode でも JIS X 0213:2000 でもない。

*5:いわゆる「正字体」(康煕字典体)でもある。

*6:だから「表外漢字字体表」の対象の 1022 字の中に選ばれている。

*7:これらは JIS X 0208 の本来の包摂規準では異なる字体と見做されるべきであったが、歴史的事情があり包摂されている。いわゆる「過去の規格との互換性を維持するための包摂規準」の一つ。

*8:「1 面 18 区 10 点」を表す。以後同様。

*9:ちなみに、これの告示は JIS X 0213 の制定よりも後である。

*10:JIS X 0213 で「新たに」定義された第1面の符号位置の漢字の集合が「第 3 水準」である。第 2 面の漢字の集合が「第 4 水準」。

*11:Unicode をわざわざ出しているのは、PC での処理で Unicode の介在が必要なことが多いからである。

*12:ページの文字コードUTF-8 なので、Unicode を介在させる必要がある。

*13:「字体表」の「包摂規準」を見ることになるので、JIS の方の字形を固定する必要があり、「IPA 明朝」のものを用いた。

*14:「表外漢字字体表」にある漢字が「常用漢字表」にもあるということは、それは 2010 年改訂で追加された漢字であるということ。