规范字与繁体字异体字对照表とUnihanVariants
「通用规范汉字表」には8105字の規範字があり、その中に「附件1. 规范字与繁体字、异体字对照表」があって、3120字の規範字について繁体字、異体字への対応が記されています。
繁体字は、簡化字の元になった漢字を差していて、異体字と区別されています。簡化字には「历」のように別字を一つにしたものがあって、「歴」「暦」の2つが繁体字として上げられています。
また、Unicode の Unihan Database は、Unihan.zip を提供しています。この中にはUnihan_Variants.txt があり、漢字の分類に kSimplifiedVariant、kTraditionalVariantと言う識別子があります。簡体字の総数(kSimplifiedVariantと識別される漢字の総数)は 6,268字、繁体字の総数(kTraditionalVariantと識別される漢字の総数)は 6,281字です。
この2つのデータを合成したいと思います。
「通用规范汉字表」の規範字 8105字は、「规范字与繁体字、异体字对照表」に含まれる漢字と、含まれない漢字に大別されます。「规范字与繁体字、异体字对照表」は繁体字や異体字を上げて規範字を説明する必要のある漢字です。繫体字と異体字の両方が上げられた規範字も、一方だけの規範字もあります。
繁体字が示された漢字は、概ね簡化字だと思います。
また、漢数字のように、旧来から同じ字形で規範字となっている簡体字と繁体字が共通(同形)の漢字がありますが、これは「规范字与繁体字、异体字对照表」に含まれません。
これは、Unihan_Variants も同様です。Unihan_Variants には、「通用规范汉字表」にない漢字が多くあって、「通用规范汉字表」以降の追加と考えられます。Unihan_Variants の情報は、 kSimplifiedVariant か、kTraditionalVariant かで、繁体字、異体字の区別に相当するものはありません。
「通用规范汉字表」の付表である「规范字与繁体字、异体字对照表」は、「通用规范汉字表」の規範字 8105字のうち、3120字について繁体字と異体字を挙げています。
「规范字与繁体字、异体字对照表」の記載の形式的な分類は以下のようです。
表_1.「规范字与繁体字、异体字对照表」の記載形式の分類
繁体字 | ||||||
なし | 1つ | 複数 | ||||
規範字と 同形 | 規範字と 異なる | 規範字と同形を 含む | 規範字と同形を 含まない | |||
異体字 | なし | A0(0) | A1(0) | A2(2249) | A3( 62) | A4( 17) |
あり | B0( 574) | B1(0) | B2( 201) | B3( 12) | B4( 5) |
各区分の意味を考えると以下のようになります。
A0:「规范字与繁体字、异体字对照表」にある規範字は少なくとも繁体字か異体字をもつ。
B0:繁体字が指定されず、異体字だけが示された。「丐丘丫乃乘亘亡享仇仙」など。規範字は簡化字ではなく、旧来から変わっていないが、複数の字形が常用され正字を示す必要があるからだと推測する。
A1、B1:規範字と同じ繁体字だけが指定されるケースはない。
A2、B2:規範字と異なる繁体字が1つ指定されるのが最も多い。簡化字と旧字。例はA2「㑇㘎㤘㧐㧑㧟㭎䁖䃅䅟」、B2「专个举亩仑众伞侥侦农」
A3:繁体字は規範字の旧字ではなく、1つの規範字が2つ以上の漢字の意味を継承すると言うことだと考えられる。例は「万丑丰了云仆伙余借党」。規範字「万」は、繁体字として、「万」と「萬」が記載されている。「萬」は「万」の旧字ではない。
B3:同上。異体字は各繁体字の異体字で、規範字と同形の繁体字の異体字以外は、規範字の異体字ではない。例「克向回干据斗曲秋胡郁」。「克」の繁体字は「克」「剋」が記載され、「剋」の異体字に「尅」がある。「克」は古くから使われた字形で、「剋」の簡化字ではなく、「尅」は「克」の異体字ではない。
A4:繁体字は規範字に集合された別字だと考えられる。例は「卤发团坝复尽弥当恶摆」。「发」の繁体字は「發」「髮」が記されている。
B4:同上。繁体字それぞれの異体字で、規範字の異体字だとは限らない。例は「历只坛汇苏」
A4、B4は、繁体字に規範字の旧字を含む可能性があるので、個別に調べる必要がある。
表_2. A3:複数の繁体字が定義され、規範字と同形を含む場合(異体字なし)
万 | 万萬 | 冬 | 冬鼕 | 卜 | 卜蔔 | 姜 | 姜薑 | 朴 | 朴樸 | 篱 | 篱籬 | 谷 | 谷穀 |
丑 | 丑醜 | 冲 | 冲衝 | 卷 | 卷捲 | 家 | 家傢 | 松 | 松鬆 | 系 | 系係繫 | 辟 | 辟闢 |
丰 | 丰豐 | 准 | 准準 | 台 | 台臺颱檯 | 帘 | 帘簾 | 板 | 板闆 | 累 | 累纍 | ||
了 | 了瞭 | 几 | 几幾 | 叶 | 叶葉 | 征 | 征徵 | 沈 | 沈瀋 | 致 | 致緻 | ||
云 | 云雲 | 出 | 出齣 | 吁 | 吁籲 | 御 | 御禦 | 涂 | 涂塗 | 舍 | 舍捨 | ||
仆 | 仆僕 | 划 | 划劃 | 合 | 合閤 | 才 | 才纔 | 淀 | 淀澱 | 芸 | 芸蕓 | ||
伙 | 伙夥 | 别 | 别彆 | 后 | 后後 | 折 | 折摺 | 漓 | 漓灕 | 范 | 范範 | ||
余 | 余餘 | 刮 | 刮颳 | 咸 | 咸鹹 | 旋 | 旋鏇 | 症 | 症癥 | 蒙 | 蒙濛懞矇 | ||
借 | 借藉 | 制 | 制製 | 困 | 困睏 | 术 | 术術 | 种 | 种種 | 蔑 | 蔑衊 | ||
党 | 党黨 | 千 | 千韆 | 夸 | 夸誇 | 朱 | 朱硃 | 筑 | 筑築 | 表 | 表錶 |
「丰」と「仆」「伙」「划」「涂」は、簡化字で、繁体字には元の漢字が示されているようです。「朴」は「樸」の簡化字と決めると言うことだと推測します。その他は、書き分けをしないことにした別字が挙げられているのだと思います。
A3:複数の繁体字が定義され、規範字と同形を含む場合(異体字あり)
規範 | 繁体字 | 異体字 | 規範 | 繁体字 | 異体字 | 規範 | 繁体字 | 異体字 |
克 | 克 剋 | 尅 | 据 | 据 據 | 㨿 | 胡 | 衚 | |
向 | 向 嚮 | 曏 | 斗 | 斗 鬥 | 鬦鬪鬭 | 郁 | 郁 鬱 | 欝鬰 |
回 | 回 迴 | 廻逥 | 曲 | 曲 麯 | 麴 | 里 | 里 裏 | 裡 |
干 | 干 乾 幹 | 乹亁 榦 | 秋 | 秋 鞦 | 秌𥤚 | 面 | 面 麵 |
規範字と異なる繁体字は、音や意味で書き分けをしないことにした別字なのだと思います。したがって、「秋」と「胡」以外の異体字は、規範字の異体字ではないのだと思います。
表_3. A4:複数の繁体字が定義され、規範字と同形を含まない場合(異体字なし)
卤 | 鹵滷 | 坝 | 垻壩 | 弥 | 彌瀰 | 摆 | 擺襬 | 脏 | 臟髒 | 须 | 須鬚 |
发 | 發髮 | 复 | 復複 | 当 | 當噹 | 签 | 簽籤 | 获 | 獲穫 | 饥 | 飢饑 |
团 | 團糰 | 尽 | 盡儘 | 恶 | 惡噁 | 纤 | 纖縴 | 钟 | 鍾鐘 |
上の表の中で「鹵團垻惡臟須飢」は、規範字の元字に見えます。
表_4. B4:複数の繁体字が定義され、規範字と同形を含まない場合(異体字あり)
規範字 | 历 | 只 | 坛 | 汇 | 苏 | |||||
繁体字 | 歷 | 曆 | 衹 | 隻 | 壇 | 罎 | 匯 | 彙 | 蘇 | 囌 |
異体字 | 歴𠪱 | 厤 | 祇秖 | 罈壜 | 滙 | 甦蘓 |
中文の繁体字や異体字の判断は漢字の音や意味が重要で、字形は準じた存在だと推測します。また、字形についても、同じことに別字が使われる実態を反映したものだと思います。しかし、中文を知らない私には、いずれも基準に出来ません。「花坛」を見ても、「花壇」には見えないので変換したいと思っただけです。単に字形の問題です。
また、「花坛」が読めるようになりたいのであって、変換したものを利用する訳ではありません。一括して辞書を引きたいと言ったことです。
「历」は、その1字では、「歴」か「暦」かを決めることは出来ません。「历」を憶えてしまうか、出現頻度の高いものをとるかすることになります。
Unihan_Variants は、
S kTraditionalVariant T
T kSimplifiedVariant S
のような記述の羅列です。S の旧字体は T、T の簡体字は S と読むのだと思います。kTraditionalVariant の左の文字と、kSimplifiedVariant の右側の文字は一致し簡体字 6268字です。逆を数えると 6281字となります。差が生じるのは重複があるためです。Unihan_Variants には「规范字与繁体字、异体字对照表」のような、繁体字と異体字の区別がありません。
ここでは、kTraditionalVariant の左の文字 6268字を簡体字と、その右に記された旧字体とを使います。旧字体は異体字と区別が出来ないので、一律に繁体字と呼ぶことにします。例えば、以下のような行があります。
U+66F2 kTraditionalVariant U+66F2 U+9EAF
U+66F2 は「曲」、U+9EAF は「麯」です。簡体字の「曲」は「こうじ(麴)」でもあるようです。「曲」は kTraditionalVariant の左右に記され、簡体字でも、繁体字でもあります。「曲」は簡化字ではなく、旧来から使用された字形ですが、「麯」も「曲」と書くことにすると言うことだと思います。
「通用规范汉字表」の規範字 8105字は、UnicodeのCJK統合漢字の拡張Eまでの範囲を使用していますが、Unihan_Variants の示す簡体字は、CJK統合漢字拡張Fに 167字、CJK統合漢字拡張Gに 1235字あります。
簡体字 6268字のうち、6207字は 繁体字が1つだけ定義されています。主な目的は簡体字の繁体字を示すことのようです。このうち以下の 8字は、簡体字と繁体字が同じです。
乾復徵瞭著藉裡覆 |
このうち、乾徵瞭著覆は「通用规范汉字表」の規範字なので、Unihan_Variants 内の整合性を取るために加えられているものと思います。簡体字に対する繁体字、繁体字に対する簡体字を定義するので、この2つの簡体字は同じにならなければなりません。
復藉裡は、規範字ではないので、簡体字を追加すると言う意味があります。
表_5. 1つの簡体字に2つの繁体字が示されうち1つが簡体字と同じ
簡体 | 云 | 余 | 出 | 只 | 同 | 后 | 向 | 吓 | 尸 | 征 | 志 | 愿 | 揾 |
繁体 | 云雲 | 余餘 | 出齣 | 只隻 | 同衕 | 后後 | 向曏 | 吓嚇 | 尸屍 | 征徵 | 志誌 | 愿願 | 揾搵 |
簡体 | 曲 | 杰 | 板 | 极 | 注 | 着 | 肴 | 致 | 蜡 | 表 | 辟 | 面 | |
繁体 | 曲麯 | 傑杰 | 板闆 | 极極 | 注註 | 着著 | 肴餚 | 緻致 | 蜡蠟 | 表錶 | 辟闢 | 面麵 |
表_6. 1つの簡体字に2つの繁体字が示されその簡体字を含まない
簡体 | 䴘 | 䴙 | 伪 | 冲 | 历 | 发 | 坛 | 尽 | 干 | 并 |
繁体 | 鷈鷉 | 鷿鸊 | 偽僞 | 沖衝 | 曆歷 | 發髮 | 壇罈 | 儘盡 | 乾幹 | 並併 |
簡体 | 当 | 汇 | 硷 | 绦 | 绱 | 缰 | 胡 | 脏 | 荡 | 获 |
繁体 | 噹當 | 匯彙 | 礆鹼 | 絛縧 | 緔鞝 | 繮韁 | 衚鬍 | 臟髒 | 盪蕩 | 獲穫 |
簡体 | 谫 | 赝 | 钟 | 钩 | 锈 | 闲 | 须 | 鳄 | 鿭 | 𩙧 |
繁体 | 謭譾 | 贋贗 | 鍾鐘 | 鈎鉤 | 銹鏽 | 閑閒 | 須鬚 | 鰐鱷 | 鉨鑈 | 䬞𩗡 |
表_7. 1つの簡体字に3つの繁体字
簡体 | 系 | 采 | 么 | 复 | 蒙 |
繁体 | 係系繫 | 埰採采 | 幺麼麽 | 復複覆 | 懞濛矇 |
繁体字が4つ示された「台」が最も多く繁体字が示された簡体字です。
台 台檯臺颱
「规范字与繁体字、异体字对照表」は「通用规范汉字表」の規範字 8105字のうちの3120字について、繁体字と異体字を挙げています。
Unihan_Variants は、別途、6268字の簡体字と、その旧字を挙げています。
しかし、規範字、繁体字、異体字、 kSimplifiedVariant、kTraditionalVariant の区分は明瞭ではありません。
「规范字与繁体字、异体字对照表」と Unihan_Variants は、簡体字の「異体字情報」を挙げていると考えることにします。簡体字は、「通用规范汉字表」の「規範字」と、「規範字ではない簡体字」に分けられます。「規範字ではない簡体字」は Unihan_Variants に由来します。 Unihan_Variants は、規範字を含みます。
図のように区分して調べます。
A、B、C は、楕円に付けたラベルです。d、e、f 、g は、重なり合って切り取られた部分を示します。
A:通用規範字表は「通用规范汉字表」の規範字 8105字です。
B:規範字繁体字異体字対照表は「规范字与繁体字、异体字对照表」の3120字です。AはBを内包します。
C:6268字の Unihan_Variants で、kTraditionalVariant の右に書かれた文字です。
表_8. 領域と含まれる簡体字の字数
A | 通用规范汉字表の規範字 | 8105 | B∪C | 異体字情報のある簡体字 異体字情報の総数 | 6761 |
B | 规范字与繁体字异体字对照表 規範字の異体字情報の総数 | 3120 | e | 対照表とUnianに異体字情報がある規範字 | 2627 |
C | Unihan_Variants Unihanの異体字情報の総数 | 6268 | d | Unihanだけに異体字情報がある規範字 | 97 |
A∪C | 簡体字の総数 | 11649 | f | 対照表だけに異体字情報がある規範字 | 493 |
g | 規範字でない簡体字 Unihanだけに異体字情報があり、規範字でない簡体字 | 3544 | d+g | Unihanだけに異体字情報 対照表にない規範字の異体字情報を含む | 3641 |
h | 異体字情報の無い規範字 | 4888 |
3者が重なった e は、実質 B と C の重複数で、2627字です。
A (規範字)と C(Unihan_Variants) を合わせたものを「簡体字」と総称すると、簡体字の総数は、11649字です。
Unihan_Variants が定義する簡体字は 6268字で、Unihan_Variants だけが定義する簡体字は、3544字です。規範字と重複する(d+e)は 2724字です。
「规范字与繁体字、异体字对照表」にも、Unihan_Variants にも含まれない、異体字情報のない規範字(h)は 4888字です。「规范字与繁体字、异体字对照表」の3120字、Unihan_Variants だけに異体字情報がある(d)97字と合わせて、規範字総数8105字になります。
Unihan_Variants だけが旧字体を挙げている規範字は 97字あります。(別にUnihan_Variants だけが旧字体を挙げている、「規範字ではない簡体字」が 3544字あります。)
97字のうち 7字は、規範字と旧字体が同じです。
表_9. Unihan_Variants だけの規範字の繁体字1
規範字 | 乾 | 徵 | 着 | 瞭 | 著 | 藉 | 覆 |
旧字体 | 乾 | 徵 | 着著 | 瞭 | 著 | 藉 | 覆 |
Unihan_Variants が示すのは、名前からは簡体字と旧字体の関係ですが、簡体字の多くは簡化字でなく、旧来から字形の変わっていないものです。旧字と言うのは適切ではないので、簡体字の対として「繁体字」と記します。
「着」と「著」とは共に規範字です。しかし、「规范字与繁体字、异体字对照表」には記載がありません。簡体字「着」の繁体字が「着」と「著」の2つだと言うのは、「规范字与繁体字、异体字对照表」にない Unihan_Variants だけの定義です。
これは、「着」と「著」を書き分けないと解せます。意味的には「着」と「著」は規範字の「着」の元です。しかし、字形として「着」を「著」から作ったと言うわけではないと思います。それ以外の 6字は Unihan_Variants の整合性のための記載だと思います。
残りの 90字は、旧字ではなく、ほとんどが異体字のようです。「规范字与繁体字、异体字对照表」の追加と解せます。
表_10. Unihan_Variants だけの規範字の繁体字2
簡体 | 簡体 | 簡体 | 簡体 | 簡体 | 簡体 | 簡体 | 簡体 | 簡体 | |||||||||
丢 | 丟 | 刹 | 剎 | 囱 | 囪 | 屉 | 屜 | 戬 | 戩 | 橥 | 櫫 | 漤 | 灠 | 秃 | 禿 | 蕰 | 薀 |
争 | 爭 | 剥 | 剝 | 垴 | 堖 | 岙 | 嶴 | 户 | 戶 | 檩 | 檁 | 潴 | 瀦 | 稆 | 穭 | 蘖 | 櫱 |
于 | 於 | 匀 | 勻 | 埯 | 垵 | 峥 | 崢 | 抛 | 拋 | 殁 | 歿 | 焕 | 煥 | 税 | 稅 | 虚 | 虛 |
侣 | 侶 | 叁 | 叄 | 奂 | 奐 | 廪 | 廩 | 挣 | 掙 | 氲 | 氳 | 煴 | 熅 | 筝 | 箏 | 蜕 | 蛻 |
俣 | 俁 | 吕 | 呂 | 奥 | 奧 | 弑 | 弒 | 换 | 換 | 没 | 沒 | 狰 | 猙 | 粤 | 粵 | 衮 | 袞 |
兑 | 兌 | 吣 | 唚 | 姹 | 奼 | 彝 | 彞 | 摇 | 搖 | 涣 | 渙 | 瑶 | 瑤 | 脱 | 脫 | 遥 | 遙 |
兖 | 兗 | 吴 | 吳 | 娱 | 娛 | 彦 | 彥 | 暅 | 𣈶 | 渌 | 淥 | 痪 | 瘓 | 腼 | 靦 | 陧 | 隉 |
兹 | 茲 | 呐 | 吶 | 媪 | 媼 | 悦 | 悅 | 棁 | 梲 | 温 | 溫 | 盗 | 盜 | 腽 | 膃 | 静 | 靜 |
内 | 內 | 唤 | 喚 | 嬷 | 嬤 | 愠 | 慍 | 榅 | 榲 | 溆 | 漵 | 睁 | 睜 | 芈 | 羋 | 黄 | 黃 |
凛 | 凜 | 嘘 | 噓 | 宫 | 宮 | 懔 | 懍 | 横 | 橫 | 滚 | 滾 | 禄 | 祿 | 荆 | 荊 | 鼗 | 鞀 |
ここでの目的は、見慣れない簡化字を、見慣れた日本の常用される字形の漢字に対応させることなので、規範字が日本で常用される漢字なら、何もする必要はありません。
見慣れた日本の常用される字形の漢字を「日用字」と書くことにします。常用漢字や表外漢字、人名漢字などです。
97字のうち、26字の規範字が、そのまま日用字です。
乾争于俣内凛刹奥彦悦横没温瑶盗着瞭禄税脱著虚覆遥静黄 |
11字は、繁体字が日用字です。
簡体字 | 侣 | 剥 | 吕 | 唤 | 嘘 | 宫 | 换 | 潴 | 秃 | 筝 | 荆 |
繫体字 | 侶 | 剝 | 呂 | 喚 | 噓 | 宮 | 換 | 瀦 | 禿 | 箏 | 荊 |
次の4字の簡体字の繁体字は、日用字の旧字に一致します。
簡体字 | 吴 | 娱 | 户 | 摇 |
繫体字 | 吳 | 娛 | 戶 | 搖 |
また、「徵」は、規範字ですが、「征」の繁体字でもあります。また、日用字「徴」の旧字です。
残る 55字は、単に異体字を示すだけのようです。
「规范字与繁体字、异体字对照表」と Unihan_Variants は、重複して繁体字、異体字の情報を挙げています。その中で 493字の規範字は「规范字与繁体字、异体字对照表」にのみあって、 Unihan_Variants では採用されていません。
「规范字与繁体字、异体字对照表」は、繁体字と異体字を分けて挙げています。この493字を、繁体字が挙げられているかどうかで分類して見ると、490字に繁体字が指定されておらず、異体字だけが指定されたケースです。例外の3字は、
䓨(罃)、沄(澐)、𣲘(潕)
です。
Unihan_Variants は、「规范字与繁体字、异体字对照表」の繁体字に相当する情報のようです。異体字だけが定義されたものは対象ではないようです。
ただし、「规范字与繁体字、异体字对照表」には異体字だけが指定された規範字が 574字あるので、いくつかを見てみます。
「规范字与繁体字、异体字对照表」で繁体字がなく異体字に掲載した漢字の中からUnihan_Variants は 84字を繁体字と見なしているようです。
表_11. 繁体字がない574字中 Unihan_Variants が採用した84字の一部
簡体 | 伫 | 偬 | 册 | 决 | 况 | 净 | 凉 | 减 | 凑 | 删 | 却 | 厘 |
異体 | 佇竚 | 傯 | 冊 | 決 | 況 | 淨 | 涼 | 減 | 湊 | 刪 | 㕁卻 | 釐 |
前述の e は、「规范字与繁体字、异体字对照表」と Unihan_Variants が、重複して異体字情報を提供している規範字 2627字です。
「规范字与繁体字、异体字对照表」は、繁体字と異体字を区別し、Unihan_Variants は区別しません。「规范字与繁体字、异体字对照表」の繁体字と異体字を合わせたもので比較すると、規範字 2627字の中で 2293字が一致し、334字が不一致でした。
概ね両者は同じ定義をしており、単に重複しているだけのようです。
不一致の箇所を見ると、「规范字与繁体字、异体字对照表」が繁体字に規範字を含めているケース(規範字「万」繁体字「万」「萬」のようなケース)が目に付きます。
これは、50字あって、真に不一致なのは 284字です。
表_11. 规范字与繁体字异体字对照表と Unihan_Variantsが一致しない284字の一部
規範字 | 专 | 个 | 为 | 举 | 么 | 产 | 亩 | 仑 |
対照表 | 專耑 | 個箇 | 爲 | 舉擧 | 麽 | 産 | 畝𤰜畂𤱈畆畮 | 侖崘崙 |
Unihan | 專 | 個 | 為 | 舉 | 幺麼麽 | 產 | 畝 | 侖 |
規範字「为」に対して、Unihan_Variants は日本の常用漢字「為」を与えます。
規範字「产」に対して、「规范字与繁体字、异体字对照表」は日本の常用漢字「産」を与えます。