下図は、入力となる変換表の簡体字側の 6820字です。
これに対して、出力となる、日本の用字はフォントが揃っています。
Unihan Database の情報は最新の情報が反映されているものと思います。しかし、パソコンなどの機器にフォントが提供されなければ表示できません。
簡体字から日本で常用される漢字に置き換えが可能と判断した 6820字のうち過半が表示されない状態です。(2022年1月現在)
この部分には、規則性によって生成される漢字が多くあって、使用実態とは無関係に集録された漢字が多くあるのだと思います。
例えば、「鰯」と言う漢字があれば編の簡化を適用して「鱼+弱」が出来上がり U+3120D が割り当てられています。
電子機器に漢字混じり文が表示されるようになったのは漢字ROMの利用が可能になったことがあると思います。16x16ドットや24x24ドットで漢字を表す努力が行なわれ、常用漢字表にも影響を与えているものと思います。今日のフォントはベクトルフォントやスケーラブルフォントと呼ばれ形状データとなっています。
また、文字を手書きすることも無くなってきています。こうなって見ると文字の簡略化は時代の流れではないようです。現時点では視認性の良さと美しさが重要視されているものと思います。
言葉を話すことは人類の特徴とされますから、進化と言う数十万年のオーダーの話しです。しかし、人が文字を読む能力は全く別です。識字率は近年までずっと低いままだったとされています。文明開花の明治の始めに作られた製紙工場はパルプ原料ではありませんでした。人々が文書を黙読する状態になったのは、大量の紙が供給されるようになってからのことです。
人の視覚的言語能力は良く分かっていない問題だと思います。文字の問題は人の認知能力の問題であり長期に影響を与えるものです。
中華人民共和国は「通用规范汉字表」に含まれる簡化字を作りました。この規範字は簡体字と呼ばれています。日本では当用漢字を定める際に漢字の簡略化を行っていて、新字体と旧字体とが出来ました。
「通用规范汉字表」や「当用漢字」を定めれば、その字形は正字です。日本の正字は「常用漢字表」だと思いますが、これを含めた人名用漢字 2999字と表外漢字表も正字を表すと考えます。
漢字は歴史的に字形が変わってきたと考えていましたが、実際には点でしか語られないようです。例えば「説文解字」とか「康煕辞典」とか言うように説明されます。確かに、誰も変遷を知るはずはありません。また、漢字の起原は分からず、発掘的に知られた事実があるのみで、起原が1つかどうかを含めていくつかの系統が判別されるようです。また、筆記媒体によって字形が異なるのは当然です。紙の発明は紀元前後でしかありません。
「扞」と「捍」は共に規範字です。広辞苑は「扞格」「対捍」を収めています。説文解字は「扞」を収め、「捍」を収めていません。「扞」は「捍」の古字のようです。「扞」は「捍」の簡化字や略字ではありません。
「真」は常用漢字です。「眞」が旧字体として示されました。通用字体の「真」は、おそらく新字体と呼ばれますが、この字形が新たに作られたものでそれまで通用していなかった、と言っている訳ではないと思います。
「真」は規範字です。「真」は同じ Unicode で表示される字形の差はフォントの違いです。
「塡」は常用漢字です。したがって「填」はおそらく俗字です。したがって、「眞」は「真」の旧字体ですが、「塡」は「填」の旧字体ではないと説明されます。「塡」は「填」の正字です。漢字の偏旁冠脚を簡略化すると、同じ部首を持つ漢字も書き換わるのが自然です。しかし、使用する漢字に制限を加えようとしているのですから、採用しない漢字の字形が論外なのも当然です。
常用漢字が改訂される際に表外漢字表から加えられた漢字は簡略化されなかったようです。愉、諭、輸、癒に対して「喩」と収められました。(愈揄楡は表外漢字)
表外漢字表には旧字体に見える正字がいくつかあります。パソコンで「つかむ」と打てば「掴む」となりますが、正字は「摑」です。
一方、楕円の「楕」は表外漢字表にある正字ですが、手元の漢和辞典は「橢」を正字としています。規範字の「椭」の繁体字は「橢」で、それぞれの旧字を共通にしていると見るのが妥当に思えます。
この話しは、術語が不明瞭で複雑だと言うことが伝えられるだけで、正しい説明が出来ません。
簡体字から日本で常用される漢字への変換をしようとしている訳ですが、「簡体字と異体字」、「日本の新字体と異体字」と言う2つの情報のデータから両者の対応を導こうとしています。「日本の新字体と異体字」は、新字体に対して旧字体など異体字を集めます。例えば、簡体字「啮」の繁体字は「嚙」です。新字体が「噛」で旧字体が「嚙」であれば、簡体字「啮」は「噛」に変換できます。
しかし、実際には「嚙」が表外漢字表で正字となっていて、「噛」は俗字(簡易慣用字体)となっています。
塡凜啞噓嚙潑鹼彎摑攪曠櫟檮濤疇箏藪蠣蠟蠅蟬諫軀邇醱醬頸頰鰺鷗 填凛唖嘘噛溌鹸弯掴撹昿檪梼涛畴筝薮蛎蝋蝿蝉諌躯迩醗醤頚頬鯵鴎 |
ここに上げた漢字は、本来は上段が正字ですが、日本の新字体を下段に差し替えて使います。上段は、その旧字体として使います。これで、「啮」は「噛」に、「掴」は「掴」になります。掴は簡体字と新字体が同じで異体字によらず対応します。
JIS漢字を全て列挙するために Unihan Database の提供する Unihan_OtherMappings.txt を使いました。kJis0、kJis1、kJIS0213を抽出して 13,109字を得ました。
この数字はWikiにある 11,233字(2004年)と合いません。
簡体字の総数は「通用规范汉字表」の8105字と、Unihan_Variants を合わせて 11649字です。Unihan Database の提供する Unihan_Variants.txt からは 6268字が得られますが、重複を除いた数です。Unihan_Variants は、簡体字のうち、繁体字や異体字を挙げる必要がある物だけです。
「通用规范汉字表」の規範字は、CJK統合漢字拡張Fまでに配されています。下表の「簡体字」「繁体字」は Unihan_Variants による数です。それぞれの合計は、6268字と 6281字です。
始点 | 終点 | 区画の名前 | 可能文字数 | 簡体字 | 繁体字 |
03400 | 04dbf | CJK統合漢字拡張A | 6592 | 147 | 583 |
04e00 | 09fff | CJK統合漢字 | 20992 | 2617 | 4553 |
0f900 | 0faff | CJK互換漢字 | 512 | 0 | 0 |
20000 | 2a6df | CJK統合漢字拡張B | 42720 | 421 | 1014 |
2a700 | 2b73f | CJK統合漢字拡張C | 4160 | 554 | 35 |
2b740 | 2b81f | CJK統合漢字拡張D | 224 | 75 | 1 |
2b820 | 2ceaf | CJK統合漢字拡張E | 5776 | 1052 | 45 |
2ceb0 | 2ebef | CJK統合漢字拡張F | 7488 | 167 | 18 |
2f800 | 2fa1f | CJK互換漢字補助 | 544 | 0 | 0 |
30000 | 3134f | CJK統合漢字拡張G | 4944 | 1235 | 32 |
わたしには「脅」、「脇」は同じに見えませんが、この字を「おびやかす」と「わき」と使い分けるのは日本の習慣のようです。漢字のパーツの偏旁冠脚を入れ替えても同じ漢字だと言われれば納得します。
槁、槀、稿、稾、藳、は、「わら」や「立ち枯れ」ていることをしめすようです。手元の漢和辞典によれば、音符「高」は「たかくかわいた」を意味するようです。草冠や禾(のぎへん)は、草本、稲や粟で、穀物が立ち枯れた「わら」です。
は、それぞれ同じUnicodeです。 |
違った字形に描かれるのはフォントの違いです。これは異体字セレクタと言う仕組みのようです。HTMLであれば lang属性によって字形が変わります。
これは、同じUnicodeを持つ字の形状が異なるのですからコード変換では対応できない問題となります。
おそらく、「良きに計らってあげる」と言う仕組みですが、見る人の環境によって異なると言うのは嬉しくありません。
異体字の形状(フォントの選択)の選択は、ユーザの属性としての地域コード、OSやブラウザが識別する環境の地域コード、HTMLなどの地域コード記述、Unicodeのシーケンス、などの多重な要素によって決定されているものと推測します。
HTMLのlang属性によるブラウザの表示
<span>写、愈</span><br> <span lang="zh-cn">写、愈</span> |
「Adobe-Japan1」を検索するとウィキペディアのページがあります。Adobe-Japan1はデファクトスタンダードだと説明されています。漢字異体字シーケンスIVS(Ideographic Variation Sequences)の表があります。
「愈」の Unicode は 6108です。また、E0100 から E01EF は 240の VS17からVS256と命名された異体字セレクタです。
Windowsパソコンであれば日本語の入力できる状態で、
6108[F5]e0100[F5][enter]6108[F5]e0101[F5][enter]
とキーボードを押せば以下の表示になります。
愈愈󠄀
ここで[F5]はファンクションキーのF5、[enter]はenterキーを押すことです。
日本語入力状態なので、e0100と打鍵すれば、え0100 のように表示されますが構わず[F5]を押すと漢字に変換されます。
※「地域コード」と書きましたが正しくはないものと思います。ほとんどのパソコンはOSがインストールされた状態で販売されていますがメーカーは出荷先(地域)に応じて型番を変えています。日本向けの商品の型番にはJPを含んでいたりします。また、OSはユーザの「言語」が選択できるようにしています。今日では、表示だけの問題ではなく、声音も対象です。HTMLのlang属性は「言語」でしょうが、こうした設定は皆作用する対象が重複しており、また異なってもいます。中文のHTMLのlang属性は、zh-cmn-Hans(簡体字)、zh-cmn-Hant(繁体字)のようです。HTMLに記述がない場合にどのように決まるのかは良く分かりません。zh-cmn-Hans は「中国語簡体字サイト」と説明されますが、この説明は簡体字と繁体字で何が変わるのかを示しません。「语」と「語」は文字コードが違うのであって、HTMLのlang属性によるものではありません。zh-cmn-Hans は、中文ーコモンー漢字SimplifiedVariant だと思います。やはり、何を示すかは分かりません。
·「你」は普通に使用されてきた漢字だと思います。しかし、手元の漢和辞典にはありません。長い間不思議に思って来ましたが少し考えてみます。
「なんじ」と読まれる漢字は沢山あるようです。乃女汝而若廼迺爾が挙げられています。また、尓 尔尒 您 儞 你 伱 爾 妳 は、日本の古典籍に基づいた異体字のようです。
手元の漢和辞典には、「爾」と、その異体字「尔」が集録されていますが、他の異体字は集録されていないようです。
たとえば、日本書紀の古本を見てみます。
たいていは、「上國、此云羽播豆矩儞」と電子テキストに写されています。実際には、「伱 」「你」と書かれてきたようです。これは真仮名で、「上国」の読みを「うわつくに」と示したものです。「に」を表す真仮名として色々に書かれてきました。
「爾」が正字で「尔」が異体字なので、その類推から、「你」の正字は「儞」と考えられ、転写には「儞」を採用しているのだと思います。
二人称は、文書には余り書かれなかっただろうと推測します。会話では、相手に応じて使い分けられることは不思議ではありません。しかし、「妳」以外は使い分けに関する説明が見当たりません。
国立国会図書館デジタルコレクションの英草紙 5巻(寛延2年(1749)刊)ですが、「你」が真仮名ではなく「なんじ(が心の底は)」と使われています。解題/抄録に「「三言二拍」と総称される中国短編白話小説集からの翻案であることが知られ」とあって、中国の白話小説の導入と共に、「你」も使われていたようです。このころ漢文訓読風には「汝」が使われていたようです。
説文解字は、「爾」と「尔」を共に収めていて必ずしも「尔」は略字ではないようです。なぜ、「你」が漢和辞典になかったり、普通に仮名漢字変換されないのかは良く分かりません。
規範字「咱」には異体字として「倃𠴰偺喒」が挙げられています。
Unihan Databaseでは、「咱」「喒」の訓を「われ」としています。「倃」には「そしる」、「偺」は音のみ、「𠴰」には音訓を挙げません。
「咱」は簡化字ではないようで、このまま憶えるほかなさそうです。
簡体字「鹇」の繁体字は「鷴」(とび)ではなく、「鷳」(とび、しらきじ)となっています。
「坝」「垻」「壩」は、手元の漢和辞典にありません。google翻訳で「ダム」を繁体字に変換すると「壩」、簡体字に変換すると「坝」となります。
Unihan Databaseでは、「壩」の訓に「るせき」、「垻」に「つつみ」の訓を与えています。
「垻」「埧」は、台湾の「壩」の教育用漢字で、字形的には「坝」の原型に見えますが、繁体字は「壩」であると言うことです。
また、「ダム」と書くことは出来ないので、漢字で1字1語であるはずです。
Unihan Databaseでは、簡体字「囱」の繁体字は「囪」です。一方、手元の漢和辞典では「窓」の異体字に「窗」を挙げています。
Unihan Databaseでは、「囱」「囪」の訓に「てんまど」「まど」「けむだし」を挙げています。「囱」「囪」は、もっぱら、「烟囱」「煙囪」と使うようです。
手元の漢和辞典にない。面積の単位らしい。坰ではない。
アルカリ、塩基らしい。手元の漢和辞典にない。「鹼」が表外漢字表にあるので、これに変換される。「鹼」を「鹸」の旧字体と見なせば「鹸」になる。
塀と言う常用漢字には対応する簡体字がなかった。「墙」を「塀」として見た。
「墙」は、壁と塀で、どちらかは文脈で決まるらしい。
簡体字「赍」には繁体字「賫」と異体字「賷」「齎」が挙げられています。異体字の2字はJIS漢字なので順番から「賷」を取ります。しかし、「もたらす」と入力すると「齎」となります。手元の辞書には「賷」がありません。「齎」を取ります。
「麸」は「麩」が正字らしい。
簡体字「哄」は常用漢字や表外漢字に含まれていない。したがって、異体字「閧」「鬨」から「閧」が採られます。
簡体字「啮」の繁体字は「嚙」です。字形的には「噛」です。しかし、「噛む」はgoogle翻訳で「咬」となります。「嚙」は、文語で動物が「かじる」ことのようです。「啮」が「噛」になるためには、「嚙」が旧字なら都合が良い訳ですがそうは見なされていないようです。
規範字の「蘖」(ひこばえ)は、手元の漢和辞典にあります。Unihanは「櫱」を繁体字として挙げています。
簡体字の「䜧」は、規範字ではなく、Unihan にあるもので、繁体字は「䜀」となっていて字形の点では疑問はありません。しかし、繁体字に「譅」を挙げている資料もあります。Unihanでは「䜧」「䜀」は共に nǎo で、「to insult with words」です。一方「漢典」は康熙字典の「譅」をあてます。これは sè で、「wriggling」です。google翻訳では「䜧」は「いくら」と約されるので良く分かりません。
「捍」と「扞」は、共に規範字です。手元の漢和辞典には、それぞれ集録されていて別字のようです。共に「ふせぐ」です。「扞」が先で、「捍」の古字と解されているようです。
この字は、規範字でも、Unihan の簡体字でもないようです。テストデータにあって気が付きました。簡体字「拚」、繁体字「抃」となっていたり、「拚」=「拼」だったりするようです。「抃」は規範字です。「拚」は、pàn で、「てをうつ」が訓です。
規範字「喂」には「餵」「餧」が異体字として挙げられています。「喂」は「ちょっと」や「もしもし」といった呼びかけらしく、「餵」「餧」は動物に餌をやることののようです。「喂」は両方に使われるようです。
「韧」の繁体字は「韌」です。異体字は「靭」「靱」と、もう1字挙げられています。この1字は合字で表され「韋+刄」です。
「通用规范汉字表」の合字を使った異体字の表記は「操」にもありますが、この2つだけです。
「铺」の繁体字は「鋪」で異体字に「舖」が挙げられています。google翻訳の「店舗」は「店铺」となります。「舖」は規範字ではありません。
「刨」は「かんな」や「かんなで削る」ことのようです。異体字に「鉋」「鑤」が示されていますが、繁体字は示されていません。簡化字ではなく、本来は「削る」という意味の漢字のようです。
「焊」は異体字「釬」「銲」が示されています。google翻訳では「溶接」となります。繁体字は示されておらず、字形は古くからあった漢字のようです。
日本語の環境では、前者の表示になります。「碰」 は、bump で、衝突; バタン,ドスンのようです。「ポン」や「カン」、「ドン」と言った擬音らしく、麻雀のポンのようです。「掽」「踫」が異体字に挙げられています。
また、出くわす、試しにやってみる(ぶつかってみる)、盾突く、と言ったことのようです。
仮名漢字変換で「なみ」は「並」になります。unicodeの 4E26 です。Unicodeの FA70 「並」も同じに見えます。しかし、Unicodeが集録しているのは下図のようです。
「並」の旧字体は「竝」です。なぜJIS漢字が、「碰」「掽」と集録したのかは良く分かりません。「踫」はJIS漢字に無いようで、日本語環境でも「並」です。
規範字が「槁」、異体字が「槀」(説文解字は「木枯也」)。
あ
規範字が「莅」、異体字が「涖」「蒞」。「莅」は手元の漢和辞典にある漢字。
規範字が「绣」、繁体字が「綉」異体字が「繡」。google翻訳は「刺繍」を「刺绣」と翻訳します。表外漢字表は「繡」を採り、「繍」は簡易慣用字体らしい。
規範字が「襁」、異体字が「繦」。いずれも手元の漢和辞典にあり、「襁」の訓は「むつき(おむつ)」、「繦」の訓は「ひも」「つな」です。幼児を背負う帯というのが共通する意味のようですが、日本では使い別けられていたことを示すのだろうと思います。
「繦」は規範字ではないので幼児を背負う広い帯,負いひもは「襁」と書き、「むつき」の意味はないようです。
あ
規範字が「线」、繁体字が「綫」、異体字が「線」です。手元の漢和辞典では、「線」の異体字に「綫」が挙げられています。「缐」も規範字なので、使い分けがあるようです。
規範字が「绸」、繁体字が「綢」、異体字が「紬」です。手元の漢和辞典では「綢」は「まとう/しげし/つつむ」、「紬」は「ひく/つむぎ」とあります。
しかし、「䌷」は規範字ではないので、「绸」が使われ「䌷」と同義のようです。
規範字「剥」は、手元の漢和辞典にあって共通の字形のようです。しかし、常用漢字は「剝」を採っており、「剥」は正字ではないようです。
勋勛勲勳
説文解字に「周禮故書勳作勛」とあるらしい。字形の問題としては、「勋」を「勛」として済みますが、手元の漢和辞典にありません。「勲」と、その異体字「勳」は辞書にあります。
規範字の「忏」は繁体字「懺」の簡化字のようです。表外漢字は「懺」です。、「懴」は両者で異体字のようです。
規範字「掴」、繁体字「摑」です。手元の漢和辞典には「摑」がありませんが、これは表外漢字です。古くから両方の字形が使用され、「掴」は必ずしも略字でないと言うことだと思います。
規範字「搅」は、繁体字「攪」の簡化字のようです。表外漢字にあるのは「攪」で、「撹」は簡易慣用字体のようです。