【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html それよりUTF-8-MACとか言う糞文字コードを国内法で禁止しろ
一々濁点直すの面倒なんだよ
遠まわしに「winじゃないんですね〜」って嫌味言っても、褒められたと勘違いして喜んでやがるksg 点や線なんて書き間違えとかそのまま登録だったらしいね
逆に絞り込んでもよかったんじゃないかと ドキュン字というか、識字率が低かった頃になんでもかんでも採用しちゃったのがいけないんだろ。
オレも絞った方がいいとおもう 氏名の漢字のバリエーションは、ご本人はもちろん
伝統として大切なことは重々承知してるが、
他人にとってはただただ面倒くさい。
モニタ解像度がまだそんなに高くなかった頃、
映し出された似たような漢字の変換候補一覧を凝視して、
ドット単位で違いを見極めて確定ボタンを押してた時代もあった。 >>8
キラキラネームと同レベルの迷惑度なのに、
こだわりさんにはその自覚ないんだよね 今回の6万字はどの文字コードに含まれるの? UTF-8? つうわけで、せめてサイトウのサイ、ワタナベのナベの異体字なんかは、ソート時とかに同一視するオプションつけろ >>10
「辺の字」の「何番」みたいな方式で拡張するんで、元のコードには変更なし
このエンコード方式自体は、Windowsなら7以降に組み込んであるので、
一般アプリは、只のテキストとして扱うだけでもあまり問題は出ない コードが決まってもフォントがないとどうにもならんのでは?
フォント会社特需?株、買えばいいの? そもそも1/3ぐらいは誤字なんだから
元の正しい漢字に戻せばいいんだよ >>13
IPA作成のフォントは、既に公開してるんだって 利用者が文字の違いを認識できず、
誤った類似文字で登録して混乱しそうだなw。
文字入力者のスキルが...........w >>20
ワタナベさんやサイトウさんが、本人達大混乱とかなw >>19
標準Editコントロールとかテキストボックスとかは、
既に対応済みなんじゃないかな
IPAフォントさえインストールすれば、当座の凌ぎにはなるでしょ 「吉田」の「ヨシ」のつくりが「土」
はしご「高」
これらは書体に過ぎないから
例であげるなら最高裁判所の看板
https://cdn.amanaimages.com/cen3tzG4fTr7Gtw1PoeRer/23023001162.jpg
最高裁判所の「高」がはしご「高」だと主張する人なんて居ないから 齊と斉は同じ字・斎と齋は同じ字
だけど前者と後者は違う字 ちょっと待て
全部ってなんだよ
今昔文字鏡だって15万字だぞ
6万ごときで全部なわけないだろ
嘘つきNHKめ 戸籍に登録されてる文字全部って意味なんじゃないのかw? ただの誤字も律儀に登録したのかな。
名前はロゴタイプじゃないんだから、字体が違ってもコンピュータ登録用文字として妥協しろよ。
検索が大変になるぞ。 >>5
合成はUnicodeの規格に沿った扱いなんだよ。
ただ文句をつけたい気持ちはわかる。
Windows版iTunesでそのまま扱いやがって濁点付きの言葉を検索する際に面倒な目に遭った事がある。 Unicode 10.0がISOで規格化されましたって話でしょ
すぐ使えるわけじゃない
いくら番号付け(コード化し)てもその図(字体)がなければ使えないし >>33
それ言うなら、レアな漢字で 9文字組み文字になったそれもUnicodeの規格に沿わせろよ 知り合いの橋さんもこだわりがあったな
はしごのだって ☀☔⏰⌚⏳
太陽、雨傘、目覚まし時計、腕時計、砂時計 ■ このスレッドは過去ログ倉庫に格納されています