【IT】コンピューターで全漢字使用可に６万字コード化

**ノチラ ★** · 2017/12/25(月) 04:50:46.68

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など１１種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ６０種類ありますが、このうちコンピューターが扱えるのは「べ」は３文字、「サイ」は１５文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和５３年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ６０００字でした。

その後、昭和５４年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ１万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ２４０字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

**名刺は切らしておりまして** · 2017/12/25(月) 05:01:24.89

16bitとはえらく妥協したな

**名刺は切らしておりまして** · 2017/12/25(月) 05:02:33.55

生'

知り合いの名前
読める？

**名刺は切らしておりまして** · 2017/12/25(月) 05:04:34.93

凄いが変換候補が多くなり過ぎて悩みそう

**名刺は切らしておりまして** · 2017/12/25(月) 05:05:39.91

それよりUTF-8-MACとか言う糞文字コードを国内法で禁止しろ
一々濁点直すの面倒なんだよ
遠まわしに「winじゃないんですね～」って嫌味言っても、褒められたと勘違いして喜んでやがるksg

**名刺は切らしておりまして** · 2017/12/25(月) 05:07:51.84

点や線なんて書き間違えとかそのまま登録だったらしいね
逆に絞り込んでもよかったんじゃないかと

**名刺は切らしておりまして** · 2017/12/25(月) 05:12:10.81

ドキュン字というか、識字率が低かった頃になんでもかんでも採用しちゃったのがいけないんだろ。
オレも絞った方がいいとおもう

**名刺は切らしておりまして** · 2017/12/25(月) 05:15:37.56

氏名の漢字のバリエーションは、ご本人はもちろん
伝統として大切なことは重々承知してるが、
他人にとってはただただ面倒くさい。

モニタ解像度がまだそんなに高くなかった頃、
映し出された似たような漢字の変換候補一覧を凝視して、
ドット単位で違いを見極めて確定ボタンを押してた時代もあった。

**名刺は切らしておりまして** · 2017/12/25(月) 05:19:36.45

>>8
キラキラネームと同レベルの迷惑度なのに、
こだわりさんにはその自覚ないんだよね

**名刺は切らしておりまして** · 2017/12/25(月) 05:28:44.80

今回の6万字はどの文字コードに含まれるの？ UTF-8？

**名刺は切らしておりまして** · 2017/12/25(月) 05:29:38.53

つうわけで、せめてサイトウのサイ、ワタナベのナベの異体字なんかは、ソート時とかに同一視するオプションつけろ

**名刺は切らしておりまして** · 2017/12/25(月) 05:36:16.01

>>10
「辺の字」の「何番」みたいな方式で拡張するんで、元のコードには変更なし

このエンコード方式自体は、Windowsなら7以降に組み込んであるので、
一般アプリは、只のテキストとして扱うだけでもあまり問題は出ない

**名刺は切らしておりまして** · 2017/12/25(月) 05:37:06.15

コードが決まってもフォントがないとどうにもならんのでは？
フォント会社特需？株、買えばいいの？

**名刺は切らしておりまして** · 2017/12/25(月) 05:37:14.05

草薙

**名刺は切らしておりまして** · 2017/12/25(月) 05:37:29.30

そもそも1/3ぐらいは誤字なんだから
元の正しい漢字に戻せばいいんだよ

**名刺は切らしておりまして** · 2017/12/25(月) 05:40:57.75

超漢字がいらなくなる

**名刺は切らしておりまして** · 2017/12/25(月) 05:43:58.61

>>13
IPA作成のフォントは、既に公開してるんだって

**名刺は切らしておりまして** · 2017/12/25(月) 05:49:39.78

ついに草なぎ剛が変換可能に！

**名刺は切らしておりまして** · 2017/12/25(月) 05:49:45.02

>>17
それだけ有っても仕方ない

**名刺は切らしておりまして** · 2017/12/25(月) 05:53:19.43

利用者が文字の違いを認識できず、
誤った類似文字で登録して混乱しそうだなｗ。
文字入力者のスキルが...........w

**名刺は切らしておりまして** · 2017/12/25(月) 05:56:08.63

>>20
ワタナベさんやサイトウさんが、本人達大混乱とかなｗ

**名刺は切らしておりまして** · 2017/12/25(月) 05:59:42.88

>>19
標準Editコントロールとかテキストボックスとかは、
既に対応済みなんじゃないかな
IPAフォントさえインストールすれば、当座の凌ぎにはなるでしょ

**名刺は切らしておりまして** · 2017/12/25(月) 06:00:04.37

>>22
混乱するだけだ

**名刺は切らしておりまして** · 2017/12/25(月) 06:02:32.61

「吉田」の「ヨシ」のつくりが「土」
はしご「高」
これらは書体に過ぎないから
例であげるなら最高裁判所の看板
https://cdn.amanaimages.com/cen3tzG4fTr7Gtw1PoeRer/23023001162.jpg
最高裁判所の「高」がはしご「高」だと主張する人なんて居ないから

**名刺は切らしておりまして** · 2017/12/25(月) 06:04:30.88

６万で足りるのか
以外と少ないな

**名刺は切らしておりまして** · 2017/12/25(月) 06:05:37.16

齊と斉は同じ字・斎と齋は同じ字
だけど前者と後者は違う字

**名刺は切らしておりまして** · 2017/12/25(月) 06:10:35.96

ちょっと待て
全部ってなんだよ
今昔文字鏡だって15万字だぞ
6万ごときで全部なわけないだろ
嘘つきNHKめ

**名刺は切らしておりまして** · 2017/12/25(月) 06:12:14.05

戸籍に登録されてる文字全部って意味なんじゃないのかｗ？

**名刺は切らしておりまして** · 2017/12/25(月) 06:14:59.04

これはすごいけど使う側が混乱するだけで終わりそう

**名刺は切らしておりまして** · 2017/12/25(月) 06:15:06.65

ただの誤字も律儀に登録したのかな。
名前はロゴタイプじゃないんだから、字体が違ってもコンピュータ登録用文字として妥協しろよ。
検索が大変になるぞ。

**名刺は切らしておりまして** · 2017/12/25(月) 06:33:01.56

規格か
どこか実装する予定でもあるんかな

**名刺は切らしておりまして** · 2017/12/25(月) 06:42:02.64

PC98が健在なら、石で持たせていたんだろうか？

**名刺は切らしておりまして** · 2017/12/25(月) 06:51:20.73

>>5
合成はUnicodeの規格に沿った扱いなんだよ。
ただ文句をつけたい気持ちはわかる。
Windows版iTunesでそのまま扱いやがって濁点付きの言葉を検索する際に面倒な目に遭った事がある。

**名刺は切らしておりまして** · 2017/12/25(月) 06:51:59.27

Unicode 10.0がISOで規格化されましたって話でしょ
すぐ使えるわけじゃない
いくら番号付け（コード化し）てもその図（字体）がなければ使えないし

**名刺は切らしておりまして** · 2017/12/25(月) 06:55:30.36

>>33
それ言うなら、レアな漢字で９文字組み文字になったそれもUnicodeの規格に沿わせろよ

**名刺は切らしておりまして** · 2017/12/25(月) 06:57:00.47

知り合いの髙橋さんもこだわりがあったな
はしごの髙だって

**名刺は切らしておりまして** · 2017/12/25(月) 07:00:40.93

☀☔⏰⌚⏳
太陽、雨傘、目覚まし時計、腕時計、砂時計

【IT】コンピューターで全漢字使用可に ６万字コード化

【IT】コンピューターで全漢字使用可に６万字コード化