【IT】コンピューターで全漢字使用可に６万字コード化

**ノチラ ★** · 2017/12/25(月) 04:50:46.68

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など１１種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ６０種類ありますが、このうちコンピューターが扱えるのは「べ」は３文字、「サイ」は１５文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和５３年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ６０００字でした。

その後、昭和５４年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ１万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ２４０字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

**名刺は切らしておりまして** · 2018/01/31(水) 21:03:35.19

そして、収録されていない新しい漢字が発掘されて、再び仕事をつくる。
これが、IPAのデジタル詐欺という、永久機関。

**名刺は切らしておりまして** · 2018/01/31(水) 21:42:45.45

>>298
15年も無駄に掛けたこの文字コードは何週遅れてるんだよ

**名刺は切らしておりまして** · 2018/01/31(水) 22:15:00.65

>>273
欧米中心だと
ローカライズはあくまでアジアの括りでしかやってくれないよ
unicodeのCJKVとかがいい例

**名刺は切らしておりまして** · 2018/02/01(木) 14:19:02.04

>>278
諸橋の漢字はほとんど全て入っている。
http://kanji-database.sourceforge.net/dict/daikanwa/

**名刺は切らしておりまして** · 2018/02/01(木) 14:24:20.37

>>301
最終的には16bitじゃ収まらないんだから
16bitから始めて、サロゲートペア、異体字セレクタと進んできたのは、
今の視点で見れば、そう悪くなかったと思える
CJK統合はちょっとうまくない統合もあるけどね

**名刺は切らしておりまして** · 2018/02/02(金) 18:58:55.01

>>295 >>297
「文化」は、役所の事務には要らない。
人名地名の管理は、文化なんて無視してやればいい。

**名刺は切らしておりまして** · 2018/02/02(金) 19:20:39.09

Civilizationですよ

**名刺は切らしておりまして** · 2018/02/03(土) 02:00:23.51

>>304
役所のためにコンピュータがあるわけでは無い。

**名刺は切らしておりまして** · 2018/02/03(土) 06:27:56.31

この程度で「全漢字」なんて言うのはNHKのバカ記者だろう

**名刺は切らしておりまして** · 2018/02/03(土) 06:31:45.09

>>1
漢字のほうを簡素にしろよ。
斎藤の斎の字だけでもたくさんあるし、
ツヨシ君の「草○」だって「ナギは～」ってのまで書かなきゃでマスゴミも大変だろ。
「澤」も「沢」に統一すりゃ面倒がなくていいのに。

**名刺は切らしておりまして** · 2018/02/03(土) 07:47:02.02

8000字登録で幽霊文字がいくつも出来たのに
六万字とか

9 · 2018/02/04(日) 18:58:14.08

ぎゃあぎゃあうるさい客を黙らせるには、こんなアプローチしかなかったんだよ
ちなみに、異体字セレクタで指定するように実装されているので、コードが増えたわけではない
心配なソートや検索には少し機能追加して、異体字区別オン/オフ機能を持たせればいい

**名刺は切らしておりまして** · 2018/02/04(日) 20:03:36.68

>>310
ああ、フィルタリング出来るなら実害は無いか。
選択肢が多いってのも考えものではある。

**名刺は切らしておりまして** · 2018/02/05(月) 07:30:08.11

役所を機械化して公務員減らせよ

**名刺は切らしておりまして** · 2018/02/09(金) 08:24:16.87

>>295
そういうときは、テキストではなく、画像で表現するでしょう。

**名刺は切らしておりまして** · 2018/02/09(金) 13:22:49.59

>>313
文字コードを与えられていないと文字として処理するのが不便です。
検索とかその文字を使って文章を書くとか。

**名刺は切らしておりまして** · 2018/02/10(土) 03:15:29.88

>>295
PDF使え

**名刺は切らしておりまして** · 2018/02/10(土) 11:35:08.24

>>315
各自が作ったファイルで共通の処理ができるの？

**名刺は切らしておりまして** · 2018/02/10(土) 14:47:39.43

>>3
ちなみにこれの答えは「すすむ」

**名刺は切らしておりまして** · 2018/02/10(土) 18:55:11.07

>>316
異体字セレクタやフォント指定使えば問題なし

**名刺は切らしておりまして** · 2018/02/12(月) 22:14:43.48

昭和の映画や看板には誤字のままレタリングしたようなのが結構見られる

**名刺は切らしておりまして** · 2018/02/13(火) 22:42:22.76

>>318
読み方もわからない漢字を探すとか苦行でしかない

**名刺は切らしておりまして** · 2018/02/14(水) 01:11:36.46

読む？
書く必要のある人が書くだけ

**名刺は切らしておりまして** · 2018/02/14(水) 01:46:16.20

>>321
誰も手書きの話なんかしてないわこのアホウ

**名刺は切らしておりまして** · 2018/02/14(水) 01:50:40.23

書くのは手だけじゃない

**名刺は切らしておりまして** · 2018/02/14(水) 01:57:24.85

>>323
お前もういいからバカは死んでろ

**名刺は切らしておりまして** · 2018/02/14(水) 02:37:57.78

>>1
おせーよ

**名刺は切らしておりまして** · 2018/02/14(水) 06:25:29.82

>>9
バカ自慢しつつなぜかマウンティングｗ
底辺の無知蒙昧無敵ｗｗｗｗｗ

**名刺は切らしておりまして** · 2018/02/15(木) 13:20:55.80

>>322
アホ?

9 · 2018/02/17(土) 21:54:24.42

>>326
解説よろしく

**名刺は切らしておりまして** · 2018/02/17(土) 22:05:52.42

>>1
これで異字体を実質的に廃止する機会を失った
後世にまで残る極めて悪質な判断
こういう事に労力をかけるのは無駄！無駄！無駄！
こんな無駄な事してるから日本はいつまでたっても非効率なんだ

**名刺は切らしておりまして** · 2018/02/17(土) 22:14:10.89

>>329
開発してる当事者らは社会の役に立ってると思い込んでるから救いようが無い

**名刺は切らしておりまして** · 2018/02/18(日) 00:03:12.66

くだらん
むしろ無意味な字体をなくせ

**名刺は切らしておりまして** · 2018/02/18(日) 10:40:12.04

http://www.chokanji.com/ckk/images/press/ckkvar03.png

コンピューターで異字体の検索が困難にならないように異字体同一視検索出来る様にするのは本末転倒
意味が同一であるなら表記も一つにすべき

文字の本来の意義は伝達である
伝達を困難にする文字の個性はいらない
個性を出したいならフォントで出せ

それが情報化社会における漢字のありかただと考える

**名刺は切らしておりまして** · 2018/02/18(日) 15:07:35.79

>>332
正気の沙汰じゃないわな

**名刺は切らしておりまして** · 2018/02/18(日) 15:54:03.26

>>332
40年位考えが遅れてる

**名刺は切らしておりまして** · 2018/02/18(日) 17:14:31.55

公的文書に誤字を残す必要はない。

**名刺は切らしておりまして** · 2018/02/23(金) 18:51:58.83

残ったものは残す必要がある

**名刺は切らしておりまして** · 2018/02/23(金) 19:21:18.09

彁

**sage** · 2018/02/23(金) 19:26:52.63

異字体のうち誤用により生まれた文字は
即刻なくすべき
戸籍も同様に変更（正しい漢字とみなす）にすればいい
本人の文句は受け付けない、と

**名刺は切らしておりまして** · 2018/02/23(金) 20:00:10.03

>>338
それは過去の抹殺だ
捏造に近い

**名刺は切らしておりまして** · 2018/02/24(土) 09:56:08.03

>>338
誤用や書き損じが元になってるかどうかの判断はいまさら難しいが、字体や意味が同じまたはほとんど同じなら
一つの漢字に統一すべきだろうな
本人以外区別が付かない字に意義は無い

>>339
過去なんかどうでもいい問題は未来だ

**名刺は切らしておりまして** · 2018/02/24(土) 10:15:23.04

>>280
結局みんな、旧字体戦後に新字体になったのを拒否しただけの人だろ

ほとんどの人は、新字体の渡辺に変えたんだから役所は新字体だけに統一すればいい

**名刺は切らしておりまして** · 2018/02/24(土) 11:19:06.92

>>340
未来についても終わってる>>298

住民基本台帳ネットワーク統一文字
UCS
好きな包摂基準のを使えばいい

**名刺は切らしておりまして** · 2018/02/24(土) 11:20:49.82

>>341
そんなことしたければ
対応表使って正規化すればいい
君の設計するシステムでは

**名刺は切らしておりまして** · 2018/02/24(土) 11:37:14.08

>>343
対応表とかバカかｗ

**名刺は切らしておりまして** · 2018/02/24(土) 11:42:45.32

>>344
何故？

**名刺は切らしておりまして** · 2018/02/24(土) 11:44:43.70

>>345
なぜバカなのかすらわからないならレスする意味も無い

**名刺は切らしておりまして** · 2018/02/24(土) 12:22:13.59

http://www.chokanji.com/ckk/images/press/ckkvar03.png

正気の沙汰じゃない

**名刺は切らしておりまして** · 2018/02/24(土) 13:13:53.36

>>347
昔の人が字の細かいところをうろ覚えで書いてた結果がこれか
なので全体の形はどれもよく似てる

**名刺は切らしておりまして** · 2018/02/24(土) 13:31:36.13

康熙字典に無い異字体は廃止でいいよ

**名刺は切らしておりまして** · 2018/03/02(金) 23:08:12.38

半角文字や制御コードとの兼ね合いで、2バイトでは6万字は表せない
細かな字体の違いをコード化するためにUnicodeみたくバイト数増やすのか？
動画とかは無圧縮との違いが目立たないようにデータ切り捨ててるのに