【ＩＴ】コンピューターで全漢字使用可に６万字コード化

**しじみ ★** · 2017/12/25(月) 06:08:16.97

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、
コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、
６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは１万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、
経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、
このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

**名無しのひみつ** · 2017/12/26(火) 17:26:19.02

超漢字OS持ってたわ

**名無しのひみつ** · 2017/12/26(火) 17:48:23.19

>>47
Jが抜けてもCKが残るだけ

**名無しのひみつ** · 2017/12/26(火) 19:26:51.48

文字コードの肥大化が止まらない

**名無しのひみつ** · 2017/12/26(火) 22:09:27.97

一般人には関係ないだろうが、珍しい名前の人には切実な問題だろうな。あと企業も例えば銀行口座のデータベースなんかは数が多いから珍しい名前もかなりあるはず。
現在はどうやって表示してるのか知らないが、これを使えば珍しい名前も普通に表示できるようになるかもしれない。

**名無しのひみつ** · 2017/12/28(木) 00:06:38.71

>>51
中の人だが、中国人の口座開設が増えて大変。
似た字で誤魔化すこともできるw

**名無しのひみつ** · 2017/12/28(木) 00:24:28.48

なんちゅう欠陥文字
コミュニケーションの道具としては失敗作だろ

**名無しのひみつ** · 2017/12/28(木) 13:40:21.85

文字の容量が6倍になるのは開発者側では大丈夫なんかな？
今の時代なら何とかなるもの？

**名無しのひみつ** · 2017/12/28(木) 21:56:30.15

数学とかの専門系のwebページをiphoneでchromeで見ると文字化けするのなんなの

**名無しのひみつ** · 2017/12/28(木) 22:11:21.39

iphoneのchromeだけで起きるんならapple storeの規約のせいで奇形だから諦めろ

**名無しのひみつ** · 2017/12/28(木) 22:17:09.56

わざわざCJKVで統合する必要はあるのかな？
ユニコードを３桁に拡張したんだから
国ごとに振り分けてしまえばいいのに
そうすれば今は入ってないマヤ文字だって苦労せず扱えるだろうに

**名無しのひみつ** · 2017/12/28(木) 22:28:22.03

これドンだけかねつかったら達成できるやろ

**名無しのひみつ** · 2017/12/28(木) 22:51:48.62

>>57
区別出来るし
今や文字はいくらでも入る

**名無しのひみつ** · 2017/12/28(木) 22:53:46.49

そんなことより、日本語のコードを統一しろよ
ISO-22022-JP,ISO-8859-1,JIS,Shift-JIS,EUC,UTF

何のコードの拡張版がしらんが、いい加減にしろ

エェーーェ新コードなの！！びっくり

**名無しのひみつ** · 2017/12/28(木) 22:58:52.85

そもそもunicodeの必要性がわからない

**名無しのひみつ** · 2017/12/29(金) 07:37:53.55

>>60
元記事が馬鹿丸出しだから分からないけど
これは漢字データベースだよ
「文字コード」じゃないしJISのいう文字集合でもない
異体字データベースも含まれる漢字データベース
>>61
馬鹿だからだろう

**名無しのひみつ** · 2017/12/31(日) 10:49:18.30

Ａｄｏｂｅは自前で日本語などのコードを持っているらしいな。

**名無しのひみつ** · 2017/12/31(日) 11:35:06.70

>>63
いや持ってるのは基本的には文字集合だよ
Unicodeへのマッピングもしっかりやってるし
今のUnicideの異体字指示の元になってる

**名無しのひみつ** · 2018/01/01(月) 12:42:41.94

文字をグラフィックスで表示するようにすれば１００億種類の文字でも表示できる。パソコンの能力が向上してるので可能かもしれない。
ただ、現在の方式でも普通に使う分には問題ないので、通常はこの方式を使っていて、特殊文字を表示する時だけグラフィックス方式に切り替える。

**名無しのひみつ** · 2018/01/01(月) 12:53:32.51

誤字で登録されてる人名は誤字を直すのが筋

**名無しのひみつ** · 2018/01/01(月) 14:39:58.43

頼むから集約してくれ

**名無しのひみつ** · 2018/01/02(火) 17:37:08.39

>>67
どの文字と包摂すべきかもデータになってる

**名無しのひみつ** · 2018/01/02(火) 19:01:23.31

>>65
ホント、そのとおりやわ
珍字くらいビッグサーバーのデータに直リンしてそのままGIF縮小表示すればいいし、現在の技術でも十分可能
ビャンビャン麺のビャンとかたいとは現時点ではUnicode未登録だがGIF画像を縮小して文章中に表示してる
https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%A3%E3%83%B3%E3%83%93%E3%83%A3%E3%83%B3%E9%BA%BA

**名無しのひみつ** · 2018/01/02(火) 19:41:56.87

アナログフォントをスキャンして復刻

**名無しのひみつ** · 2018/01/02(火) 21:12:03.32

>>65>>69
馬鹿の考え休むに似たりどころか外字時代に逆行かよ

**名無しのひみつ** · 2018/01/03(水) 09:15:33.29

ロゴ文字の意匠登録のように、登録申請して認可されて料金を支払えば、
任意の図形を登録できて、それに対する６４ビットのコードの割り当てを
受け取り独占できる、という仕組みを世界レベルできちんと運営すれば、
どんな文字でも記号でも図形でもあるいは書体でも登録や検索ができて
ネットにつながった機器であれば世界中で同じように表示ができるように
なると思うよ。

**名無しのひみつ** · 2018/01/03(水) 10:01:45.76

文字化けを気にしてるなら
外字より先に
JISコードをUTF-8に統合しないと

**名無しのひみつ** · 2018/01/03(水) 10:09:57.77

あ、日本語対応のプログラム言語かと思ったら違うのか

**名無しのひみつ** · 2018/01/03(水) 10:27:29.74

コードが割り当てられるのとフォントが対応するのは別問題。

**名無しのひみつ** · 2018/01/03(水) 10:33:36.63

>>72
検索すら出来ねーじゃねーか
>>68のような情報の整理が必須
しかも大体において一定の基準で決められていて
一箇所に固まってないと利用には不便

**名無しのひみつ** · 2018/01/04(木) 16:45:33.50

>>75
少し変わった字体ともなれば未だにシフトJISつまり第2水準までしか対応してないからな
JISX0212（補助）・JISX0213（第3・第4水準）でさえゴシック体にフォント化けするし
拡張領域ならゴシック体すら未実装で明朝体それも中華仕様に化ける

**名無しのひみつ** · 2018/01/05(金) 12:24:19.30

>>77
どのシステムの話？

**名無しのひみつ** · 2018/01/10(水) 22:34:00.45

これってあれだろ、中国語の文字とフォント統一できていない
中華系タブレットみたいになりそう

**名無しのひみつ** · 2018/01/10(水) 22:39:41.08

山口百恵の「恵に点」も使えるのかな？

**名無しのひみつ** · 2018/01/30(火) 05:42:58.13

そもそもバカな役人の書き間違えで発生した異体字なんか抹殺すべきだろ

**名無しのひみつ** · 2018/01/30(火) 05:59:21.01

全部使えるようになったんなら、もう常用漢字いらんだろ
教育漢字は教育漢字でいいけど、書類で好きに漢字使わせろ
アホみたいなひらき方多すぎ
今時ならルビふるのも簡単なんだからさあ

**名無しのひみつ** · 2018/01/30(火) 06:34:57.33

漢字はいいんだよ（よくないのもあるけど）、問題なのは記号類。同じものをあっちこっちに入れるな

**名無しのひみつ** · 2018/01/30(火) 09:31:01.51

醜いかな交じり熟語を撤廃しろ

ねつ造とかわい曲って，字面がマヌケ

**名無しのひみつ** · 2018/02/01(木) 12:46:55.23

新聞社みたいな所に
朝鮮式がいいって思想があるんじゃないか？

**名無しのひみつ** · 2018/02/03(土) 16:21:15.11

英米の7ビットASCIIコード中心主義を排して、
文字は一律に64ビットのコードで表すことにすれば、
五族協和、人類皆兄弟、天下太平に近づけるかもしれないと思う。
それにはまず、char=8ビットなどといったC言語を使うことはやめるべき。
NULLで文字列の終端を表すような言語仕様も排するべきだ。

**名無しのひみつ** · 2018/02/04(日) 04:39:19.38

>>86
はぁ？

**名無しのひみつ** · 2018/02/04(日) 18:36:18.92

高校のとき吉岡君の「吉」の字で
いろいろあったのを思い出した。

担任　「『吉』の上の部分は『土』か『士』かどっち？」

吉岡　「同じ長さです。」

担任　「そうか。」

～しばらくして～

国語教師　「同じ長さの『吉』はねーんだよ！
　　　　　　　　『土』か『士』なんだよ。
　　　　　　　　戸籍取ってこいや！」

～後日～

吉岡　「戸籍取ってきました。」

国語教師＆担任　「同じ長さだな、、、。」

↓
ノギスで計測した結果、
下の棒がが0.2mm長かったので、『土』
となりました。

**名無しのひみつ** · 2018/02/05(月) 16:50:12.60

>>45
変体かなは入ってるよ

**名無しのひみつ** · 2018/02/12(月) 01:31:38.83

昔アップルのマッキントッシュは、本来の英語版では1文字を16ビット＝2バイトで
表していた。それは1バイトはASCIIコードで、残りの1バイトはその文字のフォント
（書体）を指定するためのものであった。
　それを日本に持ち込んで日本語を使えるようにするために漢字TALKというOSの
改造版が提供されていたが、それは1文字が2バイトであるのを、漢字コードで使う
ようにしたのであった。そのため、比較的無理なく日本語をOSのレベルではつかえる
ようになったという。自分はマッキントッシュは高値の花だったので、指をくわえて
友達の説明をうらやましそうに聞くばかりだった。ランドセルのような背負の鞄に
入れて運んでいたMacを取り出して、電源を入れ、Macが音を出してしゃべることも
できるというのには驚いたものだった。あの当時はとても先進的なシステムだった。
システムはPascalのような言語で書かれていて、小さくまとまっていた。グラフィック
画面のGUIが凄かった。
　その技術をBGとMSは盗んだ。しかしA社も元はといえばX社からGUIなどの技術を
盗んだのだった。X社はパークという研究所を作って有能な技術者をたくさん抱えて
画期的な技術を次々と作り出していたが、経営者がそれらを理解できずにどれもこれも
製品化にはこぎ着けていないか失敗している。
たとえばイーサネットもX社で開発された技術であった。

**名無しのひみつ** · 2018/02/12(月) 04:18:26.92

未だにファイル名とか日本語使わないようにせにゃならんとは

**名無しのひみつ** · 2018/02/12(月) 04:43:27.30

>>84
小学校の教科書の「お水」を思いだした。「汚水」なw

**名無しのひみつ** · 2018/02/12(月) 23:14:39.85

>>90
PascalのようなというかPascalだろ
まあ大半はアセンブラで書かれてたが

**名無しのひみつ** · 2018/02/13(火) 16:49:19.02

.鬱
鬱鬱

**名無しのひみつ** · 2018/02/15(木) 01:40:20.36

ところがMacintoshは最初こそPascalがシステム言語だったのに、
どこかで宗主替えしてしまってCがシステム言語になったと思う。

マイクロソフトも最初はMASMやPLMがシステム記述言語だったのだろうと
思うが、ある時期からMSCになった。

**名無しのひみつ** · 2018/02/15(木) 13:28:10.32

>>95
最初はアセンブラだよ
Macintosh Programmer's Workshopが登場してようやく高級言語が使えた
Macintosh Plusと一緒にリリースされたSystem3から
最初はPasscalのみ
MPW2.0からC「も」サポート

**名無しのひみつ** · 2018/02/15(木) 13:36:14.66

>>95
MSは初期はFORTRANで書いた処理系も使っていた
Z80上のCP/MでM80/L80、後に8088上のCP/MでM86/L86を使っていたから

**名無しのひみつ** · 2018/02/23(金) 00:49:42.73

白川静の辞書は面白い

【ＩＴ】コンピューターで全漢字使用可に ６万字コード化

【ＩＴ】コンピューターで全漢字使用可に６万字コード化