【ＩＴ】コンピューターで全漢字使用可に６万字コード化

**しじみ ★** · 2017/12/25(月) 06:08:16.97

日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、
コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、
６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは１万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、
経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、
このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

**名無しのひみつ** · 2017/12/25(月) 06:16:31.64

漢字って一字で意味を持つ単語
中国はどうしてんだ

**名無しのひみつ** · 2017/12/25(月) 06:20:34.08

ユニコードで使えないなら終わり

**名無しのひみつ** · 2017/12/25(月) 06:26:32.02

草○歓喜

**名無しのひみつ** · 2017/12/25(月) 06:31:22.61

龍龍
龍龍

**名無しのひみつ** · 2017/12/25(月) 06:34:57.95

定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成（㍾㍽㍼㍻）の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる？

**名無しのひみつ** · 2017/12/25(月) 06:42:07.95

>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。

**名無しのひみつ** · 2017/12/25(月) 06:43:45.16

>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。

**名無しのひみつ** · 2017/12/25(月) 06:52:13.63

やればできるじゃない

**名無しのひみつ** · 2017/12/25(月) 06:53:23.71

>>7
１文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、

**名無しのひみつ** · 2017/12/25(月) 07:04:14.78

フォントが対応してくれなきゃ

**名無しのひみつ** · 2017/12/25(月) 07:05:07.21

中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。

**名無しのひみつ** · 2017/12/25(月) 07:05:07.35

結局シフトJISやEUCなどの環境がある限り、意味がない

**名無しのひみつ** · 2017/12/25(月) 07:07:19.48

コンピューターで

って漠然としてんなぁ

**名無しのひみつ** · 2017/12/25(月) 07:09:19.70

超漢字ってあったよな

**KUM(ﾟ_ﾟ)N** ◆o4DQN..yEA · 2017/12/25(月) 07:24:40.50

(っﾟ(ｪ)ﾟ)っ[草彅剛]

**名無しのひみつ** · 2017/12/25(月) 07:32:23.96

>>15
あれ、漢字は何万文字入ってるんだろ。

**名無しのひみつ** · 2017/12/25(月) 07:40:21.59

文字コードは頭痛い

**名無しのひみつ** · 2017/12/25(月) 08:03:55.56

闔閭范蠡

**名無しのひみつ** · 2017/12/25(月) 08:23:03.50

この話題、科学のカテゴリかな?

**名無しのひみつ** · 2017/12/25(月) 08:25:36.76

>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。

**名無しのひみつ** · 2017/12/25(月) 08:34:31.35

>>21
日本語か日本語じゃない文字かを判定するときに、１文字だけ飛んだら困るだろ

**名無しのひみつ** · 2017/12/25(月) 08:37:39.61

>>1
漢文講義するとき助かる

**名無しのひみつ** · 2017/12/25(月) 08:38:44.49

>>20
その発想は無かった

**名無しのひみつ** · 2017/12/25(月) 08:43:35.83

俺の名字も正確なのないから、簡易字つかってるな。

**名無しのひみつ** · 2017/12/25(月) 08:44:04.88

興興
興興

**名無しのひみつ** · 2017/12/25(月) 08:49:52.76

またスマホが重くなるな

**名無しのひみつ** · 2017/12/25(月) 10:21:12.47

>>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ

**名無しのひみつ** · 2017/12/25(月) 12:18:05.99

超漢字は18万
TRONに追いついてすらいない

**名無しのひみつ** · 2017/12/25(月) 13:13:00.11

>>1
板違い死ね

**名無しのひみつ** · 2017/12/25(月) 16:12:39.75

>>29
外国語入れてだろ

**名無しのひみつ** · 2017/12/25(月) 18:00:25.65

JISコードなん？

**名無しのひみつ** · 2017/12/25(月) 18:09:12.04

>>1
＞１５年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m

**名無しのひみつ** · 2017/12/25(月) 19:29:17.91

同音異義語を減らしてくれ

**名無しのひみつ** · 2017/12/25(月) 20:09:57.33

三国志の武将に使われてる難しい漢字も登録されてるの?

**名無しのひみつ** · 2017/12/25(月) 21:35:58.45

>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

>>1
文字コードを決めるだけでなく入力インターフェイスも改善もＩＭＥ製作会社にがんばってほしい

ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく

全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう

個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。

**名無しのひみつ** · 2017/12/25(月) 22:29:02.65

http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。

「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ

**名無しのひみつ** · 2017/12/25(月) 22:29:39.25

>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど

**名無しのひみつ** · 2017/12/25(月) 22:56:44.28

>>38
あと何が有るんだ

**名無しのひみつ** · 2017/12/25(月) 23:13:12.75

こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある１万字に残りの４万字を収束させるほうがよほど合理的

**名無しのひみつ** · 2017/12/25(月) 23:53:44.13

できるのが20年おせーよww
さすがお役所

**名無しのひみつ** · 2017/12/26(火) 00:08:43.01

游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど

**名無しのひみつ** · 2017/12/26(火) 02:37:46.26

こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが

**名無しのひみつ** · 2017/12/26(火) 07:58:51.07

>>43
そんな問題はない

**名無しのひみつ** · 2017/12/26(火) 12:07:44.76

どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。

源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか？

https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3

**名無しのひみつ** · 2017/12/26(火) 12:15:37.30

遅すぎる

**名無しのひみつ** · 2017/12/26(火) 14:13:42.61

日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ