【IT】コンピューターで全漢字使用可に 6万字コード化

1しじみ ★2017/12/25(月) 06:08:16.97ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

30名無しのひみつ2017/12/25(月) 13:13:00.11ID:6ElEffzj
>>1
板違い死ね

31名無しのひみつ2017/12/25(月) 16:12:39.75ID:dw9MfVUg
>>29
外国語入れてだろ

32名無しのひみつ2017/12/25(月) 18:00:25.65ID:NLkgVufX
JISコードなん?

33名無しのひみつ2017/12/25(月) 18:09:12.04ID:xUmKRZBA
>>1
>15年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m

34名無しのひみつ2017/12/25(月) 19:29:17.91ID:bSmjCHJv
同音異義語を減らしてくれ

35名無しのひみつ2017/12/25(月) 20:09:57.33ID:nyCNjF1q
三国志の武将に使われてる難しい漢字も登録されてるの?

36名無しのひみつ2017/12/25(月) 21:35:58.45ID:Mi/RlUUg
>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

>>1
文字コードを決めるだけでなく入力インターフェイスも改善もIME製作会社にがんばってほしい

ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく

全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう

個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。

37名無しのひみつ2017/12/25(月) 22:29:02.65ID:M9yXpPtK
http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。

「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ

38名無しのひみつ2017/12/25(月) 22:29:39.25ID:DCSKd2YI
>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど

39名無しのひみつ2017/12/25(月) 22:56:44.28ID:lz/oNolB
>>38
あと何が有るんだ

40名無しのひみつ2017/12/25(月) 23:13:12.75ID:HaGyNitW
こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある1万字に残りの4万字を収束させるほうがよほど合理的

41名無しのひみつ2017/12/25(月) 23:53:44.13ID:0kGutRty
できるのが20年おせーよww
さすがお役所

42名無しのひみつ2017/12/26(火) 00:08:43.01ID:oQ5BHkWw
游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど

43名無しのひみつ2017/12/26(火) 02:37:46.26ID:iSd82aHw
こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが

44名無しのひみつ2017/12/26(火) 07:58:51.07ID:CiEaQayK
>>43
そんな問題はない

45名無しのひみつ2017/12/26(火) 12:07:44.76ID:xr7x/cSb
どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。

源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか?

https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3

46名無しのひみつ2017/12/26(火) 12:15:37.30ID:CnbcvKQ1
遅すぎる

47名無しのひみつ2017/12/26(火) 14:13:42.61ID:niF5jrmS
日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ

48名無しのひみつ2017/12/26(火) 17:26:19.02ID:Ug1u8y6i
超漢字OS持ってたわ

49名無しのひみつ2017/12/26(火) 17:48:23.19ID:AQTYI+KT
>>47
Jが抜けてもCKが残るだけ

50名無しのひみつ2017/12/26(火) 19:26:51.48ID:JjHIDaHt
文字コードの肥大化が止まらない

51名無しのひみつ2017/12/26(火) 22:09:27.97ID:OR0wrD/w
一般人には関係ないだろうが、珍しい名前の人には切実な問題だろうな。あと企業も例えば銀行口座のデータベースなんかは数が多いから珍しい名前もかなりあるはず。
現在はどうやって表示してるのか知らないが、これを使えば珍しい名前も普通に表示できるようになるかもしれない。

52名無しのひみつ2017/12/28(木) 00:06:38.71ID:omCw5ppT
>>51
中の人だが、中国人の口座開設が増えて大変。
似た字で誤魔化すこともできるw

53名無しのひみつ2017/12/28(木) 00:24:28.48ID:+CQjx+//
なんちゅう欠陥文字
コミュニケーションの道具としては失敗作だろ

54名無しのひみつ2017/12/28(木) 13:40:21.85ID:mcicFoXv
文字の容量が6倍になるのは開発者側では大丈夫なんかな?
今の時代なら何とかなるもの?

55名無しのひみつ2017/12/28(木) 21:56:30.15ID:vKC6ZQnK
数学とかの専門系のwebページをiphoneでchromeで見ると文字化けするのなんなの

56名無しのひみつ2017/12/28(木) 22:11:21.39ID:gms9yOAv
iphoneのchromeだけで起きるんならapple storeの規約のせいで奇形だから諦めろ

57名無しのひみつ2017/12/28(木) 22:17:09.56ID:2/rH0JUe
わざわざCJKVで統合する必要はあるのかな?
ユニコードを3桁に拡張したんだから
国ごとに振り分けてしまえばいいのに
そうすれば今は入ってないマヤ文字だって苦労せず扱えるだろうに

58名無しのひみつ2017/12/28(木) 22:28:22.03ID:Ceg8lK4b
これドンだけかねつかったら達成できるやろ

59名無しのひみつ2017/12/28(木) 22:51:48.62ID:gms9yOAv
>>57
区別出来るし
今や文字はいくらでも入る

60名無しのひみつ2017/12/28(木) 22:53:46.49ID:TNIWwDOR
そんなことより、日本語のコードを統一しろよ
ISO-22022-JP,ISO-8859-1,JIS,Shift-JIS,EUC,UTF

何のコードの拡張版がしらんが、いい加減にしろ

エェーーェ 新コードなの!! びっくり

61名無しのひみつ2017/12/28(木) 22:58:52.85ID:kKJH6Qvh
そもそもunicodeの必要性がわからない

62名無しのひみつ2017/12/29(金) 07:37:53.55ID:4jdKRrrI
>>60
元記事が馬鹿丸出しだから分からないけど
これは漢字データベースだよ
「文字コード」じゃないしJISのいう文字集合でもない
異体字データベースも含まれる漢字データベース
>>61
馬鹿だからだろう

63名無しのひみつ2017/12/31(日) 10:49:18.30ID:kdl85RpN
Adobeは自前で日本語などのコードを持っているらしいな。

64名無しのひみつ2017/12/31(日) 11:35:06.70ID:VgFYf2KV
>>63
いや持ってるのは基本的には文字集合だよ
Unicodeへのマッピングもしっかりやってるし
今のUnicideの異体字指示の元になってる

65名無しのひみつ2018/01/01(月) 12:42:41.94ID:fjZQTFVk
文字をグラフィックスで表示するようにすれば100億種類の文字でも表示できる。パソコンの能力が向上してるので可能かもしれない。
ただ、現在の方式でも普通に使う分には問題ないので、通常はこの方式を使っていて、特殊文字を表示する時だけグラフィックス方式に切り替える。

66名無しのひみつ2018/01/01(月) 12:53:32.51ID:uCF2PSw0
誤字で登録されてる人名は誤字を直すのが筋

67名無しのひみつ2018/01/01(月) 14:39:58.43ID:m9qIECHC
頼むから集約してくれ

68名無しのひみつ2018/01/02(火) 17:37:08.39ID:etCnhIRK
>>67
どの文字と包摂すべきかもデータになってる

69名無しのひみつ2018/01/02(火) 19:01:23.31ID:fwU8SbBc
>>65
ホント、そのとおりやわ
珍字くらいビッグサーバーのデータに直リンしてそのままGIF縮小表示すればいいし、現在の技術でも十分可能
ビャンビャン麺のビャンとかたいとは現時点ではUnicode未登録だがGIF画像を縮小して文章中に表示してる
https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%A3%E3%83%B3%E3%83%93%E3%83%A3%E3%83%B3%E9%BA%BA

70名無しのひみつ2018/01/02(火) 19:41:56.87ID:Hwoi7HEJ
アナログフォントをスキャンして復刻

71名無しのひみつ2018/01/02(火) 21:12:03.32ID:etCnhIRK
>>65>>69
馬鹿の考え休むに似たりどころか外字時代に逆行かよ

72名無しのひみつ2018/01/03(水) 09:15:33.29ID:jR5Y37gg
ロゴ文字の意匠登録のように、登録申請して認可されて料金を支払えば、
任意の図形を登録できて、それに対する64ビットのコードの割り当てを
受け取り独占できる、という仕組みを世界レベルできちんと運営すれば、
どんな文字でも記号でも図形でもあるいは書体でも登録や検索ができて
ネットにつながった機器であれば世界中で同じように表示ができるように
なると思うよ。

73名無しのひみつ2018/01/03(水) 10:01:45.76ID:vBOrgT3J
文字化けを気にしてるなら
外字より先に
JISコードをUTF-8に統合しないと

74名無しのひみつ2018/01/03(水) 10:09:57.77ID:Z8DMT7uf
あ、日本語対応のプログラム言語かと思ったら違うのか

75名無しのひみつ2018/01/03(水) 10:27:29.74ID:sFw7SvyH
コードが割り当てられるのとフォントが対応するのは別問題。

76名無しのひみつ2018/01/03(水) 10:33:36.63ID:oVPyzW28
>>72
検索すら出来ねーじゃねーか
>>68のような情報の整理が必須
しかも大体において一定の基準で決められていて
一箇所に固まってないと利用には不便

77名無しのひみつ2018/01/04(木) 16:45:33.50ID:FKjBPaUs
>>75
少し変わった字体ともなれば未だにシフトJISつまり第2水準までしか対応してないからな
JISX0212(補助)・JISX0213(第3・第4水準)でさえゴシック体にフォント化けするし
拡張領域ならゴシック体すら未実装で明朝体それも中華仕様に化ける

78名無しのひみつ2018/01/05(金) 12:24:19.30ID:mWTz9zwh
>>77
どのシステムの話?

79名無しのひみつ2018/01/10(水) 22:34:00.45ID:B2D1wtHD
これってあれだろ、中国語の文字とフォント統一できていない
中華系タブレットみたいになりそう

80名無しのひみつ2018/01/10(水) 22:39:41.08ID:zJQ+HoL8
山口百恵の「恵に点」も使えるのかな?

新着レスの表示
レスを投稿する