【IT】コンピューターで全漢字使用可に 6万字コード化

■ このスレッドは過去ログ倉庫に格納されています
0001しじみ ★2017/12/25(月) 06:08:16.97ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

0048名無しのひみつ2017/12/26(火) 17:26:19.02ID:Ug1u8y6i
超漢字OS持ってたわ

0049名無しのひみつ2017/12/26(火) 17:48:23.19ID:AQTYI+KT
>>47
Jが抜けてもCKが残るだけ

0050名無しのひみつ2017/12/26(火) 19:26:51.48ID:JjHIDaHt
文字コードの肥大化が止まらない

0051名無しのひみつ2017/12/26(火) 22:09:27.97ID:OR0wrD/w
一般人には関係ないだろうが、珍しい名前の人には切実な問題だろうな。あと企業も例えば銀行口座のデータベースなんかは数が多いから珍しい名前もかなりあるはず。
現在はどうやって表示してるのか知らないが、これを使えば珍しい名前も普通に表示できるようになるかもしれない。

0052名無しのひみつ2017/12/28(木) 00:06:38.71ID:omCw5ppT
>>51
中の人だが、中国人の口座開設が増えて大変。
似た字で誤魔化すこともできるw

0053名無しのひみつ2017/12/28(木) 00:24:28.48ID:+CQjx+//
なんちゅう欠陥文字
コミュニケーションの道具としては失敗作だろ

0054名無しのひみつ2017/12/28(木) 13:40:21.85ID:mcicFoXv
文字の容量が6倍になるのは開発者側では大丈夫なんかな?
今の時代なら何とかなるもの?

0055名無しのひみつ2017/12/28(木) 21:56:30.15ID:vKC6ZQnK
数学とかの専門系のwebページをiphoneでchromeで見ると文字化けするのなんなの

0056名無しのひみつ2017/12/28(木) 22:11:21.39ID:gms9yOAv
iphoneのchromeだけで起きるんならapple storeの規約のせいで奇形だから諦めろ

0057名無しのひみつ2017/12/28(木) 22:17:09.56ID:2/rH0JUe
わざわざCJKVで統合する必要はあるのかな?
ユニコードを3桁に拡張したんだから
国ごとに振り分けてしまえばいいのに
そうすれば今は入ってないマヤ文字だって苦労せず扱えるだろうに

0058名無しのひみつ2017/12/28(木) 22:28:22.03ID:Ceg8lK4b
これドンだけかねつかったら達成できるやろ

0059名無しのひみつ2017/12/28(木) 22:51:48.62ID:gms9yOAv
>>57
区別出来るし
今や文字はいくらでも入る

0060名無しのひみつ2017/12/28(木) 22:53:46.49ID:TNIWwDOR
そんなことより、日本語のコードを統一しろよ
ISO-22022-JP,ISO-8859-1,JIS,Shift-JIS,EUC,UTF

何のコードの拡張版がしらんが、いい加減にしろ

エェーーェ 新コードなの!! びっくり

0061名無しのひみつ2017/12/28(木) 22:58:52.85ID:kKJH6Qvh
そもそもunicodeの必要性がわからない

0062名無しのひみつ2017/12/29(金) 07:37:53.55ID:4jdKRrrI
>>60
元記事が馬鹿丸出しだから分からないけど
これは漢字データベースだよ
「文字コード」じゃないしJISのいう文字集合でもない
異体字データベースも含まれる漢字データベース
>>61
馬鹿だからだろう

0063名無しのひみつ2017/12/31(日) 10:49:18.30ID:kdl85RpN
Adobeは自前で日本語などのコードを持っているらしいな。

0064名無しのひみつ2017/12/31(日) 11:35:06.70ID:VgFYf2KV
>>63
いや持ってるのは基本的には文字集合だよ
Unicodeへのマッピングもしっかりやってるし
今のUnicideの異体字指示の元になってる

0065名無しのひみつ2018/01/01(月) 12:42:41.94ID:fjZQTFVk
文字をグラフィックスで表示するようにすれば100億種類の文字でも表示できる。パソコンの能力が向上してるので可能かもしれない。
ただ、現在の方式でも普通に使う分には問題ないので、通常はこの方式を使っていて、特殊文字を表示する時だけグラフィックス方式に切り替える。

0066名無しのひみつ2018/01/01(月) 12:53:32.51ID:uCF2PSw0
誤字で登録されてる人名は誤字を直すのが筋

0067名無しのひみつ2018/01/01(月) 14:39:58.43ID:m9qIECHC
頼むから集約してくれ

0068名無しのひみつ2018/01/02(火) 17:37:08.39ID:etCnhIRK
>>67
どの文字と包摂すべきかもデータになってる

0069名無しのひみつ2018/01/02(火) 19:01:23.31ID:fwU8SbBc
>>65
ホント、そのとおりやわ
珍字くらいビッグサーバーのデータに直リンしてそのままGIF縮小表示すればいいし、現在の技術でも十分可能
ビャンビャン麺のビャンとかたいとは現時点ではUnicode未登録だがGIF画像を縮小して文章中に表示してる
https://ja.wikipedia.org/wiki/%E3%83%93%E3%83%A3%E3%83%B3%E3%83%93%E3%83%A3%E3%83%B3%E9%BA%BA

0070名無しのひみつ2018/01/02(火) 19:41:56.87ID:Hwoi7HEJ
アナログフォントをスキャンして復刻

0071名無しのひみつ2018/01/02(火) 21:12:03.32ID:etCnhIRK
>>65>>69
馬鹿の考え休むに似たりどころか外字時代に逆行かよ

0072名無しのひみつ2018/01/03(水) 09:15:33.29ID:jR5Y37gg
ロゴ文字の意匠登録のように、登録申請して認可されて料金を支払えば、
任意の図形を登録できて、それに対する64ビットのコードの割り当てを
受け取り独占できる、という仕組みを世界レベルできちんと運営すれば、
どんな文字でも記号でも図形でもあるいは書体でも登録や検索ができて
ネットにつながった機器であれば世界中で同じように表示ができるように
なると思うよ。

0073名無しのひみつ2018/01/03(水) 10:01:45.76ID:vBOrgT3J
文字化けを気にしてるなら
外字より先に
JISコードをUTF-8に統合しないと

0074名無しのひみつ2018/01/03(水) 10:09:57.77ID:Z8DMT7uf
あ、日本語対応のプログラム言語かと思ったら違うのか

0075名無しのひみつ2018/01/03(水) 10:27:29.74ID:sFw7SvyH
コードが割り当てられるのとフォントが対応するのは別問題。

0076名無しのひみつ2018/01/03(水) 10:33:36.63ID:oVPyzW28
>>72
検索すら出来ねーじゃねーか
>>68のような情報の整理が必須
しかも大体において一定の基準で決められていて
一箇所に固まってないと利用には不便

0077名無しのひみつ2018/01/04(木) 16:45:33.50ID:FKjBPaUs
>>75
少し変わった字体ともなれば未だにシフトJISつまり第2水準までしか対応してないからな
JISX0212(補助)・JISX0213(第3・第4水準)でさえゴシック体にフォント化けするし
拡張領域ならゴシック体すら未実装で明朝体それも中華仕様に化ける

0078名無しのひみつ2018/01/05(金) 12:24:19.30ID:mWTz9zwh
>>77
どのシステムの話?

0079名無しのひみつ2018/01/10(水) 22:34:00.45ID:B2D1wtHD
これってあれだろ、中国語の文字とフォント統一できていない
中華系タブレットみたいになりそう

0080名無しのひみつ2018/01/10(水) 22:39:41.08ID:zJQ+HoL8
山口百恵の「恵に点」も使えるのかな?

0081名無しのひみつ2018/01/30(火) 05:42:58.13ID:t06dlmPU
そもそもバカな役人の書き間違えで発生した異体字なんか抹殺すべきだろ

0082名無しのひみつ2018/01/30(火) 05:59:21.01ID:FhQffXeG
全部使えるようになったんなら、もう常用漢字いらんだろ
教育漢字は教育漢字でいいけど、書類で好きに漢字使わせろ
アホみたいなひらき方多すぎ
今時ならルビふるのも簡単なんだからさあ

0083名無しのひみつ2018/01/30(火) 06:34:57.33ID:R39hANUX
漢字はいいんだよ(よくないのもあるけど)、問題なのは記号類。同じものをあっちこっちに入れるな

0084名無しのひみつ2018/01/30(火) 09:31:01.51ID:pjIJGanN
醜いかな交じり熟語を撤廃しろ

ねつ造とかわい曲って,字面がマヌケ

0085名無しのひみつ2018/02/01(木) 12:46:55.23ID:FVBANv5q
新聞社みたいな所に
朝鮮式がいいって思想があるんじゃないか?

0086名無しのひみつ2018/02/03(土) 16:21:15.11ID:jXGaYS9c
英米の7ビットASCIIコード中心主義を排して、
文字は一律に64ビットのコードで表すことにすれば、
五族協和、人類皆兄弟、天下太平に近づけるかもしれないと思う。
それにはまず、char=8ビットなどといったC言語を使うことはやめるべき。
NULLで文字列の終端を表すような言語仕様も排するべきだ。

0087名無しのひみつ2018/02/04(日) 04:39:19.38ID:FDhMXizD
>>86
はぁ?

0088名無しのひみつ2018/02/04(日) 18:36:18.92ID:5u/uW9tm
高校のとき吉岡君の「吉」の字で
いろいろあったのを思い出した。

担任 「『吉』の上の部分は『土』か『士』かどっち?」

吉岡 「同じ長さです。」

担任 「そうか。」

〜しばらくして〜

国語教師 「同じ長さの『吉』はねーんだよ!
        『土』か『士』なんだよ。
        戸籍取ってこいや!」

〜後日〜

吉岡 「戸籍取ってきました。」

国語教師&担任 「同じ長さだな、、、。」


ノギスで計測した結果、
下の棒がが0.2mm長かったので、『土』
となりました。

0089名無しのひみつ2018/02/05(月) 16:50:12.60ID:5grHsN8p
>>45
変体かなは入ってるよ

0090名無しのひみつ2018/02/12(月) 01:31:38.83ID:1S03j8sj
昔アップルのマッキントッシュは、本来の英語版では1文字を16ビット=2バイトで
表していた。それは1バイトはASCIIコードで、残りの1バイトはその文字のフォント
(書体)を指定するためのものであった。
 それを日本に持ち込んで日本語を使えるようにするために漢字TALKというOSの
改造版が提供されていたが、それは1文字が2バイトであるのを、漢字コードで使う
ようにしたのであった。そのため、比較的無理なく日本語をOSのレベルではつかえる
ようになったという。自分はマッキントッシュは高値の花だったので、指をくわえて
友達の説明をうらやましそうに聞くばかりだった。ランドセルのような背負の鞄に
入れて運んでいたMacを取り出して、電源を入れ、Macが音を出してしゃべることも
できるというのには驚いたものだった。あの当時はとても先進的なシステムだった。
システムはPascalのような言語で書かれていて、小さくまとまっていた。グラフィック
画面のGUIが凄かった。
 その技術をBGとMSは盗んだ。しかしA社も元はといえばX社からGUIなどの技術を
盗んだのだった。X社はパークという研究所を作って有能な技術者をたくさん抱えて
画期的な技術を次々と作り出していたが、経営者がそれらを理解できずにどれもこれも
製品化にはこぎ着けていないか失敗している。
たとえばイーサネットもX社で開発された技術であった。

0091名無しのひみつ2018/02/12(月) 04:18:26.92ID:f/fBTumQ
未だにファイル名とか日本語使わないようにせにゃならんとは

0092名無しのひみつ2018/02/12(月) 04:43:27.30ID:Y35jGpCE
>>84
小学校の教科書の「お水」を思いだした。「汚水」なw

0093名無しのひみつ2018/02/12(月) 23:14:39.85ID:WdGnZ1MC
>>90
PascalのようなというかPascalだろ
まあ大半はアセンブラで書かれてたが

0094名無しのひみつ2018/02/13(火) 16:49:19.02ID:+8d+bZXL
.鬱
鬱鬱

0095名無しのひみつ2018/02/15(木) 01:40:20.36ID:gfkU7mZm
ところがMacintoshは最初こそPascalがシステム言語だったのに、
どこかで宗主替えしてしまってCがシステム言語になったと思う。

マイクロソフトも最初はMASMやPLMがシステム記述言語だったのだろうと
思うが、ある時期からMSCになった。

0096名無しのひみつ2018/02/15(木) 13:28:10.32ID:wmUe02Bi
>>95
最初はアセンブラだよ
Macintosh Programmer's Workshopが登場してようやく高級言語が使えた
Macintosh Plusと一緒にリリースされたSystem3から
最初はPasscalのみ
MPW2.0からC「も」サポート

0097名無しのひみつ2018/02/15(木) 13:36:14.66ID:wmUe02Bi
>>95
MSは初期はFORTRANで書いた処理系も使っていた
Z80上のCP/MでM80/L80、後に8088上のCP/MでM86/L86を使っていたから

0098名無しのひみつ2018/02/23(金) 00:49:42.73ID:ghXj8kiq
白川静の辞書は面白い

■ このスレッドは過去ログ倉庫に格納されています