X



【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
0001しじみ ★
垢版 |
2017/12/25(月) 06:08:16.97ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
0002名無しのひみつ
垢版 |
2017/12/25(月) 06:16:31.64ID:PYyQSCbE
漢字って一字で意味を持つ単語
中国はどうしてんだ
0003名無しのひみつ
垢版 |
2017/12/25(月) 06:20:34.08ID:4W2qbdqm
ユニコードで使えないなら終わり
0005名無しのひみつ
垢版 |
2017/12/25(月) 06:31:22.61ID:irOM8Cqr
龍龍
龍龍
0006名無しのひみつ
垢版 |
2017/12/25(月) 06:34:57.95ID:4W2qbdqm
定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成(合紫順~)の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる?
0007名無しのひみつ
垢版 |
2017/12/25(月) 06:42:07.95ID:1hFrhwM1
>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。
0008名無しのひみつ
垢版 |
2017/12/25(月) 06:43:45.16ID:1hFrhwM1
>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。
0009名無しのひみつ
垢版 |
2017/12/25(月) 06:52:13.63ID:42m1Es7/
やればできるじゃない
0010名無しのひみつ
垢版 |
2017/12/25(月) 06:53:23.71ID:4W2qbdqm
>>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、
0011名無しのひみつ
垢版 |
2017/12/25(月) 07:04:14.78ID:7VMa6lis
フォントが対応してくれなきゃ
0012名無しのひみつ
垢版 |
2017/12/25(月) 07:05:07.21ID:l2YP9E8l
中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。
0013名無しのひみつ
垢版 |
2017/12/25(月) 07:05:07.35ID:WBU+WGbR
結局シフトJISやEUCなどの環境がある限り、意味がない
0014名無しのひみつ
垢版 |
2017/12/25(月) 07:07:19.48ID:bV8VduO/
コンピューターで

って漠然としてんなぁ
0019名無しのひみつ
垢版 |
2017/12/25(月) 08:03:55.56ID:mxsKAgvk
闔閭范蠡
0021名無しのひみつ
垢版 |
2017/12/25(月) 08:25:36.76ID:uwemIeOO
>>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。
0022名無しのひみつ
垢版 |
2017/12/25(月) 08:34:31.35ID:4W2qbdqm
>>21
日本語か日本語じゃない文字かを判定するときに、1文字だけ飛んだら困るだろ
0023名無しのひみつ
垢版 |
2017/12/25(月) 08:37:39.61ID:u7AEvU85
>>1
漢文講義するとき助かる
0024名無しのひみつ
垢版 |
2017/12/25(月) 08:38:44.49ID:u7AEvU85
>>20
その発想は無かった
0025名無しのひみつ
垢版 |
2017/12/25(月) 08:43:35.83ID:Koo+dNa5
俺の名字も正確なのないから、簡易字つかってるな。
0026名無しのひみつ
垢版 |
2017/12/25(月) 08:44:04.88ID:TmjlzdAO
興興
興興
0028名無しのひみつ
垢版 |
2017/12/25(月) 10:21:12.47ID:nL/i0RO0
>>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ
0029名無しのひみつ
垢版 |
2017/12/25(月) 12:18:05.99ID:WRQDj8Y0
超漢字は18万
TRONに追いついてすらいない
0030名無しのひみつ
垢版 |
2017/12/25(月) 13:13:00.11ID:6ElEffzj
>>1
板違い死ね
0032名無しのひみつ
垢版 |
2017/12/25(月) 18:00:25.65ID:NLkgVufX
JISコードなん?
0033名無しのひみつ
垢版 |
2017/12/25(月) 18:09:12.04ID:xUmKRZBA
>>1
>15年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m
0034名無しのひみつ
垢版 |
2017/12/25(月) 19:29:17.91ID:bSmjCHJv
同音異義語を減らしてくれ
0035名無しのひみつ
垢版 |
2017/12/25(月) 20:09:57.33ID:nyCNjF1q
三国志の武将に使われてる難しい漢字も登録されてるの?
0036名無しのひみつ
垢版 |
2017/12/25(月) 21:35:58.45ID:Mi/RlUUg
>>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。

素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。

>>1
文字コードを決めるだけでなく入力インターフェイスも改善もIME製作会社にがんばってほしい

ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく

全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう

個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。
0037名無しのひみつ
垢版 |
2017/12/25(月) 22:29:02.65ID:M9yXpPtK
http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。

「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ
0038名無しのひみつ
垢版 |
2017/12/25(月) 22:29:39.25ID:DCSKd2YI
>>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど
0040名無しのひみつ
垢版 |
2017/12/25(月) 23:13:12.75ID:HaGyNitW
こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある1万字に残りの4万字を収束させるほうがよほど合理的
0042名無しのひみつ
垢版 |
2017/12/26(火) 00:08:43.01ID:oQ5BHkWw
游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど
0043名無しのひみつ
垢版 |
2017/12/26(火) 02:37:46.26ID:iSd82aHw
こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが
0045名無しのひみつ
垢版 |
2017/12/26(火) 12:07:44.76ID:xr7x/cSb
どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。

源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか?

https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3
0047名無しのひみつ
垢版 |
2017/12/26(火) 14:13:42.61ID:niF5jrmS
日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況