【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
続きはソースで
NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html 定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成(合紫順~)の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし
http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる? >>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。 >>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。 >>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、 中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。 結局シフトJISやEUCなどの環境がある限り、意味がない >>10
文字コードを連番にするとヘボいプログラマが文字コードが連番であるという前提でコード書くので後で困る。 >>21
日本語か日本語じゃない文字かを判定するときに、1文字だけ飛んだら困るだろ >>25
それで納得できるなら、さっさと当用漢字を使った自分の戸籍を作ったほうが良いぞ >>1
>15年越しでようやく完了
データ作成に携わられた皆さん乙でしたm(_ _)m 三国志の武将に使われてる難しい漢字も登録されてるの? >>31
というか外国の漢字も入れるべきだと思う。
日本語しか使えない文字コードだとほかのコードページと切り替えが必要になり、マルチランゲージ対応が難しくなる。
素直に考えれば、超漢字の文字コードそのままorシフトで採用でよかったんじゃないかと思う。
>>1
文字コードを決めるだけでなく入力インターフェイスも改善もIME製作会社にがんばってほしい
ただ「𩸽」/[魚花] を「ほっけ」で、入力可能にするという辞書更新だけでなく
全「サイトウ」さんが自分の漢字を辞書登録するようなユーザー側の負担も増えそう
個人の「スマホ/タブレット」を市役所とかで入力装置の代わりに使えるようにするみたいな利便性も必要だと思う。 http://standards.iso.org/ittf/PubliclyAvailableStandards/
ここからダウンロードできるお。
いっぱいあって、どれかわからんお。
「文字コード」とその規格に関しては別紙に詳細を記載しています。
それはどこじゃあ >>36
超漢字の日本漢字はJIS第1 - 第4水準、補助漢字のみ
全然日本の漢字として数足りないんだけど こんな下らない一部の人間のエゴで日本語を扱うPCの負荷をむやみに大きくするより
今ある1万字に残りの4万字を収束させるほうがよほど合理的 游明朝気に入ったわ
言葉が頭に入ってくる
本当は商用フォントがいいんだろうけど こんなくだらないことに時間掛けるんじゃなくて、円サイン問題やUnicode文字化け問題を先に解決しろよ
JISの問題かもしれんが どうせやるなら中国・ベトナムあたりの漢字も、日本の「変体かな」も全て入れて、歴史的文献を全てデジタルデータにできるようにしてほしい。
源氏物語の章についているなんか良く分からないマーク(香の図)等も、家紋・花押も入れたらどうか?
https://ja.wikipedia.org/wiki/%E9%A6%99%E3%81%AE%E5%9B%B3 日本語というリソースが無駄
2バイト文字は根絶すべき
アルファベットだけで十分だ ■ このスレッドは過去ログ倉庫に格納されています