【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html TRONは先進かつ基盤だったのにな
政府が基礎を大切にしないのは今でもか 人間が道具に合わせても駄目だよ
道具を人間に合わせなければ駄目 >>185
大学の研究所に中国の留学生が来てて
友人が東芝のSunのワークステーションでやっと中国の漢字を
表示は出来るようにしても、中国語は整理されてなくて
日本語のように変換システムも無かった
入力はなんか板を持っててそれに従って入力や変換をする
ヘンテコな仕組みだった、いまはどうなってるか知らんが
読売新聞もCIAもそれでATOKも大塩佳織の件ふくめ相当に恨んでるよな
あんたもCIAか読売新聞の関係者に見える
ATOKは台湾人も相当にうらんでる >>149
DOS/Vは日本企業の規格だよ
IBMの日本法人が考えた
その前のAX規格もアスキーとマイクロソフトの日本法人が考えた
大体NECのPC98シリーズ全盛の時代から
x86のOSはMS-DOSのほぼ一択だよ
AXやDOS/Vが進めたのは
ハードウェアとしてのPC98の一人勝ち打倒
それだけだよ
OS選択はとっくに勝敗ついてた >>196
それがこの件と何の関係があるのかさっぱりわからない
自国の文字コードや入力方法ぐらい自分らで何とかしろとしか言えないし
ATOKに至ってはただの逆恨みじゃねw >>185
国内独自規格のパソコン作ってた大手メーカーにとって、パソコンは主要商品ではなくたまたまヒットしただけで
インフラと重電やメインだったから、当初からパソコン用ソフトの販売に力を入れることもせず
売れなくなったからDOS/vに流れたのは、理解してる >>195
けっきょく、舘ひろしのみやけまゆみの強姦か? >>198
聴いたかぎりでは、中国で使ってる電子表示の7割はもともと日本のだよね
なんで俺らで中国共産党の中国人をそんなに手伝う必要があるんだ?
なんでも友人とか俺がやった試しだけをとことん盗んでいってないか、CCE >>199
お前もういいから隠居して出てくるな
老害の見本そのものだ >>199
そう
OSは博打に出るより勝馬に乗りたかった
ハードウェアなら作れば官公庁やお硬い業界でにねじ込めるから >>149
この書き込みも酷いな
日本のPC規格?日本のパソコンOS?
そんなものは元から無い
元からMS-DOSの支配下にあったのだからその流れに沿っただけ
ありがたいことに、かつ残念ながら >>196
その板は中国が国で決めた唯一の中国語入力器だったから
当時の中国人はそれで入力しないといけなかった
だから中国語の入力は長い間日本人と台湾人がリードしてた くだんの友人は、日本郵船でなにがあったかしらないが
禿げてボロボロで近所の踏切を渡ってた
俺になにが言いたいのかも不明だ
日本郵船は機材が壊れたらぶったたいて気合いで治すとか
無茶苦茶だからその先制にきたのか
ハゲは簡便してくり >>208
まあSHARPのクリーンOS構想だけだったな
日本がパソコン用のOSで世界の先端を走ったのは 日本郵船はしらんが、横河電機とかオリックスでやってたのは
電子機器の壊れる静電気ほかを跳ばすのはガスを吹き付けるなんだけどな
大塩佳織の件ふくめて因果かもしれんがな
Hewlett-Packardなんか機材に窒素ガスの充填までして出荷してるし 俺は、年賀状は斉藤とか渡辺は一番簡単な文字で書いてる >>211
OSってなんでしょう?
日本のホビーパソコンにOSという概念があった試しは無い
ま、MS-DOSがOSだったかというケチの付け方もあるけど >>211
クリーンコンピュータだったw
>>216
言葉の定義論争はどうでもいいよ
ハードウェアが貧弱ならそれに相応しい貧弱なOSがあった
保護機構もなければハードウェア抽象化も甘くてもね >>193
それはダメだろ。
生産性向上の弊害でしかない。
人間や業務の方を変えないといけない。
でないといつまでも非効率なやり方を続けてしまう。 >>33
ファインダーで”バス”と検索すると”パス”も引っかかる 梵字は100程度の基本的なパーツだけをコードに乗せてそれで全ての文字を表現している
なぜ漢字はそれが出来ない?せっかく部首というものがあるのに >>223
それを言ったらMS-DOSだってCP/MとUNIXのパクリじゃん >>227
そう
だからHuman68kもMS-DOSも時代の先端だったことはない >>33
規格には沿ってるようで沿ってない
NFDにわざわざ変換してるのに
すべての局面で正規化が行えてるわけじゃないから
メディアなどで持ち込まれたNFCのパス名との扱いしがうまくいかない場面がある
Windowsで作られたメデイアで同ファイル名を上書きしようとすると
見た目は同じだけどNFDの別のファイルが増えてしまったり >>229
書き忘れたが
これはUnicode処理系不適合な動作
いい加減にしか実装出来ないんだったら最初から正規化なんかするなと むしろ、斎藤の「斎」や渡辺の「辺」などの異体字を廃止しろよ。その方が世の中のためになる。 >>232
するのは勝手なんで
国だろうが会社だろうが
勝手にやってもらって構わないが
古典や資料のデジタルテキスト化があるから
>>1のような規格化は進める必要がある
庶民は関係ないがね 名前は個人のアイデンティティにつながるものだ
それと、日本は本家以上に漢字を活用し造語し学問や文化を磨き上げてきた
字面だけ見てラテン系が簡素でわかりやすいと思っている御仁は重大な誤りを犯している
まして、たった26文字云々などとの発言は愚かにもほどがある
他言語圏に対する冒涜でもある 世の中にはそれぞれの専門性というものがある
それをちょっとのぞいただけの門外漢は何でそんな無駄で辛気くさいことやらなきゃならないんだと思うことが多い
科学技術や学問でも職人仕事でも同じ
数多の専門の積み重ねと発展が人類の文化だし、それが豊穣な世界を構築している
最近ホリエモンもどきのちゃぶ台返しみたいなこと言って粋がっているのが多いな
ところでホリエモンはなぜちっぽけなロケットを飛ばしているのだろうか 英語を公用語にする
これに尽きる
世界の先進国がどんな言語なのか考えろ
新聞の縦書きも非効率 >>191
手書き文字にはその程度の揺れ幅があるのが当たり前で、別の文字として扱う方が馬鹿なんだよ。 >>238
>世界の先進国がどんな言語なのか考えろ
アメリカ語、フランス語、ドイツ語、スウェーデン語、日本語、etc
で、それがどうかしたのか? >>236
誤字や自分で新しく作った字でアイデンティティって何なんだよ。 60000文字の登録に15年かけたのか。
1日11文字だな >>247
同文字の画数一致は総務省包摂基準書の用語で言えば「字形一致」ということになる
JIS X 0208では字形一致なら同じ字とみなしている
戸籍統一漢字の場合は
字形一致していて
上の基準書では「デザイン差」とみなせる場合でも
別の文字になるケースがある
戸籍の完全なデジタル化には必要な区別
戸籍で別の文字として扱ってるから
それじゃやりすぎだけど人名知名表現にはJIS X 0213じゃ足りないという人には
住基ネット統一漢字というのがある
これは二万字 俺がめんどくさいから漢字を減らせと言う身勝手な意見 >>249
別に身勝手ではなくて
そういう応用のために包摂基準等が制定されていて
どの字を同じと見なせばいいかデータベース化されてる
包摂していい字は内部的には一文字に正規化すれば良い
今回のデータベースが出来た事で
戸籍の方面から外部データが来ても問題なし >>76
あるね。「土`方」とか。
「冨田」とか。
こういう明らかな誤字は、正しい漢字に修正する方向で。
なんで誤字にコードを割り振るのか理解に苦しむ。 >>251
普通に使われている文字はコンピュータでも使いたいから。 >>251
冨田さんが「むしろ富が誤字だ!」と言って譲らないから。 >>252
斎藤や渡邉の異字の大半は普通の字ではないぞ。
そもそも本人以外違いがわからないのが大半。 「令」の字も教科書体と明朝体では違うせいか
おくやみ欄では「鈴」の字が教科書体っぽい字画の明朝体で載ることが多い >>254
じゃ、紙の上で使われている文字はコンピュータ上でも使いたいから、に変える。 >>251
> コードを割り振る
文字集合の制定と文字符号化方式の制定は別の話なんだけど
規格書では同時に定義している事が多いから混乱したまま使ってる人が多い用語 「高橋」は全国で3番目に多い名字なのに
はしご高の方が使えない従来の文字コードって何だろな >>258
たぶん 使う人が 口を改造して使ってたからもしれない 辺とか斎の異体字は、戸籍を書いた役人の書きぐせに過ぎないのにな。先祖代々引き継いだと勘違いしてる奴が多い。活字にした時点でそんな異体字は全て廃止しろよということ。 日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに >>263
それは戸籍を管理する人たちの仕事で
漢字の文字集合を整理する人の仕事ではありません
過去に戸籍がデジタル化された以上
それらを文字符号化においてどう扱うか考えないといけないのです ちなみに上にも書いたが
住基ネットは二万字に圧縮した >>256
なら普通の人でも使う漢語数万を全く顧みないのはなぜ? >>262
国際標準ではないからな。
自分だけの特殊な文字コード使っても、メールも送れない。 >>264
もっとある。
戸籍が六万字と言われるが、大半が単なる間違いだ。 そのうち中国の簡体字が使われ出すよ。簡体字もコード化されてるの? Androidアプリは日本の漢字と簡体字がごっちゃになった字体が使われたりしてる
ああ、いかにも海外の人が作ったんだなあって MSIMEも中国人が日本の処理ソフト作っているらしく、
変換が無茶苦茶。フランス人に英語のスペルチェックソフト作らせてるようなもんだよ >>270
コードになってないから、使えないだろ?
知らないの? >>271
当たり前。
使われますではなくて、すでにUnicodeで全部正式採用済みだ。
20年くらいお前の頭は遅れている。 >>273
貧乏な日本人は金出さないから、日本人のためにシステムは作らないそうだ。 >>277
諸橋の大漢和にあるのだけで5万を超えている。
これには戸籍のために追加した4万余は入っていない。
つまり、以前からの一万余をたしても三万程度の漢字がUnicodeからは落ちてることになる。
実際、Unicodeと大漢和は2万程度しか連関していないから、この数字には間違いがない。
コード化されてるなんてまやかしは言うなよ?
コード化されていると言う意味ならUTF32だって趙漢字だってコード化されている。
使わないコード化に意味はない。 そもそもバカな役人の書き間違えで誕生した異体字なんか抹殺すべきだろ >>279
書き間違いなのか、何らかの意図、由来があっての事なのか、今さら調べるのが大変すぎる気がするのと
実際に消える方の字体を使ってる人の反発もかなりあると思う。
わたなべさんでも「渡辺」「渡邉」「渡邊」とメジャー所で三つあるけど
DMの宛名ですら怒ってくる人が結構居るのよ。
高井さんも、口ダカさんと、梯子ダカさんだったり、吉田さんも上が士か土か。
個人情報を扱う仕事してたけど、この辺気にする人はめっちゃ気にする。
しかも年配の人だけじゃないのよね。
名前に対するアイデンティティって、実は世代関係なく結構気にされる。
そして間違い様の無い名前の人には、この感覚は全くわからないのでタチが悪い。 >>コンピューターは、実は1万字しか扱うことができません
この書き方は頭悪そう ワタナベ と サイトー、ヨシダ という連中はほんとに周囲の迷惑を考えないわがままだよな。
最近はこいつらに、ツジ も加わって、おれの辻のしんにょうは、1点辻だ、2点辻だ、とか言いくさって。
特に、渡邊と渡邉は、普通の文字検索ではそれぞれ別に検索しないとひっかからないのがうざい
ワタナベ姓の奴がどうしても統一したくなくて違いにこだわりたいんなら、全部を 「ワタナベA」 「ワタナベB」 「ワタナベC」 とかにしろ。
これなら周りの人間は検索の不便から解放される。 >>282
辻はXPまでは一点でVistaから二点という、謎修正もあって余計にタチが悪い。
サーバー側が古くてプリンタ用の画像をサーバーで作ると一点になるとか、現場で混乱したよ。
浜田さん、濱田さん、M田さんもそうだし、国も旧字体の國の人もいたり
異体字や旧字体のある漢字って、思ってた以上に大量にある。
これを統一するのは、かなり反発が強そうだ。 >>5
もう対処済み
APFSではファイル名の変換は行われないようになった
あとは各アプリの対応待ち >>1
> 「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、
「なべ」じゃねーのかよww
じゃあ「渡」は「わたな」か?そんなバナナwwwww いまWin10にインストールというか
ダウンロードして解凍後に、
フォントフォルダーに明朝とゴシックの二つを放り込むだけで使えるようになった。
以下がダウンロードサイト。
https://ipafont.ipa.go.jp/node17 これ規格化されたのか。
まあそれは良いので、今後は無駄文字は使用禁止にしろよ >>288
それ入れてない環境だと文字化けするんだろばかばかしい
余計なものは使わないほうが良い ■ このスレッドは過去ログ倉庫に格納されています