【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html 超漢字を採用していれば
6万どころか18万なのにな こんなのに15年も費やすバカ
コンピュータでランダムに割り当てたら10分で終わるだろ。 本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
日本人馬鹿ちゃうか。
中国人の方が標準化進めてるぞ。 は?何て馬鹿馬鹿しいことをやっているんだろう。
やるなら逆だろ。
コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
渡辺は渡辺に。
斉藤は斉藤に。
わがままは許すな。 >>134
あれは調子乗り杉
書体違いで別コードとか使えん ついでに三国志の人名も対応してくれたら
ソシャゲでホウ統だの程イクだのって哀しい表記も無くなるな JIS漢字はメインフレーム全盛の頃に策定したんだろ?
なおさら姓名・地名に絞る必要があったんじゃ 一般人は読めない書けない漢字
それは特殊なフォントを使わないと文字化けする
そうまでして使う文字は元を辿ると単なる誤字
こんなのに予算をつぎ込むのは馬鹿のする事じゃないか なんでこうなったか考えると、90年代に日本のPC規格が米国のDOS/V規格に負けたからだろう
MS−DOSに漢字フォントが搭載され、日本のパソコンOSは米国マイクロソフトが支配することになった
その次に出たWindows更にOfficeに日本は支配され、漢字に関してもマイクロソフト影響を強く受けるようになった
多くの日本のPCユーザーはWindowsに元々入っているフォントと対応している文字コードだけを使い、それが当たり前になった
すると>>141のような意見も出てくる >>149
彡⌒ ヾ
( ^ω^)常用漢字だけ有ればいいんだよ
彡⌒ ヾ
( ^ω^)妙な漢字は、高確率でチョン系統や中国系統だ 柿(かき)と柿(こけら)も見分けつくようになるかな? >>98
> >>9
> こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
> 俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
> 後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
> だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
> >>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ
これからは,マイナンバーのおかげで,そういう問題も解決。
漢字が違っていてもマイナンバーが同じなら,同一人物と判断できる。 >>98
俺も、むやみに異体字を増やしたら迷惑だと言ってるんだよ >>149
単にこれまでほっておいただけ
しかもいまさら無駄に登録漢字増やすとか正気の沙汰じゃない 戸籍統一文字が約6万文字なだけで、日本で使われてる漢字はもっと大量にある。
ipamjフォントの作業自体は評価するが、文字を使う現場ではまだまだ足りない。
Adobe-Japan1-6の23万文字には遠く及ばない。
ipamjは明朝しかないので、せめてゴシックもあればかなり違うがなぁ >>156
>Adobe-Japan1-6の23万文字には遠く及ばない
うち漢字は14,663文字 >>155
そういう1アプリでどうとか近視眼的なクソレスするなよ
日本語ワープロソフトだけじゃなく役所の戸籍システムも含めた日本語利用者全体の話だ >>159
IVS対応情報
http://mojikiban.ipa.go.jp/1294.html
日本におけるシェア率が最も高いのがWindows+Microsoft Officeなので
それに合わせて調整していると考えるのが自然だとオレは思った
不思議なことに、文字の変換に必要なIMEまでは作ってないからな >>161
あのなOfficeのIVS対応なんて5年前には済んでるんだよ
(12/11/12 14:18)
マイクロソフト、「Office」で約58,000の異体字を利用可能にするアドインを無償公開
https://forest.watch.impress.co.jp/docs/news/572450.html >>151
ウチの環境(Windows10 メイリオ・游ゴシック)では全然見分けつかん
というより元のフォント字体ごっちゃにされてる柿の箱に平気でこけらフォント書かれてるし
(実際柿だけでなくこけら=おがくずも敷かれてるが) >>162
マイクロソフトも>>1のプロジェクトメンバーだから対応するが
そこで終わりではなく、ずっと調整作業は続く サイトウ(サイ属)、ワタナベ(ナベ属)、
その他ややこしい苗字の奴らが全員死に絶えたら簡単なんだよなあ。 >>164
バカが一体何を言いたいんだ?
そりゃマイクロソフトも金になるならやるだろうよそれだけの話だ 草g剛
北磻磨
Y司
ケ小平
深圳 >>166
>>149のレスで言いたいことは終わってる >>168
最初からズレてるんだからそりゃどうしようもないわな 包摂だの異体字だのグリフだの何でこんなカオスなことになってしまったんだ >>171
今調べたら、その字(エンブレム?)を使ったラーメン店が実在する。店名はおとど >>169
90年代にハードウェア重視でコケて、ソフトウェア産業が育たない土壌ができちゃって投資も集まらない
日本人は生活インフラとして海外資本のソフトウェアとサービスを利用するのが当たり前となり
ダメもとで、官庁主体で国内に引きこもって税金使ってビッグデータがどうこうAIがどうこうやってるだけけ
その象徴的出来事が>>149 >>173
どうしようもないバカだな
DOS/Vの文字コードは新JIS83に拡張文字を追加しただけのもので特にNECの98と相反するものじゃなかったし、
特にマイクロソフトが非協力的だったわけでもなんでもない >>174
NECはOSで利益だそうという発想がなかった
ソフトウェアはあくまでハードウェアに付随するものという認識だった >>176
俺がいってた神戸商船大学に生協があって
TRONなどが入手できれば話しは変わってたかもしれないが
生協もできたのは大学院卒業間際 なんだか事実誤認の書き込みが多いな
解決した問題はあってもあらたに生じた問題は無い >>178
捨てたゴミは、犬に犬喰わせると嫌味言われているが >>176
90年代の大手電機機メーカー全体が同じ認識だった
ソフトウェアはハードウェアに付随するもの。ハードウェア組んでそこにソフトウェアを構築する
新しい時代に向けての発想の飛躍がなかった >>177
TRONなんて選択しはなおさら無かった
TRONが世界制覇してくれたらよかったがそうじゃないなら日本全体がガラパゴスになるだけ >>180
>>149を100回読み直せこのバカが >>182
ソフトバンクが、ソフトウェアの販売とか卸売業をやってて
本社が攻撃されて場所を変更しまくって商売するとか変態を
官僚はできなかっただけだろ
Windowsなんかにかたよったのはその結果
官僚がやるのは三年に一回のてめえの家の引っ越しだけ >>184
全然違うw
メーカーも官庁も誰も必要性を感じて無かっただけの話だ
それをDOS/Vがどうのマイクロソフトがどうの頭のおかしい陰謀論垂れ流すバカが居る 日本は外資や外圧がないとなんも変わらない、それだけ >>187
何がそれだけだこのバカが
日本語の文字コードなんて日本人以外には一切関係ないのに外圧なんかあるかよこのアホウ >>141
>コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
>渡辺は渡辺に。
>斉藤は斉藤に。
>わがままは許すな。
ご先祖がバカだと俗字で戸籍に提出しちゃったり
だから法制度で正字意外は認めませんと
すべきだったのかもね
はっきり言って無駄に文字の数ばかり増やして何がしたいのかなあと >>140
>本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
文字文化ガーとか言っちゃうんだろうけど
俗字なんか文化でも何でもないよw 「喜」のチョンチョンが突き抜けたら小学校の漢字テストでは間違いなのに
うちのバカ親父は自分の名前の漢字を正しく書かないで役所に書類を提出したら
後日、あなたの使用した漢字は戸籍に登録してある漢字とは別の漢字ですってわざわざ手紙が来た
自分の名前の漢字を間違えるのもバカだが、間違えを人名漢字と認めてしまう役所もバカすぎる
アイデンティティー(笑)じゃなくて自分の苗字の漢字を間違えるバカ家系晒し上げ制度なのかこれ TRONは先進かつ基盤だったのにな
政府が基礎を大切にしないのは今でもか 人間が道具に合わせても駄目だよ
道具を人間に合わせなければ駄目 >>185
大学の研究所に中国の留学生が来てて
友人が東芝のSunのワークステーションでやっと中国の漢字を
表示は出来るようにしても、中国語は整理されてなくて
日本語のように変換システムも無かった
入力はなんか板を持っててそれに従って入力や変換をする
ヘンテコな仕組みだった、いまはどうなってるか知らんが
読売新聞もCIAもそれでATOKも大塩佳織の件ふくめ相当に恨んでるよな
あんたもCIAか読売新聞の関係者に見える
ATOKは台湾人も相当にうらんでる >>149
DOS/Vは日本企業の規格だよ
IBMの日本法人が考えた
その前のAX規格もアスキーとマイクロソフトの日本法人が考えた
大体NECのPC98シリーズ全盛の時代から
x86のOSはMS-DOSのほぼ一択だよ
AXやDOS/Vが進めたのは
ハードウェアとしてのPC98の一人勝ち打倒
それだけだよ
OS選択はとっくに勝敗ついてた >>196
それがこの件と何の関係があるのかさっぱりわからない
自国の文字コードや入力方法ぐらい自分らで何とかしろとしか言えないし
ATOKに至ってはただの逆恨みじゃねw >>185
国内独自規格のパソコン作ってた大手メーカーにとって、パソコンは主要商品ではなくたまたまヒットしただけで
インフラと重電やメインだったから、当初からパソコン用ソフトの販売に力を入れることもせず
売れなくなったからDOS/vに流れたのは、理解してる >>195
けっきょく、舘ひろしのみやけまゆみの強姦か? >>198
聴いたかぎりでは、中国で使ってる電子表示の7割はもともと日本のだよね
なんで俺らで中国共産党の中国人をそんなに手伝う必要があるんだ?
なんでも友人とか俺がやった試しだけをとことん盗んでいってないか、CCE >>199
お前もういいから隠居して出てくるな
老害の見本そのものだ >>199
そう
OSは博打に出るより勝馬に乗りたかった
ハードウェアなら作れば官公庁やお硬い業界でにねじ込めるから >>149
この書き込みも酷いな
日本のPC規格?日本のパソコンOS?
そんなものは元から無い
元からMS-DOSの支配下にあったのだからその流れに沿っただけ
ありがたいことに、かつ残念ながら >>196
その板は中国が国で決めた唯一の中国語入力器だったから
当時の中国人はそれで入力しないといけなかった
だから中国語の入力は長い間日本人と台湾人がリードしてた くだんの友人は、日本郵船でなにがあったかしらないが
禿げてボロボロで近所の踏切を渡ってた
俺になにが言いたいのかも不明だ
日本郵船は機材が壊れたらぶったたいて気合いで治すとか
無茶苦茶だからその先制にきたのか
ハゲは簡便してくり >>208
まあSHARPのクリーンOS構想だけだったな
日本がパソコン用のOSで世界の先端を走ったのは 日本郵船はしらんが、横河電機とかオリックスでやってたのは
電子機器の壊れる静電気ほかを跳ばすのはガスを吹き付けるなんだけどな
大塩佳織の件ふくめて因果かもしれんがな
Hewlett-Packardなんか機材に窒素ガスの充填までして出荷してるし 俺は、年賀状は斉藤とか渡辺は一番簡単な文字で書いてる >>211
OSってなんでしょう?
日本のホビーパソコンにOSという概念があった試しは無い
ま、MS-DOSがOSだったかというケチの付け方もあるけど >>211
クリーンコンピュータだったw
>>216
言葉の定義論争はどうでもいいよ
ハードウェアが貧弱ならそれに相応しい貧弱なOSがあった
保護機構もなければハードウェア抽象化も甘くてもね >>193
それはダメだろ。
生産性向上の弊害でしかない。
人間や業務の方を変えないといけない。
でないといつまでも非効率なやり方を続けてしまう。 >>33
ファインダーで”バス”と検索すると”パス”も引っかかる 梵字は100程度の基本的なパーツだけをコードに乗せてそれで全ての文字を表現している
なぜ漢字はそれが出来ない?せっかく部首というものがあるのに >>223
それを言ったらMS-DOSだってCP/MとUNIXのパクリじゃん >>227
そう
だからHuman68kもMS-DOSも時代の先端だったことはない >>33
規格には沿ってるようで沿ってない
NFDにわざわざ変換してるのに
すべての局面で正規化が行えてるわけじゃないから
メディアなどで持ち込まれたNFCのパス名との扱いしがうまくいかない場面がある
Windowsで作られたメデイアで同ファイル名を上書きしようとすると
見た目は同じだけどNFDの別のファイルが増えてしまったり >>229
書き忘れたが
これはUnicode処理系不適合な動作
いい加減にしか実装出来ないんだったら最初から正規化なんかするなと むしろ、斎藤の「斎」や渡辺の「辺」などの異体字を廃止しろよ。その方が世の中のためになる。 >>232
するのは勝手なんで
国だろうが会社だろうが
勝手にやってもらって構わないが
古典や資料のデジタルテキスト化があるから
>>1のような規格化は進める必要がある
庶民は関係ないがね 名前は個人のアイデンティティにつながるものだ
それと、日本は本家以上に漢字を活用し造語し学問や文化を磨き上げてきた
字面だけ見てラテン系が簡素でわかりやすいと思っている御仁は重大な誤りを犯している
まして、たった26文字云々などとの発言は愚かにもほどがある
他言語圏に対する冒涜でもある 世の中にはそれぞれの専門性というものがある
それをちょっとのぞいただけの門外漢は何でそんな無駄で辛気くさいことやらなきゃならないんだと思うことが多い
科学技術や学問でも職人仕事でも同じ
数多の専門の積み重ねと発展が人類の文化だし、それが豊穣な世界を構築している
最近ホリエモンもどきのちゃぶ台返しみたいなこと言って粋がっているのが多いな
ところでホリエモンはなぜちっぽけなロケットを飛ばしているのだろうか ■ このスレッドは過去ログ倉庫に格納されています