X



【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★
垢版 |
2017/12/25(月) 04:50:46.68ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
0196名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:13:17.36ID:kDnfyv9C
>>185
大学の研究所に中国の留学生が来てて
友人が東芝のSunのワークステーションでやっと中国の漢字を
表示は出来るようにしても、中国語は整理されてなくて
日本語のように変換システムも無かった
入力はなんか板を持っててそれに従って入力や変換をする
ヘンテコな仕組みだった、いまはどうなってるか知らんが

読売新聞もCIAもそれでATOKも大塩佳織の件ふくめ相当に恨んでるよな
あんたもCIAか読売新聞の関係者に見える

ATOKは台湾人も相当にうらんでる
0197名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:16:44.47ID:x3KMF3jH
>>149
DOS/Vは日本企業の規格だよ
IBMの日本法人が考えた
その前のAX規格もアスキーとマイクロソフトの日本法人が考えた

大体NECのPC98シリーズ全盛の時代から
x86のOSはMS-DOSのほぼ一択だよ

AXやDOS/Vが進めたのは
ハードウェアとしてのPC98の一人勝ち打倒
それだけだよ

OS選択はとっくに勝敗ついてた
0198名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:17:03.17ID:mWM+mz5M
>>196
それがこの件と何の関係があるのかさっぱりわからない
自国の文字コードや入力方法ぐらい自分らで何とかしろとしか言えないし
ATOKに至ってはただの逆恨みじゃねw
0199名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:17:05.14ID:7ML6ZhnV
>>185
国内独自規格のパソコン作ってた大手メーカーにとって、パソコンは主要商品ではなくたまたまヒットしただけで
インフラと重電やメインだったから、当初からパソコン用ソフトの販売に力を入れることもせず
売れなくなったからDOS/vに流れたのは、理解してる
0200名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:17:09.62ID:kDnfyv9C
>>195
けっきょく、舘ひろしのみやけまゆみの強姦か?
0201名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:18:34.39ID:kDnfyv9C
>>198
聴いたかぎりでは、中国で使ってる電子表示の7割はもともと日本のだよね
なんで俺らで中国共産党の中国人をそんなに手伝う必要があるんだ?

なんでも友人とか俺がやった試しだけをとことん盗んでいってないか、CCE
0203名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:21:14.13ID:mWM+mz5M
>>199
お前もういいから隠居して出てくるな
老害の見本そのものだ
0204名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:24:45.39ID:7ML6ZhnV
>>203
最後に年齢を教えてくれ
オレは40だ
0205名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:29:47.81ID:x3KMF3jH
>>199
そう
OSは博打に出るより勝馬に乗りたかった
ハードウェアなら作れば官公庁やお硬い業界でにねじ込めるから
0206名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:32:18.67ID:mWM+mz5M
>>204
なんだ小僧じゃんw
0207名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:35:00.97ID:7ML6ZhnV
>>206
では失礼させていただきます先輩
0208名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:37:25.89ID:IbbWabHI
>>149

この書き込みも酷いな

日本のPC規格?日本のパソコンOS?
そんなものは元から無い

元からMS-DOSの支配下にあったのだからその流れに沿っただけ
ありがたいことに、かつ残念ながら
0209名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:37:31.30ID:x3KMF3jH
>>196
その板は中国が国で決めた唯一の中国語入力器だったから
当時の中国人はそれで入力しないといけなかった

だから中国語の入力は長い間日本人と台湾人がリードしてた
0210名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:37:43.90ID:kDnfyv9C
くだんの友人は、日本郵船でなにがあったかしらないが
禿げてボロボロで近所の踏切を渡ってた
俺になにが言いたいのかも不明だ

日本郵船は機材が壊れたらぶったたいて気合いで治すとか
無茶苦茶だからその先制にきたのか

ハゲは簡便してくり
0212名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:43:20.69ID:/RdWGzmj
草薙か
0213名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:44:27.33ID:kDnfyv9C
日本郵船はしらんが、横河電機とかオリックスでやってたのは
電子機器の壊れる静電気ほかを跳ばすのはガスを吹き付けるなんだけどな

大塩佳織の件ふくめて因果かもしれんがな

Hewlett-Packardなんか機材に窒素ガスの充填までして出荷してるし
0214名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:48:17.52ID:CneLAJlf
>>1
だれがフォント作るんだよw
0216名刺は切らしておりまして
垢版 |
2017/12/26(火) 17:51:41.03ID:IbbWabHI
>>211

OSってなんでしょう?
日本のホビーパソコンにOSという概念があった試しは無い
ま、MS-DOSがOSだったかというケチの付け方もあるけど
0219名刺は切らしておりまして
垢版 |
2017/12/26(火) 18:03:27.57ID:x3KMF3jH
>>211
クリーンコンピュータだったw
>>216
言葉の定義論争はどうでもいいよ
ハードウェアが貧弱ならそれに相応しい貧弱なOSがあった
保護機構もなければハードウェア抽象化も甘くてもね
0220名刺は切らしておりまして
垢版 |
2017/12/26(火) 18:16:45.22ID:uVrzJsA7
>>67
お前の国は廃止済みだろ。帰国しろ
0224名刺は切らしておりまして
垢版 |
2017/12/27(水) 03:13:08.94ID:j0qHVcgh
>>193
それはダメだろ。
生産性向上の弊害でしかない。
人間や業務の方を変えないといけない。
でないといつまでも非効率なやり方を続けてしまう。
0225名刺は切らしておりまして
垢版 |
2017/12/27(水) 06:11:32.80ID:wGry0Ums
>>33
ファインダーで”バス”と検索すると”パス”も引っかかる
0226名刺は切らしておりまして
垢版 |
2017/12/27(水) 06:32:04.92ID:JHednVXa
梵字は100程度の基本的なパーツだけをコードに乗せてそれで全ての文字を表現している
なぜ漢字はそれが出来ない?せっかく部首というものがあるのに
0229名刺は切らしておりまして
垢版 |
2017/12/27(水) 09:40:06.01ID:uhKPw0Wu
>>33
規格には沿ってるようで沿ってない
NFDにわざわざ変換してるのに
すべての局面で正規化が行えてるわけじゃないから
メディアなどで持ち込まれたNFCのパス名との扱いしがうまくいかない場面がある
Windowsで作られたメデイアで同ファイル名を上書きしようとすると
見た目は同じだけどNFDの別のファイルが増えてしまったり
0230名刺は切らしておりまして
垢版 |
2017/12/27(水) 09:41:40.62ID:uhKPw0Wu
>>229
書き忘れたが
これはUnicode処理系不適合な動作
いい加減にしか実装出来ないんだったら最初から正規化なんかするなと
0231名刺は切らしておりまして
垢版 |
2017/12/27(水) 13:08:31.12ID:7+7mS1Cx
もう文字コード増やすのやめようよ
0232名刺は切らしておりまして
垢版 |
2017/12/27(水) 16:47:43.83ID:vEb1Y3gQ
むしろ、斎藤の「斎」や渡辺の「辺」などの異体字を廃止しろよ。その方が世の中のためになる。
0233名刺は切らしておりまして
垢版 |
2017/12/27(水) 17:35:55.86ID:MVoWJ3es
>>232
するのは勝手なんで
国だろうが会社だろうが
勝手にやってもらって構わないが
古典や資料のデジタルテキスト化があるから
>>1のような規格化は進める必要がある
庶民は関係ないがね
0234名刺は切らしておりまして
垢版 |
2017/12/27(水) 20:14:05.98ID:Umyi3jYE
>>1
もうカタカナがひらがなでいいだろ
0236名刺は切らしておりまして
垢版 |
2017/12/28(木) 05:56:05.90ID:fscEd+h5
名前は個人のアイデンティティにつながるものだ
それと、日本は本家以上に漢字を活用し造語し学問や文化を磨き上げてきた

字面だけ見てラテン系が簡素でわかりやすいと思っている御仁は重大な誤りを犯している
まして、たった26文字云々などとの発言は愚かにもほどがある
他言語圏に対する冒涜でもある
0237名刺は切らしておりまして
垢版 |
2017/12/28(木) 06:03:38.72ID:fscEd+h5
世の中にはそれぞれの専門性というものがある
それをちょっとのぞいただけの門外漢は何でそんな無駄で辛気くさいことやらなきゃならないんだと思うことが多い
科学技術や学問でも職人仕事でも同じ
数多の専門の積み重ねと発展が人類の文化だし、それが豊穣な世界を構築している

最近ホリエモンもどきのちゃぶ台返しみたいなこと言って粋がっているのが多いな
ところでホリエモンはなぜちっぽけなロケットを飛ばしているのだろうか
0238名刺は切らしておりまして
垢版 |
2017/12/28(木) 08:53:58.39ID:aQVdzdZp
英語を公用語にする
これに尽きる
世界の先進国がどんな言語なのか考えろ
新聞の縦書きも非効率
0239名刺は切らしておりまして
垢版 |
2017/12/28(木) 09:00:31.84ID:zVvmx+tX
>>191
手書き文字にはその程度の揺れ幅があるのが当たり前で、別の文字として扱う方が馬鹿なんだよ。
0243名刺は切らしておりまして
垢版 |
2017/12/30(土) 10:18:01.66ID:SAe00T2c
>>238
>世界の先進国がどんな言語なのか考えろ
アメリカ語、フランス語、ドイツ語、スウェーデン語、日本語、etc
で、それがどうかしたのか?
0248名刺は切らしておりまして
垢版 |
2018/01/12(金) 18:29:30.11ID:JUJIbd+3
>>247
同文字の画数一致は総務省包摂基準書の用語で言えば「字形一致」ということになる
JIS X 0208では字形一致なら同じ字とみなしている

戸籍統一漢字の場合は
字形一致していて
上の基準書では「デザイン差」とみなせる場合でも
別の文字になるケースがある
戸籍の完全なデジタル化には必要な区別
戸籍で別の文字として扱ってるから

それじゃやりすぎだけど人名知名表現にはJIS X 0213じゃ足りないという人には
住基ネット統一漢字というのがある
これは二万字
0249名刺は切らしておりまして
垢版 |
2018/01/12(金) 18:42:24.30ID:2n1bhlIF
俺がめんどくさいから漢字を減らせと言う身勝手な意見
0250名刺は切らしておりまして
垢版 |
2018/01/12(金) 19:21:10.36ID:JUJIbd+3
>>249
別に身勝手ではなくて
そういう応用のために包摂基準等が制定されていて
どの字を同じと見なせばいいかデータベース化されてる
包摂していい字は内部的には一文字に正規化すれば良い
今回のデータベースが出来た事で
戸籍の方面から外部データが来ても問題なし
0251名刺は切らしておりまして
垢版 |
2018/01/12(金) 19:39:46.57ID:QIfY5a15
>>76
あるね。「土`方」とか。
「冨田」とか。

こういう明らかな誤字は、正しい漢字に修正する方向で。

なんで誤字にコードを割り振るのか理解に苦しむ。
0252名刺は切らしておりまして
垢版 |
2018/01/13(土) 02:41:06.39ID:lL4a0418
>>251
普通に使われている文字はコンピュータでも使いたいから。
0253名刺は切らしておりまして
垢版 |
2018/01/13(土) 15:12:06.62ID:PVy9D4JR
>>251
冨田さんが「むしろ富が誤字だ!」と言って譲らないから。
0255名刺は切らしておりまして
垢版 |
2018/01/13(土) 15:50:09.90ID:7+M/OcaV
「令」の字も教科書体と明朝体では違うせいか
おくやみ欄では「鈴」の字が教科書体っぽい字画の明朝体で載ることが多い
0256名刺は切らしておりまして
垢版 |
2018/01/13(土) 18:02:17.83ID:lL4a0418
>>254
じゃ、紙の上で使われている文字はコンピュータ上でも使いたいから、に変える。
0257名刺は切らしておりまして
垢版 |
2018/01/14(日) 00:02:23.47ID:rrRKJtRe
>>251
> コードを割り振る

文字集合の制定と文字符号化方式の制定は別の話なんだけど
規格書では同時に定義している事が多いから混乱したまま使ってる人が多い用語
0258名刺は切らしておりまして
垢版 |
2018/01/14(日) 13:51:25.59ID:/aGWD2eY
「高橋」は全国で3番目に多い名字なのに
はしご高の方が使えない従来の文字コードって何だろな
02599
垢版 |
2018/01/14(日) 14:36:54.35ID:+f1mcoJr
「」なら出せるぞ
0263名刺は切らしておりまして
垢版 |
2018/01/15(月) 09:52:14.30ID:9ofs7BlM
辺とか斎の異体字は、戸籍を書いた役人の書きぐせに過ぎないのにな。先祖代々引き継いだと勘違いしてる奴が多い。活字にした時点でそんな異体字は全て廃止しろよということ。
0265名刺は切らしておりまして
垢版 |
2018/01/16(火) 20:28:55.19ID:mAf3RZvx
>>263
それは戸籍を管理する人たちの仕事で
漢字の文字集合を整理する人の仕事ではありません
過去に戸籍がデジタル化された以上
それらを文字符号化においてどう扱うか考えないといけないのです
0272名刺は切らしておりまして
垢版 |
2018/01/17(水) 19:55:55.38ID:Rf6H/aPV
Androidアプリは日本の漢字と簡体字がごっちゃになった字体が使われたりしてる
ああ、いかにも海外の人が作ったんだなあって
0273名刺は切らしておりまして
垢版 |
2018/01/18(木) 06:45:45.26ID:VuN2+Wny
MSIMEも中国人が日本の処理ソフト作っているらしく、
変換が無茶苦茶。フランス人に英語のスペルチェックソフト作らせてるようなもんだよ
0275名刺は切らしておりまして
垢版 |
2018/01/18(木) 21:02:22.96ID:BOlxwCCE
>>271
当たり前。
使われますではなくて、すでにUnicodeで全部正式採用済みだ。

20年くらいお前の頭は遅れている。
0278名刺は切らしておりまして
垢版 |
2018/01/21(日) 01:45:05.92ID:iIvujkZw
>>277
諸橋の大漢和にあるのだけで5万を超えている。

これには戸籍のために追加した4万余は入っていない。
つまり、以前からの一万余をたしても三万程度の漢字がUnicodeからは落ちてることになる。

実際、Unicodeと大漢和は2万程度しか連関していないから、この数字には間違いがない。

コード化されてるなんてまやかしは言うなよ?
コード化されていると言う意味ならUTF32だって趙漢字だってコード化されている。

使わないコード化に意味はない。
0279名刺は切らしておりまして
垢版 |
2018/01/30(火) 05:43:17.52ID:M1Wb56CI
そもそもバカな役人の書き間違えで誕生した異体字なんか抹殺すべきだろ
0280名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:04:39.44ID:MPUSm0XX
>>279
書き間違いなのか、何らかの意図、由来があっての事なのか、今さら調べるのが大変すぎる気がするのと
実際に消える方の字体を使ってる人の反発もかなりあると思う。

わたなべさんでも「渡辺」「渡邉」「渡邊」とメジャー所で三つあるけど
DMの宛名ですら怒ってくる人が結構居るのよ。
高井さんも、口ダカさんと、梯子ダカさんだったり、吉田さんも上が士か土か。

個人情報を扱う仕事してたけど、この辺気にする人はめっちゃ気にする。
しかも年配の人だけじゃないのよね。

名前に対するアイデンティティって、実は世代関係なく結構気にされる。
そして間違い様の無い名前の人には、この感覚は全くわからないのでタチが悪い。
0281名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:11:12.79ID:5bKJgCIi
>>コンピューターは、実は1万字しか扱うことができません

この書き方は頭悪そう
0282名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:32:34.49ID:+llVH3fb
ワタナベ と サイトー、ヨシダ という連中はほんとに周囲の迷惑を考えないわがままだよな。
最近はこいつらに、ツジ も加わって、おれの辻のしんにょうは、1点辻だ、2点辻だ、とか言いくさって。

特に、渡邊と渡邉は、普通の文字検索ではそれぞれ別に検索しないとひっかからないのがうざい
ワタナベ姓の奴がどうしても統一したくなくて違いにこだわりたいんなら、全部を 「ワタナベA」 「ワタナベB」 「ワタナベC」 とかにしろ。
これなら周りの人間は検索の不便から解放される。
0283名刺は切らしておりまして
垢版 |
2018/01/30(火) 10:10:24.72ID:MPUSm0XX
>>282
辻はXPまでは一点でVistaから二点という、謎修正もあって余計にタチが悪い。
サーバー側が古くてプリンタ用の画像をサーバーで作ると一点になるとか、現場で混乱したよ。

浜田さん、濱田さん、M田さんもそうだし、国も旧字体の國の人もいたり
異体字や旧字体のある漢字って、思ってた以上に大量にある。

これを統一するのは、かなり反発が強そうだ。
0284名刺は切らしておりまして
垢版 |
2018/01/30(火) 12:02:25.75ID:lYz822mK
簡体字も対応してほしい
0285名刺は切らしておりまして
垢版 |
2018/01/30(火) 13:37:56.76ID:DsLrd57d
>>5
もう対処済み
APFSではファイル名の変換は行われないようになった
あとは各アプリの対応待ち
0286名刺は切らしておりまして
垢版 |
2018/01/30(火) 17:02:59.10ID:bjje4zK2
>>1
> 「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、

「なべ」じゃねーのかよww
じゃあ「渡」は「わたな」か?そんなバナナwwwww
0287名刺は切らしておりまして
垢版 |
2018/01/30(火) 18:57:26.13ID:zPW/2FUj
そんなことするとますます書けなくてもういいのか
0288名刺は切らしておりまして
垢版 |
2018/01/30(火) 20:46:10.28ID:s10CFqni
いまWin10にインストールというか
ダウンロードして解凍後に、
フォントフォルダーに明朝とゴシックの二つを放り込むだけで使えるようになった。

以下がダウンロードサイト。
https://ipafont.ipa.go.jp/node17
0291名刺は切らしておりまして
垢版 |
2018/01/30(火) 21:00:51.63ID:PSWeoeTi
>>288
それ入れてない環境だと文字化けするんだろばかばかしい
余計なものは使わないほうが良い
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況