X



【IT】コンピューターで全漢字使用可に 6万字コード化

■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★
垢版 |
2017/12/25(月) 04:50:46.68ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
0005名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:05:39.91ID:ZmMob5US
それよりUTF-8-MACとか言う糞文字コードを国内法で禁止しろ
一々濁点直すの面倒なんだよ
遠まわしに「winじゃないんですね〜」って嫌味言っても、褒められたと勘違いして喜んでやがるksg
0006名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:07:51.84ID:Bn4hKqX2
点や線なんて書き間違えとかそのまま登録だったらしいね
逆に絞り込んでもよかったんじゃないかと
0007名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:12:10.81ID:9NpGDqg+
ドキュン字というか、識字率が低かった頃になんでもかんでも採用しちゃったのがいけないんだろ。
オレも絞った方がいいとおもう
0008名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:15:37.56ID:0AplpQHm
氏名の漢字のバリエーションは、ご本人はもちろん
伝統として大切なことは重々承知してるが、
他人にとってはただただ面倒くさい。

モニタ解像度がまだそんなに高くなかった頃、
映し出された似たような漢字の変換候補一覧を凝視して、
ドット単位で違いを見極めて確定ボタンを押してた時代もあった。
0009名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:19:36.45ID:Q5bXWJjw
>>8
キラキラネームと同レベルの迷惑度なのに、
こだわりさんにはその自覚ないんだよね
0010名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:28:44.80ID:MVgNRj95
今回の6万字はどの文字コードに含まれるの? UTF-8?
0011名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:29:38.53ID:t1bhh2Td
つうわけで、せめてサイトウのサイ、ワタナベのナベの異体字なんかは、ソート時とかに同一視するオプションつけろ
0012名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:36:16.01ID:Q5bXWJjw
>>10
「辺の字」の「何番」みたいな方式で拡張するんで、元のコードには変更なし

このエンコード方式自体は、Windowsなら7以降に組み込んであるので、
一般アプリは、只のテキストとして扱うだけでもあまり問題は出ない
0013名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:37:06.15ID:gFDG4f5/
コードが決まってもフォントがないとどうにもならんのでは?
フォント会社特需?株、買えばいいの?
0014名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:37:14.05ID:/aq3ExfW
草薙
0015名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:37:29.30ID:V3co6kLG
そもそも1/3ぐらいは誤字なんだから
元の正しい漢字に戻せばいいんだよ
0016名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:40:57.75ID:txqKXmA+
超漢字がいらなくなる
0017名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:43:58.61ID:Q5bXWJjw
>>13
IPA作成のフォントは、既に公開してるんだって
0019名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:49:45.02ID:MVeZ/IOz
>>17
それだけ有っても仕方ない
0020名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:53:19.43ID:WqUjJXI3
利用者が文字の違いを認識できず、
誤った類似文字で登録して混乱しそうだなw。
文字入力者のスキルが...........w
0021名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:56:08.63ID:Q5bXWJjw
>>20
ワタナベさんやサイトウさんが、本人達大混乱とかなw
0022名刺は切らしておりまして
垢版 |
2017/12/25(月) 05:59:42.88ID:Q5bXWJjw
>>19
標準Editコントロールとかテキストボックスとかは、
既に対応済みなんじゃないかな
IPAフォントさえインストールすれば、当座の凌ぎにはなるでしょ
0023名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:00:04.37ID:MVeZ/IOz
>>22
混乱するだけだ
0024名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:02:32.61ID:D53NK4sQ
「吉田」の「ヨシ」のつくりが「土」
はしご「高」
これらは書体に過ぎないから
例であげるなら最高裁判所の看板
https://cdn.amanaimages.com/cen3tzG4fTr7Gtw1PoeRer/23023001162.jpg
最高裁判所の「高」がはしご「高」だと主張する人なんて居ないから
0027名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:10:35.96ID:WJADrFfo
ちょっと待て
全部ってなんだよ
今昔文字鏡だって15万字だぞ
6万ごときで全部なわけないだろ
嘘つきNHKめ
0028名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:12:14.05ID:WqUjJXI3
戸籍に登録されてる文字全部って意味なんじゃないのかw?
0029名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:14:59.04ID:rT7k5vLt
これはすごいけど使う側が混乱するだけで終わりそう
0030名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:15:06.65ID:b/SDHdiZ
ただの誤字も律儀に登録したのかな。
名前はロゴタイプじゃないんだから、字体が違ってもコンピュータ登録用文字として妥協しろよ。
検索が大変になるぞ。
0031名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:33:01.56ID:GhOBQfSO
規格か
どこか実装する予定でもあるんかな
0032名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:42:02.64ID:DEIApAEL
PC98が健在なら、石で持たせていたんだろうか?
0033名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:51:20.73ID:Mvxzfyyr
>>5
合成はUnicodeの規格に沿った扱いなんだよ。
ただ文句をつけたい気持ちはわかる。
Windows版iTunesでそのまま扱いやがって濁点付きの言葉を検索する際に面倒な目に遭った事がある。
0034名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:51:59.27ID:dfZBo0ZE
Unicode 10.0がISOで規格化されましたって話でしょ
すぐ使えるわけじゃない
いくら番号付け(コード化し)てもその図(字体)がなければ使えないし
0035名刺は切らしておりまして
垢版 |
2017/12/25(月) 06:55:30.36ID:0ruGLKUy
>>33
それ言うなら、レアな漢字で 9文字組み文字になったそれもUnicodeの規格に沿わせろよ
0037名刺は切らしておりまして
垢版 |
2017/12/25(月) 07:00:40.93ID:dfZBo0ZE
☀☔⏰⌚⏳
太陽、雨傘、目覚まし時計、腕時計、砂時計
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況