X



【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
0001ノチラ ★
垢版 |
2017/12/25(月) 04:50:46.68ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。

東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。

対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。

手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。

一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。

ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html
02599
垢版 |
2018/01/14(日) 14:36:54.35ID:+f1mcoJr
「」なら出せるぞ
0263名刺は切らしておりまして
垢版 |
2018/01/15(月) 09:52:14.30ID:9ofs7BlM
辺とか斎の異体字は、戸籍を書いた役人の書きぐせに過ぎないのにな。先祖代々引き継いだと勘違いしてる奴が多い。活字にした時点でそんな異体字は全て廃止しろよということ。
0265名刺は切らしておりまして
垢版 |
2018/01/16(火) 20:28:55.19ID:mAf3RZvx
>>263
それは戸籍を管理する人たちの仕事で
漢字の文字集合を整理する人の仕事ではありません
過去に戸籍がデジタル化された以上
それらを文字符号化においてどう扱うか考えないといけないのです
0272名刺は切らしておりまして
垢版 |
2018/01/17(水) 19:55:55.38ID:Rf6H/aPV
Androidアプリは日本の漢字と簡体字がごっちゃになった字体が使われたりしてる
ああ、いかにも海外の人が作ったんだなあって
0273名刺は切らしておりまして
垢版 |
2018/01/18(木) 06:45:45.26ID:VuN2+Wny
MSIMEも中国人が日本の処理ソフト作っているらしく、
変換が無茶苦茶。フランス人に英語のスペルチェックソフト作らせてるようなもんだよ
0275名刺は切らしておりまして
垢版 |
2018/01/18(木) 21:02:22.96ID:BOlxwCCE
>>271
当たり前。
使われますではなくて、すでにUnicodeで全部正式採用済みだ。

20年くらいお前の頭は遅れている。
0278名刺は切らしておりまして
垢版 |
2018/01/21(日) 01:45:05.92ID:iIvujkZw
>>277
諸橋の大漢和にあるのだけで5万を超えている。

これには戸籍のために追加した4万余は入っていない。
つまり、以前からの一万余をたしても三万程度の漢字がUnicodeからは落ちてることになる。

実際、Unicodeと大漢和は2万程度しか連関していないから、この数字には間違いがない。

コード化されてるなんてまやかしは言うなよ?
コード化されていると言う意味ならUTF32だって趙漢字だってコード化されている。

使わないコード化に意味はない。
0279名刺は切らしておりまして
垢版 |
2018/01/30(火) 05:43:17.52ID:M1Wb56CI
そもそもバカな役人の書き間違えで誕生した異体字なんか抹殺すべきだろ
0280名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:04:39.44ID:MPUSm0XX
>>279
書き間違いなのか、何らかの意図、由来があっての事なのか、今さら調べるのが大変すぎる気がするのと
実際に消える方の字体を使ってる人の反発もかなりあると思う。

わたなべさんでも「渡辺」「渡邉」「渡邊」とメジャー所で三つあるけど
DMの宛名ですら怒ってくる人が結構居るのよ。
高井さんも、口ダカさんと、梯子ダカさんだったり、吉田さんも上が士か土か。

個人情報を扱う仕事してたけど、この辺気にする人はめっちゃ気にする。
しかも年配の人だけじゃないのよね。

名前に対するアイデンティティって、実は世代関係なく結構気にされる。
そして間違い様の無い名前の人には、この感覚は全くわからないのでタチが悪い。
0281名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:11:12.79ID:5bKJgCIi
>>コンピューターは、実は1万字しか扱うことができません

この書き方は頭悪そう
0282名刺は切らしておりまして
垢版 |
2018/01/30(火) 09:32:34.49ID:+llVH3fb
ワタナベ と サイトー、ヨシダ という連中はほんとに周囲の迷惑を考えないわがままだよな。
最近はこいつらに、ツジ も加わって、おれの辻のしんにょうは、1点辻だ、2点辻だ、とか言いくさって。

特に、渡邊と渡邉は、普通の文字検索ではそれぞれ別に検索しないとひっかからないのがうざい
ワタナベ姓の奴がどうしても統一したくなくて違いにこだわりたいんなら、全部を 「ワタナベA」 「ワタナベB」 「ワタナベC」 とかにしろ。
これなら周りの人間は検索の不便から解放される。
0283名刺は切らしておりまして
垢版 |
2018/01/30(火) 10:10:24.72ID:MPUSm0XX
>>282
辻はXPまでは一点でVistaから二点という、謎修正もあって余計にタチが悪い。
サーバー側が古くてプリンタ用の画像をサーバーで作ると一点になるとか、現場で混乱したよ。

浜田さん、濱田さん、M田さんもそうだし、国も旧字体の國の人もいたり
異体字や旧字体のある漢字って、思ってた以上に大量にある。

これを統一するのは、かなり反発が強そうだ。
0284名刺は切らしておりまして
垢版 |
2018/01/30(火) 12:02:25.75ID:lYz822mK
簡体字も対応してほしい
0285名刺は切らしておりまして
垢版 |
2018/01/30(火) 13:37:56.76ID:DsLrd57d
>>5
もう対処済み
APFSではファイル名の変換は行われないようになった
あとは各アプリの対応待ち
0286名刺は切らしておりまして
垢版 |
2018/01/30(火) 17:02:59.10ID:bjje4zK2
>>1
> 「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、

「なべ」じゃねーのかよww
じゃあ「渡」は「わたな」か?そんなバナナwwwww
0287名刺は切らしておりまして
垢版 |
2018/01/30(火) 18:57:26.13ID:zPW/2FUj
そんなことするとますます書けなくてもういいのか
0288名刺は切らしておりまして
垢版 |
2018/01/30(火) 20:46:10.28ID:s10CFqni
いまWin10にインストールというか
ダウンロードして解凍後に、
フォントフォルダーに明朝とゴシックの二つを放り込むだけで使えるようになった。

以下がダウンロードサイト。
https://ipafont.ipa.go.jp/node17
0291名刺は切らしておりまして
垢版 |
2018/01/30(火) 21:00:51.63ID:PSWeoeTi
>>288
それ入れてない環境だと文字化けするんだろばかばかしい
余計なものは使わないほうが良い
0292名刺は切らしておりまして
垢版 |
2018/01/30(火) 21:01:00.87ID:s10CFqni
>>289
わたべ、だ。わたなべ、じゃない。
インストール出来た気がしたけど、出来てなかったみたい。うーん残念。
0293名刺は切らしておりまして
垢版 |
2018/01/31(水) 13:29:24.34ID:fon3mWNy
>>15
> そもそも1/3ぐらいは誤字なんだから
> 元の正しい漢字に戻せばいいんだよ

ほんと、これ。
手書き時代は、単なる書体や個人の癖のバリエーションだったものまで、
「違う字」ということにして、自己満足以外のメリットがない。

上の方で「文化」とか言ってる奴がいるが、
文化は、書体(字体)の違いとしてやっていればいい。
0294名刺は切らしておりまして
垢版 |
2018/01/31(水) 13:40:28.61ID:SorTWyF8
Unicodeが使えない昔の機械だと常用漢字外は略字しか出ないってのも多い
手書きが難しい例えである「醤」だって「將」でなく「将」に「酉」なら何ら難しくもない
0295名刺は切らしておりまして
垢版 |
2018/01/31(水) 18:45:37.23ID:71T+moG0
>>293
コンピュータ上で書体(字体)の違いを扱うにはどうすればよいのでしょうか。
文化もコンピュータで扱いたいのだけど。
0296名刺は切らしておりまして
垢版 |
2018/01/31(水) 20:08:20.88ID:bJNNsRmn
新しい一太郎には入るのかね?
0297名刺は切らしておりまして
垢版 |
2018/01/31(水) 20:12:40.86ID:aBUP0RNO
>>293
どの字が書き間違いで、どの字が意図的なものなのかが、今さら遡りようがないだろう。
0298名刺は切らしておりまして
垢版 |
2018/01/31(水) 20:15:29.96ID:6WPwcNcZ
>>279
根本的に理解できてない
過去に電子化したデータがあれば
そこで使えた文字はどういうものだったかデータベース化しないといけない
戸籍が電子化された時点で>>1は必然

いくら何でも多すぎだから
制限するにはどうすればいいか
それも既に終わってる
住基ネットで行われた

三周くらい遅れてる
0299名刺は切らしておりまして
垢版 |
2018/01/31(水) 21:03:35.19ID:GuB+lDaD
そして、収録されていない新しい漢字が発掘されて、再び仕事をつくる。
これが、IPAのデジタル詐欺という、永久機関。
0300名刺は切らしておりまして
垢版 |
2018/01/31(水) 21:42:45.45ID:y6GlPEhp
>>298
15年も無駄に掛けたこの文字コードは何週遅れてるんだよ
0301名刺は切らしておりまして
垢版 |
2018/01/31(水) 22:15:00.65ID:KfDMqnEo
>>273
欧米中心だと
ローカライズはあくまでアジアの括りでしかやってくれないよ
unicodeのCJKVとかがいい例
0303名刺は切らしておりまして
垢版 |
2018/02/01(木) 14:24:20.37ID:YuMDPy6W
>>301
最終的には16bitじゃ収まらないんだから
16bitから始めて、サロゲートペア、異体字セレクタと進んできたのは、
今の視点で見れば、そう悪くなかったと思える
CJK統合はちょっとうまくない統合もあるけどね
0306名刺は切らしておりまして
垢版 |
2018/02/03(土) 02:00:23.51ID:k3JVevWM
>>304
役所のためにコンピュータがあるわけでは無い。
0308名刺は切らしておりまして
垢版 |
2018/02/03(土) 06:31:45.09ID:mUGos56d
>>1
漢字のほうを簡素にしろよ。
斎藤の斎の字だけでもたくさんあるし、
ツヨシ君の「草○」だって「ナギは〜」ってのまで書かなきゃでマスゴミも大変だろ。
「澤」も「沢」に統一すりゃ面倒がなくていいのに。
03109
垢版 |
2018/02/04(日) 18:58:14.08ID:JcNMdVNx
ぎゃあぎゃあうるさい客を黙らせるには、こんなアプローチしかなかったんだよ
ちなみに、異体字セレクタで指定するように実装されているので、コードが増えたわけではない
心配なソートや検索には少し機能追加して、異体字区別オン/オフ機能を持たせればいい
0311名刺は切らしておりまして
垢版 |
2018/02/04(日) 20:03:36.68ID:5hDjzv22
>>310
ああ、フィルタリング出来るなら実害は無いか。
選択肢が多いってのも考えものではある。
0312名刺は切らしておりまして
垢版 |
2018/02/05(月) 07:30:08.11ID:mOHApqHK
役所を機械化して公務員減らせよ
0314名刺は切らしておりまして
垢版 |
2018/02/09(金) 13:22:49.59ID:outVv24X
>>313
文字コードを与えられていないと文字として処理するのが不便です。
検索とかその文字を使って文章を書くとか。
0316名刺は切らしておりまして
垢版 |
2018/02/10(土) 11:35:08.24ID:tYEqfiMq
>>315
各自が作ったファイルで共通の処理ができるの?
0320名刺は切らしておりまして
垢版 |
2018/02/13(火) 22:42:22.76ID:c+X15UHa
>>318
読み方もわからない漢字を探すとか苦行でしかない
0322名刺は切らしておりまして
垢版 |
2018/02/14(水) 01:46:16.20ID:CH673kzt
>>321
誰も手書きの話なんかしてないわこのアホウ
0324名刺は切らしておりまして
垢版 |
2018/02/14(水) 01:57:24.85ID:CH673kzt
>>323
お前もういいからバカは死んでろ
03289
垢版 |
2018/02/17(土) 21:54:24.42ID:07scXkde
>>326
解説よろしく
0329名刺は切らしておりまして
垢版 |
2018/02/17(土) 22:05:52.42ID:6gvEycLU
>>1
これで異字体を実質的に廃止する機会を失った
後世にまで残る極めて悪質な判断
こういう事に労力をかけるのは無駄!無駄!無駄!
こんな無駄な事してるから日本はいつまでたっても非効率なんだ
0330名刺は切らしておりまして
垢版 |
2018/02/17(土) 22:14:10.89ID:GZu+OoqD
>>329
開発してる当事者らは社会の役に立ってると思い込んでるから救いようが無い
0332名刺は切らしておりまして
垢版 |
2018/02/18(日) 10:40:12.04ID:ujntBjSB
http://www.chokanji.com/ckk/images/press/ckkvar03.png

コンピューターで異字体の検索が困難にならないように異字体同一視検索出来る様にするのは本末転倒
意味が同一であるなら表記も一つにすべき

文字の本来の意義は伝達である
伝達を困難にする文字の個性はいらない
個性を出したいならフォントで出せ

それが情報化社会における漢字のありかただと考える
0333名刺は切らしておりまして
垢版 |
2018/02/18(日) 15:07:35.79ID:3qTyF6oa
>>332
正気の沙汰じゃないわな
0337名刺は切らしておりまして
垢版 |
2018/02/23(金) 19:21:18.09ID:GSWQmPeZ
0338sage
垢版 |
2018/02/23(金) 19:26:52.63ID:CA59b0DQ
異字体のうち誤用により生まれた文字は
即刻なくすべき
戸籍も同様に変更(正しい漢字とみなす)にすればいい
本人の文句は受け付けない、と
0340名刺は切らしておりまして
垢版 |
2018/02/24(土) 09:56:08.03ID:j7wfoKQK
>>338
誤用や書き損じが元になってるかどうかの判断はいまさら難しいが、字体や意味が同じまたはほとんど同じなら
一つの漢字に統一すべきだろうな
本人以外区別が付かない字に意義は無い

>>339
過去なんかどうでもいい問題は未来だ
0341名刺は切らしておりまして
垢版 |
2018/02/24(土) 10:15:23.04ID:9IqGtaK6
>>280
結局みんな、旧字体戦後に新字体になったのを拒否しただけの人だろ

ほとんどの人は、新字体の渡辺に変えたんだから役所は新字体だけに統一すればいい
0344名刺は切らしておりまして
垢版 |
2018/02/24(土) 11:37:14.08ID:j7wfoKQK
>>343
対応表とかバカかw
0346名刺は切らしておりまして
垢版 |
2018/02/24(土) 11:44:43.70ID:j7wfoKQK
>>345
なぜバカなのかすらわからないならレスする意味も無い
0350名刺は切らしておりまして
垢版 |
2018/03/02(金) 23:08:12.38ID:7Xg9K6wR
半角文字や制御コードとの兼ね合いで、2バイトでは6万字は表せない
細かな字体の違いをコード化するためにUnicodeみたくバイト数増やすのか?
動画とかは無圧縮との違いが目立たないようにデータ切り捨ててるのに
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況