【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html >>88
外字を作っていたのを考えると、ISO-10646 にその時点で登録しちゃったほうがよかっただろってことじゃね?
時期で言えば住基ネットとかやってたころかな。 >>90
そうじゃないよ
扱える環境と扱えない環境が生じるのが問題で混乱の元でしかない >>1
>日本で初めて漢字のコードが作られたのは昭和53年のことで、
>当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
>およそ6000字でした。
最初のJISに6000字しか入らなかったのはしょうがないとしても・・
たった6000しか無いのに全国で一箇所しか使われてない、
国土地理院の地図でしか確認できない地名の漢字とか何十個も入れたのは失敗
地名より姓の漢字を優先すべきだった 国際競争で勝てない日本企業がこうやって日本人を囲い込むんだな 漢字なんていう古代原始文字の習得に時間をとられるから東大に行くような秀才でも英語を喋れない
それは昔の日本の知識人が漢字を読めないのと同じようなものだ
いかに馬鹿げていることか >>58
それも文化
漢字や文字というもののの成り立ちがわかっていない
君はAIに制限を設けるのか >>9
こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
>>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ そもそも。色んな漢字を入れるのは必要だが。異体字は同一番号でいいだろ。
漢和辞典で同一漢字の異体字として載ってるやつ。あんなの意味なし。
というか、あくまで異体字として選択するようなシステムにしろ。
現状ではただ意味なく字形だけ大量に羅列してる。 >>94
日本人が欧米人とは異なる発想が持てるのは言語や文化による影響が大きい
数学的なセンスとかノーベル物理学賞とかにも
と数学者の藤原さんだかが言ってたね(講演で聴いた)
独特の美意識が新たな論理の地平を開拓するみたいだ >>103
日本人が新しい物を作り出したことなんてないぞ >「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺のど人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺李のど人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「際」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
>>101
コンピュータ上ではたいてい「ベタ」に処理した方が合理的な場合が多い 難しい文字はどうせ平仮名なんだからいらないでしょ
「罹災者」って書かずに「り災者」なんだから >>104
新しい眺望は常に先人の肩に乗って見える
人種は関係ない かつてないほど漢字廃止の必要性が高まってるのに
知識人の誰一人としてそれを唱える者がいない
そういう時こそかえってあっさり滅びるのかもしれないがw >>106 誤字多いので修正
>「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺の土人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺地の土人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「斎」「齊」「齋」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
ホリエモンもどきのような事いって粋がっているVKがいるが
味噌も糞もいっしょくたにするべからず 勝率8割、月利30%の手法を全て公開する実践型【株式投資セミナー】
佐藤博行(サトウヒロユキ)
大学を卒業後、コンピュータ専門学校講師、訪問販売業を経験。
訪問販売でのセールス記録等の実績を買われ、コンサルティング会社からのヘッドハンティングで移籍。
その顧問先であった上場を目指すベンチャー企業に転籍後は、統括事業部長、管理本部長、取締役経営企画室長、専務取締役などを歴任。
現在は、あるきっかけで得た株式トレードのノウハウの研究を重ね、自身はトレードだけで月収1000万円を稼ぐまでになっている。
様々な場所でセミナー公演の依頼を受け、その株式トレードの技術を世に広める活動を行っている。 ワタナベはやたらと自分の漢字にプライドを持ってるイメージ 大阪府の豊中市とか、なんでか俺が生まれただけで
縁起が良い漢字を横取りのために何個も作り出して
汎用機に漢字も無いのに外字登録してる
しまいに、中国共産党の中国人にまでいって
国を作るのは新しい外字登録を作ることだ
とか言い出す
が、ここまで登録漢字が増えるとそれもなくなるのかな 吉田の吉を書き間違えて土で登録したバカな先祖の愚行を子孫が受け継ぐのが文化ってアホかと 俺は結婚して戸籍つくるとき名字の漢字を変更した
先祖や役人が誤字しただけの字を代々守っていく必要なんてないよ 漢字コードの2文字目が、制御コードとぶつかるので、
特定の名前の人を入力すると、システムが停止する >>83
これ
常用漢字以外を使っている人名地名を法律で強制的に改名すれば
済む話なのに、15年かけて誰も使わない規格作って馬鹿じゃないのと思う >>123
日本語つかうのやめてエスペラント語でも使えば? >>123
夏目漱石を原文のままデジタルで読めなくなるだろ >>125
別に文学とかの嗜好品はそれを楽しむ人が追加コストを払うなら好きにしたらいいと思うが
俺が行ってるのは役所、金融あたりの実務で使う人名漢字の話ね >戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など
>11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ
>60種類あります
一個の漢字に統一しろよ … 漢字コードの割り当ては後々のことを考えて
浮動小数点コードにしれ 本人ですら略して書く渡辺や斉藤にいつまで拘ってんだと・・・ (*´ω`)つ関西でIT業界を目指す人へ!はやまるなと忠告【必読】
【警告】関西のIT業界は古臭くて、不可思議な慣習に満ちており東京へ行くべきである。
・関西のIT業界では親請けはまるで神様、奴隷だと勘違いして逆らったら問題時扱いで即刻首。
→東京では当然だが対等なパートナーであり人間の尊厳がまず大事で、紳士的に対話してくれる。
・関西のIT業界の市場規模は東京の10分の1以下
→産業の転換が遅れており、所詮、頭が悪い田舎の地方都市。良いチャンスも得られない
・関西のIT業界での技術者の扱いは使い潰しのサービス業の下請けいいなりサラリーマン
→東京ではエンジニア、フリーランサーとして夢や目的を尊重して、互いの相互利益を考えてくれる。
・そもそも関西全体が落ち目であり、そこに染まるのはまず尊厳を考えない悪質で駄目な人材の証拠
→登り調子の東京の一員になることこそ、成功の大前提と言える。駄目な物はダメ、見切りをつけろ
【結論】 同じ国内で、IT業界で働くなら、東京へ行くべきなのが大正解\(^o^)/ これは、いろいろ便利になりそう。相手の名前が無い漢字の時は、歳暮とか苦労するから 常用漢字に寄せた方が良いんだがな、まあ名寄せはマイナンバーでやればいいってことか 超漢字を採用していれば
6万どころか18万なのにな こんなのに15年も費やすバカ
コンピュータでランダムに割り当てたら10分で終わるだろ。 本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
日本人馬鹿ちゃうか。
中国人の方が標準化進めてるぞ。 は?何て馬鹿馬鹿しいことをやっているんだろう。
やるなら逆だろ。
コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
渡辺は渡辺に。
斉藤は斉藤に。
わがままは許すな。 >>134
あれは調子乗り杉
書体違いで別コードとか使えん ついでに三国志の人名も対応してくれたら
ソシャゲでホウ統だの程イクだのって哀しい表記も無くなるな JIS漢字はメインフレーム全盛の頃に策定したんだろ?
なおさら姓名・地名に絞る必要があったんじゃ 一般人は読めない書けない漢字
それは特殊なフォントを使わないと文字化けする
そうまでして使う文字は元を辿ると単なる誤字
こんなのに予算をつぎ込むのは馬鹿のする事じゃないか なんでこうなったか考えると、90年代に日本のPC規格が米国のDOS/V規格に負けたからだろう
MS−DOSに漢字フォントが搭載され、日本のパソコンOSは米国マイクロソフトが支配することになった
その次に出たWindows更にOfficeに日本は支配され、漢字に関してもマイクロソフト影響を強く受けるようになった
多くの日本のPCユーザーはWindowsに元々入っているフォントと対応している文字コードだけを使い、それが当たり前になった
すると>>141のような意見も出てくる >>149
彡⌒ ヾ
( ^ω^)常用漢字だけ有ればいいんだよ
彡⌒ ヾ
( ^ω^)妙な漢字は、高確率でチョン系統や中国系統だ 柿(かき)と柿(こけら)も見分けつくようになるかな? >>98
> >>9
> こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
> 俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
> 後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
> だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
> >>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ
これからは,マイナンバーのおかげで,そういう問題も解決。
漢字が違っていてもマイナンバーが同じなら,同一人物と判断できる。 >>98
俺も、むやみに異体字を増やしたら迷惑だと言ってるんだよ >>149
単にこれまでほっておいただけ
しかもいまさら無駄に登録漢字増やすとか正気の沙汰じゃない 戸籍統一文字が約6万文字なだけで、日本で使われてる漢字はもっと大量にある。
ipamjフォントの作業自体は評価するが、文字を使う現場ではまだまだ足りない。
Adobe-Japan1-6の23万文字には遠く及ばない。
ipamjは明朝しかないので、せめてゴシックもあればかなり違うがなぁ >>156
>Adobe-Japan1-6の23万文字には遠く及ばない
うち漢字は14,663文字 >>155
そういう1アプリでどうとか近視眼的なクソレスするなよ
日本語ワープロソフトだけじゃなく役所の戸籍システムも含めた日本語利用者全体の話だ >>159
IVS対応情報
http://mojikiban.ipa.go.jp/1294.html
日本におけるシェア率が最も高いのがWindows+Microsoft Officeなので
それに合わせて調整していると考えるのが自然だとオレは思った
不思議なことに、文字の変換に必要なIMEまでは作ってないからな >>161
あのなOfficeのIVS対応なんて5年前には済んでるんだよ
(12/11/12 14:18)
マイクロソフト、「Office」で約58,000の異体字を利用可能にするアドインを無償公開
https://forest.watch.impress.co.jp/docs/news/572450.html >>151
ウチの環境(Windows10 メイリオ・游ゴシック)では全然見分けつかん
というより元のフォント字体ごっちゃにされてる柿の箱に平気でこけらフォント書かれてるし
(実際柿だけでなくこけら=おがくずも敷かれてるが) >>162
マイクロソフトも>>1のプロジェクトメンバーだから対応するが
そこで終わりではなく、ずっと調整作業は続く サイトウ(サイ属)、ワタナベ(ナベ属)、
その他ややこしい苗字の奴らが全員死に絶えたら簡単なんだよなあ。 >>164
バカが一体何を言いたいんだ?
そりゃマイクロソフトも金になるならやるだろうよそれだけの話だ 草g剛
北磻磨
Y司
ケ小平
深圳 >>166
>>149のレスで言いたいことは終わってる >>168
最初からズレてるんだからそりゃどうしようもないわな 包摂だの異体字だのグリフだの何でこんなカオスなことになってしまったんだ >>171
今調べたら、その字(エンブレム?)を使ったラーメン店が実在する。店名はおとど >>169
90年代にハードウェア重視でコケて、ソフトウェア産業が育たない土壌ができちゃって投資も集まらない
日本人は生活インフラとして海外資本のソフトウェアとサービスを利用するのが当たり前となり
ダメもとで、官庁主体で国内に引きこもって税金使ってビッグデータがどうこうAIがどうこうやってるだけけ
その象徴的出来事が>>149 >>173
どうしようもないバカだな
DOS/Vの文字コードは新JIS83に拡張文字を追加しただけのもので特にNECの98と相反するものじゃなかったし、
特にマイクロソフトが非協力的だったわけでもなんでもない >>174
NECはOSで利益だそうという発想がなかった
ソフトウェアはあくまでハードウェアに付随するものという認識だった >>176
俺がいってた神戸商船大学に生協があって
TRONなどが入手できれば話しは変わってたかもしれないが
生協もできたのは大学院卒業間際 なんだか事実誤認の書き込みが多いな
解決した問題はあってもあらたに生じた問題は無い >>178
捨てたゴミは、犬に犬喰わせると嫌味言われているが >>176
90年代の大手電機機メーカー全体が同じ認識だった
ソフトウェアはハードウェアに付随するもの。ハードウェア組んでそこにソフトウェアを構築する
新しい時代に向けての発想の飛躍がなかった >>177
TRONなんて選択しはなおさら無かった
TRONが世界制覇してくれたらよかったがそうじゃないなら日本全体がガラパゴスになるだけ >>180
>>149を100回読み直せこのバカが >>182
ソフトバンクが、ソフトウェアの販売とか卸売業をやってて
本社が攻撃されて場所を変更しまくって商売するとか変態を
官僚はできなかっただけだろ
Windowsなんかにかたよったのはその結果
官僚がやるのは三年に一回のてめえの家の引っ越しだけ >>184
全然違うw
メーカーも官庁も誰も必要性を感じて無かっただけの話だ
それをDOS/Vがどうのマイクロソフトがどうの頭のおかしい陰謀論垂れ流すバカが居る 日本は外資や外圧がないとなんも変わらない、それだけ >>187
何がそれだけだこのバカが
日本語の文字コードなんて日本人以外には一切関係ないのに外圧なんかあるかよこのアホウ >>141
>コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
>渡辺は渡辺に。
>斉藤は斉藤に。
>わがままは許すな。
ご先祖がバカだと俗字で戸籍に提出しちゃったり
だから法制度で正字意外は認めませんと
すべきだったのかもね
はっきり言って無駄に文字の数ばかり増やして何がしたいのかなあと >>140
>本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
文字文化ガーとか言っちゃうんだろうけど
俗字なんか文化でも何でもないよw 「喜」のチョンチョンが突き抜けたら小学校の漢字テストでは間違いなのに
うちのバカ親父は自分の名前の漢字を正しく書かないで役所に書類を提出したら
後日、あなたの使用した漢字は戸籍に登録してある漢字とは別の漢字ですってわざわざ手紙が来た
自分の名前の漢字を間違えるのもバカだが、間違えを人名漢字と認めてしまう役所もバカすぎる
アイデンティティー(笑)じゃなくて自分の苗字の漢字を間違えるバカ家系晒し上げ制度なのかこれ ■ このスレッドは過去ログ倉庫に格納されています