【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html 🌄🌂⏰⌚⌛ なんでそこまでこだわるのか理解できないわ
情報化社会では群衆の中に個を埋没させるのが、セキュリティ対策のひとつだと思うけど
目立ってどうすんだろね 5ちゃんねるって一時期
絵文字が使えた気がしたのにw なんだ、ここは>>37絵文字に対応していないじゃないかw こだわりあるひとには申し訳ないけど、マジである程度は統一すべきだと思う。
というか元は同じ漢字のはずが手書きの個人差で違う感じになるとか、
システム費用とチェックする人手が無駄すぎる。
役所中心にITコスト高の原因の一つだよ。
現状にシステムにを合わせるのではなく、ある程度はシステムに合わせて現状を変えるべき。 これと直接関係ねえけど
ルビとか上付き下付き字とか上下逆に置いたりとか鏡像反転したりとかも
もっと簡単な制御コードで実現できねえのかね 「難しい方の字なのは知ってますけど、システムが対応してなくて…」と
言い訳できたのが、「正しい字」を使えるようになったせいで
かえって間違いが増えるような気がするなぁ。
ウィンドウに表示された文字にマウスカーソルを重ねると
バカでかいバルーンで拡大表示される、みたいなサポート機能が
使われるようになるかな。 >>39
>>43
こだわりの問題ではないよ
文字は文化
人間が認識できる文字をコンピュータも同様に扱えるようにすることは当たり前の流れ >>44
そういう要件にはたいていAdobe製品使っている
IllustratorとかInDesignとか
少なくとも商用印刷では当たり前だね 情報を共有するものどうしで同じ書体をインストールしていなければ意味がない
片方で入力表示できてもそれを得る側の端末にそれを表示できるフォントが入っているかが問題 いつまで効率の悪い言語使うつもりだ馬鹿ジャップ(笑)
26文字で済ませろや >>49
貴方の発言が失敗、突っ込みいれたので訂正しような。 ほとんどが誤字なのに無駄なことするなあ
自分の戸籍の正しい漢字かなんなのかわかんない人も大勢いるだろうに
わたなべのナベなんて間違ってる人多そう >>46
ただの書き間違いを押し通した迷惑なだけの慣例。
言葉の多様性とは違うわ。 6万文字もの漢字の使用を許したらますます日本語の壁ができるだろ
しかもこんなくだらないことに15年もかけるってよほど役人はヒマらしいな 戦前は学校でキチンと漢字書き取りやってたんだろうか?
あとJIS2004で変わった二点しんにょうの辻は常用漢字外とはいえ違和感ある 外字よりも子供の名前が単漢字変換になったのがつらい >>27
落ち着け 今昔文字鏡は漢字じゃない文字を含んでるんだ。
今昔文字鏡(こんじゃくもじきょう)は
日本・中国・台湾・韓国・ベトナムの漢字をはじめ、
西夏文字、甲骨文字、水文、変体仮名、梵字などを含めた約18万字(漢字16万字)
のフォントデータが収録され、
それらの膨大な文字の中から効率的に目的の文字を探し出すために改良が重ねられた、
文字検索システムが備えられています。 これは素晴らしい
仏教用語とか
変換しても文字化けするのが多いのがネックだった 漢字変換候補が増えるだけ
社会的に負担の方が大きい 漢字なんて廃止した方がいい
明治以来議論があったが最近なくなったな
むしろ今こそ廃止すべき 古代中国の原始的な象形文字
こんなものにこだわる必要はない
段階的廃止に向けて常用漢字をどんどん減らすべきなのに
むしろ増やしてる
ほんとバカなことやってる 中国が漢字廃止したら笑える
やったとしても驚かないが >>68
じゃ、お前のレスは今後全部ひらがなで書け 6万もあるとか、、何て効率の悪い文字
アルファベットの国がうらやましいわ。
効率的だし、街にある看板もアルファベットなら美観損ねないし。 最近の日本人は漢字廃止論なんてあり得ない、馬鹿げてると傲慢になってるよね
そういう時だからこそ逆に滅びるのかもね
英語とインターネットは大きな要因になりそう >>1
> 戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」
> 「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」
> 「斎」「齊」「齋」などおよそ60種類ありますが、
ワタナベとサイトウはデータ入力屋に嫌われる二大巨塔 >>3
土` なんてのも見る。
名前の画数気にする人が
普通の漢字に勝手に点を加えたり外したりとかしたらしいな 漢字なんて原始文字、とっとと博物館送りにしようぜ
エジプトの古代文字見てこれを復活させようなんて誰も思わない
なくなったとしてもその程度の物 ワタナベの漢字であれやこれや議論するなてほんと無駄だよな お前らが見下した朝鮮人そのもの
どうでもいいことで何百年も言い争ってる 漢字廃止に向けてまずはワタナベの書き方を統一してみては?w 迷惑なことするな
インターネットを汚く非効率な原始文字で汚染するな 漢字廃止に向けて政府はまず常用漢字増やすなんて馬鹿げたことしてないで減らせよ
現代世界に適応できなくて逃避したんだな これ馬鹿だよなあ。
こんなことやるより、人名漢字、外字を駆逐して、国が強引に法で標準化進めるのが価値ある大事業だろ?
高はハシゴ高です、とかさ。先祖代々とかいうプライドも捨てろ。
こんなことにエネルギー費やしてる馬鹿な国。 >>74
俺、齊藤だけど
戸籍の藤はくさかんむりが4画 + + のふじ >>83
そうだね、漢字擁護派の俺でもこれは正直時代錯誤だと思う >>58
慣例も使用頻度・期間によって正用になることもある。
特に氏名(漢字)においては途中で容易に変更が出来ないものだから、間違いで全て切り捨てるわけにはいかない。
(「多様性」として受け入れるわけではないが…)
ちなみに氏名の読みは容易に変えれるんだっけ? >>42
最初からとは?
コンピューターのパフォーマンスを抉り取られるのに? >>50
さようなら。シンガポールあたりで頑張ってね。 扱えるようになる事と、実際に扱うかどうかは別だぞ。
選択肢が増えたというだけだ。
対応フォントは手間がかかっている割に需要が少ないから高額な価格設定にせざるを得ない。個人では買えない。
つまり一般の人間には関係無い。 >>88
外字を作っていたのを考えると、ISO-10646 にその時点で登録しちゃったほうがよかっただろってことじゃね?
時期で言えば住基ネットとかやってたころかな。 >>90
そうじゃないよ
扱える環境と扱えない環境が生じるのが問題で混乱の元でしかない >>1
>日本で初めて漢字のコードが作られたのは昭和53年のことで、
>当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
>およそ6000字でした。
最初のJISに6000字しか入らなかったのはしょうがないとしても・・
たった6000しか無いのに全国で一箇所しか使われてない、
国土地理院の地図でしか確認できない地名の漢字とか何十個も入れたのは失敗
地名より姓の漢字を優先すべきだった 国際競争で勝てない日本企業がこうやって日本人を囲い込むんだな 漢字なんていう古代原始文字の習得に時間をとられるから東大に行くような秀才でも英語を喋れない
それは昔の日本の知識人が漢字を読めないのと同じようなものだ
いかに馬鹿げていることか >>58
それも文化
漢字や文字というもののの成り立ちがわかっていない
君はAIに制限を設けるのか >>9
こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
>>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ そもそも。色んな漢字を入れるのは必要だが。異体字は同一番号でいいだろ。
漢和辞典で同一漢字の異体字として載ってるやつ。あんなの意味なし。
というか、あくまで異体字として選択するようなシステムにしろ。
現状ではただ意味なく字形だけ大量に羅列してる。 >>94
日本人が欧米人とは異なる発想が持てるのは言語や文化による影響が大きい
数学的なセンスとかノーベル物理学賞とかにも
と数学者の藤原さんだかが言ってたね(講演で聴いた)
独特の美意識が新たな論理の地平を開拓するみたいだ >>103
日本人が新しい物を作り出したことなんてないぞ >「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺のど人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺李のど人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「際」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
>>101
コンピュータ上ではたいてい「ベタ」に処理した方が合理的な場合が多い 難しい文字はどうせ平仮名なんだからいらないでしょ
「罹災者」って書かずに「り災者」なんだから >>104
新しい眺望は常に先人の肩に乗って見える
人種は関係ない かつてないほど漢字廃止の必要性が高まってるのに
知識人の誰一人としてそれを唱える者がいない
そういう時こそかえってあっさり滅びるのかもしれないがw >>106 誤字多いので修正
>「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺の土人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺地の土人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「斎」「齊」「齋」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
ホリエモンもどきのような事いって粋がっているVKがいるが
味噌も糞もいっしょくたにするべからず 勝率8割、月利30%の手法を全て公開する実践型【株式投資セミナー】
佐藤博行(サトウヒロユキ)
大学を卒業後、コンピュータ専門学校講師、訪問販売業を経験。
訪問販売でのセールス記録等の実績を買われ、コンサルティング会社からのヘッドハンティングで移籍。
その顧問先であった上場を目指すベンチャー企業に転籍後は、統括事業部長、管理本部長、取締役経営企画室長、専務取締役などを歴任。
現在は、あるきっかけで得た株式トレードのノウハウの研究を重ね、自身はトレードだけで月収1000万円を稼ぐまでになっている。
様々な場所でセミナー公演の依頼を受け、その株式トレードの技術を世に広める活動を行っている。 ワタナベはやたらと自分の漢字にプライドを持ってるイメージ 大阪府の豊中市とか、なんでか俺が生まれただけで
縁起が良い漢字を横取りのために何個も作り出して
汎用機に漢字も無いのに外字登録してる
しまいに、中国共産党の中国人にまでいって
国を作るのは新しい外字登録を作ることだ
とか言い出す
が、ここまで登録漢字が増えるとそれもなくなるのかな 吉田の吉を書き間違えて土で登録したバカな先祖の愚行を子孫が受け継ぐのが文化ってアホかと 俺は結婚して戸籍つくるとき名字の漢字を変更した
先祖や役人が誤字しただけの字を代々守っていく必要なんてないよ 漢字コードの2文字目が、制御コードとぶつかるので、
特定の名前の人を入力すると、システムが停止する >>83
これ
常用漢字以外を使っている人名地名を法律で強制的に改名すれば
済む話なのに、15年かけて誰も使わない規格作って馬鹿じゃないのと思う >>123
日本語つかうのやめてエスペラント語でも使えば? >>123
夏目漱石を原文のままデジタルで読めなくなるだろ >>125
別に文学とかの嗜好品はそれを楽しむ人が追加コストを払うなら好きにしたらいいと思うが
俺が行ってるのは役所、金融あたりの実務で使う人名漢字の話ね >戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など
>11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ
>60種類あります
一個の漢字に統一しろよ … 漢字コードの割り当ては後々のことを考えて
浮動小数点コードにしれ 本人ですら略して書く渡辺や斉藤にいつまで拘ってんだと・・・ (*´ω`)つ関西でIT業界を目指す人へ!はやまるなと忠告【必読】
【警告】関西のIT業界は古臭くて、不可思議な慣習に満ちており東京へ行くべきである。
・関西のIT業界では親請けはまるで神様、奴隷だと勘違いして逆らったら問題時扱いで即刻首。
→東京では当然だが対等なパートナーであり人間の尊厳がまず大事で、紳士的に対話してくれる。
・関西のIT業界の市場規模は東京の10分の1以下
→産業の転換が遅れており、所詮、頭が悪い田舎の地方都市。良いチャンスも得られない
・関西のIT業界での技術者の扱いは使い潰しのサービス業の下請けいいなりサラリーマン
→東京ではエンジニア、フリーランサーとして夢や目的を尊重して、互いの相互利益を考えてくれる。
・そもそも関西全体が落ち目であり、そこに染まるのはまず尊厳を考えない悪質で駄目な人材の証拠
→登り調子の東京の一員になることこそ、成功の大前提と言える。駄目な物はダメ、見切りをつけろ
【結論】 同じ国内で、IT業界で働くなら、東京へ行くべきなのが大正解\(^o^)/ これは、いろいろ便利になりそう。相手の名前が無い漢字の時は、歳暮とか苦労するから 常用漢字に寄せた方が良いんだがな、まあ名寄せはマイナンバーでやればいいってことか ■ このスレッドは過去ログ倉庫に格納されています