【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
企業や自治体も一苦労
外字の問題は、さまざまな企業だけでなく自治体の課題としても浮かび上がっています。
東京・表参道にある手紙用品店では、結婚式の招待状や席次表の印刷を手がけていて、名前に外字があった場合は、手書きで紙に書いてもらい、市販のソフトが対応しているかどうか調べています。
対応していない漢字は、作画ソフトを使って一画一画を手作業で書いていて、これまでにおよそ240字をこうした方法で対応したということです。
手紙用品店の吉澤まどかさんは「結婚式は、お祝い事なので、誤字脱字がないのはもちろんお名前の一画一画を大切にして間違いがないように心がけています」と話しています。
一方、福島県相馬市では、東日本大震災のあと、「り災証明書」の発行に必要な被災の状況を迅速に把握するため住民基本台帳にある名前や住所を電子地図に取り込もうとしました。
ところが、外字が含まれていたため、地図上で文字化けして黒い点になってしまい、手作業でのデータの修正を迫られたということです。
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html それよりUTF-8-MACとか言う糞文字コードを国内法で禁止しろ
一々濁点直すの面倒なんだよ
遠まわしに「winじゃないんですね〜」って嫌味言っても、褒められたと勘違いして喜んでやがるksg 点や線なんて書き間違えとかそのまま登録だったらしいね
逆に絞り込んでもよかったんじゃないかと ドキュン字というか、識字率が低かった頃になんでもかんでも採用しちゃったのがいけないんだろ。
オレも絞った方がいいとおもう 氏名の漢字のバリエーションは、ご本人はもちろん
伝統として大切なことは重々承知してるが、
他人にとってはただただ面倒くさい。
モニタ解像度がまだそんなに高くなかった頃、
映し出された似たような漢字の変換候補一覧を凝視して、
ドット単位で違いを見極めて確定ボタンを押してた時代もあった。 >>8
キラキラネームと同レベルの迷惑度なのに、
こだわりさんにはその自覚ないんだよね 今回の6万字はどの文字コードに含まれるの? UTF-8? つうわけで、せめてサイトウのサイ、ワタナベのナベの異体字なんかは、ソート時とかに同一視するオプションつけろ >>10
「辺の字」の「何番」みたいな方式で拡張するんで、元のコードには変更なし
このエンコード方式自体は、Windowsなら7以降に組み込んであるので、
一般アプリは、只のテキストとして扱うだけでもあまり問題は出ない コードが決まってもフォントがないとどうにもならんのでは?
フォント会社特需?株、買えばいいの? そもそも1/3ぐらいは誤字なんだから
元の正しい漢字に戻せばいいんだよ >>13
IPA作成のフォントは、既に公開してるんだって 利用者が文字の違いを認識できず、
誤った類似文字で登録して混乱しそうだなw。
文字入力者のスキルが...........w >>20
ワタナベさんやサイトウさんが、本人達大混乱とかなw >>19
標準Editコントロールとかテキストボックスとかは、
既に対応済みなんじゃないかな
IPAフォントさえインストールすれば、当座の凌ぎにはなるでしょ 「吉田」の「ヨシ」のつくりが「土」
はしご「高」
これらは書体に過ぎないから
例であげるなら最高裁判所の看板
https://cdn.amanaimages.com/cen3tzG4fTr7Gtw1PoeRer/23023001162.jpg
最高裁判所の「高」がはしご「高」だと主張する人なんて居ないから 齊と斉は同じ字・斎と齋は同じ字
だけど前者と後者は違う字 ちょっと待て
全部ってなんだよ
今昔文字鏡だって15万字だぞ
6万ごときで全部なわけないだろ
嘘つきNHKめ 戸籍に登録されてる文字全部って意味なんじゃないのかw? ただの誤字も律儀に登録したのかな。
名前はロゴタイプじゃないんだから、字体が違ってもコンピュータ登録用文字として妥協しろよ。
検索が大変になるぞ。 >>5
合成はUnicodeの規格に沿った扱いなんだよ。
ただ文句をつけたい気持ちはわかる。
Windows版iTunesでそのまま扱いやがって濁点付きの言葉を検索する際に面倒な目に遭った事がある。 Unicode 10.0がISOで規格化されましたって話でしょ
すぐ使えるわけじゃない
いくら番号付け(コード化し)てもその図(字体)がなければ使えないし >>33
それ言うなら、レアな漢字で 9文字組み文字になったそれもUnicodeの規格に沿わせろよ 知り合いの橋さんもこだわりがあったな
はしごのだって ☀☔⏰⌚⏳
太陽、雨傘、目覚まし時計、腕時計、砂時計 🌄🌂⏰⌚⌛ なんでそこまでこだわるのか理解できないわ
情報化社会では群衆の中に個を埋没させるのが、セキュリティ対策のひとつだと思うけど
目立ってどうすんだろね 5ちゃんねるって一時期
絵文字が使えた気がしたのにw なんだ、ここは>>37絵文字に対応していないじゃないかw こだわりあるひとには申し訳ないけど、マジである程度は統一すべきだと思う。
というか元は同じ漢字のはずが手書きの個人差で違う感じになるとか、
システム費用とチェックする人手が無駄すぎる。
役所中心にITコスト高の原因の一つだよ。
現状にシステムにを合わせるのではなく、ある程度はシステムに合わせて現状を変えるべき。 これと直接関係ねえけど
ルビとか上付き下付き字とか上下逆に置いたりとか鏡像反転したりとかも
もっと簡単な制御コードで実現できねえのかね 「難しい方の字なのは知ってますけど、システムが対応してなくて…」と
言い訳できたのが、「正しい字」を使えるようになったせいで
かえって間違いが増えるような気がするなぁ。
ウィンドウに表示された文字にマウスカーソルを重ねると
バカでかいバルーンで拡大表示される、みたいなサポート機能が
使われるようになるかな。 >>39
>>43
こだわりの問題ではないよ
文字は文化
人間が認識できる文字をコンピュータも同様に扱えるようにすることは当たり前の流れ >>44
そういう要件にはたいていAdobe製品使っている
IllustratorとかInDesignとか
少なくとも商用印刷では当たり前だね 情報を共有するものどうしで同じ書体をインストールしていなければ意味がない
片方で入力表示できてもそれを得る側の端末にそれを表示できるフォントが入っているかが問題 いつまで効率の悪い言語使うつもりだ馬鹿ジャップ(笑)
26文字で済ませろや >>49
貴方の発言が失敗、突っ込みいれたので訂正しような。 ほとんどが誤字なのに無駄なことするなあ
自分の戸籍の正しい漢字かなんなのかわかんない人も大勢いるだろうに
わたなべのナベなんて間違ってる人多そう >>46
ただの書き間違いを押し通した迷惑なだけの慣例。
言葉の多様性とは違うわ。 6万文字もの漢字の使用を許したらますます日本語の壁ができるだろ
しかもこんなくだらないことに15年もかけるってよほど役人はヒマらしいな 戦前は学校でキチンと漢字書き取りやってたんだろうか?
あとJIS2004で変わった二点しんにょうの辻は常用漢字外とはいえ違和感ある 外字よりも子供の名前が単漢字変換になったのがつらい >>27
落ち着け 今昔文字鏡は漢字じゃない文字を含んでるんだ。
今昔文字鏡(こんじゃくもじきょう)は
日本・中国・台湾・韓国・ベトナムの漢字をはじめ、
西夏文字、甲骨文字、水文、変体仮名、梵字などを含めた約18万字(漢字16万字)
のフォントデータが収録され、
それらの膨大な文字の中から効率的に目的の文字を探し出すために改良が重ねられた、
文字検索システムが備えられています。 これは素晴らしい
仏教用語とか
変換しても文字化けするのが多いのがネックだった 漢字変換候補が増えるだけ
社会的に負担の方が大きい 漢字なんて廃止した方がいい
明治以来議論があったが最近なくなったな
むしろ今こそ廃止すべき 古代中国の原始的な象形文字
こんなものにこだわる必要はない
段階的廃止に向けて常用漢字をどんどん減らすべきなのに
むしろ増やしてる
ほんとバカなことやってる 中国が漢字廃止したら笑える
やったとしても驚かないが >>68
じゃ、お前のレスは今後全部ひらがなで書け 6万もあるとか、、何て効率の悪い文字
アルファベットの国がうらやましいわ。
効率的だし、街にある看板もアルファベットなら美観損ねないし。 最近の日本人は漢字廃止論なんてあり得ない、馬鹿げてると傲慢になってるよね
そういう時だからこそ逆に滅びるのかもね
英語とインターネットは大きな要因になりそう >>1
> 戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」
> 「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」
> 「斎」「齊」「齋」などおよそ60種類ありますが、
ワタナベとサイトウはデータ入力屋に嫌われる二大巨塔 >>3
土` なんてのも見る。
名前の画数気にする人が
普通の漢字に勝手に点を加えたり外したりとかしたらしいな 漢字なんて原始文字、とっとと博物館送りにしようぜ
エジプトの古代文字見てこれを復活させようなんて誰も思わない
なくなったとしてもその程度の物 ワタナベの漢字であれやこれや議論するなてほんと無駄だよな お前らが見下した朝鮮人そのもの
どうでもいいことで何百年も言い争ってる 漢字廃止に向けてまずはワタナベの書き方を統一してみては?w 迷惑なことするな
インターネットを汚く非効率な原始文字で汚染するな 漢字廃止に向けて政府はまず常用漢字増やすなんて馬鹿げたことしてないで減らせよ
現代世界に適応できなくて逃避したんだな これ馬鹿だよなあ。
こんなことやるより、人名漢字、外字を駆逐して、国が強引に法で標準化進めるのが価値ある大事業だろ?
高はハシゴ高です、とかさ。先祖代々とかいうプライドも捨てろ。
こんなことにエネルギー費やしてる馬鹿な国。 >>74
俺、齊藤だけど
戸籍の藤はくさかんむりが4画 + + のふじ >>83
そうだね、漢字擁護派の俺でもこれは正直時代錯誤だと思う >>58
慣例も使用頻度・期間によって正用になることもある。
特に氏名(漢字)においては途中で容易に変更が出来ないものだから、間違いで全て切り捨てるわけにはいかない。
(「多様性」として受け入れるわけではないが…)
ちなみに氏名の読みは容易に変えれるんだっけ? >>42
最初からとは?
コンピューターのパフォーマンスを抉り取られるのに? >>50
さようなら。シンガポールあたりで頑張ってね。 扱えるようになる事と、実際に扱うかどうかは別だぞ。
選択肢が増えたというだけだ。
対応フォントは手間がかかっている割に需要が少ないから高額な価格設定にせざるを得ない。個人では買えない。
つまり一般の人間には関係無い。 >>88
外字を作っていたのを考えると、ISO-10646 にその時点で登録しちゃったほうがよかっただろってことじゃね?
時期で言えば住基ネットとかやってたころかな。 >>90
そうじゃないよ
扱える環境と扱えない環境が生じるのが問題で混乱の元でしかない >>1
>日本で初めて漢字のコードが作られたのは昭和53年のことで、
>当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
>およそ6000字でした。
最初のJISに6000字しか入らなかったのはしょうがないとしても・・
たった6000しか無いのに全国で一箇所しか使われてない、
国土地理院の地図でしか確認できない地名の漢字とか何十個も入れたのは失敗
地名より姓の漢字を優先すべきだった 国際競争で勝てない日本企業がこうやって日本人を囲い込むんだな 漢字なんていう古代原始文字の習得に時間をとられるから東大に行くような秀才でも英語を喋れない
それは昔の日本の知識人が漢字を読めないのと同じようなものだ
いかに馬鹿げていることか >>58
それも文化
漢字や文字というもののの成り立ちがわかっていない
君はAIに制限を設けるのか >>9
こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
>>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ そもそも。色んな漢字を入れるのは必要だが。異体字は同一番号でいいだろ。
漢和辞典で同一漢字の異体字として載ってるやつ。あんなの意味なし。
というか、あくまで異体字として選択するようなシステムにしろ。
現状ではただ意味なく字形だけ大量に羅列してる。 >>94
日本人が欧米人とは異なる発想が持てるのは言語や文化による影響が大きい
数学的なセンスとかノーベル物理学賞とかにも
と数学者の藤原さんだかが言ってたね(講演で聴いた)
独特の美意識が新たな論理の地平を開拓するみたいだ >>103
日本人が新しい物を作り出したことなんてないぞ >「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺のど人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺李のど人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「際」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
>>101
コンピュータ上ではたいてい「ベタ」に処理した方が合理的な場合が多い 難しい文字はどうせ平仮名なんだからいらないでしょ
「罹災者」って書かずに「り災者」なんだから >>104
新しい眺望は常に先人の肩に乗って見える
人種は関係ない かつてないほど漢字廃止の必要性が高まってるのに
知識人の誰一人としてそれを唱える者がいない
そういう時こそかえってあっさり滅びるのかもしれないがw >>106 誤字多いので修正
>「斉」「斎」「齊」「齋」
>「吉田」の「ヨシ」のつくりが「土」
・・・こういうのってさ、殷の時代?支那で漢字が出来た時。
周辺の土人の地域に漢字を広めようとすると。
当時は石版に漢字を刻んだり、竹の短冊に墨で漢字を書いたのを人々が携えて馬に乗って、周囲に伝えたんだろ。
だから長距離の地まで運ぶと石版に傷が付いたり、竹の短冊にカビが生えて、それが周辺地の土人には漢字の「点」や「払い」や「つくり」に見えたり、判別不能になって適当に書き改めて「えぇい、これでいいや」って、曖昧に漢字作ったんじゃないの?
「斎」「齊」「齋」の亜種は。「斉」は、「斎」「齊」「齋」の漢字が複雑でめんど臭いから簡単にしただけ?
いっそのこと漢字を整理して減らせば?
明らかに最初の漢字から、石版に傷や、竹の短冊にカビで誤読になってると思われる漢字を無くす。
ホリエモンもどきのような事いって粋がっているVKがいるが
味噌も糞もいっしょくたにするべからず 勝率8割、月利30%の手法を全て公開する実践型【株式投資セミナー】
佐藤博行(サトウヒロユキ)
大学を卒業後、コンピュータ専門学校講師、訪問販売業を経験。
訪問販売でのセールス記録等の実績を買われ、コンサルティング会社からのヘッドハンティングで移籍。
その顧問先であった上場を目指すベンチャー企業に転籍後は、統括事業部長、管理本部長、取締役経営企画室長、専務取締役などを歴任。
現在は、あるきっかけで得た株式トレードのノウハウの研究を重ね、自身はトレードだけで月収1000万円を稼ぐまでになっている。
様々な場所でセミナー公演の依頼を受け、その株式トレードの技術を世に広める活動を行っている。 ワタナベはやたらと自分の漢字にプライドを持ってるイメージ 大阪府の豊中市とか、なんでか俺が生まれただけで
縁起が良い漢字を横取りのために何個も作り出して
汎用機に漢字も無いのに外字登録してる
しまいに、中国共産党の中国人にまでいって
国を作るのは新しい外字登録を作ることだ
とか言い出す
が、ここまで登録漢字が増えるとそれもなくなるのかな 吉田の吉を書き間違えて土で登録したバカな先祖の愚行を子孫が受け継ぐのが文化ってアホかと 俺は結婚して戸籍つくるとき名字の漢字を変更した
先祖や役人が誤字しただけの字を代々守っていく必要なんてないよ 漢字コードの2文字目が、制御コードとぶつかるので、
特定の名前の人を入力すると、システムが停止する >>83
これ
常用漢字以外を使っている人名地名を法律で強制的に改名すれば
済む話なのに、15年かけて誰も使わない規格作って馬鹿じゃないのと思う >>123
日本語つかうのやめてエスペラント語でも使えば? >>123
夏目漱石を原文のままデジタルで読めなくなるだろ >>125
別に文学とかの嗜好品はそれを楽しむ人が追加コストを払うなら好きにしたらいいと思うが
俺が行ってるのは役所、金融あたりの実務で使う人名漢字の話ね >戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など
>11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ
>60種類あります
一個の漢字に統一しろよ … 漢字コードの割り当ては後々のことを考えて
浮動小数点コードにしれ 本人ですら略して書く渡辺や斉藤にいつまで拘ってんだと・・・ (*´ω`)つ関西でIT業界を目指す人へ!はやまるなと忠告【必読】
【警告】関西のIT業界は古臭くて、不可思議な慣習に満ちており東京へ行くべきである。
・関西のIT業界では親請けはまるで神様、奴隷だと勘違いして逆らったら問題時扱いで即刻首。
→東京では当然だが対等なパートナーであり人間の尊厳がまず大事で、紳士的に対話してくれる。
・関西のIT業界の市場規模は東京の10分の1以下
→産業の転換が遅れており、所詮、頭が悪い田舎の地方都市。良いチャンスも得られない
・関西のIT業界での技術者の扱いは使い潰しのサービス業の下請けいいなりサラリーマン
→東京ではエンジニア、フリーランサーとして夢や目的を尊重して、互いの相互利益を考えてくれる。
・そもそも関西全体が落ち目であり、そこに染まるのはまず尊厳を考えない悪質で駄目な人材の証拠
→登り調子の東京の一員になることこそ、成功の大前提と言える。駄目な物はダメ、見切りをつけろ
【結論】 同じ国内で、IT業界で働くなら、東京へ行くべきなのが大正解\(^o^)/ これは、いろいろ便利になりそう。相手の名前が無い漢字の時は、歳暮とか苦労するから 常用漢字に寄せた方が良いんだがな、まあ名寄せはマイナンバーでやればいいってことか 超漢字を採用していれば
6万どころか18万なのにな こんなのに15年も費やすバカ
コンピュータでランダムに割り当てたら10分で終わるだろ。 本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
日本人馬鹿ちゃうか。
中国人の方が標準化進めてるぞ。 は?何て馬鹿馬鹿しいことをやっているんだろう。
やるなら逆だろ。
コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
渡辺は渡辺に。
斉藤は斉藤に。
わがままは許すな。 >>134
あれは調子乗り杉
書体違いで別コードとか使えん ついでに三国志の人名も対応してくれたら
ソシャゲでホウ統だの程イクだのって哀しい表記も無くなるな JIS漢字はメインフレーム全盛の頃に策定したんだろ?
なおさら姓名・地名に絞る必要があったんじゃ 一般人は読めない書けない漢字
それは特殊なフォントを使わないと文字化けする
そうまでして使う文字は元を辿ると単なる誤字
こんなのに予算をつぎ込むのは馬鹿のする事じゃないか なんでこうなったか考えると、90年代に日本のPC規格が米国のDOS/V規格に負けたからだろう
MS−DOSに漢字フォントが搭載され、日本のパソコンOSは米国マイクロソフトが支配することになった
その次に出たWindows更にOfficeに日本は支配され、漢字に関してもマイクロソフト影響を強く受けるようになった
多くの日本のPCユーザーはWindowsに元々入っているフォントと対応している文字コードだけを使い、それが当たり前になった
すると>>141のような意見も出てくる >>149
彡⌒ ヾ
( ^ω^)常用漢字だけ有ればいいんだよ
彡⌒ ヾ
( ^ω^)妙な漢字は、高確率でチョン系統や中国系統だ 柿(かき)と柿(こけら)も見分けつくようになるかな? >>98
> >>9
> こだわりさんとかじゃなくてさ、データに別人として登録されちゃうから実害があるのよ
> 俺が手で書いたものを金融機関の窓口担当社が別の漢字で登録した結果
> 後に身分証と字が違うからと本人確認ができなくてとんでもない手間と時間がかかった
> だからデータ入力の際はちゃんと正しい字体で登録されてるか確認してるし、間違ってたらその場で修正させる
> >>1こんな馬鹿なことして間違い増やすより漢字を整理統合した方がよほど実利的だわ
これからは,マイナンバーのおかげで,そういう問題も解決。
漢字が違っていてもマイナンバーが同じなら,同一人物と判断できる。 >>98
俺も、むやみに異体字を増やしたら迷惑だと言ってるんだよ >>149
単にこれまでほっておいただけ
しかもいまさら無駄に登録漢字増やすとか正気の沙汰じゃない 戸籍統一文字が約6万文字なだけで、日本で使われてる漢字はもっと大量にある。
ipamjフォントの作業自体は評価するが、文字を使う現場ではまだまだ足りない。
Adobe-Japan1-6の23万文字には遠く及ばない。
ipamjは明朝しかないので、せめてゴシックもあればかなり違うがなぁ >>156
>Adobe-Japan1-6の23万文字には遠く及ばない
うち漢字は14,663文字 >>155
そういう1アプリでどうとか近視眼的なクソレスするなよ
日本語ワープロソフトだけじゃなく役所の戸籍システムも含めた日本語利用者全体の話だ >>159
IVS対応情報
http://mojikiban.ipa.go.jp/1294.html
日本におけるシェア率が最も高いのがWindows+Microsoft Officeなので
それに合わせて調整していると考えるのが自然だとオレは思った
不思議なことに、文字の変換に必要なIMEまでは作ってないからな >>161
あのなOfficeのIVS対応なんて5年前には済んでるんだよ
(12/11/12 14:18)
マイクロソフト、「Office」で約58,000の異体字を利用可能にするアドインを無償公開
https://forest.watch.impress.co.jp/docs/news/572450.html >>151
ウチの環境(Windows10 メイリオ・游ゴシック)では全然見分けつかん
というより元のフォント字体ごっちゃにされてる柿の箱に平気でこけらフォント書かれてるし
(実際柿だけでなくこけら=おがくずも敷かれてるが) >>162
マイクロソフトも>>1のプロジェクトメンバーだから対応するが
そこで終わりではなく、ずっと調整作業は続く サイトウ(サイ属)、ワタナベ(ナベ属)、
その他ややこしい苗字の奴らが全員死に絶えたら簡単なんだよなあ。 >>164
バカが一体何を言いたいんだ?
そりゃマイクロソフトも金になるならやるだろうよそれだけの話だ 草g剛
北磻磨
Y司
ケ小平
深圳 >>166
>>149のレスで言いたいことは終わってる >>168
最初からズレてるんだからそりゃどうしようもないわな 包摂だの異体字だのグリフだの何でこんなカオスなことになってしまったんだ >>171
今調べたら、その字(エンブレム?)を使ったラーメン店が実在する。店名はおとど >>169
90年代にハードウェア重視でコケて、ソフトウェア産業が育たない土壌ができちゃって投資も集まらない
日本人は生活インフラとして海外資本のソフトウェアとサービスを利用するのが当たり前となり
ダメもとで、官庁主体で国内に引きこもって税金使ってビッグデータがどうこうAIがどうこうやってるだけけ
その象徴的出来事が>>149 >>173
どうしようもないバカだな
DOS/Vの文字コードは新JIS83に拡張文字を追加しただけのもので特にNECの98と相反するものじゃなかったし、
特にマイクロソフトが非協力的だったわけでもなんでもない >>174
NECはOSで利益だそうという発想がなかった
ソフトウェアはあくまでハードウェアに付随するものという認識だった >>176
俺がいってた神戸商船大学に生協があって
TRONなどが入手できれば話しは変わってたかもしれないが
生協もできたのは大学院卒業間際 なんだか事実誤認の書き込みが多いな
解決した問題はあってもあらたに生じた問題は無い >>178
捨てたゴミは、犬に犬喰わせると嫌味言われているが >>176
90年代の大手電機機メーカー全体が同じ認識だった
ソフトウェアはハードウェアに付随するもの。ハードウェア組んでそこにソフトウェアを構築する
新しい時代に向けての発想の飛躍がなかった >>177
TRONなんて選択しはなおさら無かった
TRONが世界制覇してくれたらよかったがそうじゃないなら日本全体がガラパゴスになるだけ >>180
>>149を100回読み直せこのバカが >>182
ソフトバンクが、ソフトウェアの販売とか卸売業をやってて
本社が攻撃されて場所を変更しまくって商売するとか変態を
官僚はできなかっただけだろ
Windowsなんかにかたよったのはその結果
官僚がやるのは三年に一回のてめえの家の引っ越しだけ >>184
全然違うw
メーカーも官庁も誰も必要性を感じて無かっただけの話だ
それをDOS/Vがどうのマイクロソフトがどうの頭のおかしい陰謀論垂れ流すバカが居る 日本は外資や外圧がないとなんも変わらない、それだけ >>187
何がそれだけだこのバカが
日本語の文字コードなんて日本人以外には一切関係ないのに外圧なんかあるかよこのアホウ >>141
>コンピュータで扱えなかった外字は禁止、改名の強制徹底だろ。
>渡辺は渡辺に。
>斉藤は斉藤に。
>わがままは許すな。
ご先祖がバカだと俗字で戸籍に提出しちゃったり
だから法制度で正字意外は認めませんと
すべきだったのかもね
はっきり言って無駄に文字の数ばかり増やして何がしたいのかなあと >>140
>本質的に人類的に何も貢献しない糞努力によく時間費やせるな。
文字文化ガーとか言っちゃうんだろうけど
俗字なんか文化でも何でもないよw 「喜」のチョンチョンが突き抜けたら小学校の漢字テストでは間違いなのに
うちのバカ親父は自分の名前の漢字を正しく書かないで役所に書類を提出したら
後日、あなたの使用した漢字は戸籍に登録してある漢字とは別の漢字ですってわざわざ手紙が来た
自分の名前の漢字を間違えるのもバカだが、間違えを人名漢字と認めてしまう役所もバカすぎる
アイデンティティー(笑)じゃなくて自分の苗字の漢字を間違えるバカ家系晒し上げ制度なのかこれ TRONは先進かつ基盤だったのにな
政府が基礎を大切にしないのは今でもか 人間が道具に合わせても駄目だよ
道具を人間に合わせなければ駄目 >>185
大学の研究所に中国の留学生が来てて
友人が東芝のSunのワークステーションでやっと中国の漢字を
表示は出来るようにしても、中国語は整理されてなくて
日本語のように変換システムも無かった
入力はなんか板を持っててそれに従って入力や変換をする
ヘンテコな仕組みだった、いまはどうなってるか知らんが
読売新聞もCIAもそれでATOKも大塩佳織の件ふくめ相当に恨んでるよな
あんたもCIAか読売新聞の関係者に見える
ATOKは台湾人も相当にうらんでる >>149
DOS/Vは日本企業の規格だよ
IBMの日本法人が考えた
その前のAX規格もアスキーとマイクロソフトの日本法人が考えた
大体NECのPC98シリーズ全盛の時代から
x86のOSはMS-DOSのほぼ一択だよ
AXやDOS/Vが進めたのは
ハードウェアとしてのPC98の一人勝ち打倒
それだけだよ
OS選択はとっくに勝敗ついてた >>196
それがこの件と何の関係があるのかさっぱりわからない
自国の文字コードや入力方法ぐらい自分らで何とかしろとしか言えないし
ATOKに至ってはただの逆恨みじゃねw >>185
国内独自規格のパソコン作ってた大手メーカーにとって、パソコンは主要商品ではなくたまたまヒットしただけで
インフラと重電やメインだったから、当初からパソコン用ソフトの販売に力を入れることもせず
売れなくなったからDOS/vに流れたのは、理解してる >>195
けっきょく、舘ひろしのみやけまゆみの強姦か? >>198
聴いたかぎりでは、中国で使ってる電子表示の7割はもともと日本のだよね
なんで俺らで中国共産党の中国人をそんなに手伝う必要があるんだ?
なんでも友人とか俺がやった試しだけをとことん盗んでいってないか、CCE >>199
お前もういいから隠居して出てくるな
老害の見本そのものだ >>199
そう
OSは博打に出るより勝馬に乗りたかった
ハードウェアなら作れば官公庁やお硬い業界でにねじ込めるから >>149
この書き込みも酷いな
日本のPC規格?日本のパソコンOS?
そんなものは元から無い
元からMS-DOSの支配下にあったのだからその流れに沿っただけ
ありがたいことに、かつ残念ながら >>196
その板は中国が国で決めた唯一の中国語入力器だったから
当時の中国人はそれで入力しないといけなかった
だから中国語の入力は長い間日本人と台湾人がリードしてた くだんの友人は、日本郵船でなにがあったかしらないが
禿げてボロボロで近所の踏切を渡ってた
俺になにが言いたいのかも不明だ
日本郵船は機材が壊れたらぶったたいて気合いで治すとか
無茶苦茶だからその先制にきたのか
ハゲは簡便してくり >>208
まあSHARPのクリーンOS構想だけだったな
日本がパソコン用のOSで世界の先端を走ったのは 日本郵船はしらんが、横河電機とかオリックスでやってたのは
電子機器の壊れる静電気ほかを跳ばすのはガスを吹き付けるなんだけどな
大塩佳織の件ふくめて因果かもしれんがな
Hewlett-Packardなんか機材に窒素ガスの充填までして出荷してるし 俺は、年賀状は斉藤とか渡辺は一番簡単な文字で書いてる >>211
OSってなんでしょう?
日本のホビーパソコンにOSという概念があった試しは無い
ま、MS-DOSがOSだったかというケチの付け方もあるけど >>211
クリーンコンピュータだったw
>>216
言葉の定義論争はどうでもいいよ
ハードウェアが貧弱ならそれに相応しい貧弱なOSがあった
保護機構もなければハードウェア抽象化も甘くてもね >>193
それはダメだろ。
生産性向上の弊害でしかない。
人間や業務の方を変えないといけない。
でないといつまでも非効率なやり方を続けてしまう。 >>33
ファインダーで”バス”と検索すると”パス”も引っかかる 梵字は100程度の基本的なパーツだけをコードに乗せてそれで全ての文字を表現している
なぜ漢字はそれが出来ない?せっかく部首というものがあるのに >>223
それを言ったらMS-DOSだってCP/MとUNIXのパクリじゃん >>227
そう
だからHuman68kもMS-DOSも時代の先端だったことはない >>33
規格には沿ってるようで沿ってない
NFDにわざわざ変換してるのに
すべての局面で正規化が行えてるわけじゃないから
メディアなどで持ち込まれたNFCのパス名との扱いしがうまくいかない場面がある
Windowsで作られたメデイアで同ファイル名を上書きしようとすると
見た目は同じだけどNFDの別のファイルが増えてしまったり >>229
書き忘れたが
これはUnicode処理系不適合な動作
いい加減にしか実装出来ないんだったら最初から正規化なんかするなと むしろ、斎藤の「斎」や渡辺の「辺」などの異体字を廃止しろよ。その方が世の中のためになる。 >>232
するのは勝手なんで
国だろうが会社だろうが
勝手にやってもらって構わないが
古典や資料のデジタルテキスト化があるから
>>1のような規格化は進める必要がある
庶民は関係ないがね 名前は個人のアイデンティティにつながるものだ
それと、日本は本家以上に漢字を活用し造語し学問や文化を磨き上げてきた
字面だけ見てラテン系が簡素でわかりやすいと思っている御仁は重大な誤りを犯している
まして、たった26文字云々などとの発言は愚かにもほどがある
他言語圏に対する冒涜でもある 世の中にはそれぞれの専門性というものがある
それをちょっとのぞいただけの門外漢は何でそんな無駄で辛気くさいことやらなきゃならないんだと思うことが多い
科学技術や学問でも職人仕事でも同じ
数多の専門の積み重ねと発展が人類の文化だし、それが豊穣な世界を構築している
最近ホリエモンもどきのちゃぶ台返しみたいなこと言って粋がっているのが多いな
ところでホリエモンはなぜちっぽけなロケットを飛ばしているのだろうか 英語を公用語にする
これに尽きる
世界の先進国がどんな言語なのか考えろ
新聞の縦書きも非効率 >>191
手書き文字にはその程度の揺れ幅があるのが当たり前で、別の文字として扱う方が馬鹿なんだよ。 >>238
>世界の先進国がどんな言語なのか考えろ
アメリカ語、フランス語、ドイツ語、スウェーデン語、日本語、etc
で、それがどうかしたのか? >>236
誤字や自分で新しく作った字でアイデンティティって何なんだよ。 60000文字の登録に15年かけたのか。
1日11文字だな >>247
同文字の画数一致は総務省包摂基準書の用語で言えば「字形一致」ということになる
JIS X 0208では字形一致なら同じ字とみなしている
戸籍統一漢字の場合は
字形一致していて
上の基準書では「デザイン差」とみなせる場合でも
別の文字になるケースがある
戸籍の完全なデジタル化には必要な区別
戸籍で別の文字として扱ってるから
それじゃやりすぎだけど人名知名表現にはJIS X 0213じゃ足りないという人には
住基ネット統一漢字というのがある
これは二万字 俺がめんどくさいから漢字を減らせと言う身勝手な意見 >>249
別に身勝手ではなくて
そういう応用のために包摂基準等が制定されていて
どの字を同じと見なせばいいかデータベース化されてる
包摂していい字は内部的には一文字に正規化すれば良い
今回のデータベースが出来た事で
戸籍の方面から外部データが来ても問題なし >>76
あるね。「土`方」とか。
「冨田」とか。
こういう明らかな誤字は、正しい漢字に修正する方向で。
なんで誤字にコードを割り振るのか理解に苦しむ。 >>251
普通に使われている文字はコンピュータでも使いたいから。 >>251
冨田さんが「むしろ富が誤字だ!」と言って譲らないから。 >>252
斎藤や渡邉の異字の大半は普通の字ではないぞ。
そもそも本人以外違いがわからないのが大半。 「令」の字も教科書体と明朝体では違うせいか
おくやみ欄では「鈴」の字が教科書体っぽい字画の明朝体で載ることが多い >>254
じゃ、紙の上で使われている文字はコンピュータ上でも使いたいから、に変える。 >>251
> コードを割り振る
文字集合の制定と文字符号化方式の制定は別の話なんだけど
規格書では同時に定義している事が多いから混乱したまま使ってる人が多い用語 「高橋」は全国で3番目に多い名字なのに
はしご高の方が使えない従来の文字コードって何だろな >>258
たぶん 使う人が 口を改造して使ってたからもしれない 辺とか斎の異体字は、戸籍を書いた役人の書きぐせに過ぎないのにな。先祖代々引き継いだと勘違いしてる奴が多い。活字にした時点でそんな異体字は全て廃止しろよということ。 日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに >>263
それは戸籍を管理する人たちの仕事で
漢字の文字集合を整理する人の仕事ではありません
過去に戸籍がデジタル化された以上
それらを文字符号化においてどう扱うか考えないといけないのです ちなみに上にも書いたが
住基ネットは二万字に圧縮した >>256
なら普通の人でも使う漢語数万を全く顧みないのはなぜ? >>262
国際標準ではないからな。
自分だけの特殊な文字コード使っても、メールも送れない。 >>264
もっとある。
戸籍が六万字と言われるが、大半が単なる間違いだ。 そのうち中国の簡体字が使われ出すよ。簡体字もコード化されてるの? Androidアプリは日本の漢字と簡体字がごっちゃになった字体が使われたりしてる
ああ、いかにも海外の人が作ったんだなあって MSIMEも中国人が日本の処理ソフト作っているらしく、
変換が無茶苦茶。フランス人に英語のスペルチェックソフト作らせてるようなもんだよ >>270
コードになってないから、使えないだろ?
知らないの? >>271
当たり前。
使われますではなくて、すでにUnicodeで全部正式採用済みだ。
20年くらいお前の頭は遅れている。 >>273
貧乏な日本人は金出さないから、日本人のためにシステムは作らないそうだ。 >>277
諸橋の大漢和にあるのだけで5万を超えている。
これには戸籍のために追加した4万余は入っていない。
つまり、以前からの一万余をたしても三万程度の漢字がUnicodeからは落ちてることになる。
実際、Unicodeと大漢和は2万程度しか連関していないから、この数字には間違いがない。
コード化されてるなんてまやかしは言うなよ?
コード化されていると言う意味ならUTF32だって趙漢字だってコード化されている。
使わないコード化に意味はない。 そもそもバカな役人の書き間違えで誕生した異体字なんか抹殺すべきだろ >>279
書き間違いなのか、何らかの意図、由来があっての事なのか、今さら調べるのが大変すぎる気がするのと
実際に消える方の字体を使ってる人の反発もかなりあると思う。
わたなべさんでも「渡辺」「渡邉」「渡邊」とメジャー所で三つあるけど
DMの宛名ですら怒ってくる人が結構居るのよ。
高井さんも、口ダカさんと、梯子ダカさんだったり、吉田さんも上が士か土か。
個人情報を扱う仕事してたけど、この辺気にする人はめっちゃ気にする。
しかも年配の人だけじゃないのよね。
名前に対するアイデンティティって、実は世代関係なく結構気にされる。
そして間違い様の無い名前の人には、この感覚は全くわからないのでタチが悪い。 >>コンピューターは、実は1万字しか扱うことができません
この書き方は頭悪そう ワタナベ と サイトー、ヨシダ という連中はほんとに周囲の迷惑を考えないわがままだよな。
最近はこいつらに、ツジ も加わって、おれの辻のしんにょうは、1点辻だ、2点辻だ、とか言いくさって。
特に、渡邊と渡邉は、普通の文字検索ではそれぞれ別に検索しないとひっかからないのがうざい
ワタナベ姓の奴がどうしても統一したくなくて違いにこだわりたいんなら、全部を 「ワタナベA」 「ワタナベB」 「ワタナベC」 とかにしろ。
これなら周りの人間は検索の不便から解放される。 >>282
辻はXPまでは一点でVistaから二点という、謎修正もあって余計にタチが悪い。
サーバー側が古くてプリンタ用の画像をサーバーで作ると一点になるとか、現場で混乱したよ。
浜田さん、濱田さん、M田さんもそうだし、国も旧字体の國の人もいたり
異体字や旧字体のある漢字って、思ってた以上に大量にある。
これを統一するのは、かなり反発が強そうだ。 >>5
もう対処済み
APFSではファイル名の変換は行われないようになった
あとは各アプリの対応待ち >>1
> 「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、
「なべ」じゃねーのかよww
じゃあ「渡」は「わたな」か?そんなバナナwwwww いまWin10にインストールというか
ダウンロードして解凍後に、
フォントフォルダーに明朝とゴシックの二つを放り込むだけで使えるようになった。
以下がダウンロードサイト。
https://ipafont.ipa.go.jp/node17 これ規格化されたのか。
まあそれは良いので、今後は無駄文字は使用禁止にしろよ >>288
それ入れてない環境だと文字化けするんだろばかばかしい
余計なものは使わないほうが良い >>289
わたべ、だ。わたなべ、じゃない。
インストール出来た気がしたけど、出来てなかったみたい。うーん残念。 >>15
> そもそも1/3ぐらいは誤字なんだから
> 元の正しい漢字に戻せばいいんだよ
ほんと、これ。
手書き時代は、単なる書体や個人の癖のバリエーションだったものまで、
「違う字」ということにして、自己満足以外のメリットがない。
上の方で「文化」とか言ってる奴がいるが、
文化は、書体(字体)の違いとしてやっていればいい。 Unicodeが使えない昔の機械だと常用漢字外は略字しか出ないってのも多い
手書きが難しい例えである「醤」だって「將」でなく「将」に「酉」なら何ら難しくもない >>293
コンピュータ上で書体(字体)の違いを扱うにはどうすればよいのでしょうか。
文化もコンピュータで扱いたいのだけど。 >>293
どの字が書き間違いで、どの字が意図的なものなのかが、今さら遡りようがないだろう。 >>279
根本的に理解できてない
過去に電子化したデータがあれば
そこで使えた文字はどういうものだったかデータベース化しないといけない
戸籍が電子化された時点で>>1は必然
いくら何でも多すぎだから
制限するにはどうすればいいか
それも既に終わってる
住基ネットで行われた
三周くらい遅れてる そして、収録されていない新しい漢字が発掘されて、再び仕事をつくる。
これが、IPAのデジタル詐欺という、永久機関。 >>298
15年も無駄に掛けたこの文字コードは何週遅れてるんだよ >>273
欧米中心だと
ローカライズはあくまでアジアの括りでしかやってくれないよ
unicodeのCJKVとかがいい例 >>301
最終的には16bitじゃ収まらないんだから
16bitから始めて、サロゲートペア、異体字セレクタと進んできたのは、
今の視点で見れば、そう悪くなかったと思える
CJK統合はちょっとうまくない統合もあるけどね >>295 >>297
「文化」は、役所の事務には要らない。
人名地名の管理は、文化なんて無視してやればいい。 >>304
役所のためにコンピュータがあるわけでは無い。 この程度で「全漢字」なんて言うのはNHKのバカ記者だろう >>1
漢字のほうを簡素にしろよ。
斎藤の斎の字だけでもたくさんあるし、
ツヨシ君の「草○」だって「ナギは〜」ってのまで書かなきゃでマスゴミも大変だろ。
「澤」も「沢」に統一すりゃ面倒がなくていいのに。 8000字登録で幽霊文字がいくつも出来たのに
六万字とか ぎゃあぎゃあうるさい客を黙らせるには、こんなアプローチしかなかったんだよ
ちなみに、異体字セレクタで指定するように実装されているので、コードが増えたわけではない
心配なソートや検索には少し機能追加して、異体字区別オン/オフ機能を持たせればいい >>310
ああ、フィルタリング出来るなら実害は無いか。
選択肢が多いってのも考えものではある。 >>295
そういうときは、テキストではなく、画像で表現するでしょう。 >>313
文字コードを与えられていないと文字として処理するのが不便です。
検索とかその文字を使って文章を書くとか。 >>315
各自が作ったファイルで共通の処理ができるの? >>316
異体字セレクタやフォント指定使えば問題なし 昭和の映画や看板には誤字のままレタリングしたようなのが結構見られる >>318
読み方もわからない漢字を探すとか苦行でしかない >>321
誰も手書きの話なんかしてないわこのアホウ >>9
バカ自慢しつつなぜかマウンティングw
底辺の無知蒙昧無敵wwwww >>1
これで異字体を実質的に廃止する機会を失った
後世にまで残る極めて悪質な判断
こういう事に労力をかけるのは無駄!無駄!無駄!
こんな無駄な事してるから日本はいつまでたっても非効率なんだ >>329
開発してる当事者らは社会の役に立ってると思い込んでるから救いようが無い http://www.chokanji.com/ckk/images/press/ckkvar03.png
コンピューターで異字体の検索が困難にならないように異字体同一視検索出来る様にするのは本末転倒
意味が同一であるなら表記も一つにすべき
文字の本来の意義は伝達である
伝達を困難にする文字の個性はいらない
個性を出したいならフォントで出せ
それが情報化社会における漢字のありかただと考える 異字体のうち誤用により生まれた文字は
即刻なくすべき
戸籍も同様に変更(正しい漢字とみなす)にすればいい
本人の文句は受け付けない、と >>338
誤用や書き損じが元になってるかどうかの判断はいまさら難しいが、字体や意味が同じまたはほとんど同じなら
一つの漢字に統一すべきだろうな
本人以外区別が付かない字に意義は無い
>>339
過去なんかどうでもいい問題は未来だ >>280
結局みんな、旧字体戦後に新字体になったのを拒否しただけの人だろ
ほとんどの人は、新字体の渡辺に変えたんだから役所は新字体だけに統一すればいい >>340
未来についても終わってる>>298
住民基本台帳ネットワーク統一文字
UCS
好きな包摂基準のを使えばいい >>341
そんなことしたければ
対応表使って正規化すればいい
君の設計するシステムでは >>345
なぜバカなのかすらわからないならレスする意味も無い >>347
昔の人が字の細かいところをうろ覚えで書いてた結果がこれか
なので全体の形はどれもよく似てる 半角文字や制御コードとの兼ね合いで、2バイトでは6万字は表せない
細かな字体の違いをコード化するためにUnicodeみたくバイト数増やすのか?
動画とかは無圧縮との違いが目立たないようにデータ切り捨ててるのに ■ このスレッドは過去ログ倉庫に格納されています