【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]
■ このスレッドは過去ログ倉庫に格納されています
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
【科学(学問)ニュース+】
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。
■■以下、略 >>35
日本だと文系はあくまでも文系って人ばっかりだからね。 Clanuwat T. et al. (2018) Deep Learning for Classical Japanese Literature
ttps://nips2018creativity.github.io/doc/deep_learning_for_classical_japanese_literature.pdf TBSドラマの「JIN−仁−」で、現代から江戸時代末期にタイムスリップした主人公がくずし字を読めないため、彼の周囲の人々が主人公でも読める字体で文章を書いたはず。
番組公式設定だったのか、知恵袋などに「現代人がくずし字を読めるのか?」といった質問が投稿されてそんな答えが投稿されたのかは、覚えてないけど。
すでにあったくずし字の文章は、周囲の人々が主人公に説明してあげたのだろう。 くずし字をOCRできるアプリはどこに置いてあるの。
Googleレンズとかで使えれば便利なんだけど。 おかげ様で、AIによるくずし字の現代文字への翻刻の最新研究状況を把握できたかな
情報・システム研究機構 データサイエンス共同利用基盤施設(略称 ROIS-DS)
人文学オープンデータ共同利用センター 特任研究員 で、国立情報学研究所にも籍を持つ
タリン・カラーヌワットさんが、今回、「くずし字」を自動で読み取って現代文字に翻刻する
OCR「KuroNet」の開発を紹介。
くずし字チャレンジ!は、人文学オープンデータ共同利用センターのプロジェクトのようです。
国文学研究資料館が持つくずし字のデータを学習させて、くずし字を現代語に推論できる
システム >>107
高学歴って意味で言えば海外では数学と英語はできて当たり前
その上で何を専攻するかなんだろうけど…
日本は「数学ができないから文系になりました」って人が多いもんね
その延長の妄想で「英語のできない奴が理系になる」と言い出す人が多すぎ >>1
古文献講読を学べば、ひらがなはすぐに読めるようになる
漢字がわからん >>1
もう
・4年前の、凸版印刷Webビューア「ふみのは」とか
・奈良文化財研究所、東京大史料編纂所の
くずし字解読システム「MOJIZO」(モジゾー)利用無料 とか
・くずし字学習支援アプリKuLA
とかあるみたいだけど
どう違うんだろ >>114
はあ?
外国人は数学ができないやつ多いぞ 憶えた!と思っても一晩経つとすぐに忘れている。それが崩し字。 >>94
読むのは簡単
書くのは漢字と一緒でその単語を知らないと無理ゲー 西夏文字学の権威の西田龍雄氏が「西夏文字というのは覚えにくく、覚えたと思っても忘れやすい文字だ。」といっていた。
崩し字も全く同じだよ…。俺は崩し字をマスターするにはもう歳なのかな。
江戸時代の人は子供の頃から寺子屋で崩し字を学んできたんだから、こっちは絶対に敵わん。 >>121
AIにできるなら、日本人がちょっと(かなり)頑張ればできそうだけどな 汚い字とくずし字って違う?
汚いじゃなくても「個性」とかゆらぎとか
統一されたものが存在するようには思えないんだが
そうすると文字の意味がなくなるし
やっぱ当時の人がたいてい認識できる程度にはお手本があったんかな >>4
ひとつのひらがなに対して、
崩す元の漢字の数が多すぎて見分けがつきにくいんだよね >>25
在野の郷土史のクラブでも、くずし字の勉強会やってるよ
惜しむらくは、年寄り中心だから、そういう発想がない。 崩し字って何パターンどころじゃなくあるから
それ解ったら凄いよなー
確率何%くらいなんだろう 見た目はまったく同じでも、前後の文脈で決まるものもあるからなあ
とはいえ崩した「馬」とひらがなの「つる」は同じ生き物で判断に悩むがw 勉強すれば8割ぐらいは読めるようになるんだよ
で、残り2割の読めないのをAIで解読しようと思ってもたぶん読めない 日本史専攻の従姉妹は、ゼミの予習に、おばあちゃんに古文書を読んでもらってた >タリン・カラーヌワット
まぁこの人が優秀なんだろうがタイ人?に先越される日本の研究者とかやっぱ雑魚いな。ジャップwwww 現代語のOCRですら完璧ではないのに、それよりはるかに偏差が激しいと思われる
昔のくずし字を読めるのかねえ。 >>134
言語学は読み取る課程も学問の内だけど
史学や国文学の研究者にしたら、読めるようにした後が本番だものな 古気象学は国文学者がくずし字を読めなくて
結局、気象学者がくずし字の読み方を覚えて過去の記録を集めたって言うなあ 縦割りっていうより深堀しかしない弊害あるよね
無視されてきた貴重な資料がこれで日の目を見るかも知れない くずし字(草書?)のくずしかたのルールは、
くずし字を書いていた人たちは当時どうやって学んだのだろうか?
それぞれ勝手に崩して書いていたのだとしたら、統一性がなくて
お互いのコミュニケーションの役には立たない(自分だけのための
覚え書きとか秘密の日記などなら、どういう具合に崩すかを
勝手にしていても構わないだろうが)。
崩し方の十分な量の見本を与える手本があったのか、
それともそういった規則を系統的に教える教本があったのだろうか? >>141
書き順じゃないの?
だから「右」と「左」が崩しても区別できる >>141
それは千字文とか往来物とか、お手本がいくらでもあったでしょう。
>>142
実は、日本の近世古文書に限って言うと、草書の「右」と「左」の一画目と二画目の筆順には違いが無い文書の方が多い。
どちらも「横画→縦画」の順序で書いてある方が多い。(中国の伝統的な筆順から言えば間違いだが。)
しかし、中の「口」は横線がウネウネ這うように書かれ、「エ」は縦線が鋭く長く書かれているので、そこで区別する。 中国からもたらされた漢字で書かれたお経の経典は、どういう字体でやってきたのか。
またそれを日本の寺院で写筆したときには、同じ字体で書いたのだろうか、それとも
やはり崩し字にしていたのだろうか?
あとの方の時代になって、日本で適当にでっちあげた仏教の宗派のお経は、
くだけた文字で書かれていたかもしれないなとは思う。(よく知らない)
でも、立派な石碑とか木版活字の本は、崩さずに書いてるよね。
浮世絵などの添え書きの文字はミミズが這っているようなので私には読めない。
いま当時の浮世絵を知るためには、あれを活字に直して絵を修正したバージョンを
出版して欲しい。そうすればもっと今よりも売れるだろう。原作の著作権は切れて
いるから、原稿はローコスト、デジタルにすればオールカラーでもコストはそれほど
高くないだろう。 お経は文字そのものからありがたいものだから
崩すことより装飾性というか美しさを追求したんじゃない? >>84
門外漢からしたら、万葉集なんてまだ研究する余地あるんだ?って感じ 古文書の講習会を受けたことあるけど難易度高いわ
候が点々だもん 行書までならね
さすがに草書まで崩されたら読めんわ AI技術って一時騒がれてたのが嘘かってくらい進歩しなくなったな ねぇ、あんた!
…「あんた」…ヘブライ語でも「あなた」って意味なんだよ。どうなってんだよ、古代の言語は。
神道っていったい何なの、本当に不可解だよ、ユダヤ人や、世界の人が見たら、これ何、どうゆうこと。
さらにもっと大変なことは、宮司や神主、いったいあれは誰なの、あの服装、私たちと繋がりはないです。
なんでご神体を皆が担いでワッショイ、ワッショイと言うんですか、ヘブライ語ですよ、ワッショイというのは。
://www.youtube.com/watch?v=4YvD2TDOZJM
紀元前にすでに文字が存在?
://twitter.com/nhk_news/status/1171181541319499776
ベルギー人 「気味が悪いくらい似てる理由をどう説明するんだ」
アメリカ人 「日本人はユダヤ人の子孫かって? この類似性をみれば一目瞭然だ」
イスラエル人「ゾクッとした、奇妙な感じ。なぜに俺はこんな情報を今までしらなかったんだ」
イスラエル人「発音まで同じだとしたら、ちょっと凄すぎじゃないか?」
ロシア人 「日本人はヘブライ文字を簡単に覚えられそうじゃん」
http://lavender.5ch.net/test/read.cgi/gengo/1564551857/l50
https://twitter.com/5chan_nel (5ch newer account) >>104
втмкнみたいな
これはキリル文字だけどな まあくずし字サンプルを多数集めてそれぞれにラベル振った
データセット作ればいい「だけ」の話
とはいっても、毎日毎日文字を集めるだけでも大変だっただろう >>41
>韓国人だって専門家は読める
これは嘘 朝鮮半島の文語体は支那語で漢字で書いた 朝鮮語の漢字は一切無い
だから
X 韓国人だって専門家は読める
○ 繁体字が読めれば チョンが読めなくても支那人は読める 計算機がまともに動き出したころの50年前に、源氏物語の全文を計算機に打ち込んだ奴がいる
統計的な検索分析をして分析した結果
昔からそれとなく言われていた 宇治十条が 紫式部とは 別人が書いた文体というのが明確になった あんな癖のある字、当時の人も読めたのかな?って思う。 その時代の人間が一番合理的な情報伝達手段として「崩し」を選択した
と言う信念のもと20年以上古文書やってる
けれど何とか江戸期の「お家流」が苦もせず読める程度
近世以外の例えば信長や秀吉の往来物となると取っ掛かりを掴むのさえ苦労する
さらには最も難解と言われる明治以降の「女筆」に至っては見るのも億劫だ
たぶんAIさんがいくら頑張ってもこれらパターンの埒外の解読は不可能
断言するが筆者の癖字や符丁的言い回しが介入したものには歯が立たないと思う ■ このスレッドは過去ログ倉庫に格納されています