X



【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]
■ このスレッドは過去ログ倉庫に格納されています
0001一般国民 ★
垢版 |
2019/07/12(金) 04:35:09.76ID:CAP_USER
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝

【科学(学問)ニュース+】

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏

 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない

 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。

■■以下、略
0133ニュースソース検討中@自治議論スレ
垢版 |
2019/07/15(月) 20:17:45.56ID:MwGtQQNp
勉強すれば8割ぐらいは読めるようになるんだよ
で、残り2割の読めないのをAIで解読しようと思ってもたぶん読めない
0134ニュースソース検討中@自治議論スレ
垢版 |
2019/07/15(月) 20:31:36.42ID:LUY/15as
日本史専攻の従姉妹は、ゼミの予習に、おばあちゃんに古文書を読んでもらってた
0135ニュースソース検討中@自治議論スレ
垢版 |
2019/07/15(月) 20:49:53.52ID:SFxKNnzx
>タリン・カラーヌワット

まぁこの人が優秀なんだろうがタイ人?に先越される日本の研究者とかやっぱ雑魚いな。ジャップwwww
0136ニュースソース検討中@自治議論スレ
垢版 |
2019/07/15(月) 21:19:20.66ID:ySH/2hPu
現代語のOCRですら完璧ではないのに、それよりはるかに偏差が激しいと思われる
昔のくずし字を読めるのかねえ。
0141ニュースソース検討中@自治議論スレ
垢版 |
2019/07/17(水) 19:27:49.91ID:o3Ejsi+Q
くずし字(草書?)のくずしかたのルールは、
くずし字を書いていた人たちは当時どうやって学んだのだろうか?
それぞれ勝手に崩して書いていたのだとしたら、統一性がなくて
お互いのコミュニケーションの役には立たない(自分だけのための
覚え書きとか秘密の日記などなら、どういう具合に崩すかを
勝手にしていても構わないだろうが)。

崩し方の十分な量の見本を与える手本があったのか、
それともそういった規則を系統的に教える教本があったのだろうか?
0143崩し字挫折者@自治議論スレ
垢版 |
2019/07/17(水) 20:37:31.62ID:S0s2Jt1k
>>141
それは千字文とか往来物とか、お手本がいくらでもあったでしょう。

>>142
実は、日本の近世古文書に限って言うと、草書の「右」と「左」の一画目と二画目の筆順には違いが無い文書の方が多い。
どちらも「横画→縦画」の順序で書いてある方が多い。(中国の伝統的な筆順から言えば間違いだが。)
しかし、中の「口」は横線がウネウネ這うように書かれ、「エ」は縦線が鋭く長く書かれているので、そこで区別する。
0144ニュースソース検討中@自治議論スレ
垢版 |
2019/07/17(水) 20:47:32.06ID:o3Ejsi+Q
中国からもたらされた漢字で書かれたお経の経典は、どういう字体でやってきたのか。
またそれを日本の寺院で写筆したときには、同じ字体で書いたのだろうか、それとも
やはり崩し字にしていたのだろうか?
あとの方の時代になって、日本で適当にでっちあげた仏教の宗派のお経は、
くだけた文字で書かれていたかもしれないなとは思う。(よく知らない)

でも、立派な石碑とか木版活字の本は、崩さずに書いてるよね。

浮世絵などの添え書きの文字はミミズが這っているようなので私には読めない。
いま当時の浮世絵を知るためには、あれを活字に直して絵を修正したバージョンを
出版して欲しい。そうすればもっと今よりも売れるだろう。原作の著作権は切れて
いるから、原稿はローコスト、デジタルにすればオールカラーでもコストはそれほど
高くないだろう。
0148ニュースソース検討中@自治議論スレ
垢版 |
2019/09/18(水) 18:19:52.30ID:JsXHC6lI
ぶっちゃけくずし字、大半は読めるだろ。
0151ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 13:08:45.35ID:dqISEr/P
ねぇ、あんた!
…「あんた」…ヘブライ語でも「あなた」って意味なんだよ。どうなってんだよ、古代の言語は。

神道っていったい何なの、本当に不可解だよ、ユダヤ人や、世界の人が見たら、これ何、どうゆうこと。
さらにもっと大変なことは、宮司や神主、いったいあれは誰なの、あの服装、私たちと繋がりはないです。
なんでご神体を皆が担いでワッショイ、ワッショイと言うんですか、ヘブライ語ですよ、ワッショイというのは。
://www.youtube.com/watch?v=4YvD2TDOZJM

紀元前にすでに文字が存在?
://twitter.com/nhk_news/status/1171181541319499776

ベルギー人 「気味が悪いくらい似てる理由をどう説明するんだ」
アメリカ人 「日本人はユダヤ人の子孫かって? この類似性をみれば一目瞭然だ」
イスラエル人「ゾクッとした、奇妙な感じ。なぜに俺はこんな情報を今までしらなかったんだ」
イスラエル人「発音まで同じだとしたら、ちょっと凄すぎじゃないか?」
ロシア人  「日本人はヘブライ文字を簡単に覚えられそうじゃん」
http://lavender.5ch.net/test/read.cgi/gengo/1564551857/l50

https://twitter.com/5chan_nel (5ch newer account)
0152ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 19:30:27.52ID:g5Ia4YSH
>>104
втмкнみたいな
これはキリル文字だけどな
0153ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 20:57:39.92ID:DFPCPoz9
まあくずし字サンプルを多数集めてそれぞれにラベル振った
データセット作ればいい「だけ」の話

とはいっても、毎日毎日文字を集めるだけでも大変だっただろう
0154ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 21:44:58.91ID:+KdOHwDI
>>41
>韓国人だって専門家は読める

これは嘘 朝鮮半島の文語体は支那語で漢字で書いた 朝鮮語の漢字は一切無い
だから
X 韓国人だって専門家は読める
○ 繁体字が読めれば チョンが読めなくても支那人は読める
0155ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 21:49:16.53ID:+KdOHwDI
計算機がまともに動き出したころの50年前に、源氏物語の全文を計算機に打ち込んだ奴がいる
統計的な検索分析をして分析した結果
昔からそれとなく言われていた 宇治十条が 紫式部とは 別人が書いた文体というのが明確になった
0156ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 22:05:03.12ID:84rnoObM
あんな癖のある字、当時の人も読めたのかな?って思う。
0157ニュースソース検討中@自治議論スレ
垢版 |
2019/10/01(火) 22:52:08.38ID:8vqe/yp8
その時代の人間が一番合理的な情報伝達手段として「崩し」を選択した
と言う信念のもと20年以上古文書やってる

けれど何とか江戸期の「お家流」が苦もせず読める程度
近世以外の例えば信長や秀吉の往来物となると取っ掛かりを掴むのさえ苦労する
さらには最も難解と言われる明治以降の「女筆」に至っては見るのも億劫だ
たぶんAIさんがいくら頑張ってもこれらパターンの埒外の解読は不可能

断言するが筆者の癖字や符丁的言い回しが介入したものには歯が立たないと思う
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況