X



【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
0001すらいむ ★
垢版 |
2021/07/17(土) 21:01:33.82ID:CAP_USER
国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ

 LINEは、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。
 昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。

 国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。

(以下略、続きはソースでご確認下さい)

ledge 2021 07 17 Sat
https://ledge.ai/ndl-clovaocr/
0002名無しのひみつ
垢版 |
2021/07/17(土) 21:03:29.59ID:IkAQr3TS
LINE
懲りないね〜
0003名無しのひみつ
垢版 |
2021/07/17(土) 21:03:59.52ID:YzXSMRkM
無料で?
0004名無しのひみつ
垢版 |
2021/07/17(土) 21:08:30.47ID:T+EipjzT
テキストデータ化するための予算はいくら計上されてるのか教えて
0005名無しのひみつ
垢版 |
2021/07/17(土) 21:11:12.91ID:dEynzNol
テキスト化したついでに、日本語の文書のデータを全て吸い上げるか
そして日本人で文章寄りの人の思想に近い文書を次々に作り上げるような
AIを完成させてしまうと
0006名無しのひみつ
垢版 |
2021/07/17(土) 21:11:54.07ID:xc4pR3Kw
  

   _ノ乙(、ン、)_歴史を書き換えるニダw
0007名無しのひみつ
垢版 |
2021/07/17(土) 21:12:42.24ID:Wm9+LGJN
全国800万人の引きこもりに作業させよう
0008名無しのひみつ
垢版 |
2021/07/17(土) 21:16:32.10ID:bY3A0uuT
は?LINE?
0009名無しのひみつ
垢版 |
2021/07/17(土) 21:19:42.63ID:0S/mEh8A
図書館はデジタル化するのはいいが、著作権者などにきちんと還元する仕組みにしてくれよ。
悪の組織だわ。
0010名無しのひみつ
垢版 |
2021/07/17(土) 21:20:47.18ID:zgyRhY7P
はあああああああああああああああああああああああああああああああああ
これ韓国が全部自由に日本にアクセスせずに閲覧できるってことじゃねえか
0011名無しのひみつ
垢版 |
2021/07/17(土) 21:22:46.95ID:PxLi6FCS
癒着としか思えない
0012名無しのひみつ
垢版 |
2021/07/17(土) 21:23:45.06ID:nTN92Nyy
>>10
戦前の良質な日本の「知」に触れて教化されると良い
0013名無しのひみつ
垢版 |
2021/07/17(土) 21:26:29.05ID:zgyRhY7P
>>1
>画像データは、すべてオンメモリで処理され、サーバには保存されません。テキストデータへ変換後、すぐにすべて削除されます。データが流出したり、分析されたりする心配はありません。
信じてるアホおるんか?
LINEに1円の特にもならんサービス信じてるアホおるんか?
0014名無しのひみつ
垢版 |
2021/07/17(土) 21:27:52.76ID:zgyRhY7P
なんとかして日本が悪いという話をひねり出すためのデータベース構築を日本の税金でやるとかさあ
朝鮮人の悪事に触れた記者や作家とか、子々孫々まで殺しに来るぞ
0015名無しのひみつ
垢版 |
2021/07/17(土) 21:28:50.41ID:FIrQ9Auw
>>9
国立国会図書館のオンラインで読めるものは全て問題をクリアしてる
ときどき公文書を出版する出版社があって、そうなると読めなくなる
権切れを出版してチョサクケンガーをやられるとスゲー不満
0016名無しのひみつ
垢版 |
2021/07/17(土) 21:30:26.04ID:FIrQ9Auw
>>10
もし読めるなら火病を起こすこと請け合い
0017名無しのひみつ
垢版 |
2021/07/17(土) 21:30:36.00ID:w43m+0JP
なんだ日本の情報全部持ってかれるだけか
さすが平井w
0018名無しのひみつ
垢版 |
2021/07/17(土) 21:36:56.90ID:HrYnZgud
またまたLINEとか...
これってやっぱ平井が暗躍してるのかな
いずれにせよゼロであった防諜意識が即座に高まるはずもなく...
0019名無しのひみつ
垢版 |
2021/07/17(土) 21:38:40.89ID:vrjDpsKw
>>1
LINEにやらせるとか頭おかしい
0020名無しのひみつ
垢版 |
2021/07/17(土) 21:38:48.66ID:tTugE0YB
仕事が無くなった職員が作業に当たるみたいだな。
0021名無しのひみつ
垢版 |
2021/07/17(土) 21:41:10.21ID:ZzQ5WLur
LINEが支配する国
0022名無しのひみつ
垢版 |
2021/07/17(土) 21:49:45.22ID:quE+cKwx
ネットで見られるようになるの?
0023名無しのひみつ
垢版 |
2021/07/17(土) 21:51:59.55ID:Nad1LK4+
オッボの論文はどうなんの
0025名無しのひみつ
垢版 |
2021/07/17(土) 21:59:53.18ID:oX206jhB
0026名無しのひみつ
垢版 |
2021/07/17(土) 22:03:31.92ID:dZQAl7L6
テキスト化って数学の本とかはどうすんの
0029名無しのひみつ
垢版 |
2021/07/17(土) 22:13:40.15ID:6vh52boq
やめてほしい
ほんとーにやめてほしい
0030名無しのひみつ
垢版 |
2021/07/17(土) 22:16:47.25ID:hOQUumJb
なぜLINE?技術が理由でないことはわかる
どうしても日韓一体化を推進したいのか…
0031名無しのひみつ
垢版 |
2021/07/17(土) 22:25:42.51ID:nK6oGZ1r
そのまんま他国に持ってかれそうだな
0032名無しのひみつ
垢版 |
2021/07/17(土) 22:29:02.90ID:y4cQ8x/w
>>2
全文献吸い上げ
0033名無しのひみつ
垢版 |
2021/07/17(土) 22:37:01.93ID:Xc34ICXy
変換ミス考慮したら画像データのほうがいいよ
それとも人力で一字一字を修正するのかね
0034名無しのひみつ
垢版 |
2021/07/17(土) 22:46:33.38ID:09O4WzWn
できたら早く公開しろ。2年ほど一般書籍の公開がストップしている。
0035名無しのひみつ
垢版 |
2021/07/17(土) 22:47:59.59ID:MMnoMLNH
LINEにやらせるってのは韓国にやらせると同義なんだけど
0036名無しのひみつ
垢版 |
2021/07/17(土) 22:50:31.88ID:Xc34ICXy
創作文字や略字などが含まれてたらテキストデータは不可能だろう
0037名無しのひみつ
垢版 |
2021/07/17(土) 22:53:52.29ID:Xc34ICXy
無理やりテキスト化する意味が解らない、担当の趣味じゃないのか。
原書の画像でなければ閲覧者には改変や誤字があっても判らんじゃないか。
0038名無しのひみつ
垢版 |
2021/07/17(土) 22:57:50.33ID:M0WsuONB
異体字とかの超めんどくさい問題はどうするんだろう
0039名無しのひみつ
垢版 |
2021/07/17(土) 23:01:55.83ID:NbIWCWtv
デジタルデータにする時に改変されたらどうするんだろう。
原本は保存してくれるのかな?
0040名無しのひみつ
垢版 |
2021/07/17(土) 23:05:07.33ID:znnX5/EX
博士論文の氷雪とか調べられちゃうな(^_^;)
0041名無しのひみつ
垢版 |
2021/07/17(土) 23:05:11.63ID:YzXSMRkM
超漢字で行けるかな?
0043名無しのひみつ
垢版 |
2021/07/17(土) 23:28:42.80ID:j/T6xCGp
コロナや五輪やコレといい
日本は上級乞食フレンズに繋がりコネがある奴でないと
仕事取れない感じになってんなぁ
そら衰退国言われるのも当然だわな
0044名無しのひみつ
垢版 |
2021/07/17(土) 23:32:12.73ID:sXBjKvoC
>>37
どんだけ役だっているか
どうでもいい人は、だまってヒッキーしていて下さい
0045名無しのひみつ
垢版 |
2021/07/17(土) 23:36:19.92ID:wlfbQnbF
韓国のサーバーに保管されるのですね!

馬鹿官僚?
0046名無しのひみつ
垢版 |
2021/07/17(土) 23:36:48.65ID:6vh52boq
ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが
0047名無しのひみつ
垢版 |
2021/07/17(土) 23:36:48.73ID:6vh52boq
ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが
0048名無しのひみつ
垢版 |
2021/07/17(土) 23:37:44.66ID:sXBjKvoC
日本のITは、ろくに仕事しないで金ばっかとるから話にならない
しかも作業内容もてんで考える気もないので、
仕様書も書けないし、見積りすらできてない
ホントに、ホントにバイトよりできない
で中抜きしかできない。どころか中抜きすらできてない。
0049名無しのひみつ
垢版 |
2021/07/17(土) 23:39:10.25ID:C7xs9EuZ
LINEは日本の動向を監視しているからね
日本の誰が何を読むかのデータを集めたいんだろ
0050名無しのひみつ
垢版 |
2021/07/17(土) 23:49:07.13ID:sXBjKvoC
>>49
君が信頼してる日本はもう存在しない
あっと思ったら、会社が変わって
その前に担当者は一人もいなくなってる
ちょっと直そうにも、どうにもならない
0051名無しのひみつ
垢版 |
2021/07/17(土) 23:51:44.74ID:dEynzNol
>>44
こういう単語を多く含む文章や文献ってあったかなあ

というのが一瞬にして出て来るんだな
0053名無しのひみつ
垢版 |
2021/07/18(日) 00:16:44.60ID:myBsc4Ob
デジタルデータになるときに改鼠されたらどうすんの?
サーバーってどこに置くの?
デジタル庁なんてズブズブ庁やん
0054名無しのひみつ
垢版 |
2021/07/18(日) 00:25:26.63ID:fvrAbUnQ
>>53
それが主目的でしょう
普通の日本人が知らない教科書の内容やアニメにまで文句いうぐらいだから
バレないような仕掛けを深く静かに進行中
消えた年金問題みたいに消失するかも
0055名無しのひみつ
垢版 |
2021/07/18(日) 00:27:11.64ID:Uxkz1YxU
AI「まあ文字の本から文字データだけ抽出されてもちょっと困るんだけどね
0056名無しのひみつ
垢版 |
2021/07/18(日) 00:29:36.36ID:+nEkDrXS
竹島は全部独島に書き換えるとかやりそう。
国立国会図書館がソースとして拡散される。
0057名無しのひみつ
垢版 |
2021/07/18(日) 00:29:46.90ID:QQD4kamE
>>30
技術が理由だよ
縦横斜めが混在する昔の文献は日本の技術では歯が立たないようだ
政権おともだち企業ではなく正確な情報保全を優先した国立国会図書館を評価したい
製紙法も韓国に教わったんだ、今さら恥じることでもあるまい
0058名無しのひみつ
垢版 |
2021/07/18(日) 00:36:54.01ID:gcB9SgAZ
日本はやり出すのが遅すぎる

フランス政府が1996年くらいにはまずイメージで公開やり出したのにはびっくりしたよ


四半世紀すぎたいま確認したよ
(元がこのサイトかどうか記憶はないが)
https://www.culture.gouv.fr/en/Sites-thematiques/Musees/Pour-les-professionnels/Rendre-les-collections-accessibles-aux-publics/Assurer-la-diffusion-numerique-des-collections/Mise-en-ligne-des-collections/Ouverture-et-reutilisation-des-donnees-des-musees-de-France

商用利用もどんどんやってよだよ
オープン&リユース
例外はレアですとまでいってるよ
0059名無しのひみつ
垢版 |
2021/07/18(日) 00:40:40.71ID:gcB9SgAZ
>>48
フランスの美術館はコピー取り寄せオーケー
ただしコピー代送料はもらいます
実費以上の料金取立ては禁止です
料金は事前に提示する必要があります
と宣言されてる

日本の国家図書館は多額のコピー代を請求するぞ
0060名無しのひみつ
垢版 |
2021/07/18(日) 00:41:54.19ID:+nEkDrXS
規模から見てパソナなど人材派遣が関わるのは容易に推測できる。
0061名無しのひみつ
垢版 |
2021/07/18(日) 00:43:48.58ID:+nEkDrXS
こういうのって刑務所の囚人にやらせられないんだろうか。
0062名無しのひみつ
垢版 |
2021/07/18(日) 00:49:58.58ID:CJHrzHsk
古書店が倒産するな。
0063名無しのひみつ
垢版 |
2021/07/18(日) 00:53:03.58ID:fvrAbUnQ
日本産のFEPとか買い占められたし
MSのIME開発から日本人無くされて久しい
美人局を恥じて自殺した自衛官は犬死だったのだろうか
0064名無しのひみつ
垢版 |
2021/07/18(日) 01:00:43.28ID:RQQULE+t
改竄が後に判明して全部やり直しになりそう
0065名無しのひみつ
垢版 |
2021/07/18(日) 01:00:56.26ID:/sTZwzF3
改ざんしまくって文化乗っ取るやつや
0066名無しのひみつ
垢版 |
2021/07/18(日) 01:13:01.20ID:NEttJr1H
>>58
パリの美術館いったら 写真撮り放題

日本は写真禁止w もしくは1枚だけ許可とか
0067名無しのひみつ
垢版 |
2021/07/18(日) 01:14:26.49ID:RKazbAmX
>>1
検索に韓国と天安門が引っ掛からなくなり
実物処分、データも処分
0068名無しのひみつ
垢版 |
2021/07/18(日) 01:16:31.76ID:RKazbAmX
>>56
アクセスできなくなるだろ
0069名無しのひみつ
垢版 |
2021/07/18(日) 01:19:37.14ID:fvrAbUnQ
別に実行しなくても「いつでも出来るぞ」で政治的圧力になるよね
船舶が外国人だらけで日本人じゃないから「おれ知らね」されたら日本終わると
軍事評論家が十数年前に心配してたけど現実になりましたな
0070名無しのひみつ
垢版 |
2021/07/18(日) 01:24:02.43ID:AYvhBu3Q
デジタル化するけど、都合の悪いページは永遠に失われるよw
0071名無しのひみつ
垢版 |
2021/07/18(日) 01:25:04.79ID:6ryM3+7I
国会図書館には同人誌も献本されてるけどそれもデジタル化するんか?
0072名無しのひみつ
垢版 |
2021/07/18(日) 01:49:09.71ID:QQD4kamE
>>60
まあそれだろうな
この事業で一番金が掛かるのは作業費だろうし
0073名無しのひみつ
垢版 |
2021/07/18(日) 02:09:40.59ID:BONLjSjV
危機管理ゼロ
0074名無しのひみつ
垢版 |
2021/07/18(日) 02:10:39.91ID:BONLjSjV
ウイルスだらけ
0075名無しのひみつ
垢版 |
2021/07/18(日) 02:20:46.90ID:+nEkDrXS
ほぼほぼ敵性国資本企業に大金払うより懲役作業でやらせた方が安上がりでは。
0076名無しのひみつ
垢版 |
2021/07/18(日) 02:28:59.97ID:yQ2v6bce
どれだけ癒着してんだよ
平井は脱税して大臣規範違反のくせに逮捕もされない
日本のデジタル行政は全て間違っている
0077名無しのひみつ
垢版 |
2021/07/18(日) 02:34:18.52ID:CJHrzHsk
まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。
0078名無しのひみつ
垢版 |
2021/07/18(日) 02:54:18.25ID:9DpRww2P
>>44

>>77の言う通り。
ヒッキーがどうしたって?
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら(笑)
0079名無しのひみつ
垢版 |
2021/07/18(日) 02:57:49.64ID:v0IQ+PVN
仕様書見ていないからわからないが、多分うまくいかない。
実績値で見て、グーグル(グーグルは外資で応札できないので、グーグルと組む日本企業)とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。
0080名無しのひみつ
垢版 |
2021/07/18(日) 03:00:03.20ID:9DpRww2P
>>51
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか
0081名無しのひみつ
垢版 |
2021/07/18(日) 03:15:54.52ID:U6ucntq8
いつまで詐欺企業使ってるんだよ
取引停止しろよ
0082名無しのひみつ
垢版 |
2021/07/18(日) 03:27:17.97ID:tDsCGf+h
都合の良いように改竄できてしまうのに、本当に任せて大丈夫なの?
わざわざLINEを選ぶ理由が分からない・・
0083名無しのひみつ
垢版 |
2021/07/18(日) 03:46:25.09ID:Rv7Dwb4j
竹島が書いてある古地図を尽く紛失するんだろ?
0084名無しのひみつ
垢版 |
2021/07/18(日) 03:56:21.86ID:+nEkDrXS
1次データーも公開しないと改ざんチェックはできないよね。
0086名無しのひみつ
垢版 |
2021/07/18(日) 04:33:46.01ID:R0UrQaNA
>>85
日本には技術がないんだよ 
しかし、異常に速いな
>>77
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる
0087名無しのひみつ
垢版 |
2021/07/18(日) 04:48:26.70ID:+nEkDrXS
立法府にまで浸潤されてる。
0088名無しのひみつ
垢版 |
2021/07/18(日) 05:16:31.80ID:+nEkDrXS
資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円

NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業 1式
西日本電信電話株式会社
一般競争(総合評価)
月額:26,503,400円(税込)

NDLデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業 1式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円

NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守 1式
令和3年4月1日 富士通Japan株式会社
一般競争(総合評価)
248,820,000円

デジタル化資料のOCRテキスト化
LINE株式会社
一般競争(総合評価)
145,308,680円
0089名無しのひみつ
垢版 |
2021/07/18(日) 05:41:57.03ID:rYgoo8o6
某国の修正液から守れるね
0090名無しのひみつ
垢版 |
2021/07/18(日) 05:58:50.58ID:dLcuRkjq
>>1
馬鹿チョン半島に国立国会図書館の情報をリリース!
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか
0091名無しのひみつ
垢版 |
2021/07/18(日) 06:16:45.24ID:eeEglEit
お札を数える機械があるだろ、その技術をこの古本の読み取り機械に応用すれば、バンバン読み取れる。いいアイデアだろ。
0093名無しのひみつ
垢版 |
2021/07/18(日) 06:58:04.52ID:eEtFT3KA
>>1
ラインに改ざんされそうなこと

竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致


ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな
0095名無しのひみつ
垢版 |
2021/07/18(日) 08:23:07.14ID:2yhdHjvt
>デジタルで全ての国内出版物が読める未来

いや、絶対に無理でしょ、清岡純子の写真集とかあるし。
0096名無しのひみつ
垢版 |
2021/07/18(日) 08:37:45.81ID:NGOrGSOr
>>3
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの?
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円(税込み)をいただきます。
0098名無しのひみつ
垢版 |
2021/07/18(日) 08:51:02.15ID:X2sXJd41
いや、コロナワクチン接種券のOCRでいいだろ。
なぜLINE?
0100名無しのひみつ
垢版 |
2021/07/18(日) 08:59:20.45ID:Z298CTmj
日本が世界最先端最高文明国家だからね(笑)
バチカンの秘密図書館の電子データ化もNTTがやってるからね(笑)
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況