【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ
LINEは、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。
昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。
国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。
(以下略、続きはソースでご確認下さい)
ledge 2021 07 17 Sat
https://ledge.ai/ndl-clovaocr/ テキストデータ化するための予算はいくら計上されてるのか教えて テキスト化したついでに、日本語の文書のデータを全て吸い上げるか
そして日本人で文章寄りの人の思想に近い文書を次々に作り上げるような
AIを完成させてしまうと 図書館はデジタル化するのはいいが、著作権者などにきちんと還元する仕組みにしてくれよ。
悪の組織だわ。 はあああああああああああああああああああああああああああああああああ
これ韓国が全部自由に日本にアクセスせずに閲覧できるってことじゃねえか >>10
戦前の良質な日本の「知」に触れて教化されると良い >>1
>画像データは、すべてオンメモリで処理され、サーバには保存されません。テキストデータへ変換後、すぐにすべて削除されます。データが流出したり、分析されたりする心配はありません。
信じてるアホおるんか?
LINEに1円の特にもならんサービス信じてるアホおるんか? なんとかして日本が悪いという話をひねり出すためのデータベース構築を日本の税金でやるとかさあ
朝鮮人の悪事に触れた記者や作家とか、子々孫々まで殺しに来るぞ >>9
国立国会図書館のオンラインで読めるものは全て問題をクリアしてる
ときどき公文書を出版する出版社があって、そうなると読めなくなる
権切れを出版してチョサクケンガーをやられるとスゲー不満 なんだ日本の情報全部持ってかれるだけか
さすが平井w またまたLINEとか...
これってやっぱ平井が暗躍してるのかな
いずれにせよゼロであった防諜意識が即座に高まるはずもなく... >>1
なんで LINE なんて敵国のスパイツール使うの? なぜLINE?技術が理由でないことはわかる
どうしても日韓一体化を推進したいのか… 変換ミス考慮したら画像データのほうがいいよ
それとも人力で一字一字を修正するのかね できたら早く公開しろ。2年ほど一般書籍の公開がストップしている。 LINEにやらせるってのは韓国にやらせると同義なんだけど 創作文字や略字などが含まれてたらテキストデータは不可能だろう 無理やりテキスト化する意味が解らない、担当の趣味じゃないのか。
原書の画像でなければ閲覧者には改変や誤字があっても判らんじゃないか。 デジタルデータにする時に改変されたらどうするんだろう。
原本は保存してくれるのかな? コロナや五輪やコレといい
日本は上級乞食フレンズに繋がりコネがある奴でないと
仕事取れない感じになってんなぁ
そら衰退国言われるのも当然だわな >>37
どんだけ役だっているか
どうでもいい人は、だまってヒッキーしていて下さい ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが 日本のITは、ろくに仕事しないで金ばっかとるから話にならない
しかも作業内容もてんで考える気もないので、
仕様書も書けないし、見積りすらできてない
ホントに、ホントにバイトよりできない
で中抜きしかできない。どころか中抜きすらできてない。 LINEは日本の動向を監視しているからね
日本の誰が何を読むかのデータを集めたいんだろ >>49
君が信頼してる日本はもう存在しない
あっと思ったら、会社が変わって
その前に担当者は一人もいなくなってる
ちょっと直そうにも、どうにもならない >>44
こういう単語を多く含む文章や文献ってあったかなあ
というのが一瞬にして出て来るんだな デジタルデータになるときに改鼠されたらどうすんの?
サーバーってどこに置くの?
デジタル庁なんてズブズブ庁やん >>53
それが主目的でしょう
普通の日本人が知らない教科書の内容やアニメにまで文句いうぐらいだから
バレないような仕掛けを深く静かに進行中
消えた年金問題みたいに消失するかも AI「まあ文字の本から文字データだけ抽出されてもちょっと困るんだけどね 竹島は全部独島に書き換えるとかやりそう。
国立国会図書館がソースとして拡散される。 >>30
技術が理由だよ
縦横斜めが混在する昔の文献は日本の技術では歯が立たないようだ
政権おともだち企業ではなく正確な情報保全を優先した国立国会図書館を評価したい
製紙法も韓国に教わったんだ、今さら恥じることでもあるまい >>48
フランスの美術館はコピー取り寄せオーケー
ただしコピー代送料はもらいます
実費以上の料金取立ては禁止です
料金は事前に提示する必要があります
と宣言されてる
日本の国家図書館は多額のコピー代を請求するぞ 規模から見てパソナなど人材派遣が関わるのは容易に推測できる。 こういうのって刑務所の囚人にやらせられないんだろうか。 日本産のFEPとか買い占められたし
MSのIME開発から日本人無くされて久しい
美人局を恥じて自殺した自衛官は犬死だったのだろうか >>58
パリの美術館いったら 写真撮り放題
日本は写真禁止w もしくは1枚だけ許可とか >>1
検索に韓国と天安門が引っ掛からなくなり
実物処分、データも処分 別に実行しなくても「いつでも出来るぞ」で政治的圧力になるよね
船舶が外国人だらけで日本人じゃないから「おれ知らね」されたら日本終わると
軍事評論家が十数年前に心配してたけど現実になりましたな デジタル化するけど、都合の悪いページは永遠に失われるよw 国会図書館には同人誌も献本されてるけどそれもデジタル化するんか? >>60
まあそれだろうな
この事業で一番金が掛かるのは作業費だろうし ほぼほぼ敵性国資本企業に大金払うより懲役作業でやらせた方が安上がりでは。 どれだけ癒着してんだよ
平井は脱税して大臣規範違反のくせに逮捕もされない
日本のデジタル行政は全て間違っている まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。 >>44
>>77の言う通り。
ヒッキーがどうしたって?
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら(笑) 仕様書見ていないからわからないが、多分うまくいかない。
実績値で見て、グーグル(グーグルは外資で応札できないので、グーグルと組む日本企業)とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。 >>51
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか 都合の良いように改竄できてしまうのに、本当に任せて大丈夫なの?
わざわざLINEを選ぶ理由が分からない・・ 1次データーも公開しないと改ざんチェックはできないよね。 >>85
日本には技術がないんだよ
しかし、異常に速いな
>>77
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる 資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円
NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業 1式
西日本電信電話株式会社
一般競争(総合評価)
月額:26,503,400円(税込)
NDLデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業 1式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円
NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守 1式
令和3年4月1日 富士通Japan株式会社
一般競争(総合評価)
248,820,000円
デジタル化資料のOCRテキスト化
LINE株式会社
一般競争(総合評価)
145,308,680円 >>1
馬鹿チョン半島に国立国会図書館の情報をリリース!
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか お札を数える機械があるだろ、その技術をこの古本の読み取り機械に応用すれば、バンバン読み取れる。いいアイデアだろ。 >>1
ラインに改ざんされそうなこと
竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致
ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな >デジタルで全ての国内出版物が読める未来
いや、絶対に無理でしょ、清岡純子の写真集とかあるし。 >>3
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの?
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円(税込み)をいただきます。 いや、コロナワクチン接種券のOCRでいいだろ。
なぜLINE? 日本が世界最先端最高文明国家だからね(笑)
バチカンの秘密図書館の電子データ化もNTTがやってるからね(笑) ■ このスレッドは過去ログ倉庫に格納されています