【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ　LINE [すらいむ★]

**すらいむ ★** · 2021/07/17(土) 21:01:33.82

国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ

　LINEは、国立国会図書館（東京都千代田区）のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。
　昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。

　国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。

（以下略、続きはソースでご確認下さい）

ledge 2021 07 17 Sat
https://ledge.ai/ndl-clovaocr/

**名無しのひみつ** · 2021/07/17(土) 21:03:29.59

LINE
懲りないね～

**名無しのひみつ** · 2021/07/17(土) 21:03:59.52

無料で？

**名無しのひみつ** · 2021/07/17(土) 21:08:30.47

テキストデータ化するための予算はいくら計上されてるのか教えて

**名無しのひみつ** · 2021/07/17(土) 21:11:12.91

テキスト化したついでに、日本語の文書のデータを全て吸い上げるか
そして日本人で文章寄りの人の思想に近い文書を次々に作り上げるような
AIを完成させてしまうと

**名無しのひみつ** · 2021/07/17(土) 21:11:54.07

　　

　　　＿ﾉ乙(､ﾝ､)＿歴史を書き換えるニダｗ

**名無しのひみつ** · 2021/07/17(土) 21:12:42.24

全国800万人の引きこもりに作業させよう

**名無しのひみつ** · 2021/07/17(土) 21:16:32.10

は？LINE？

**名無しのひみつ** · 2021/07/17(土) 21:19:42.63

図書館はデジタル化するのはいいが、著作権者などにきちんと還元する仕組みにしてくれよ。
悪の組織だわ。

**名無しのひみつ** · 2021/07/17(土) 21:20:47.18

はあああああああああああああああああああああああああああああああああ
これ韓国が全部自由に日本にアクセスせずに閲覧できるってことじゃねえか

**名無しのひみつ** · 2021/07/17(土) 21:22:46.95

癒着としか思えない

**名無しのひみつ** · 2021/07/17(土) 21:23:45.06

>>10
戦前の良質な日本の「知」に触れて教化されると良い

**名無しのひみつ** · 2021/07/17(土) 21:26:29.05

>>1
>画像データは、すべてオンメモリで処理され、サーバには保存されません。テキストデータへ変換後、すぐにすべて削除されます。データが流出したり、分析されたりする心配はありません。
信じてるアホおるんか？
LINEに1円の特にもならんサービス信じてるアホおるんか？

**名無しのひみつ** · 2021/07/17(土) 21:27:52.76

なんとかして日本が悪いという話をひねり出すためのデータベース構築を日本の税金でやるとかさあ
朝鮮人の悪事に触れた記者や作家とか、子々孫々まで殺しに来るぞ

**名無しのひみつ** · 2021/07/17(土) 21:28:50.41

>>9
国立国会図書館のオンラインで読めるものは全て問題をクリアしてる
ときどき公文書を出版する出版社があって、そうなると読めなくなる
権切れを出版してチョサクケンガーをやられるとスゲー不満

**名無しのひみつ** · 2021/07/17(土) 21:30:26.04

>>10
もし読めるなら火病を起こすこと請け合い

**名無しのひみつ** · 2021/07/17(土) 21:30:36.00

なんだ日本の情報全部持ってかれるだけか
さすが平井ｗ

**名無しのひみつ** · 2021/07/17(土) 21:36:56.90

またまたLINEとか...
これってやっぱ平井が暗躍してるのかな
いずれにせよゼロであった防諜意識が即座に高まるはずもなく...

**名無しのひみつ** · 2021/07/17(土) 21:38:40.89

>>1
LINEにやらせるとか頭おかしい

**名無しのひみつ** · 2021/07/17(土) 21:38:48.66

仕事が無くなった職員が作業に当たるみたいだな。

**名無しのひみつ** · 2021/07/17(土) 21:41:10.21

LINEが支配する国

**名無しのひみつ** · 2021/07/17(土) 21:49:45.22

ネットで見られるようになるの？

**名無しのひみつ** · 2021/07/17(土) 21:51:59.55

オッボの論文はどうなんの

**名無しのひみつ** · 2021/07/17(土) 21:54:50.15

>>1
なんで LINE なんて敵国のスパイツール使うの？

**名無しのひみつ** · 2021/07/17(土) 21:59:53.18

え

**名無しのひみつ** · 2021/07/17(土) 22:03:31.92

テキスト化って数学の本とかはどうすんの

**名無しのひみつ** · 2021/07/17(土) 22:05:46.20

>>26
LATEXに置き換えるのかね

**名無しのひみつ** · 2021/07/17(土) 22:07:19.80

画像データとか(^_^;)

**名無しのひみつ** · 2021/07/17(土) 22:13:40.15

やめてほしい
ほんとーにやめてほしい

**名無しのひみつ** · 2021/07/17(土) 22:16:47.25

なぜLINE？技術が理由でないことはわかる
どうしても日韓一体化を推進したいのか…

**名無しのひみつ** · 2021/07/17(土) 22:25:42.51

そのまんま他国に持ってかれそうだな

**名無しのひみつ** · 2021/07/17(土) 22:29:02.90

>>2
全文献吸い上げ

**名無しのひみつ** · 2021/07/17(土) 22:37:01.93

変換ミス考慮したら画像データのほうがいいよ
それとも人力で一字一字を修正するのかね

**名無しのひみつ** · 2021/07/17(土) 22:46:33.38

できたら早く公開しろ。2年ほど一般書籍の公開がストップしている。

**名無しのひみつ** · 2021/07/17(土) 22:47:59.59

LINEにやらせるってのは韓国にやらせると同義なんだけど

**名無しのひみつ** · 2021/07/17(土) 22:50:31.88

創作文字や略字などが含まれてたらテキストデータは不可能だろう

**名無しのひみつ** · 2021/07/17(土) 22:53:52.29

無理やりテキスト化する意味が解らない、担当の趣味じゃないのか。
原書の画像でなければ閲覧者には改変や誤字があっても判らんじゃないか。

**名無しのひみつ** · 2021/07/17(土) 22:57:50.33

異体字とかの超めんどくさい問題はどうするんだろう

**名無しのひみつ** · 2021/07/17(土) 23:01:55.83

デジタルデータにする時に改変されたらどうするんだろう。
原本は保存してくれるのかな？

**名無しのひみつ** · 2021/07/17(土) 23:05:07.33

博士論文の氷雪とか調べられちゃうな(^_^;)

**名無しのひみつ** · 2021/07/17(土) 23:05:11.63

超漢字で行けるかな？

**名無しのひみつ** · 2021/07/17(土) 23:23:52.98

>>1
官報の全文検索を無料でお願いします。

**名無しのひみつ** · 2021/07/17(土) 23:28:42.80

コロナや五輪やコレといい
日本は上級乞食フレンズに繋がりコネがある奴でないと
仕事取れない感じになってんなぁ
そら衰退国言われるのも当然だわな

**名無しのひみつ** · 2021/07/17(土) 23:32:12.73

>>37
どんだけ役だっているか
どうでもいい人は、だまってヒッキーしていて下さい

**名無しのひみつ** · 2021/07/17(土) 23:36:19.92

韓国のサーバーに保管されるのですね！

馬鹿官僚？

**名無しのひみつ** · 2021/07/17(土) 23:36:48.65

ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが

**名無しのひみつ** · 2021/07/17(土) 23:36:48.73

ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが

**名無しのひみつ** · 2021/07/17(土) 23:37:44.66

日本のITは、ろくに仕事しないで金ばっかとるから話にならない
しかも作業内容もてんで考える気もないので、
仕様書も書けないし、見積りすらできてない
ホントに、ホントにバイトよりできない
で中抜きしかできない。どころか中抜きすらできてない。

**名無しのひみつ** · 2021/07/17(土) 23:39:10.25

LINEは日本の動向を監視しているからね
日本の誰が何を読むかのデータを集めたいんだろ

**名無しのひみつ** · 2021/07/17(土) 23:49:07.13

>>49
君が信頼してる日本はもう存在しない
あっと思ったら、会社が変わって
その前に担当者は一人もいなくなってる
ちょっと直そうにも、どうにもならない

**名無しのひみつ** · 2021/07/17(土) 23:51:44.74

>>44
こういう単語を多く含む文章や文献ってあったかなあ

というのが一瞬にして出て来るんだな

**名無しのひみつ** · 2021/07/18(日) 00:05:45.10

いの一番にやっと寛解

**名無しのひみつ** · 2021/07/18(日) 00:16:44.60

デジタルデータになるときに改鼠されたらどうすんの？
サーバーってどこに置くの？
デジタル庁なんてズブズブ庁やん

**名無しのひみつ** · 2021/07/18(日) 00:25:26.63

>>53
それが主目的でしょう
普通の日本人が知らない教科書の内容やアニメにまで文句いうぐらいだから
バレないような仕掛けを深く静かに進行中
消えた年金問題みたいに消失するかも

**名無しのひみつ** · 2021/07/18(日) 00:27:11.64

AI「まあ文字の本から文字データだけ抽出されてもちょっと困るんだけどね

**名無しのひみつ** · 2021/07/18(日) 00:29:36.36

竹島は全部独島に書き換えるとかやりそう。
国立国会図書館がソースとして拡散される。

**名無しのひみつ** · 2021/07/18(日) 00:29:46.90

>>30
技術が理由だよ
縦横斜めが混在する昔の文献は日本の技術では歯が立たないようだ
政権おともだち企業ではなく正確な情報保全を優先した国立国会図書館を評価したい
製紙法も韓国に教わったんだ、今さら恥じることでもあるまい

**名無しのひみつ** · 2021/07/18(日) 00:36:54.01

日本はやり出すのが遅すぎる

フランス政府が1996年くらいにはまずイメージで公開やり出したのにはびっくりしたよ

四半世紀すぎたいま確認したよ
（元がこのサイトかどうか記憶はないが）
https://www.culture.gouv.fr/en/Sites-thematiques/Musees/Pour-les-professionnels/Rendre-les-collections-accessibles-aux-publics/Assurer-la-diffusion-numerique-des-collections/Mise-en-ligne-des-collections/Ouverture-et-reutilisation-des-donnees-des-musees-de-France

商用利用もどんどんやってよだよ
オープン&リユース
例外はレアですとまでいってるよ

**名無しのひみつ** · 2021/07/18(日) 00:40:40.71

>>48
フランスの美術館はコピー取り寄せオーケー
ただしコピー代送料はもらいます
実費以上の料金取立ては禁止です
料金は事前に提示する必要があります
と宣言されてる

日本の国家図書館は多額のコピー代を請求するぞ

**名無しのひみつ** · 2021/07/18(日) 00:41:54.19

規模から見てパソナなど人材派遣が関わるのは容易に推測できる。

**名無しのひみつ** · 2021/07/18(日) 00:43:48.58

こういうのって刑務所の囚人にやらせられないんだろうか。

**名無しのひみつ** · 2021/07/18(日) 00:49:58.58

古書店が倒産するな。

**名無しのひみつ** · 2021/07/18(日) 00:53:03.58

日本産のFEPとか買い占められたし
MSのIME開発から日本人無くされて久しい
美人局を恥じて自殺した自衛官は犬死だったのだろうか

**名無しのひみつ** · 2021/07/18(日) 01:00:43.28

改竄が後に判明して全部やり直しになりそう

**名無しのひみつ** · 2021/07/18(日) 01:00:56.26

改ざんしまくって文化乗っ取るやつや

**名無しのひみつ** · 2021/07/18(日) 01:13:01.20

>>58
パリの美術館いったら　写真撮り放題

日本は写真禁止ｗ　もしくは1枚だけ許可とか

**名無しのひみつ** · 2021/07/18(日) 01:14:26.49

>>1
検索に韓国と天安門が引っ掛からなくなり
実物処分、データも処分

**名無しのひみつ** · 2021/07/18(日) 01:16:31.76

>>56
アクセスできなくなるだろ

**名無しのひみつ** · 2021/07/18(日) 01:19:37.14

別に実行しなくても「いつでも出来るぞ」で政治的圧力になるよね
船舶が外国人だらけで日本人じゃないから「おれ知らね」されたら日本終わると
軍事評論家が十数年前に心配してたけど現実になりましたな

**名無しのひみつ** · 2021/07/18(日) 01:24:02.43

デジタル化するけど、都合の悪いページは永遠に失われるよｗ

**名無しのひみつ** · 2021/07/18(日) 01:25:04.79

国会図書館には同人誌も献本されてるけどそれもデジタル化するんか？

**名無しのひみつ** · 2021/07/18(日) 01:49:09.71

>>60
まあそれだろうな
この事業で一番金が掛かるのは作業費だろうし

**名無しのひみつ** · 2021/07/18(日) 02:09:40.59

危機管理ゼロ

**名無しのひみつ** · 2021/07/18(日) 02:10:39.91

ウイルスだらけ

**名無しのひみつ** · 2021/07/18(日) 02:20:46.90

ほぼほぼ敵性国資本企業に大金払うより懲役作業でやらせた方が安上がりでは。

**名無しのひみつ** · 2021/07/18(日) 02:28:59.97

どれだけ癒着してんだよ
平井は脱税して大臣規範違反のくせに逮捕もされない
日本のデジタル行政は全て間違っている

**名無しのひみつ** · 2021/07/18(日) 02:34:18.52

まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。

**名無しのひみつ** · 2021/07/18(日) 02:54:18.25

>>44

>>77の言う通り。
ヒッキーがどうしたって？
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら（笑）

**名無しのひみつ** · 2021/07/18(日) 02:57:49.64

仕様書見ていないからわからないが、多分うまくいかない。
実績値で見て、グーグル（グーグルは外資で応札できないので、グーグルと組む日本企業）とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。

**名無しのひみつ** · 2021/07/18(日) 03:00:03.20

>>51
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか

**名無しのひみつ** · 2021/07/18(日) 03:15:54.52

いつまで詐欺企業使ってるんだよ
取引停止しろよ

**名無しのひみつ** · 2021/07/18(日) 03:27:17.97

都合の良いように改竄できてしまうのに、本当に任せて大丈夫なの？
わざわざLINEを選ぶ理由が分からない・・

**名無しのひみつ** · 2021/07/18(日) 03:46:25.09

竹島が書いてある古地図を尽く紛失するんだろ？

**名無しのひみつ** · 2021/07/18(日) 03:56:21.86

1次データーも公開しないと改ざんチェックはできないよね。

**名無しのひみつ** · 2021/07/18(日) 04:16:34.11

こういうのはNTTにやらせろよ

**名無しのひみつ** · 2021/07/18(日) 04:33:46.01

>>85
日本には技術がないんだよ　
しかし、異常に速いな
>>77
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる

**名無しのひみつ** · 2021/07/18(日) 04:48:26.70

立法府にまで浸潤されてる。

**名無しのひみつ** · 2021/07/18(日) 05:16:31.80

資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円

NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業　１式
西日本電信電話株式会社
一般競争（総合評価）
月額：26,503,400円（税込）

ＮＤＬデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業　１式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円

NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守　１式
令和3年4月1日富士通Ｊａｐａｎ株式会社
一般競争（総合評価）
248,820,000円

デジタル化資料のOCRテキスト化
LINE株式会社
一般競争（総合評価）
145,308,680円

**名無しのひみつ** · 2021/07/18(日) 05:41:57.03

某国の修正液から守れるね

**名無しのひみつ** · 2021/07/18(日) 05:58:50.58

>>1
馬鹿チョン半島に国立国会図書館の情報をリリース！
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか

**名無しのひみつ** · 2021/07/18(日) 06:16:45.24

お札を数える機械があるだろ、その技術をこの古本の読み取り機械に応用すれば、バンバン読み取れる。いいアイデアだろ。

**名無しのひみつ** · 2021/07/18(日) 06:26:36.34

これ焚書じゃね？

**名無しのひみつ** · 2021/07/18(日) 06:58:04.52

>>1
ラインに改ざんされそうなこと

竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致

ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな

**名無しのひみつ** · 2021/07/18(日) 07:50:34.31

なぜこういうのを外国に任せるかな

**名無しのひみつ** · 2021/07/18(日) 08:23:07.14

>デジタルで全ての国内出版物が読める未来

いや、絶対に無理でしょ、清岡純子の写真集とかあるし。

**名無しのひみつ** · 2021/07/18(日) 08:37:45.81

>>3
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの？
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円（税込み）をいただきます。

**名無しのひみつ** · 2021/07/18(日) 08:39:02.53

はぁ？？？？？なんでLINEなわけ？

**名無しのひみつ** · 2021/07/18(日) 08:51:02.15

いや、コロナワクチン接種券のOCRでいいだろ。
なぜLINE？

**名無しのひみつ** · 2021/07/18(日) 08:58:10.69

韓国、五輪憲章違反の選手村横断幕撤去…「旭日旗も適用」求める　
https://www.yomiuri.co.jp/olympic/2020/20210717-OYT1T50225/

大韓体育会、「李舜臣応援」横断幕を撤去…日本の旭日旗も禁止
https://news.yahoo.co.jp/articles/afb5d647df33c04b0eb3ad9186c50db17e920d4a
　

**名無しのひみつ** · 2021/07/18(日) 08:59:20.45

日本が世界最先端最高文明国家だからね(笑)
バチカンの秘密図書館の電子データ化もNTTがやってるからね(笑)

【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]

【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ　LINE [すらいむ★]