【日本語特化型超巨大言語モデル】LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で　 [すらいむ★]

**すらいむ ★** · 2020/11/26(木) 12:45:24.36

LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で
飯塚　直

　LINEは11月25日、NAVERと共同で日本語に特化した超巨大言語モデル（膨大なデータから生成された汎用言語モデル）の開発を発表した。
　日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとしている。

　特化型言語モデルなど、従来の言語モデルでは、各ユースケース（Q＆A、対話など）に対して自然言語処理エンジニアが個別に学習する必要があった一方、汎用言語モデルは、AIでより自然な言語処理・言語表が可能。
　同モデルは、OpenAIが開発した「GPT」やGoogleの「T5」などが代表例となる。

　新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、コンテキストを設定するFew-Shot learning（ブログの書き出しやプログラミングコードの一部などを与えること）を実行すると、対話、翻訳、入力補完、文書生成、プログラミングコードといったさまざまな言語処理により、個々のユースケースを実現できるとしている。

　同社では、日本語に特化した独自の汎用言語モデルを開発。
　1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用する予定という。
　現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものであり、パラメーター量と学習量については、今後も拡大するとしている。

（以下略、続きはソースでご確認下さい）

Cnet 2020年11月25日 17時53分
https://japan.cnet.com/article/35162922/

**名無しのひみつ** · 2020/11/26(木) 12:48:06.66

個人情報をタダで取れて言いニダ。日本の政治家はアホニダｗ

**名無しのひみつ** · 2020/11/26(木) 12:49:21.28

　
自民党のコミュニケーションツールはLINE
　

**名無しのひみつ** · 2020/11/26(木) 12:49:55.70

韓国語も提案して欲しい

**名無しのひみつ** · 2020/11/26(木) 13:01:31.26

汎用NLPなんてそう簡単にできないでしょ
分野や用法を限ってもうまくいかないことが多いのに

**名無しのひみつ** · 2020/11/26(木) 13:01:52.39

これで日本語の文章を自動生成し放題
それもLINEが

韓国擁護が捗るだろうね
日本人が多く使うSNSがこのモジュールの生成する
韓国宣伝だらけになる可能性がある

日本政府はこういうことが出来なかったか

**名無しのひみつ** · 2020/11/26(木) 13:04:58.65

GPT-3なんて既に指示に基づいてWebサイトを作ってるくらいだからな

日本の頭脳労働の大半をLINEが持っていくかもな

**名無しのひみつ** · 2020/11/26(木) 13:09:39.16

>>6
そして自民党が消滅したｗ

安倍ちゃん(。´・ω・)ん?

**名無しのひみつ** · 2020/11/26(木) 13:12:13.65

日本語プログラミングを高度化・完成度を高めることが急務

**名無しのひみつ** · 2020/11/26(木) 13:12:21.30

ナニコレ怖い

**名無しのひみつ** · 2020/11/26(木) 13:32:10.19

自民党のLINE推しは朝鮮人の犬ってことなんやろなあ

**名無しのひみつ** · 2020/11/26(木) 13:39:45.55

LINEには日本語のサンプルがサーバーに山のようにあるから開発のための材料は揃ってるよな

アジアの他の国でもLINEが多く使われているところがあったな

**名無しのひみつ** · 2020/11/26(木) 13:41:31.09

当然、白丁・不逞鮮人・馬鹿チョン・キムチ野郎とかも覚えさせるんだろ？

**名無しのひみつ** · 2020/11/26(木) 14:01:16.46

オジサン、オバサンが使ってるから仕方なくアプリ入れてるの気づいて。

**名無しのひみつ** · 2020/11/26(木) 18:26:16.20

>>5
アメリカが既にGPT-3で相当な成果を上げているね
これはどの位うまく動くかなあ

**名無しのひみつ** · 2020/11/26(木) 18:55:17.74

日本語が地球語になるからな

**名無しのひみつ** · 2020/11/26(木) 20:34:32.28

>>16
翻訳精度もますます上がるね

5chのレスをサンプルにされたらそれはそれで面白かったか

**名無しのひみつ** · 2020/11/27(金) 08:04:33.32

PCのフロントエンドの表示や機能や動作もGPT-3では自然言語で指示して作れてたなあ

このLINEのシステムで同じことができたら、Webデザイナーが大量解雇か

サーバー側の作業でも同様だな
簡単なコマンド打ちとその組み合わせだけなら代替されてしまう

**名無しのひみつ** · 2020/11/27(金) 21:01:06.11

このプロジェクトに使うスパコンは
700PFLOPSか

**名無しのひみつ** · 2020/11/27(金) 22:14:43.55

日本語と韓国語を言語的に考察してみると、
韓国語は、日本語の漢字かな交じり文をベースに意味論解釈したほうがやりやすいと思う。
NAVERが韓国語の基礎研究として日本語をやっているのだと思われる。

まぁ、それだけじゃなく、日本人の情報収集も目的の一つだろうが…

**名無しのひみつ** · 2020/12/02(水) 01:41:35.63

集めた日本語のデーターの大部分が実は5ｃｈの下らない会話やつぶやきだとしたら？

**名無しのひみつ** · 2020/12/02(水) 07:09:44.31

言語のライブラリやミドルウエアが提供する高級機能に頼り
それがどれだけ資源を浪費しているかしらずに、コード量を減らすことが
もっとも重要だという信仰が、まぬけなコードで超重量級のそれが生まれる、
メモリが余っているだから使わないライブラリとか糞だとレッテルをはり、
それお前だけのコードがシステム全体を占有できると過信するところにつながる、

いまの全てのアプリが肥大化して、必要なメモリやらストレージが桁が指数的に
消費されていく進化を自分のコードとは関係ないと思うとき。

糞遅いＰＣなんて作業効率が悪い言い出すわけだ、それはお前が糞遅いコードの
原因を作っているからだ。
昔のそれと比べてどんだけ資源量が爆発的に増えたとおもっている？
ちょっと隣のコンビニゆくのに、ＮＡＳＡのサターンＶデルタロケットを使うような豪華な
状況になれすぎている。

**名無しのひみつ** · 2020/12/02(水) 20:08:58.82

>>21
普通にLINEの使うだろ

**名無しのひみつ** · 2020/12/02(水) 20:38:33.17

＞日本語に特化した超巨大言語モデル

なにをどうするどんなもの　なのかさっぱりわからん・・・

**名無しのひみつ** · 2020/12/02(水) 20:47:13.69

>>24
これが目指しているのと同じ方向性の言語モデルが
英語版で既にできている
GPT-3とかな
https://cubeglb.com/media/2020/07/22/gpt-3-gamechanger/
「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI

僅かな文章から、妙ちくりんなフェイクニュースを作ったり

Googleのトップページと同じデザインのソースコードが欲しいと
簡単な英文の命令を与えるだけで、「GPT-3」はGoogleとほぼ見た目が同じ
デザインとソースコードを再現したり
(HTMLやCSSがそっくりのものを作ってしまった)

カメラアイコン、「写真」タイトル、およびメッセージアイコンが付いたナビゲーションバーがあるアプリ。
各写真にユーザーアイコン、写真、ハートアイコン、およびチャットバブルアイコンがある写真のフィード
と命令したら、そういうサイトを作ったり

更にJavaScriptによる簡単なプログラムが動くページまで作ってしまう！

これを、日本語で出来るようになる

最近では、GPT-3でWebサーバーを完全自動で設定してしまったという話まである

もうちょっとしたら、シリアル通信でロボットまで動かしかねんな

**名無しのひみつ** · 2020/12/02(水) 21:09:28.61

まだLINEなんか使ってんのか？
日本人だけだぞこれ使ってるの

**名無しのひみつ** · 2020/12/02(水) 21:12:43.33

日本はほんとソフトに弱いんだな

**名無しのひみつ** · 2020/12/02(水) 21:39:12.83

国立大情報科の就職先は、ITじゃなくて金融だからな
、
日本のITは専門学校卒の偏差値28の連中がやる職業や

**名無しのひみつ** · 2020/12/02(水) 22:39:54.86

検閲用か

**名無しのひみつ** · 2020/12/02(水) 23:47:19.91

>>28
大学生も普通の企業の営業に就職できそうにない人が
とりあえず就職先として選んで、まあ後悔したり逆に稼げるだけでも有難いと思ったり

**名無しのひみつ** · 2020/12/03(木) 08:50:12.52

LINEはタイと台湾で使用人口が多い

という去年のデータはあるな
今年はどうなった
もうすぐ2021年だが

**名無しのひみつ** · 2020/12/07(月) 13:59:09.61

>>6
日本政府のお役人はお茶文化と接待とローンと教育費に忙しい
日本語研究は韓国LINEと韓国NAVERｗｗ