X



【日本語特化型超巨大言語モデル】LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で  [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
0001すらいむ ★
垢版 |
2020/11/26(木) 12:45:24.36ID:CAP_USER
LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で
飯塚 直

 LINEは11月25日、NAVERと共同で日本語に特化した超巨大言語モデル(膨大なデータから生成された汎用言語モデル)の開発を発表した。
 日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとしている。

 特化型言語モデルなど、従来の言語モデルでは、各ユースケース(Q&A、対話など)に対して自然言語処理エンジニアが個別に学習する必要があった一方、汎用言語モデルは、AIでより自然な言語処理・言語表が可能。
 同モデルは、OpenAIが開発した「GPT」やGoogleの「T5」などが代表例となる。

 新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、コンテキストを設定するFew-Shot learning(ブログの書き出しやプログラミングコードの一部などを与えること)を実行すると、対話、翻訳、入力補完、文書生成、プログラミングコードといったさまざまな言語処理により、個々のユースケースを実現できるとしている。

 同社では、日本語に特化した独自の汎用言語モデルを開発。
 1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用する予定という。
 現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものであり、パラメーター量と学習量については、今後も拡大するとしている。

(以下略、続きはソースでご確認下さい)

Cnet 2020年11月25日 17時53分
https://japan.cnet.com/article/35162922/
0002名無しのひみつ
垢版 |
2020/11/26(木) 12:48:06.66ID:S8++SHJB
個人情報をタダで取れて言いニダ。日本の政治家はアホニダw
0003名無しのひみつ
垢版 |
2020/11/26(木) 12:49:21.28ID:jBrqvq25
 
自民党のコミュニケーションツールはLINE
 
0005名無しのひみつ
垢版 |
2020/11/26(木) 13:01:31.26ID:2TLwXVgY
汎用NLPなんてそう簡単にできないでしょ
分野や用法を限ってもうまくいかないことが多いのに
0006名無しのひみつ
垢版 |
2020/11/26(木) 13:01:52.39ID:8hURkfdx
これで日本語の文章を自動生成し放題
それもLINEが

韓国擁護が捗るだろうね
日本人が多く使うSNSがこのモジュールの生成する
韓国宣伝だらけになる可能性がある

日本政府はこういうことが出来なかったか
0007名無しのひみつ
垢版 |
2020/11/26(木) 13:04:58.65ID:8hURkfdx
GPT-3なんて既に指示に基づいてWebサイトを作ってるくらいだからな

日本の頭脳労働の大半をLINEが持っていくかもな
0008名無しのひみつ
垢版 |
2020/11/26(木) 13:09:39.16ID:x5Bij315
>>6
そして自民党が消滅したw

安倍ちゃん(。´・ω・)ん?
0009名無しのひみつ
垢版 |
2020/11/26(木) 13:12:13.65ID:/5c15q8n
日本語プログラミングを高度化・完成度を高めることが急務
0010名無しのひみつ
垢版 |
2020/11/26(木) 13:12:21.30ID:CUN3FR7E
ナニコレ怖い
0011名無しのひみつ
垢版 |
2020/11/26(木) 13:32:10.19ID:KN4ntP5v
自民党のLINE推しは朝鮮人の犬ってことなんやろなあ
0012名無しのひみつ
垢版 |
2020/11/26(木) 13:39:45.55ID:8hURkfdx
LINEには日本語のサンプルがサーバーに山のようにあるから開発のための材料は揃ってるよな

アジアの他の国でもLINEが多く使われているところがあったな
0013名無しのひみつ
垢版 |
2020/11/26(木) 13:41:31.09ID:54ADCcw9
当然、白丁・不逞鮮人・馬鹿チョン・キムチ野郎とかも覚えさせるんだろ?
0014名無しのひみつ
垢版 |
2020/11/26(木) 14:01:16.46ID:Ag0AYRcK
オジサン、オバサンが使ってるから仕方なくアプリ入れてるの気づいて。
0015名無しのひみつ
垢版 |
2020/11/26(木) 18:26:16.20ID:wTRjFLdO
>>5
アメリカが既にGPT-3で相当な成果を上げているね
これはどの位うまく動くかなあ
0016名無しのひみつ
垢版 |
2020/11/26(木) 18:55:17.74ID:8Rmp579z
日本語が地球語になるからな
0017名無しのひみつ
垢版 |
2020/11/26(木) 20:34:32.28ID:wTRjFLdO
>>16
翻訳精度もますます上がるね

5chのレスをサンプルにされたらそれはそれで面白かったか
0018名無しのひみつ
垢版 |
2020/11/27(金) 08:04:33.32ID:T840qkY0
PCのフロントエンドの表示や機能や動作もGPT-3では自然言語で指示して作れてたなあ

このLINEのシステムで同じことができたら、Webデザイナーが大量解雇か

サーバー側の作業でも同様だな
簡単なコマンド打ちとその組み合わせだけなら代替されてしまう
0019名無しのひみつ
垢版 |
2020/11/27(金) 21:01:06.11ID:oEbJhxh2
このプロジェクトに使うスパコンは
700PFLOPSか
0020名無しのひみつ
垢版 |
2020/11/27(金) 22:14:43.55ID:SdolRjEc
日本語と韓国語を言語的に考察してみると、
韓国語は、日本語の漢字かな交じり文をベースに意味論解釈したほうがやりやすいと思う。
NAVERが韓国語の基礎研究として日本語をやっているのだと思われる。

まぁ、それだけじゃなく、日本人の情報収集も目的の一つだろうが…
0021名無しのひみつ
垢版 |
2020/12/02(水) 01:41:35.63ID:8QWyMHZa
集めた日本語のデーターの大部分が実は5chの下らない会話やつぶやきだとしたら?
0022名無しのひみつ
垢版 |
2020/12/02(水) 07:09:44.31ID:zhfhJu9d
言語のライブラリやミドルウエアが提供する高級機能に頼り
それがどれだけ資源を浪費しているかしらずに、コード量を減らすことが
もっとも重要だという信仰が、まぬけなコードで超重量級のそれが生まれる、
メモリが余っているだから使わないライブラリとか糞だとレッテルをはり、
それお前だけのコードがシステム全体を占有できると過信するところにつながる、

いまの全てのアプリが肥大化して、必要なメモリやらストレージが桁が指数的に
消費されていく進化を自分のコードとは関係ないと思うとき。

糞遅いPCなんて作業効率が悪い言い出すわけだ、それはお前が糞遅いコードの
原因を作っているからだ。
昔のそれと比べてどんだけ資源量が爆発的に増えたとおもっている?
ちょっと隣のコンビニゆくのに、NASAのサターンVデルタロケットを使うような豪華な
状況になれすぎている。
0024名無しのひみつ
垢版 |
2020/12/02(水) 20:38:33.17ID:WMmvgFD6
>日本語に特化した超巨大言語モデル

なにをどうするどんなもの なのかさっぱりわからん・・・
0025名無しのひみつ
垢版 |
2020/12/02(水) 20:47:13.69ID:mwLjjFj3
>>24
これが目指しているのと同じ方向性の言語モデルが
英語版で既にできている
GPT-3とかな
https://cubeglb.com/media/2020/07/22/gpt-3-gamechanger/
「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI

僅かな文章から、妙ちくりんなフェイクニュースを作ったり

Googleのトップページと同じデザインのソースコードが欲しいと
簡単な英文の命令を与えるだけで、「GPT-3」はGoogleとほぼ見た目が同じ
デザインとソースコードを再現したり
(HTMLやCSSがそっくりのものを作ってしまった)

カメラアイコン、「写真」タイトル、およびメッセージアイコンが付いたナビゲーションバーがあるアプリ。
各写真にユーザーアイコン、写真、ハートアイコン、およびチャットバブルアイコンがある写真のフィード
と命令したら、そういうサイトを作ったり

更にJavaScriptによる簡単なプログラムが動くページまで作ってしまう!

これを、日本語で出来るようになる

最近では、GPT-3でWebサーバーを完全自動で設定してしまったという話まである

もうちょっとしたら、シリアル通信でロボットまで動かしかねんな
0026名無しのひみつ
垢版 |
2020/12/02(水) 21:09:28.61ID:cD/nlkW2
まだLINEなんか使ってんのか?
日本人だけだぞこれ使ってるの
0027名無しのひみつ
垢版 |
2020/12/02(水) 21:12:43.33ID:TT+xE6Kh
日本はほんとソフトに弱いんだな
0028名無しのひみつ
垢版 |
2020/12/02(水) 21:39:12.83ID:JSMCxsCQ
国立大情報科の就職先は、ITじゃなくて金融だからな

日本のITは専門学校卒の偏差値28の連中がやる職業や
0029名無しのひみつ
垢版 |
2020/12/02(水) 22:39:54.86ID:MkH3uydQ
検閲用か
0030名無しのひみつ
垢版 |
2020/12/02(水) 23:47:19.91ID:mwLjjFj3
>>28
大学生も普通の企業の営業に就職できそうにない人が
とりあえず就職先として選んで、まあ後悔したり逆に稼げるだけでも有難いと思ったり
0031名無しのひみつ
垢版 |
2020/12/03(木) 08:50:12.52ID:iEuK8mm6
LINEはタイと台湾で使用人口が多い

という去年のデータはあるな
今年はどうなった
もうすぐ2021年だが
0032名無しのひみつ
垢版 |
2020/12/07(月) 13:59:09.61ID:5iEbeTgn
>>6
日本政府のお役人はお茶文化と接待とローンと教育費に忙しい
日本語研究は韓国LINEと韓国NAVERww
■ このスレッドは過去ログ倉庫に格納されています