【日本語特化型超巨大言語モデル】LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
LINE、日本語特化の汎用言語モデルを開発へ--NAVERと共同で
飯塚 直
LINEは11月25日、NAVERと共同で日本語に特化した超巨大言語モデル(膨大なデータから生成された汎用言語モデル)の開発を発表した。
日本語に特化した超巨大言語モデル開発は、世界でも初めての試みになるとしている。
特化型言語モデルなど、従来の言語モデルでは、各ユースケース(Q&A、対話など)に対して自然言語処理エンジニアが個別に学習する必要があった一方、汎用言語モデルは、AIでより自然な言語処理・言語表が可能。
同モデルは、OpenAIが開発した「GPT」やGoogleの「T5」などが代表例となる。
新聞記事や百科事典、小説、コーディングなどといった膨大な言語データを学習させた言語モデルを構築し、コンテキストを設定するFew-Shot learning(ブログの書き出しやプログラミングコードの一部などを与えること)を実行すると、対話、翻訳、入力補完、文書生成、プログラミングコードといったさまざまな言語処理により、個々のユースケースを実現できるとしている。
同社では、日本語に特化した独自の汎用言語モデルを開発。
1750億以上のパラメーターと、100億ページ以上の日本語データを学習データとして利用する予定という。
現在世界に存在する日本語をベースにした言語モデルのパラメーター量と学習量を大きく超えるものであり、パラメーター量と学習量については、今後も拡大するとしている。
(以下略、続きはソースでご確認下さい)
Cnet 2020年11月25日 17時53分
https://japan.cnet.com/article/35162922/ 個人情報をタダで取れて言いニダ。日本の政治家はアホニダw 汎用NLPなんてそう簡単にできないでしょ
分野や用法を限ってもうまくいかないことが多いのに これで日本語の文章を自動生成し放題
それもLINEが
韓国擁護が捗るだろうね
日本人が多く使うSNSがこのモジュールの生成する
韓国宣伝だらけになる可能性がある
日本政府はこういうことが出来なかったか GPT-3なんて既に指示に基づいてWebサイトを作ってるくらいだからな
日本の頭脳労働の大半をLINEが持っていくかもな >>6
そして自民党が消滅したw
安倍ちゃん(。´・ω・)ん? 日本語プログラミングを高度化・完成度を高めることが急務 自民党のLINE推しは朝鮮人の犬ってことなんやろなあ LINEには日本語のサンプルがサーバーに山のようにあるから開発のための材料は揃ってるよな
アジアの他の国でもLINEが多く使われているところがあったな 当然、白丁・不逞鮮人・馬鹿チョン・キムチ野郎とかも覚えさせるんだろ? オジサン、オバサンが使ってるから仕方なくアプリ入れてるの気づいて。 >>5
アメリカが既にGPT-3で相当な成果を上げているね
これはどの位うまく動くかなあ >>16
翻訳精度もますます上がるね
5chのレスをサンプルにされたらそれはそれで面白かったか PCのフロントエンドの表示や機能や動作もGPT-3では自然言語で指示して作れてたなあ
このLINEのシステムで同じことができたら、Webデザイナーが大量解雇か
サーバー側の作業でも同様だな
簡単なコマンド打ちとその組み合わせだけなら代替されてしまう このプロジェクトに使うスパコンは
700PFLOPSか 日本語と韓国語を言語的に考察してみると、
韓国語は、日本語の漢字かな交じり文をベースに意味論解釈したほうがやりやすいと思う。
NAVERが韓国語の基礎研究として日本語をやっているのだと思われる。
まぁ、それだけじゃなく、日本人の情報収集も目的の一つだろうが… 集めた日本語のデーターの大部分が実は5chの下らない会話やつぶやきだとしたら? 言語のライブラリやミドルウエアが提供する高級機能に頼り
それがどれだけ資源を浪費しているかしらずに、コード量を減らすことが
もっとも重要だという信仰が、まぬけなコードで超重量級のそれが生まれる、
メモリが余っているだから使わないライブラリとか糞だとレッテルをはり、
それお前だけのコードがシステム全体を占有できると過信するところにつながる、
いまの全てのアプリが肥大化して、必要なメモリやらストレージが桁が指数的に
消費されていく進化を自分のコードとは関係ないと思うとき。
糞遅いPCなんて作業効率が悪い言い出すわけだ、それはお前が糞遅いコードの
原因を作っているからだ。
昔のそれと比べてどんだけ資源量が爆発的に増えたとおもっている?
ちょっと隣のコンビニゆくのに、NASAのサターンVデルタロケットを使うような豪華な
状況になれすぎている。 >日本語に特化した超巨大言語モデル
なにをどうするどんなもの なのかさっぱりわからん・・・ >>24
これが目指しているのと同じ方向性の言語モデルが
英語版で既にできている
GPT-3とかな
https://cubeglb.com/media/2020/07/22/gpt-3-gamechanger/
「GPT-3」は思ってたより「やばい」ものだった。話し言葉でプログラミングまでこなすAI
僅かな文章から、妙ちくりんなフェイクニュースを作ったり
Googleのトップページと同じデザインのソースコードが欲しいと
簡単な英文の命令を与えるだけで、「GPT-3」はGoogleとほぼ見た目が同じ
デザインとソースコードを再現したり
(HTMLやCSSがそっくりのものを作ってしまった)
カメラアイコン、「写真」タイトル、およびメッセージアイコンが付いたナビゲーションバーがあるアプリ。
各写真にユーザーアイコン、写真、ハートアイコン、およびチャットバブルアイコンがある写真のフィード
と命令したら、そういうサイトを作ったり
更にJavaScriptによる簡単なプログラムが動くページまで作ってしまう!
これを、日本語で出来るようになる
最近では、GPT-3でWebサーバーを完全自動で設定してしまったという話まである
もうちょっとしたら、シリアル通信でロボットまで動かしかねんな まだLINEなんか使ってんのか?
日本人だけだぞこれ使ってるの 国立大情報科の就職先は、ITじゃなくて金融だからな
、
日本のITは専門学校卒の偏差値28の連中がやる職業や >>28
大学生も普通の企業の営業に就職できそうにない人が
とりあえず就職先として選んで、まあ後悔したり逆に稼げるだけでも有難いと思ったり LINEはタイと台湾で使用人口が多い
という去年のデータはあるな
今年はどうなった
もうすぐ2021年だが >>6
日本政府のお役人はお茶文化と接待とローンと教育費に忙しい
日本語研究は韓国LINEと韓国NAVERww ■ このスレッドは過去ログ倉庫に格納されています