X



【AI】東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」 [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
0001すらいむ ★
垢版 |
2023/08/19(土) 23:00:18.30ID:tjNac+yL
東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」

 東京大学院工学系研究科・松尾研究室(主宰:松尾豊教授)は8月18日、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル(LLM)「Weblab-10B」を、事前学習と事後学習(ファインチューニング)により開発し、非商用ライセンスでモデルを無料公開した。

(以下略、続きはソースでご確認ください)

itmedia 2023年08月18日 11時21分
https://www.itmedia.co.jp/news/articles/2308/18/news097.html
0003名無しのひみつ
垢版 |
2023/08/19(土) 23:19:20.18ID:LqX/GF2v
モデル公開より
サービスを利用出来るようにして欲しい
0004名無しのひみつ
垢版 |
2023/08/19(土) 23:38:43.49ID:HKl//siW
ネット上でブラウザで動く状態のないの?
誰かやらないの?
0005名無しのひみつ
垢版 |
2023/08/19(土) 23:40:37.11ID:HKl//siW
でもどうせ数学弱いんだろうな。
2^2^2^2^2^2の先頭から100桁はすでに計算結果が出ている計算だが、ChatGPTとかは大きく間違う。
これも正しく答えられないんだろ?
0006名無しのひみつ
垢版 |
2023/08/19(土) 23:45:42.10ID:kkMhINKN
google colaboで使えるようにしてからでかい声出して
0007名無しのひみつ
垢版 |
2023/08/20(日) 00:15:36.92ID:vvHpQ9I9
Bingのバランスとかバカだから、

四角形ABCDはAD〃BCの台形, Eは線分ACとDBとの交点である。
AD=6cm, AE=3cm, EC=7cmのとき, BCの長さは何cmか求めなさい。

という高校入試の問題が正しく解けない。
0008名無しのひみつ
垢版 |
2023/08/20(日) 01:35:03.19ID:+tLTb+6+
日本語と英語の文章を並べた対照表がなくて学習しても、自動翻訳ができるのでしょうか?なんだか不思議な
気がしますが。
0009名無しのひみつ
垢版 |
2023/08/20(日) 02:18:09.68ID:3Bqktqtg
教師無学習
0010名無しのひみつ
垢版 |
2023/08/20(日) 02:50:51.33ID:gcmG1Sh7
>>7
14?
俺高校入れる?
0011名無しのひみつ
垢版 |
2023/08/20(日) 02:52:42.44ID:qmnFPnym
こういうのを利用するスキルってPython書けるくらいで行けちゃうの?
0012名無しのひみつ
垢版 |
2023/08/20(日) 03:12:49.91ID:qPcAix+z
グーグルがリアルタイム翻訳機作ってるのに日本はコレだ なんか10年遅れてんだよな
0013名無しのひみつ
垢版 |
2023/08/20(日) 05:44:14.61ID:z1CI5heM
松尾博士のレベルが東大の実情ってことか
0014名無しのひみつ
垢版 |
2023/08/20(日) 06:13:47.31ID:IanIUA2p
マツケンサーバー
0016名無しのひみつ
垢版 |
2023/08/20(日) 11:46:16.45ID:B+eO6HcA
国内オープンソースのLLMがそもそも無い件
0017名無しのひみつ
垢版 |
2023/08/20(日) 11:58:45.21ID:Q/rE3Dpt
一般公開で使えるんだと思ったら、、、、、。
そもそも、使い方すら分からない。
どこから始めていいかすら分からない。
0018名無しのひみつ
垢版 |
2023/08/20(日) 12:04:30.59ID:dfbGlnt7
海外のは英語びいきと聞くからな。
日本発が欲しかった。
0019名無しのひみつ
垢版 |
2023/08/20(日) 13:44:19.04ID:JMYiplnd
何を研究してもNvideaが儲かるだけだよね。
ただのグラボの会社が偉くなったもんだ
0020名無しのひみつ
垢版 |
2023/08/20(日) 13:56:23.73ID:ioGlhHZz
>>19
昨今はあえてAMDのグラボで人工知能を動かしている会社もある
同じような性能でグラボそのものは安い
特にVRAM容量が大きいからだと

だがCUDAでなくROCmなのでプログラムの大幅な書き直しが必要になり
その人員確保が大変だという
0021名無しのひみつ
垢版 |
2023/08/20(日) 14:04:32.08ID:YdLGlOTZ
gpt-4のパラメータ数は1兆を超える
なんでこんなおもちゃみたいな物を作るのか
0022名無しのひみつ
垢版 |
2023/08/20(日) 15:43:17.36ID:Gs7jFkLA
アメリカはプラグインみたいに第三者がどんどん拡張していくのが強いよな。
日本はなにか作ってもそこから発展しない。
0023名無しのひみつ
垢版 |
2023/08/20(日) 16:13:37.40ID:Nw0xY7Fc
英語が話せると、ロンドンのパブが楽しい。
0024名無しのひみつ
垢版 |
2023/08/20(日) 16:58:11.33ID:d4X/N667
>>20
GPUが2社で寡占されてるのがどうにもならないな
あと両方アメリカの会社なのがポイントだ
0025名無しのひみつ
垢版 |
2023/08/20(日) 19:40:51.26ID:RK3pYBe9
>>8
機械翻訳のシステム開発にはランゲージペアと呼ばれている日英対訳ファイルを
使って機械学習を行う。
ランゲージペアのデータがないとその言語間の学習モデルは生成できない。
機械翻訳 京都文書で検索するとランゲージペアの教材データがみつかる。
通常、大学の理工学部でNLPを専攻すると最終段階で京都文書を使った機械翻訳
システムの開発を行うこととなる。NLPの100本ノックでは第99章と100章が
この例題にあたる。
0026名無しのひみつ
垢版 |
2023/08/20(日) 19:46:48.79ID:M6Zu51U3
へー
実際には翻訳変換してるんだね
知らなかった
日本語ベースはないんだね
0027名無しのひみつ
垢版 |
2023/08/20(日) 20:11:36.35ID:FzzIK0Do
>>21
gpt3.5でも一兆超えてるみたい
劣化版にも程があるな
アカデミックな研究ってやつ?だったら構成変えてやらないと意味がない
この分野は企業が金ぶっこまないと無理だろ
まあベンチャーでない日本の企業では劣化版コピーになるだけだろうけど
0028名無しのひみつ
垢版 |
2023/08/20(日) 22:18:39.22ID:ioGlhHZz
>>22
アメリカだと第三者というかサードパーティが開発する

日本だと三国人
0029名無しのひみつ
垢版 |
2023/08/20(日) 23:26:03.79ID:bumSKf0Q
LLMのモデルはいくつか触ったけど、比較的マシな応答を返すのはvicuna-13bくらいだったなぁ。
0030名無しのひみつ
垢版 |
2023/08/21(月) 09:48:28.81ID:vOR/mPbz
>>21
未だにパラメータ数と性能が比例していると思ってるやつ
0032名無しのひみつ
垢版 |
2023/08/21(月) 11:39:33.74ID:Qy1QT+Rd
>>31
まだやってたんだもう現金にしたよ。
0033名無しのひみつ
垢版 |
2023/08/21(月) 11:52:59.77ID:87/5WPLh
短歌や俳句は書けるのか?
0034名無しのひみつ
垢版 |
2023/08/21(月) 12:03:58.98ID:lEzOW5oc
>>28
要りません
勝手に決めないで
0037名無しのひみつ
垢版 |
2023/08/22(火) 22:10:24.34ID:UqQUfgz+
松尾研の博士課程の学生が研究の一環で生成モデルを公開しただけなのに
OpenAIがマイクロソフトと共同で開発した開発費数百億円をかけたAI
と比べてパラメーター数が貧弱とか、学生とマイクロソフトの開発能力を
比較しても意味ないだろ
0038名無しのひみつ
垢版 |
2023/08/22(火) 22:16:01.27ID:ilo0B4DG
まだ誰もテスト利用してないの?
使ったことがあるのなら使用感をよろしく。
0039すらいむ ★
垢版 |
2023/08/24(木) 21:11:52.83ID:inZZy+T0
この件についての続報があります。
新スレ立てるほどの話でもないと思うのでスレ内での案内だけ

ーーー
松尾研、公開したLLMの「オープンソース」記述を削除 X(Twitter)で指摘相次ぐ

 東京大学院工学系研究科・松尾研究室(主宰:松尾豊教授)は8月22日、「オープンソース」として18日に公開した大規模言語モデル(LLM)「Weblab-10B」について、「商用利用不可のため定義に当てはまらない」としてオープンソースの記述を削除した。

(以下略、続きはソースでご確認ください)

ITmedia 2023年08月22日 14時45分
https://www.itmedia.co.jp/news/articles/2308/22/news146.html
0040名無しのひみつ
垢版 |
2023/09/13(水) 13:06:09.81ID:YRMFfhKx
>>1
ダウンロードボタンがないので公開していない。
0041名無しのひみつ
垢版 |
2023/10/02(月) 13:36:04.54ID:zHVfAlz5
使用感の報告とか、全くないんだな?
0042名無しのひみつ
垢版 |
2023/10/02(月) 13:36:38.70ID:zHVfAlz5
使用感の報告とか、全くないんだな?
0043名無しのひみつ
垢版 |
2023/10/08(日) 10:44:42.66ID:aFOhkIMA
これで、俳句や和歌がバリバリ生成できるようになると良いね。
0044名無しのひみつ
垢版 |
2023/10/09(月) 00:27:34.10ID:pPrNz1Zn
最近、スパム・詐欺メールの日本語の質がかなり向上して、人間が書いたものや
本物の組織が書いているのと区別するのが難しくなったと感じる。
■ このスレッドは過去ログ倉庫に格納されています