【IT】リクルート、Python向け日本語自然言語処理オープンソースライブラリ「GiNZA」公開

■ このスレッドは過去ログ倉庫に格納されています
0001田杉山脈 ★2019/04/03(水) 16:03:45.02ID:CAP_USER
リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies(UD)モデル」をGitHubで公開した。

 GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。

 自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することもできる。

 「GiNZA日本語UDモデル」には、Megagon Labsが国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ。国立国語研究所が蓄積してきた大規模・高品質なテキストコーパスに、日本語Wikipediaテキストも同時に用いて機械学習に適用しており、幅広い分野に適応可能なモデルを構築したという。
https://www.itmedia.co.jp/news/articles/1904/03/news087.html

0002名刺は切らしておりまして2019/04/03(水) 16:53:33.27ID:z7BaksOZ?2BP(1000)

ちょっと遊んでみるか

0003名刺は切らしておりまして2019/04/03(水) 18:45:36.49ID:E4llWt4b
多少詳しい情報がプレス発表に書いてあった。論文とかプレゼン資料は上のリンク。

GiNZAの公開ページ
https://megagonlabs.github.io/ginza/

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開
https://www.recruit.co.jp/newsroom/2019/0402_18331.html

0004名刺は切らしておりまして2019/04/03(水) 19:28:59.14ID:ASBilYu0
儲からないから公開か

0005名刺は切らしておりまして2019/04/03(水) 20:36:13.49ID:Fm/OC4gS
>>1
>>4
儲かるもなにも日本語なんてプログラミングに必要ないからw

全部英語でいい。

ムダを増やしたってゴミになるだけだ。

0006名刺は切らしておりまして2019/04/03(水) 22:03:09.36ID:Bp4gD/bt
ざぎんでしーすー

0007名刺は切らしておりまして2019/04/04(木) 00:06:09.89ID:v3gFFPvB
何か面白そう

0008名刺は切らしておりまして2019/04/04(木) 05:47:49.86ID:Kmye5tXl
googleで見つけにくい名前だけ
広めたいならもう少し頭使えよ

0009sage2019/04/04(木) 06:01:33.57ID:ADdbkaE1
>>5
バカか?! 
1億2千万人相手に商売したければ,日本語のデータ処理は必要だろ。

0010名刺は切らしておりまして2019/04/06(土) 00:19:28.32ID:QVy4JaB0
G8で作ったのか?

0011名刺は切らしておりまして2019/04/06(土) 00:44:53.58ID:3aM3PsKV
これは面白そうだな

0012名刺は切らしておりまして2019/04/16(火) 00:23:14.72ID:UMmFnQ2R
良さげ、使ってみる
mecab使ってたけど、単語の分割が思い通りにならなかった

■ このスレッドは過去ログ倉庫に格納されています