【IT】リクルート、Python向け日本語自然言語処理オープンソースライブラリ「GiNZA」公開

**田杉山脈 ★** · 2019/04/03(水) 16:03:45.02

リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」（ギンザ）と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies（UD）モデル」をGitHubで公開した。

　GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。

　自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することもできる。

　「GiNZA日本語UDモデル」には、Megagon Labsが国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ。国立国語研究所が蓄積してきた大規模・高品質なテキストコーパスに、日本語Wikipediaテキストも同時に用いて機械学習に適用しており、幅広い分野に適応可能なモデルを構築したという。
https://www.itmedia.co.jp/news/articles/1904/03/news087.html

**名刺は切らしておりまして** · 2019/04/03(水) 16:53:33.27

ちょっと遊んでみるか

**名刺は切らしておりまして** · 2019/04/03(水) 18:45:36.49

多少詳しい情報がプレス発表に書いてあった。論文とかプレゼン資料は上のリンク。

GiNZAの公開ページ
https://megagonlabs.github.io/ginza/

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開
https://www.recruit.co.jp/newsroom/2019/0402_18331.html

**名刺は切らしておりまして** · 2019/04/03(水) 19:28:59.14

儲からないから公開か

**名刺は切らしておりまして** · 2019/04/03(水) 20:36:13.49

>>1
>>4
儲かるもなにも日本語なんてプログラミングに必要ないからｗ

全部英語でいい。

ムダを増やしたってゴミになるだけだ。

**名刺は切らしておりまして** · 2019/04/03(水) 22:03:09.36

ざぎんでしーすー

**名刺は切らしておりまして** · 2019/04/04(木) 00:06:09.89

何か面白そう

**名刺は切らしておりまして** · 2019/04/04(木) 05:47:49.86

googleで見つけにくい名前だけ
広めたいならもう少し頭使えよ

**sage** · 2019/04/04(木) 06:01:33.57

>>5
バカか？！　
1億2千万人相手に商売したければ，日本語のデータ処理は必要だろ。

**名刺は切らしておりまして** · 2019/04/06(土) 00:19:28.32

G8で作ったのか？

**名刺は切らしておりまして** · 2019/04/06(土) 00:44:53.58

これは面白そうだな

**名刺は切らしておりまして** · 2019/04/16(火) 00:23:14.72

良さげ、使ってみる
mecab使ってたけど、単語の分割が思い通りにならなかった