【IT】MS、自然言語処理ライブラリをオープンソース化

**田杉山脈 ★** · 2019/05/17(金) 18:57:39.45

Microsoftは米国時間2019年5月15日、Web検索などで用いるC++をPythonでラップしたライブラリ「SPTAG(Space Partition Tree and Graph)」をGitHubで公開した。公式ブログによれば、SPTAGを利用することで深層学習モデルを利用して、ベクトルと呼ばれる何十億もの情報をミリ秒単位で検索可能となり、より関連性の高い結果を迅速に利用者へ提供できる。同社は一例として、ユーザーが「パリの塔の高さはどれくらい?」と入力した場合、Bingは『Eiffel』を含まなくとも『Tall』を鍵にして、1,063フィート(324メートル)と回答すると説明した。

先の一例からも分かるとおりSPTAGは、BingチームやMSRA(Microsoft Researc Asia)の研究者による成果であり、すでにBingに組み込まれている。Bingのベクトル化は索引付けした1,500億を超える単語や文字、Webページ、メディアなどを含む拡張がなされており、検索時はインデックス付きベクトルのスキャン結果を提示しているという。Microsoftは「メディアと検索データをベクトル化するアイデア自体は目新しくないものの、近年になってBingのような大規模エンジンで実現可能となった」と語り、SPTAGを企業や消費者向けのアプリケーションにおけるビジュアル検索やオーディオ検索での利用を期待している。
https://news.mynavi.jp/article/20190516-824605/

**名刺は切らしておりまして** · 2019/05/17(金) 20:01:22.26

コルタナ、もうめんどくさいから、なんもかんも
やっといてくれ

**名刺は切らしておりまして** · 2019/05/17(金) 21:07:31.63

>>2
人類滅亡シーケンス開始します

**名刺は切らしておりまして** · 2019/05/17(金) 21:10:23.14

自慢できるほどのスキルはもってないが、ソースコードと論文を見た限りではMSでも
平均的な実装と、凡庸なアルゴリズムを使うのだなとの印象を受けた
ソフト大手が人手不足で着手していないニッチ分野のライブラリに絞り
スキルレベルが一定以上の仲間に恵まれたなら、理工系の熟練コーダーなら誰でも足跡は残せるのかもしれない

**名刺は切らしておりまして** · 2019/05/17(金) 21:58:55.21

>>4
実装とか土方の仕事だからな

**名刺は切らしておりまして** · 2019/05/17(金) 22:13:27.21

>>5

MSの社員が土方ということか

**名刺は切らしておりまして** · 2019/05/17(金) 22:30:08.76

>>6

MaggieQi
Microsoft
https://github.com/MaggieQi/SPTAG-2
https://www.microsoft.com/en-us/research/people/cheqi/
I am now an associate researcher in System Research Group of Microsoft Research (Asia). I received my Ph.D. in Computer Science from Peking University in 2016. Before that, I received my B.S. degree in Computer Science from Peking University in 2010.

My research interests include distributed systems, cloud computing and deep learning algorithms.

北京大学でCSの博士号を取得しているので、おそらく土方ではない

**名刺は切らしておりまして** · 2019/05/17(金) 22:50:37.31

>>6
重要なのは機能であるが、それを実装で評価してるのが土方っつってんだよ

**名刺は切らしておりまして** · 2019/05/17(金) 23:03:31.74

>>8
>重要なのは機能であるが、それを実装で評価してるのが土方っつってんだよ

機能という表現からして理解しているようには思えない

NNSのライブラリとしては凡庸なアルゴリズムと評しただけだ
同種のライブラリのソースコードを読んだことも実装したこもないなら分かるわけも無いだろう

**名刺は切らしておりまして** · 2019/05/17(金) 23:07:43.99

>>9 >>8

そもそも「実装とか土方の仕事だからな(ID:gYvZ3Zl2)」と書いていたのが、実装した土方が天下のマイクロソフト様のPhDエリート様だと
判明した瞬間に機能がどうのこうのと言っているのに恥ずかしさを覚えないのか

**名刺は切らしておりまして** · 2019/05/17(金) 23:10:22.23

○同種のライブラリのソースコードを読んだことも実装したこともないなら分かるわけも無いだろう

**名刺は切らしておりまして** · 2019/05/17(金) 23:22:17.79

でもコルタナよりグーグルアシスタントのほうが正確に理解してくれるよね

**名刺は切らしておりまして** · 2019/05/18(土) 00:22:13.45

>>4
このライブラリではないけど.NET系のオープンソースを見る限りMSはホントに平凡で無難なコードを書いてるよ。
誰でも読める。
メンテナンス性とか考えればその方が良いし、だからこそオープンソースにしても恥ずかしくないのだと思う。

Windows周りとかは相当悲惨な歴史的コードも埋もれてる気がする。

**名刺は切らしておりまして** · 2019/05/18(土) 00:55:32.70

>>13

無難と平凡な実装はローレベルの言語だと、最適化チャンスをみすみす失うことになるから、高速化が売りの実装だとあまり好まれない

C++に限ればMSのコード規格・ガイドラインは古いだけで無難で平凡と断言できるものはおそらく少ないだろうから、このソースコードがその無難さに該当するかは疑わしいところだ
このレベルのソースコードでも外部ライブラリ（一部は最新のバージョン）を使っている以上は誰でも読めるとまではいかないし
誰でも読めるようなコードに作るのは機械学習では難しいことを割り引いても、このコードは特段努力した形跡が見られない

高速をうたう割にはコード面の最適化が弱く、ポータビリティも可読性も拡張性もベストとは言えない
おそらくプロダクトの一部だけをリリースしているせいもあるかとは思うが、これなら最適化に熟練した連中が希望を持てるレベルだと言える

**名刺は切らしておりまして** · 2019/05/18(土) 08:41:33.86

>>13
簡単に見えるコードを書くのが一番難しい。

**名刺は切らしておりまして** · 2019/05/18(土) 08:42:56.45

>>4 >>14 >>9 >>10

一点付け加えると平均的な実装といっても最低でも5年以上はC++でコーディングしてCSのバックグラウンドがないと平均的なレベルにさえならないから
良く匿名掲示板で現れる半年かじった程度で一人前になったと勘違い・錯覚する連中のレベルとは比較にならない

プロダクトレベルでコードする場合は職務記述書で7年以上＋CSの基礎知識と記述されるのが一般的なようだから、それが目安となる

**名刺は切らしておりまして** · 2019/05/18(土) 08:51:57.83

>>15

一点付け加えると平均的な実装といっても最低でも5年以上はC++でコーディングしてCSのバックグラウンドがないと平均的なレベルにさえならないから
良く匿名掲示板で現れる半年かじった程度で一人前になったと勘違い・錯覚する連中のレベルとは比較にならない

該当するソースコード（https://github.com/MaggieQi/SPTAG-2 ）を読もうとしても、匿名掲示板の自称凄腕では読むことさえできない連中が大半で「簡単」
にさえ見えないのが現実であり、素人に毛が生えた連中が希望に持てる連中は絶望のほうが大きいだろうから「簡単」という表現はミスリードだろう

コードの何たるかを議論したいのであれば、例えばライブラリのレベルとしてはサブ標準であるBoostや標準実装ライブラリのレベルと比較すると、はるかに及ばないレベルであり、
読みにくく汚く、最適化が弱いということだ

**名刺は切らしておりまして** · 2019/05/18(土) 08:53:21.54

>>17

○該当するソースコード（https://github.com/MaggieQi/SPTAG-2 ）を読もうとしても、匿名掲示板の自称凄腕では読むことさえできない連中が大半で「簡単」
にさえ見えないのが現実であり、素人に毛が生えた連中にとっては希望どころか絶望のほうが大きいだろうから「簡単」という表現はミスリードだろう

**名刺は切らしておりまして** · 2019/05/18(土) 09:51:37.12

>>18

平均的という言葉に過剰反応できるのはユースリーグ（年齢でなく技術レベルという意味で）までだろう
外部に公開するプロダクトレベルの「平均的」は、ネットにいるプログラミングを少し知った平均的素人
がかけるレベルではないし、読めるかさえ怪しいところだ

よって相手がどの「平均」を話しているかを明示しないと話が通じないことになる
熟練というなら10年以上のコーディング経験は目安としたいところだが、その定義だと小学生から始めている大学生や院生にも熟練コーダーは当然いるわけだ

中華系のCS博士論文ではフレームワークやモジュールをコーディング・実装したものが多く、実装・コーディング重視はCSが理学でなく工学部に（多くの場合）所属する理由でもある