X



【IT】MS、自然言語処理ライブラリをオープンソース化

■ このスレッドは過去ログ倉庫に格納されています
0001田杉山脈 ★
垢版 |
2019/05/17(金) 18:57:39.45ID:CAP_USER
Microsoftは米国時間2019年5月15日、Web検索などで用いるC++をPythonでラップしたライブラリ「SPTAG(Space Partition Tree and Graph)」をGitHubで公開した。公式ブログによれば、SPTAGを利用することで深層学習モデルを利用して、ベクトルと呼ばれる何十億もの情報をミリ秒単位で検索可能となり、より関連性の高い結果を迅速に利用者へ提供できる。同社は一例として、ユーザーが「パリの塔の高さはどれくらい?」と入力した場合、Bingは『Eiffel』を含まなくとも『Tall』を鍵にして、1,063フィート(324メートル)と回答すると説明した。

先の一例からも分かるとおりSPTAGは、BingチームやMSRA(Microsoft Researc Asia)の研究者による成果であり、すでにBingに組み込まれている。Bingのベクトル化は索引付けした1,500億を超える単語や文字、Webページ、メディアなどを含む拡張がなされており、検索時はインデックス付きベクトルのスキャン結果を提示しているという。Microsoftは「メディアと検索データをベクトル化するアイデア自体は目新しくないものの、近年になってBingのような大規模エンジンで実現可能となった」と語り、SPTAGを企業や消費者向けのアプリケーションにおけるビジュアル検索やオーディオ検索での利用を期待している。
https://news.mynavi.jp/article/20190516-824605/
0002名刺は切らしておりまして
垢版 |
2019/05/17(金) 20:01:22.26ID:gYakxgaT
コルタナ、もうめんどくさいから、なんもかんも
やっといてくれ
0004名刺は切らしておりまして
垢版 |
2019/05/17(金) 21:10:23.14ID:v9HuYMk4
自慢できるほどのスキルはもってないが、ソースコードと論文を見た限りではMSでも
平均的な実装と、凡庸なアルゴリズムを使うのだなとの印象を受けた
ソフト大手が人手不足で着手していないニッチ分野のライブラリに絞り
スキルレベルが一定以上の仲間に恵まれたなら、理工系の熟練コーダーなら誰でも足跡は残せるのかもしれない
0005名刺は切らしておりまして
垢版 |
2019/05/17(金) 21:58:55.21ID:gYvZ3Zl2
>>4
実装とか土方の仕事だからな
0006名刺は切らしておりまして
垢版 |
2019/05/17(金) 22:13:27.21ID:v9HuYMk4
>>5

MSの社員が土方ということか
0007名刺は切らしておりまして
垢版 |
2019/05/17(金) 22:30:08.76ID:v9HuYMk4
>>6

MaggieQi
Microsoft
https://github.com/MaggieQi/SPTAG-2
https://www.microsoft.com/en-us/research/people/cheqi/
I am now an associate researcher in System Research Group of Microsoft Research (Asia). I received my Ph.D. in Computer Science from Peking University in 2016. Before that, I received my B.S. degree in Computer Science from Peking University in 2010.

My research interests include distributed systems, cloud computing and deep learning algorithms.

北京大学でCSの博士号を取得しているので、おそらく土方ではない
0008名刺は切らしておりまして
垢版 |
2019/05/17(金) 22:50:37.31ID:gYvZ3Zl2
>>6
重要なのは機能であるが、それを実装で評価してるのが土方っつってんだよ
0009名刺は切らしておりまして
垢版 |
2019/05/17(金) 23:03:31.74ID:v9HuYMk4
>>8
>重要なのは機能であるが、それを実装で評価してるのが土方っつってんだよ

機能という表現からして理解しているようには思えない

NNSのライブラリとしては凡庸なアルゴリズムと評しただけだ
同種のライブラリのソースコードを読んだことも実装したこもないなら分かるわけも無いだろう
0010名刺は切らしておりまして
垢版 |
2019/05/17(金) 23:07:43.99ID:v9HuYMk4
>>9 >>8

そもそも「実装とか土方の仕事だからな(ID:gYvZ3Zl2)」と書いていたのが、実装した土方が天下のマイクロソフト様のPhDエリート様だと
判明した瞬間に機能がどうのこうのと言っているのに恥ずかしさを覚えないのか
0011名刺は切らしておりまして
垢版 |
2019/05/17(金) 23:10:22.23ID:v9HuYMk4
○同種のライブラリのソースコードを読んだことも実装したこともないなら分かるわけも無いだろう
0013名刺は切らしておりまして
垢版 |
2019/05/18(土) 00:22:13.45ID:BRNcOuv3
>>4
このライブラリではないけど.NET系のオープンソースを見る限りMSはホントに平凡で無難なコードを書いてるよ。
誰でも読める。
メンテナンス性とか考えればその方が良いし、だからこそオープンソースにしても恥ずかしくないのだと思う。

Windows周りとかは相当悲惨な歴史的コードも埋もれてる気がする。
0014名刺は切らしておりまして
垢版 |
2019/05/18(土) 00:55:32.70ID:+Z9G9NF5
>>13

無難と平凡な実装はローレベルの言語だと、最適化チャンスをみすみす失うことになるから、高速化が売りの実装だとあまり好まれない

C++に限ればMSのコード規格・ガイドラインは古いだけで無難で平凡と断言できるものはおそらく少ないだろうから、このソースコードがその無難さに該当するかは疑わしいところだ
このレベルのソースコードでも外部ライブラリ(一部は最新のバージョン)を使っている以上は誰でも読めるとまではいかないし
誰でも読めるようなコードに作るのは機械学習では難しいことを割り引いても、このコードは特段努力した形跡が見られない

高速をうたう割にはコード面の最適化が弱く、ポータビリティも可読性も拡張性もベストとは言えない
おそらくプロダクトの一部だけをリリースしているせいもあるかとは思うが、これなら最適化に熟練した連中が希望を持てるレベルだと言える
0015名刺は切らしておりまして
垢版 |
2019/05/18(土) 08:41:33.86ID:Vd/zlqFP
>>13
簡単に見えるコードを書くのが一番難しい。
0016名刺は切らしておりまして
垢版 |
2019/05/18(土) 08:42:56.45ID:+Z9G9NF5
>>4 >>14 >>9 >>10

一点付け加えると平均的な実装といっても最低でも5年以上はC++でコーディングしてCSのバックグラウンドがないと平均的なレベルにさえならないから
良く匿名掲示板で現れる半年かじった程度で一人前になったと勘違い・錯覚する連中のレベルとは比較にならない

プロダクトレベルでコードする場合は職務記述書で7年以上+CSの基礎知識と記述されるのが一般的なようだから、それが目安となる
0017名刺は切らしておりまして
垢版 |
2019/05/18(土) 08:51:57.83ID:+Z9G9NF5
>>15

一点付け加えると平均的な実装といっても最低でも5年以上はC++でコーディングしてCSのバックグラウンドがないと平均的なレベルにさえならないから
良く匿名掲示板で現れる半年かじった程度で一人前になったと勘違い・錯覚する連中のレベルとは比較にならない

該当するソースコード(https://github.com/MaggieQi/SPTAG-2 )を読もうとしても、匿名掲示板の自称凄腕では読むことさえできない連中が大半で「簡単」
にさえ見えないのが現実であり、素人に毛が生えた連中が希望に持てる連中は絶望のほうが大きいだろうから「簡単」という表現はミスリードだろう

コードの何たるかを議論したいのであれば、例えばライブラリのレベルとしてはサブ標準であるBoostや標準実装ライブラリのレベルと比較すると、はるかに及ばないレベルであり、
読みにくく汚く、最適化が弱いということだ
0018名刺は切らしておりまして
垢版 |
2019/05/18(土) 08:53:21.54ID:+Z9G9NF5
>>17

○該当するソースコード(https://github.com/MaggieQi/SPTAG-2 )を読もうとしても、匿名掲示板の自称凄腕では読むことさえできない連中が大半で「簡単」
にさえ見えないのが現実であり、素人に毛が生えた連中にとっては希望どころか絶望のほうが大きいだろうから「簡単」という表現はミスリードだろう
0019名刺は切らしておりまして
垢版 |
2019/05/18(土) 09:51:37.12ID:+Z9G9NF5
>>18

平均的という言葉に過剰反応できるのはユースリーグ(年齢でなく技術レベルという意味で)までだろう
外部に公開するプロダクトレベルの「平均的」は、ネットにいるプログラミングを少し知った平均的素人
がかけるレベルではないし、読めるかさえ怪しいところだ

よって相手がどの「平均」を話しているかを明示しないと話が通じないことになる
熟練というなら10年以上のコーディング経験は目安としたいところだが、その定義だと小学生から始めている大学生や院生にも熟練コーダーは当然いるわけだ

中華系のCS博士論文ではフレームワークやモジュールをコーディング・実装したものが多く、実装・コーディング重視はCSが理学でなく工学部に(多くの場合)所属する理由でもある
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況