【IT】データサイエンティスト職に求められる言語のトップに「Python」--「R」を上回る

1田杉山脈 ★2019/01/12(土) 18:37:50.17ID:CAP_USER
「Python」と「R」はデータサイエンティスト職の求人で最も多く要求されるスキルに数えられている。ところが、こうしたプロフェッショナルの仕事で最も頻繁に使用されているプログラミング言語について調査した複数の報告書によると、実際は評価が分かれるという。Cloud Academyの米国時間12月27日付の報告書で明らかになった。

 まず、TIOBE Programming Community Indexによれば、2018年の検索エンジンのリクエスト数でみたRの順位は下降気味だったという。だが、データプロフェッショナル1万6000人を対象に実施したKaggleの調査では、全体で最も人気の高いプログラミング言語はPythonであるものの、統計およびデータサイエンティストは他のどの職務よりも業務でRを使用している割合が高いことが分かった。データサイエンティストの87%はPythonを、71%はRを業務で使用していると回答していると、同報告書に記
以下ソース
https://japan.techrepublic.com/article/35131060.htm

2名刺は切らしておりまして2019/01/12(土) 18:38:58.81ID:UT9z2lcu
データサイエンティストに求められるのは言語ではない
数字を読む能力なのに

3名刺は切らしておりまして2019/01/12(土) 18:42:18.85ID:b9qRj+KZ
ピソン

4名刺は切らしておりまして2019/01/12(土) 18:55:36.17ID:K7woRKwy
 
Rは統計データを扱うのに特化した言語であって
システムを組むには不向きなだけだろ

5名刺は切らしておりまして2019/01/12(土) 18:55:39.34ID:ekSjywov
データをnumpyとかpandaとかに整形するのがめんどいんじゃ糞が

6名刺は切らしておりまして2019/01/12(土) 18:57:58.43ID:dibLf/yi
Python 遅いけど、、

使いやすいし、便利なライブラリも多い。

7名刺は切らしておりまして2019/01/12(土) 19:05:32.54ID:XHrLj9Fn
基本をC、ライブラリは都合のいいもの。今はたしかにPython。
Rは統計というかデータベース用だとおもう。

8名刺は切らしておりまして2019/01/12(土) 19:09:51.27ID:hEuBy7aA
Rubyは流行ることなく終わったな

9名刺は切らしておりまして2019/01/12(土) 19:11:30.41ID:WUJUgZ1h
なぜ Rだと思う? 記者の取材不足?

10名刺は切らしておりまして2019/01/12(土) 19:15:41.63ID:ephSBmTY
最近は機械学習系のライブラリがみんなPythonだからな
イヤでも使うしかない

11sage2019/01/12(土) 19:24:51.91ID:OWQfCzk/
>>10
>最近は機械学習系のライブラリ
プログラマー全体の何パーセントが,「機械学習系のライブラリ」を
使用するのか? これがPythonの人気の主な理由とは思えない!

12名刺は切らしておりまして2019/01/12(土) 19:27:11.26ID:H29X4LK5
いよいよボッキデータの真髄、といったところか

13名刺は切らしておりまして2019/01/12(土) 19:32:17.23ID:b4p6ouCE
2chでも変なところで改行してると気になる

14名刺は切らしておりまして2019/01/12(土) 19:32:26.78ID:kDQzC5W5
>>2
数字を読むのはAIの役目

15名刺は切らしておりまして2019/01/12(土) 19:34:39.49ID:H9+KMJVU
その辺の言語は文法が少し違うだけで
どれも同じだよ

16名刺は切らしておりまして2019/01/12(土) 19:41:12.41ID:ephSBmTY
>>11
この記事はデータサイエンティスト限定の話だし
もちろん他の用途では事情は変わってくるだろうね
機械学習いらんってことなら、別の言語でも全然構わないだろう

ちなみにPythonでプログラム書いてWebサイトを立ち上げようとすると
素のApacheですぐに動かないから微妙に面倒くさい
Djangoとかのフレームワークを使う手もあるけど、
それぞれにクセがあって多少手間がかかる

最後は何を作りたいかで決まるでしょう

17名刺は切らしておりまして2019/01/12(土) 19:44:53.13ID:d46EjDA9
numbaじゃなくてpsyco復活してほしい
cythonがまぁまぁ使いやすい

18名刺は切らしておりまして2019/01/12(土) 19:46:01.58ID:0Stlar/u
Rを使うのは昔の文系統計屋だけ
データサイエンティストはRなんて使わないわな

19名刺は切らしておりまして2019/01/12(土) 19:55:26.28ID:SD42/tYe
assembler, bash, basic, c, cobol, java, perl, php, python, PL/M

人生最後の言語はrustだと思いたい

20名刺は切らしておりまして2019/01/12(土) 19:59:05.68ID:q+VwURUA
データ解析といえばSASじゃないの?時代は変わったな

21名刺は切らしておりまして2019/01/12(土) 20:07:25.47ID:VGAcCdku
データ分析基盤を作るのは他に丸投げ?

22名刺は切らしておりまして2019/01/12(土) 20:11:46.83ID:PAeBiU62
でもモジュール作る人はc/c++じゃないの?
データサイエンティストと言う人らはフロントだけを作るの?

23名刺は切らしておりまして2019/01/12(土) 20:13:22.05ID:0AG1278f
>>1
Julia は?

24名刺は切らしておりまして2019/01/12(土) 20:16:59.67ID:sJf3fT7h
Rはデータ処理しやすいから好き
書き方も好き

25名刺は切らしておりまして2019/01/12(土) 20:17:56.46ID:7pg+voxm
これはおかしい
Pythonが言語として優れてるわけでなく、グーグルとか多数企業が
数値計算、AI関連のモジュールもあとから追加したからだろ。
Javascriptでもよかった

26名刺は切らしておりまして2019/01/12(土) 20:24:06.33ID:7pg+voxm
なぜ機械学習にPythonが選ばれるのか

Google AppEngineの開始当初(2008年4月)にPythonをサポートしていた際には、なんでPythonなんだろうと軽く調べ、教育用として海外では普及しているという認識だった。
2012年〜2013年頃にデータサイエンスがバズワードとなり機械学習する上でR言語と次点でPythonという感じだったと思う。

そして昨今はPython一色になってきている。
私としては何故このように科学計算分野のライブラリが作成され強化されるように至ったのかを知りたくなり歴史から調べてみました。

RubyがRailsにより注目されたように、Pythonでは当初数値コンピューティング用に設計されたものではなかったがリストの概念や関数型言語の基本機能を実装したこと、
Jim Fulton氏(元ZOPE社CTO)が多次元配列・行列ライブラリ「Matrix Object in Python」を開発したことで、
早い段階(Python 1.0から1年後)で科学/エンジニアリングコミュニティに注目され「Matrix-SIG」が設立、
後の「NumPy」が紆余曲折(Numeric(1995年)とNumArray(2001)を統合)を経て2005年にリリースされた。

また幾つかの科学計算用ライブラリをパッケージ化した「SciPy」が2001年にTravis Oliphant氏らによりリリースされた。
その後はEnthought社が2001年に米国で設立され、SciPyをベースにツールやパッケージやサポートを提供、また科学技術計算向けの「SciPy Conference」と呼ばれる会議の開催を支援して行く。

Pythonが、科学技術計算で使われるようになるであろう理由のもう一つに着目した。
オープンソースプロジェクトは開発リソースが限られ、開発の中心メンバーが何らかの理由で参加しなくなった場合、一気にそのプロジェクトが衰退する場合があるが、
特に科学技術計算関係のパッケージについては民間企業が本格的にサポートとしており、オープンソースソフトウェアとして公開する体制が整っている。

民間企業の代表的なのが、Enthought社とContinuum Analytics社である。
Enthought社は科学技術計算用パッケージ群「Scipy Stack」を提供し、科学技術計算向けの「SciPy Conference」と呼ばれる会議の開催を支援している。
Continuum Analytics社はPythonディストリビューション「Anaconda」を提供し、データ分析向けの「Py Data」と呼ばれる会議の開催を支援している。

また、GoogleもPython作者のGuido van Rossum氏を2005年に雇用したり、「Google Summer of Code」というオープンソースの開発に資金を提供するプロジェクトを2005年に作成し、
機械学習ライブラリの「scikit-learn」や多変量回帰分析・時系列分析ライブラリ「statsmodels」がリリースされています。
科学技術計算分野のキーマンは、「SciPy」と「NumPy」の作者でもあるTravis Oliphant氏であろう。
http://qiita.com/yaju/items/5502115d7e3d06e6bbdd

27名刺は切らしておりまして2019/01/12(土) 20:27:33.19ID:bz9KFmyJ
普段業務でR言語を利用するなんて日本なわけないと思ったらやっぱり日本じゃなかった

28名刺は切らしておりまして2019/01/12(土) 20:33:18.62ID:FyOIkd6T
>>27
別に日本でも使うだろ。
研究者やデータサイエンティストとかなら。
ITドカタだけが仕事でプログラミングしてるわけじゃねーんだぞ

29名刺は切らしておりまして2019/01/12(土) 20:37:41.08ID:bz9KFmyJ
>>28
趣味レベルだろ

30名刺は切らしておりまして2019/01/12(土) 20:39:23.01ID:FyOIkd6T
>>22
機械学習とかはサーバサイドだろ。
サーバでPythonが動き、C/C++で書かれてコンパイルされたライブラリーを呼び出す。
サーバサイドのフレームワークはPHP/Ruby/Pythonあたり。
フロントエンドではJavascript/HTML/CSSが動き、
C#とかJava書かれたソフトも動いてるかもしれん。

今時1つの言語じゃ大したことできねーぞ。

31名刺は切らしておりまして2019/01/12(土) 20:41:28.24ID:FyOIkd6T
>>29
仕事で使ってるんだぞ?立派な業務使用。
商用ソフトのクオリティではないだけの話。
そこは目的が違うだけ。

英語で言ったら「英語は通訳しか仕事で使わない」
と言ってるようなもん

32名刺は切らしておりまして2019/01/12(土) 20:43:09.54ID:FyOIkd6T
日本のプログラマに多い、
SIとかでクライアントの社内システムしこしこ作ってるようなのが、
むしろプログラマーの中では底辺だからな。

33名刺は切らしておりまして2019/01/12(土) 20:51:34.47ID:RxXl9REQ
Rかじった程度の統計の人やプログラム未経験だけどとにかくクエリは自力でかけますみたいな人たちにとっては取っつきやすいみたいですね
純粋なプログラマーにはクソ言語にしか見えない

34名刺は切らしておりまして2019/01/12(土) 20:55:54.96ID:FyOIkd6T
純粋なプログラマーって言い方が謎だが、
プログラミングそのものでお金をもらってるのと、
何か成果を出すためにプログラミングをツールとして
使ってる人ではそりゃ見方が違うだろ。

35名刺は切らしておりまして2019/01/12(土) 21:04:11.03ID:7pg+voxm
>>30
全体でみればそうかもしれないが。
データサイエンティストとして要求されるのはPythonにほぼ限定されるかと。
機械学習とかAIはPythonでやって結果は別人、グループへ。

36名刺は切らしておりまして2019/01/12(土) 21:23:54.55ID:4kOuee7Y
システム化にこそ価値が宿る

37名刺は切らしておりまして2019/01/12(土) 21:44:28.59ID:bl6GrAb2
Python簡単で便利だしな
情報工学の基礎を学んでない人でも扱える

38名刺は切らしておりまして2019/01/12(土) 22:03:11.01ID:PAeBiU62
じゃあなに、偉そうに書いている割に俺らと一緒でAPIをぽちぽち叩く人らなんだ
なんだそれ

39名刺は切らしておりまして2019/01/12(土) 22:12:15.59ID:03hknbTV
>>38
プログラミング環境はただの道具
実現したいことがさくっと実現できればそれでおk
と通りすがりのScheme使いが言ってみる

40名刺は切らしておりまして2019/01/12(土) 23:05:12.35ID:or34q7p2
>>11
主な理由の1つだな
もう1つは非常にとっつきやすくて、昔でいうperl的なニーズなんだと思う

41名刺は切らしておりまして2019/01/12(土) 23:06:28.94ID:or34q7p2
>>38
勝手に偉そうに感じてるだけだろ
単純な関数みたいには使いこなせんよ

42名刺は切らしておりまして2019/01/12(土) 23:21:51.98ID:Jk8z6VDP
お前らプログラムやってるのか知らんがデータサイエンティストはお前らと全く違う職種だから
言語ってスレタイで自分の領域だと勘違いして入るのはクルマの免許しかないやつがバイクスレに入るようなもん

43名刺は切らしておりまして2019/01/12(土) 23:37:58.42ID:yTAZ7IAR
Rの女

44名刺は切らしておりまして2019/01/12(土) 23:50:23.56ID:Pf6VbnVt
マジレスすると一番必要なのはSQLだろ笑笑

45名刺は切らしておりまして2019/01/12(土) 23:59:40.74ID:HhxoKhz8
>>11
何パーセントとか関係ないでしょ。
CにしろJavaにしろPythonにしろ言語作ったのは数人〜数十人とか。
それを何百万人ものプログラマが使ってる。

人数の多寡ではなく影響力。
影響力ある人が数人でも始めればそれが波及する。

アメリカで機械学習をやってる人たちってのは影響を与える側。
その人たちがPythonを使い出せば、新しいアルゴリズムの
ライブラリや機械学習の教科書のコードがPythonで書かれるようになる。
やがて他国の研究者もそのライブラリを使うためにPythonに乗り換える。

日本のITエンジニアが何言語使おうと世界に影響は殆どないけどね。

46名刺は切らしておりまして2019/01/13(日) 00:02:49.29ID:cXFUuuq3
>>42
ワロタ

確かに、
「車のほうが値段高いから俺のほうが偉い」
とか無意識に思ってそう。

47名刺は切らしておりまして2019/01/13(日) 00:07:23.78ID:wx3Zu4C3
>>42
データサイエンティストと組んで仕事してるけど
今時は理論だけじゃ仕事にならんよ
システムに組み込める形にできないと

48名刺は切らしておりまして2019/01/13(日) 00:12:37.48ID:GObm6Thu
python は perl5 の次のステップアップで覚えた言語
データ処理は出力がある程度まとまっている Rに任せてる

49名刺は切らしておりまして2019/01/13(日) 00:13:11.03ID:tG0QmgRX
クルマに例えるなら、日本でプログラマといって連想する人たちはタクシーやトラックの運転手に当たる。

で、日本に自動車メーカーがないようなもんだな。日本のIT業界を例えると。
クルマに関わる人は本来、メーカーの社員、大学の社員、レーサーとか色々いるけど、
タクシーやトラックの運転手しかないから国民は
「将来は車を扱うんだというと、トラックやタクシーの運転手しか連想できない」

あろうことか、そのトラックやタクシーの運転手たちが
「俺たちが車を一番運転してるから、車のことを一番分かってるんでい。
 トヨタの開発者?俺たちより運転してないだろ」
とメーカーの社員よりえらぶってる状況。それが日本のIT業界。

50名刺は切らしておりまして2019/01/13(日) 00:31:45.30ID:Ci4YzD6F
細かなところで言語仕様がイラッとくるから好きじゃない

51名刺は切らしておりまして2019/01/13(日) 00:34:59.99ID:T2tvEFxv
>>49
分かる。
データサイエンティストとか聞いて、てっきり計算科学やってる人の事かと思ったら、
只の技術屋じゃん。
サイエンティストって。。。

52名刺は切らしておりまして2019/01/13(日) 00:42:52.73ID:VgsFpufp
なんで電子マネーみたいに無駄にポコポコ新言語作るんだ?

53名刺は切らしておりまして2019/01/13(日) 00:53:09.41ID:Ci4YzD6F
>>52
AIやらディープラーニングやら目的が細分化して、その用途に合わせるためだったり、
プログラミングのパラダイムが変遷して、その変化に合わせたりとか、
プラットフォームの多様化して、固有のプラットフォームに特化したりとかで様々。

ただpythonは結構古い。もうすぐ30年になる。

54名刺は切らしておりまして2019/01/13(日) 00:59:43.61ID:6q6Qw5AL
Rってソフトウエアってイメージあったわ

55名刺は切らしておりまして2019/01/13(日) 01:00:22.03ID:yQoop5da
いやだからさ、アセンブラレベルで最適化したCモジュールやフレームワークを提供する側の人間かと思ったら
そのへんのプログラマ同様、pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
これでサイエンティストとか名乗られても、ただのプログラマじゃん

56名刺は切らしておりまして2019/01/13(日) 01:02:03.59ID:rs+IoQeE
うちはブルジュアだからSAS

57名刺は切らしておりまして2019/01/13(日) 01:02:38.48ID:Ci4YzD6F
>>54
Mathematicaに近いイメージか

58名刺は切らしておりまして2019/01/13(日) 01:06:10.32ID:rk6nPjSo
>>55
一行目がプログラマで、サイエンティストはエンドユーザーかと

59名刺は切らしておりまして2019/01/13(日) 01:28:48.85ID:13OGwtBI
python自体は遅いけどnumpyのようなライブラリは早いじゃん

60名刺は切らしておりまして2019/01/13(日) 01:29:31.94ID:Lqlv4ZuM
データサイエンティスト≒統計家じゃね

61名刺は切らしておりまして2019/01/13(日) 01:33:54.48ID:LP8DwHKq
>>55
> アセンブラレベルで最適化したCモジュールやフレームワークを提供する
これはエンジニアの仕事。サイエンティストの仕事では無い。

> pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
サイエンティストはプログラミング能力で評価されるわけでは無い。
データサイエンティストならデータから有用な結果を引き出せるかどうかが評価のポイントだろ。

62名刺は切らしておりまして2019/01/13(日) 01:45:45.24ID:LP8DwHKq
ややこしいのは、新しい機械学習のアルゴリズムを作る
例えばヒントンのような人はコンピュータサイエンティストの
くくりの方が適切(多分)ってこと。

そういう意味でデータサイエンティストよりデータアナリストとか
統計技術者という言い方の方が適切なのかもしれない。

63名刺は切らしておりまして2019/01/13(日) 02:02:49.47ID:Xagx+4Vu
データサイエンティストとデータアナリストは別な
データアナリストはExcelでグラフ作ってプレゼンしたりする奴ら
データサイエンティストはRやPythonで予測モデルを作る奴ら

64名刺は切らしておりまして2019/01/13(日) 02:17:11.65ID:BC+9xAcO
データサイエンティストはエクセルも作るし、プレゼンもするぞ。モデルも作る

てか、エクセル作るためにモデル必要だし
エクセル作るだけの仕事なんてまずないだろ。それじゃただのコンサルじゃないの?

クライアントに寄り添ってデータ分析するのがデータサイエンティスト
彼らの実装をよりエレガントにエフェクティブにするのが機械学習エンジニア
その実装や必要なデータ整備を分散化、自動化するのがデータ基盤エンジニア

実際ははっきりとは分かれず
兼務してることが大半だと思う
特にデータサイエンティストと機械学習エンジニア

65名刺は切らしておりまして2019/01/13(日) 02:29:01.95ID:caw1iggm
 
データアナリスト = データを分析して傾向を割り出す
データサイエンティスト = データを分析して予測を立てる
機械学習エンジニア = 鑑別器の正解率を高めるように特徴量を際立たせる

こんな感じか?

66名刺は切らしておりまして2019/01/13(日) 02:34:11.89ID:yQoop5da
ヘボい
こんなんで年収がいいんだ、おれもデーターサイエンティスト()目指そうかな

67名刺は切らしておりまして2019/01/13(日) 02:47:16.83ID:BC+9xAcO
>>66
人間性スキルが必要だから
君には無理だよ

68名刺は切らしておりまして2019/01/13(日) 03:31:04.34ID:tG0QmgRX
>>66
学位あって英語できりゃ年収2000万ねらえるよ。頑張って。

69名刺は切らしておりまして2019/01/13(日) 04:03:21.73ID:w+vTZU2B
>>14
なんか、いろいろとバカが滲み出ている発言だなw

70名刺は切らしておりまして2019/01/13(日) 04:08:52.57ID:YYj9J9ni
技術スレ特有の
上から目線のきもいヤツ湧きすぎ

71名刺は切らしておりまして2019/01/13(日) 04:26:14.26ID:PCzZ6H6e
π損もやっといた方がいいかなー
色んな言語に手を出すには日本人エンジニアの余暇は少なすぎるのだけど

72名刺は切らしておりまして2019/01/13(日) 04:31:17.45ID:k4IKoDS7
>>67
人間性スキル(爆笑)

73名刺は切らしておりまして2019/01/13(日) 05:43:02.74ID:ZgmZpark
データサイエンティスト?
また胡散臭げなコンサルがでてきたんか

74名刺は切らしておりまして2019/01/13(日) 08:25:50.71ID:QussHjZD
ライブラリ頼みでPython使ってるだけでデータサイエンティストとかw

75名刺は切らしておりまして2019/01/13(日) 09:03:04.78ID:oJ9+JRM2
>>67
そんなことを言ってるから日本一人負けなんだよ

76名刺は切らしておりまして2019/01/13(日) 09:04:17.78ID:8E8SQ8s3
真のデータサイエンティストならば断定口調で語る可能性は優位にあるとは言えない

77名刺は切らしておりまして2019/01/13(日) 09:19:31.15ID:4qHb4AL0
>>60
統計ではなくパターン化がデータサイエンティストの仕事

将来こうなるorこうするだろう、
っていうのが、データサイエンティストには読める

78名刺は切らしておりまして2019/01/13(日) 09:23:52.78ID:4qHb4AL0
>>69
おまえが無知なだけですよ

数字を読んで傾向を割り出すのがAIの仕事

傾向からパタン認識して未来予測するのがデータサイエンス

79名刺は切らしておりまして2019/01/13(日) 09:28:44.13ID:R/3igTmB
言語、言語言ってる連中は間違いなく素人。
プロのこだわりはドメイン設計とメッセージングとデザインパターン
これに尽きる。

80名刺は切らしておりまして2019/01/13(日) 10:18:03.32ID:VSzeClV0
>>18
実務経験ないんだろうけど。
海外じゃ理系だの文系だのといった馬鹿な区分けはないんだよ。

PythonもだけどR使ったことない学生なんて
勉強してないって自分から言ってるようなもんだし
外資じゃ絶対雇わないよ。

81名刺は切らしておりまして2019/01/13(日) 11:29:55.10ID:L0m1Tzpz
単なる分析屋なの?
新しいアルゴリズム開発するとかじゃないのか。

82名刺は切らしておりまして2019/01/13(日) 12:01:04.24ID:7HNKg5tW
numpy, scipy, scikit-learn
この3つの影響が大きいと思う

83名刺は切らしておりまして2019/01/13(日) 12:40:47.79ID:4VcpaMum
今メインはMatlab+Statistical Toolboxで計算してて,たまにR使うくらいなんだけど,
Pythonに置き換えるってのはなんかメリットある?
やってるのはMCMCとかの1000行くらいから10000行くらいの計算。
Matlab使いやすいからずっと使ってるんだけど,最近Pythonをよく聞くのでちょっと気になってる。

84名刺は切らしておりまして2019/01/13(日) 12:56:12.84ID:BC+9xAcO
論文読んでアルゴリズムを拝借するだけの
データサイエンティスト馬鹿にしてるくらいなんだから

きっと著名なアルゴリズムを生み出して
社会に貢献をしてるんだろうなあ

85名刺は切らしておりまして2019/01/13(日) 12:57:35.18ID:pSQYDZ7L
>>25
言語としても優れてるよ

実装したいアルゴリズムをコンパクトに記述できる
型定義や型変換など、アルゴリズムとは関係ない余計な記述が殆どいらない
インデントで構造が明確で、閉じカッコの様な余計な行が不要

pythonだと、人間はアルゴリズムに集中できる
他の言語ではコンパイラやインタープリターを支援する為に、どれだけ余計な記述を強いられているかがわかる
コードが読みやすいので、仕様書は要らず、数カ月前に書いたコードでも動作を思い出せ、改造が楽

職業プログラマーではない、サイエンティストにとって、最適な言語だ

86名刺は切らしておりまして2019/01/13(日) 13:07:38.53ID:4VcpaMum
>>85
そうかー,今MATLABで計算しているので,できるだけFORループを使わないように行列演算だけでなんとかならないかと苦戦してるんだけど,それもなくなるのか。
まあ,MATLABは関数の型宣言が全くいらず,いきなり行列を代入することができるのがむちゃくちゃ楽なんだけど。
でもアルゴリズムに集中できるというのはいいね。ちょっとインストールしてみようかな。

87名刺は切らしておりまして2019/01/13(日) 13:10:05.47ID:pSQYDZ7L
>>78
逆だろ

数字を読んで傾向を割り出すのはデータマイニングで、AIじゃない

また、データマイニングも、数字をそのまま入力して良い結果が得られるケースは殆ど無く、人間が数字を読んで前加工して、適切なマイニングツールを選ばなきゃならない
それがデータサイエンティスト

データサイエンティストが組んだ前処理とマイニングツールの組み合わせを使って、新たなデータから傾向を見出して、何かのアクションを自動化するのがAI

88名刺は切らしておりまして2019/01/13(日) 13:26:16.43ID:Ev0OzgOy
>>86
for loop使わずに行列計算したほうが早いのはpythonも同じ。
裏でどういう処理してるか考えれば分かると思うが。

pythonのnumpyっていう実質的な標準ライブラリを入れると、
MatlabやRと同じ行列演算ができるようになる。

matlab、R、python一通り使ってきたけど、
計算するだけならmatlabが一番楽だね。
環境が製品として閉じてるから。
pythonはプログラミングより環境構築が難しい。

89名刺は切らしておりまして2019/01/13(日) 13:31:25.77ID:Ev0OzgOy
>>83
別にMatlabで何の問題なくできてるなら、問題はない。

Pythonが好まれてるのはオープンだから。
Matlabは商用ソフトなんで誰でも使えるわけじゃない。
あなたが書いたコードを共有するときに問題になる。

新しいアルゴリズムがデファクトで、
pythonで実装されるようになりつつあるから、
次第にpythonを使わざるをえなくなる機会は増えていく

90名刺は切らしておりまして2019/01/13(日) 13:57:47.62ID:D4GElc6G
全部VBでできるだろ
VB.NETを使えっての
てか、データサイエンティストって何なんだよ

91名刺は切らしておりまして2019/01/13(日) 14:06:41.60ID:4VcpaMum
>>88
>>89
ありがとう。つまり年間10万くらいMathworksにお布施してるのは意味があるってことか。
まあ,俺が作ったFFTのCのプログラムよりインタプリタのMatlabのFFTのほうが速かったときは
びっくりしたもんな。やっぱり売り物はよくできてるってことか。

>>90
お前はマシン語でもやってろ。何でもできるぞ。

92名刺は切らしておりまして2019/01/13(日) 15:03:08.00ID:YWud//Y+
dplyrが出てからpythonでなくてもRは前処理楽になったよ。
Rとpython両方できてないと他人のコード読めないので、片方だけという
人は少ない

93名刺は切らしておりまして2019/01/13(日) 15:07:18.43ID:K7d3Qawg
では、>>90は我々低レベルプログラミング勢が貰い受ける
まずIntelの仕様書を渡すところから始める

94名刺は切らしておりまして2019/01/13(日) 15:39:11.20ID:pSQYDZ7L
>>89
計算するだけならmatlabやRで良い事に同意

その計算モジュールをWebAPIやMQ等で他のモジュールと連携させたり、MongoDBやRedis等のDBを読み書きしたりと、システム化してAIにするには、pythonの方が便利

要は、バッチでデータ処理してた時代から、クラウドでAIする時代に変わり、pythonがトップになったんだと思う

95名刺は切らしておりまして2019/01/13(日) 15:46:50.50ID:RuWdLfwG
ExcelとRで回帰分析しかできないようなのはなんちゃってデータサイエンティスト。
それでもデータで経営層を動かせるからプログラマーより評価されるだけ。

96名刺は切らしておりまして2019/01/13(日) 16:45:22.54ID:maVCz2LA
なんだよ
回帰分析って
そんなの知らねーよ

97名刺は切らしておりまして2019/01/13(日) 16:46:48.10ID:4VcpaMum
>>95
違う。ExcelとRで経営層を動かせるほどの結果が出せる奴がすごい。
あくまでも統計的手法は道具であり,よい道具を使ったらよい結果が出るわけではない。
すごいデータサイエンティストは,道具がすごいのではなく,データを見抜く力がすごい。
思ってもみなかったものに,ものすごく単純な統計的手法を適用して,びっくりする結果を出す。
これがほんとのデータサイエンティスト。

98名刺は切らしておりまして2019/01/13(日) 16:48:16.74ID:FYelBOa0
ゲロおそパイソン

99名刺は切らしておりまして2019/01/13(日) 17:09:33.65ID:d2U21Etj
>>61
>データから有用な結果を引き出せるかどうか

ホントにな
言語とか正直どうでもいいだろ
カンタンにミスなく書けてデータが取り回せれば
・・・行きつくとpハックの話もあるけど(白目

100名刺は切らしておりまして2019/01/13(日) 17:13:09.10ID:kxpdShTD
データオナニスト職にはどんな言語が求められるの?

101名刺は切らしておりまして2019/01/13(日) 17:19:52.92ID:iT7GDQh4
S言語やろ

102名刺は切らしておりまして2019/01/13(日) 17:32:33.57ID:rhsezMRT
>>100
すごいH本を読んでマサカリマスターになることが求められる
パイソンのインデントが好きならオナニストへの道はおのずと開けよう

103名刺は切らしておりまして2019/01/13(日) 17:44:29.55ID:4qHb4AL0
>>100
>>102
まじレスするとJPGのバイナリ眺めるだけで画像の内容がわかるwww

良い子は真似しないようにねw

104名刺は切らしておりまして2019/01/13(日) 18:21:48.70ID:ldWl6bNC
>>6
スピードかかる所は
Cのプラグイン化でええだろ

105名刺は切らしておりまして2019/01/13(日) 19:23:23.14ID:+BOauHG8
Rは時代の敗北者じゃけえ

106名刺は切らしておりまして2019/01/13(日) 19:46:14.85ID:kjkKo3BF
統計つかうときはEZRでやってる
本職でもなんでもないし

107名刺は切らしておりまして2019/01/13(日) 19:47:59.32ID:V2X5Wl0W
>>100
ヘブライでヤハウェ様にオナンの罪を詫びる

108名刺は切らしておりまして2019/01/13(日) 19:49:20.08ID:HTfs0EzX
【ネットカフェ難民】 オランダでは空き家があったら勝手に住んでよし、自民党はローン破産者を立退き
http://rosie.5ch.net/test/read.cgi/liveplus/1547370054/l50

109名刺は切らしておりまして2019/01/14(月) 01:07:16.91ID:ANYUp8A4
抽象的な話じゃなくてデータサイエンティストのすごい論文って具体的にどれよ

110名刺は切らしておりまして2019/01/14(月) 02:56:00.78ID:DWDpj2yF
>>6
R は Pythonに輪をかけて遅い。
Python自体はスクリプト言語だからメチャ速くはないけどCで書かれたnumpyやpandasをうまく活用してPythonはそういった外部ライブラリを繋ぐ糊だと考えればいい。

111名刺は切らしておりまして2019/01/14(月) 09:11:53.57ID:VFbIvcx/
>>110
思うんだけど、matlabとかR使ってる研究者って
競争に負けないように、GPGPUとか3Dハードウェアアクセラレーションを使える
高度なソフトを勉強しようとは思わないのかね?

112名刺は切らしておりまして2019/01/14(月) 09:45:33.15ID:+vGczbyk
>>111
matlabとかRってGPU使えないの?

113名刺は切らしておりまして2019/01/14(月) 10:03:40.12ID:VFbIvcx/
>>112
調べたらAI用途でならあった
https://www.mathworks.com/solutions/gpu-computing.html
これならどの言語、どのアプリ使っても対して違いはないね

114名刺は切らしておりまして2019/01/14(月) 10:43:03.42ID:DXceOEIq
>>103
人工知能を研究している人間の中には、マジでそういう能力持ってるやついるらしいな。

115名刺は切らしておりまして2019/01/14(月) 10:44:03.49ID:DXceOEIq
>>113
無料じゃないなら意味なし。
片手落ちだよ。

116sage2019/01/14(月) 10:53:44.11ID:GZJXSzNG
>>115
>無料じゃないなら意味なし。
年収2000万ごえのプログラマーの意見ではないな?

117名刺は切らしておりまして2019/01/14(月) 10:56:34.57ID:YEh02L37
>>111
CPUとGPGPUで計算結果に相違が出るなんてしょっちゅうだし
GPGPU上で使えるライブラリ激減するし
使えるメモリ明らかに減るしで
使い所がかなり限定されるものに大金出すアホはそうそういないw

118名刺は切らしておりまして2019/01/14(月) 11:04:30.82ID:12jd86v2
>>110
別に研究者全員がごりごりの計算屋じゃないんだって。
MATLABだと10秒かかる計算をCだったら1秒以内だからって,
わざわざコンパイラ通すプログラム作るより楽でしょ?
俺の場合はMATLABで10時間以内で計算できるんだったら,MATLAB使うかな。
プログラムできてしまえば,一晩置いとけばいいからね。
CはMATLABじゃ数日かかってしまうようなものオンリーだな。
俺はプログラマーとしては素人同然なので,配列の面倒くさいポインターとかを考えるの嫌なんだよ。

119名刺は切らしておりまして2019/01/14(月) 11:09:59.92ID:ILDDor57
データサイエンスに求められるレベルが違うんだよなあ
pythonができる人がただ、データーを半分にして重回帰しただけのものを機械学習って言われてもただ、条件分岐を数学的にやってるだけ
Rは統計ができる人が使うからデータサイエンスとしてのレベルが違う

120名刺は切らしておりまして2019/01/14(月) 11:11:09.30ID:VFbIvcx/
>>118
時代はGPUからFPGAに代わってきているし、Cみたいな高級言語覚えてもあんま意味ないよね
そう思ったとき、色々手早く動作テストするのには、適当に使える楽なPythonがいいという話になる

121名刺は切らしておりまして2019/01/14(月) 11:14:59.42ID:vGJIuwdy
R使う研究者とか、Python使う研究者とかそういうのはいないよ。
俺は研究者だけど、R, MATLAB, Python, C/C++, Java この辺は一通りできる。
周りもだいたいそう。
その時その時で使うライブラリによって使い分けてるだけ。

122名刺は切らしておりまして2019/01/14(月) 13:18:02.39ID:GDo+WvWK
底辺が大好きな言語やん

123名刺は切らしておりまして2019/01/14(月) 13:20:30.55ID:Z9j0/HNp
そりゃあそうだろ
研究者ならそれで別にいいけど
ビジネスでは全く違うから

研究者の世界を
ビジネスに持ち込まれても困るし
逆もまた然り

124名刺は切らしておりまして2019/01/14(月) 13:30:33.41ID:vGJIuwdy
>>123
ビジネスって言ったら全部ビジネスだよ。研究もビジネス。
プログラミングが関わってくる仕事は、
基礎研究、統計解析、商用開発、委託開発などなど色々あるってだけの話。

125名刺は切らしておりまして2019/01/14(月) 13:58:50.84ID:+vGczbyk
>>117
CPUとGPUの計算結果が異なることが問題になるって、
アルゴリズムがピーキーすぎんか?

126名刺は切らしておりまして2019/01/14(月) 14:12:44.47ID:MQZICMLT
>>2
それでいうと、現場を知らないと問題意識が芽生えないので、データの関係だけを明らかにはできるかもしれないが、意味のある分析はできない

127名刺は切らしておりまして2019/01/14(月) 16:19:26.23ID:cVDGiTvv
>>90
ワロタ

128名刺は切らしておりまして2019/01/14(月) 16:27:07.46ID:YEh02L37
>>117
アルゴリズムじゃなくてハードウェアの構成の違い
CPUとGPGPUとじゃ内部の加減乗除の計算順も
変わってくるから下数桁の違いなんてザラ

そんなもんだと割り切れる分野なら良いけど
カオス現象みたいに違いが深刻になる分野じゃ使えない

1291282019/01/14(月) 16:29:04.55ID:YEh02L37
>>117じゃなくて>>125の間違い

130名刺は切らしておりまして2019/01/14(月) 16:50:56.68ID:/UEfQiSk
日本語で会話しろよ。
さっぱりわからんぞ…

131名刺は切らしておりまして2019/01/14(月) 17:16:03.31ID:nQ4YlO+g
カオス現象は微細な数値の差で全体の挙動が歴然と違ってしまうから桁処理とかちゃんと揃えないとダメですって話だと思われ。。。

132名刺は切らしておりまして2019/01/14(月) 17:31:27.77ID:CoKRUuad
ハード、特にセンサーをいじれないからデータサイエンティストなんてクソ。

133名刺は切らしておりまして2019/01/14(月) 18:28:34.70ID:M0b3RSoy
R言語はデータ整形に使ってるけど
エクセル以上Python未満で使い所よく分からないイメージ

134名刺は切らしておりまして2019/01/14(月) 19:41:19.60ID:12jd86v2
>>132
あのね。ハード,特にセンサとか言ってるけど,話してるレベルが全然違うの。
センサっていうのはどのようにしてデータ取るかって手法なんだよ。
データ取得まで解析者がかかわれるなら,解析手法に合ったデータとりゃいいだけなの。
データサイエンティストってのは,ありもののデータをどうやって料理するのかっていう仕事なんだよ。
データはもうそこにあるんだよ。解析に向いていないノイズだらけのデータからいかにして
情報取り出すかって仕事なの。

135名刺は切らしておりまして2019/01/14(月) 20:04:54.12ID:+vGczbyk
>>128
カオスならそんなに神経質にならなくても良いんじゃ無い?
結果がカオスなのが当然なんだから。
そもそも、CPUだって仮数部52bitとかで切り捨ててるんだし。

136名刺は切らしておりまして2019/01/14(月) 20:34:40.84ID:hHdDfb9c
>>135
カオスだから滅茶苦茶でも良いわけじゃないよ?
初期値鋭敏性で結果が大きく変わって行くってだけで、それでも決定論的なのがカオスなんだから
同じ初期値なら一定時間後の結果は同じものが計算されてるって前提で計算出来なきゃ
計算してる意味無いよ

137名刺は切らしておりまして2019/01/14(月) 20:51:57.16ID:+vGczbyk
>>136
それ、CPUが変わったら結果変わりました
じゃ意味なくね?

138名刺は切らしておりまして2019/01/14(月) 21:16:36.93ID:hHdDfb9c
>>137
そうならないように精度保障とか使うんだけどさw

精度保障とかやってもCPUとGPGPUはアーキテクチャの違いが大きいから
同じ初期値でCPUかGPGPUかで違う結果が出てくる可能性がある事が問題なわけよ

139名刺は切らしておりまして2019/01/14(月) 21:18:03.41ID:CoKRUuad
>>132
そんなこと言ってるから仕事にならない。

140名刺は切らしておりまして2019/01/14(月) 21:20:14.98ID:CoKRUuad
システムを考えられない下請け屋がデータサイエンティストじゃん。

141名刺は切らしておりまして2019/01/14(月) 21:25:28.19ID:CoKRUuad
>>90
言いたいことはわかる。CかアセンブラでDLL作らないと悲惨なほどに遅い。
PythonもDLLを作ったほうが速い。
同じようなもんだよ。

142名刺は切らしておりまして2019/01/14(月) 21:39:45.26ID:U/LfWCmZ
RとPythonじゃちょっと用途が異なるんじゃ?

143名刺は切らしておりまして2019/01/14(月) 21:41:43.69ID:U/LfWCmZ
じゃあJuliaで。

144名刺は切らしておりまして2019/01/14(月) 23:20:58.64ID:1gk6uVin
GPGPUはもう時代遅れ。今後はTPUの時代

145名刺は切らしておりまして2019/01/15(火) 00:19:23.55ID:vnQAN2JM
>>134
捏造ですね。わかります by 厚生労働省

146名刺は切らしておりまして2019/01/15(火) 05:20:40.65ID:onYs7G8q
ロシアとか韓国のような弱小国を相手にするときは
 (ロシアのGDPは、韓国より少ない)
相手国のトップ(プーチン)以外は無視でいい!
  決済権限の無い下っ端ペーペーの 
  ふんどし担ぎのすっとこどっこいの
  何も知らない馬鹿な小役人(外相)
なんか相手にしても、時間の無駄である!
かまってやれば、付け上がるだけだ

147名刺は切らしておりまして2019/01/15(火) 16:02:21.89ID:y0e8IQD2
まあ普通に複数をつかいわけるよな

148名刺は切らしておりまして2019/01/15(火) 22:28:57.64ID:1NZLSlBE
データサイエンティストに将来がないと思いますよ。
GAFAのような起業をできなければプログラマと同じような労働者としてこき使われる事になるでしょう。
システムやビジネスがわからないからこそデータサイエンティストでいるわけでしょう。

149名刺は切らしておりまして2019/01/16(水) 01:32:25.24ID:5qfxudTu
>>48
プログラマもピンキリ,データサイエンティストもピンキリ。
単にそれだけ。

150名刺は切らしておりまして2019/01/16(水) 02:59:29.33ID:NnhXOF4C
>>120
Cはpythonと比べたら低級言語だろw

151名刺は切らしておりまして2019/01/16(水) 09:32:24.97ID:m7SIPnwH
>>148
データサイエンティストという肩書の人は上流で仕事をしてるから奴隷にはならない。
PGに例えると、大企業に入ってパワポ職人をしてる高学歴と同じ

152sage2019/01/16(水) 17:37:01.45ID:Yetqe6QR
>>151
>大企業に入ってパワポ職人をしてる高学歴
ウチの会社には,そんな奴はいないぞ。
今の世の中,それが許される会社があるのかい?!

153名刺は切らしておりまして2019/01/17(木) 01:07:03.23ID:9SsBocjv
世の中のこと
何もわかってない奴ばかりだね

そりゃ薄給にもなるわな

154名刺は切らしておりまして2019/01/17(木) 01:24:19.04ID:NP53sASD
俺の学生の頃は S だったな。それが、R に進化した。

155名刺は切らしておりまして2019/01/17(木) 19:33:46.76ID:0ujw0n2R
データサイエンティストって楽?

156名刺は切らしておりまして2019/01/18(金) 00:35:34.99ID:yJ75/y2S
>>154
進化っていうかS言語をフリーで使えるように実装したのがRだよ

157名刺は切らしておりまして2019/01/18(金) 04:10:15.01ID:vMeDuAr6
言語としてはどちらもフリーだろ。
Sのフリー実装がRではなく進化してるんだろ。劣化もしてる部分あるかもしれないが詳しく知らない。

158名刺は切らしておりまして2019/01/18(金) 06:30:01.38ID:iUyR6OmT
>>152
予算獲得ならパワポがいちばんだよ

パワポ3枚で500億ぐらいがめて来る

新着レスの表示
レスを投稿する