【IT】データサイエンティスト職に求められる言語のトップに「Python」--「R」を上回る
■ このスレッドは過去ログ倉庫に格納されています
「Python」と「R」はデータサイエンティスト職の求人で最も多く要求されるスキルに数えられている。ところが、こうしたプロフェッショナルの仕事で最も頻繁に使用されているプログラミング言語について調査した複数の報告書によると、実際は評価が分かれるという。Cloud Academyの米国時間12月27日付の報告書で明らかになった。
まず、TIOBE Programming Community Indexによれば、2018年の検索エンジンのリクエスト数でみたRの順位は下降気味だったという。だが、データプロフェッショナル1万6000人を対象に実施したKaggleの調査では、全体で最も人気の高いプログラミング言語はPythonであるものの、統計およびデータサイエンティストは他のどの職務よりも業務でRを使用している割合が高いことが分かった。データサイエンティストの87%はPythonを、71%はRを業務で使用していると回答していると、同報告書に記
以下ソース
https://japan.techrepublic.com/article/35131060.htm >>29
仕事で使ってるんだぞ?立派な業務使用。
商用ソフトのクオリティではないだけの話。
そこは目的が違うだけ。
英語で言ったら「英語は通訳しか仕事で使わない」
と言ってるようなもん 日本のプログラマに多い、
SIとかでクライアントの社内システムしこしこ作ってるようなのが、
むしろプログラマーの中では底辺だからな。 Rかじった程度の統計の人やプログラム未経験だけどとにかくクエリは自力でかけますみたいな人たちにとっては取っつきやすいみたいですね
純粋なプログラマーにはクソ言語にしか見えない 純粋なプログラマーって言い方が謎だが、
プログラミングそのものでお金をもらってるのと、
何か成果を出すためにプログラミングをツールとして
使ってる人ではそりゃ見方が違うだろ。 >>30
全体でみればそうかもしれないが。
データサイエンティストとして要求されるのはPythonにほぼ限定されるかと。
機械学習とかAIはPythonでやって結果は別人、グループへ。 Python簡単で便利だしな
情報工学の基礎を学んでない人でも扱える じゃあなに、偉そうに書いている割に俺らと一緒でAPIをぽちぽち叩く人らなんだ
なんだそれ >>38
プログラミング環境はただの道具
実現したいことがさくっと実現できればそれでおk
と通りすがりのScheme使いが言ってみる >>11
主な理由の1つだな
もう1つは非常にとっつきやすくて、昔でいうperl的なニーズなんだと思う >>38
勝手に偉そうに感じてるだけだろ
単純な関数みたいには使いこなせんよ お前らプログラムやってるのか知らんがデータサイエンティストはお前らと全く違う職種だから
言語ってスレタイで自分の領域だと勘違いして入るのはクルマの免許しかないやつがバイクスレに入るようなもん >>11
何パーセントとか関係ないでしょ。
CにしろJavaにしろPythonにしろ言語作ったのは数人〜数十人とか。
それを何百万人ものプログラマが使ってる。
人数の多寡ではなく影響力。
影響力ある人が数人でも始めればそれが波及する。
アメリカで機械学習をやってる人たちってのは影響を与える側。
その人たちがPythonを使い出せば、新しいアルゴリズムの
ライブラリや機械学習の教科書のコードがPythonで書かれるようになる。
やがて他国の研究者もそのライブラリを使うためにPythonに乗り換える。
日本のITエンジニアが何言語使おうと世界に影響は殆どないけどね。 >>42
ワロタ
確かに、
「車のほうが値段高いから俺のほうが偉い」
とか無意識に思ってそう。 >>42
データサイエンティストと組んで仕事してるけど
今時は理論だけじゃ仕事にならんよ
システムに組み込める形にできないと python は perl5 の次のステップアップで覚えた言語
データ処理は出力がある程度まとまっている Rに任せてる クルマに例えるなら、日本でプログラマといって連想する人たちはタクシーやトラックの運転手に当たる。
で、日本に自動車メーカーがないようなもんだな。日本のIT業界を例えると。
クルマに関わる人は本来、メーカーの社員、大学の社員、レーサーとか色々いるけど、
タクシーやトラックの運転手しかないから国民は
「将来は車を扱うんだというと、トラックやタクシーの運転手しか連想できない」
あろうことか、そのトラックやタクシーの運転手たちが
「俺たちが車を一番運転してるから、車のことを一番分かってるんでい。
トヨタの開発者?俺たちより運転してないだろ」
とメーカーの社員よりえらぶってる状況。それが日本のIT業界。 細かなところで言語仕様がイラッとくるから好きじゃない >>49
分かる。
データサイエンティストとか聞いて、てっきり計算科学やってる人の事かと思ったら、
只の技術屋じゃん。
サイエンティストって。。。 なんで電子マネーみたいに無駄にポコポコ新言語作るんだ? >>52
AIやらディープラーニングやら目的が細分化して、その用途に合わせるためだったり、
プログラミングのパラダイムが変遷して、その変化に合わせたりとか、
プラットフォームの多様化して、固有のプラットフォームに特化したりとかで様々。
ただpythonは結構古い。もうすぐ30年になる。 いやだからさ、アセンブラレベルで最適化したCモジュールやフレームワークを提供する側の人間かと思ったら
そのへんのプログラマ同様、pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
これでサイエンティストとか名乗られても、ただのプログラマじゃん >>55
一行目がプログラマで、サイエンティストはエンドユーザーかと python自体は遅いけどnumpyのようなライブラリは早いじゃん >>55
> アセンブラレベルで最適化したCモジュールやフレームワークを提供する
これはエンジニアの仕事。サイエンティストの仕事では無い。
> pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
サイエンティストはプログラミング能力で評価されるわけでは無い。
データサイエンティストならデータから有用な結果を引き出せるかどうかが評価のポイントだろ。 ややこしいのは、新しい機械学習のアルゴリズムを作る
例えばヒントンのような人はコンピュータサイエンティストの
くくりの方が適切(多分)ってこと。
そういう意味でデータサイエンティストよりデータアナリストとか
統計技術者という言い方の方が適切なのかもしれない。 データサイエンティストとデータアナリストは別な
データアナリストはExcelでグラフ作ってプレゼンしたりする奴ら
データサイエンティストはRやPythonで予測モデルを作る奴ら データサイエンティストはエクセルも作るし、プレゼンもするぞ。モデルも作る
てか、エクセル作るためにモデル必要だし
エクセル作るだけの仕事なんてまずないだろ。それじゃただのコンサルじゃないの?
クライアントに寄り添ってデータ分析するのがデータサイエンティスト
彼らの実装をよりエレガントにエフェクティブにするのが機械学習エンジニア
その実装や必要なデータ整備を分散化、自動化するのがデータ基盤エンジニア
実際ははっきりとは分かれず
兼務してることが大半だと思う
特にデータサイエンティストと機械学習エンジニア
データアナリスト = データを分析して傾向を割り出す
データサイエンティスト = データを分析して予測を立てる
機械学習エンジニア = 鑑別器の正解率を高めるように特徴量を際立たせる
こんな感じか? ヘボい
こんなんで年収がいいんだ、おれもデーターサイエンティスト()目指そうかな >>66
人間性スキルが必要だから
君には無理だよ >>66
学位あって英語できりゃ年収2000万ねらえるよ。頑張って。 >>14
なんか、いろいろとバカが滲み出ている発言だなw π損もやっといた方がいいかなー
色んな言語に手を出すには日本人エンジニアの余暇は少なすぎるのだけど データサイエンティスト?
また胡散臭げなコンサルがでてきたんか ライブラリ頼みでPython使ってるだけでデータサイエンティストとかw >>67
そんなことを言ってるから日本一人負けなんだよ 真のデータサイエンティストならば断定口調で語る可能性は優位にあるとは言えない >>60
統計ではなくパターン化がデータサイエンティストの仕事
将来こうなるorこうするだろう、
っていうのが、データサイエンティストには読める >>69
おまえが無知なだけですよ
数字を読んで傾向を割り出すのがAIの仕事
傾向からパタン認識して未来予測するのがデータサイエンス 言語、言語言ってる連中は間違いなく素人。
プロのこだわりはドメイン設計とメッセージングとデザインパターン
これに尽きる。 >>18
実務経験ないんだろうけど。
海外じゃ理系だの文系だのといった馬鹿な区分けはないんだよ。
PythonもだけどR使ったことない学生なんて
勉強してないって自分から言ってるようなもんだし
外資じゃ絶対雇わないよ。 単なる分析屋なの?
新しいアルゴリズム開発するとかじゃないのか。 numpy, scipy, scikit-learn
この3つの影響が大きいと思う 今メインはMatlab+Statistical Toolboxで計算してて,たまにR使うくらいなんだけど,
Pythonに置き換えるってのはなんかメリットある?
やってるのはMCMCとかの1000行くらいから10000行くらいの計算。
Matlab使いやすいからずっと使ってるんだけど,最近Pythonをよく聞くのでちょっと気になってる。 論文読んでアルゴリズムを拝借するだけの
データサイエンティスト馬鹿にしてるくらいなんだから
きっと著名なアルゴリズムを生み出して
社会に貢献をしてるんだろうなあ >>25
言語としても優れてるよ
実装したいアルゴリズムをコンパクトに記述できる
型定義や型変換など、アルゴリズムとは関係ない余計な記述が殆どいらない
インデントで構造が明確で、閉じカッコの様な余計な行が不要
pythonだと、人間はアルゴリズムに集中できる
他の言語ではコンパイラやインタープリターを支援する為に、どれだけ余計な記述を強いられているかがわかる
コードが読みやすいので、仕様書は要らず、数カ月前に書いたコードでも動作を思い出せ、改造が楽
職業プログラマーではない、サイエンティストにとって、最適な言語だ >>85
そうかー,今MATLABで計算しているので,できるだけFORループを使わないように行列演算だけでなんとかならないかと苦戦してるんだけど,それもなくなるのか。
まあ,MATLABは関数の型宣言が全くいらず,いきなり行列を代入することができるのがむちゃくちゃ楽なんだけど。
でもアルゴリズムに集中できるというのはいいね。ちょっとインストールしてみようかな。 >>78
逆だろ
数字を読んで傾向を割り出すのはデータマイニングで、AIじゃない
また、データマイニングも、数字をそのまま入力して良い結果が得られるケースは殆ど無く、人間が数字を読んで前加工して、適切なマイニングツールを選ばなきゃならない
それがデータサイエンティスト
データサイエンティストが組んだ前処理とマイニングツールの組み合わせを使って、新たなデータから傾向を見出して、何かのアクションを自動化するのがAI >>86
for loop使わずに行列計算したほうが早いのはpythonも同じ。
裏でどういう処理してるか考えれば分かると思うが。
pythonのnumpyっていう実質的な標準ライブラリを入れると、
MatlabやRと同じ行列演算ができるようになる。
matlab、R、python一通り使ってきたけど、
計算するだけならmatlabが一番楽だね。
環境が製品として閉じてるから。
pythonはプログラミングより環境構築が難しい。 >>83
別にMatlabで何の問題なくできてるなら、問題はない。
Pythonが好まれてるのはオープンだから。
Matlabは商用ソフトなんで誰でも使えるわけじゃない。
あなたが書いたコードを共有するときに問題になる。
新しいアルゴリズムがデファクトで、
pythonで実装されるようになりつつあるから、
次第にpythonを使わざるをえなくなる機会は増えていく 全部VBでできるだろ
VB.NETを使えっての
てか、データサイエンティストって何なんだよ >>88
>>89
ありがとう。つまり年間10万くらいMathworksにお布施してるのは意味があるってことか。
まあ,俺が作ったFFTのCのプログラムよりインタプリタのMatlabのFFTのほうが速かったときは
びっくりしたもんな。やっぱり売り物はよくできてるってことか。
>>90
お前はマシン語でもやってろ。何でもできるぞ。 dplyrが出てからpythonでなくてもRは前処理楽になったよ。
Rとpython両方できてないと他人のコード読めないので、片方だけという
人は少ない では、>>90は我々低レベルプログラミング勢が貰い受ける
まずIntelの仕様書を渡すところから始める >>89
計算するだけならmatlabやRで良い事に同意
その計算モジュールをWebAPIやMQ等で他のモジュールと連携させたり、MongoDBやRedis等のDBを読み書きしたりと、システム化してAIにするには、pythonの方が便利
要は、バッチでデータ処理してた時代から、クラウドでAIする時代に変わり、pythonがトップになったんだと思う ExcelとRで回帰分析しかできないようなのはなんちゃってデータサイエンティスト。
それでもデータで経営層を動かせるからプログラマーより評価されるだけ。 >>95
違う。ExcelとRで経営層を動かせるほどの結果が出せる奴がすごい。
あくまでも統計的手法は道具であり,よい道具を使ったらよい結果が出るわけではない。
すごいデータサイエンティストは,道具がすごいのではなく,データを見抜く力がすごい。
思ってもみなかったものに,ものすごく単純な統計的手法を適用して,びっくりする結果を出す。
これがほんとのデータサイエンティスト。 >>61
>データから有用な結果を引き出せるかどうか
ホントにな
言語とか正直どうでもいいだろ
カンタンにミスなく書けてデータが取り回せれば
・・・行きつくとpハックの話もあるけど(白目 >>100
すごいH本を読んでマサカリマスターになることが求められる
パイソンのインデントが好きならオナニストへの道はおのずと開けよう >>100
>>102
まじレスするとJPGのバイナリ眺めるだけで画像の内容がわかるwww
良い子は真似しないようにねw >>6
スピードかかる所は
Cのプラグイン化でええだろ 統計つかうときはEZRでやってる
本職でもなんでもないし >>100
ヘブライでヤハウェ様にオナンの罪を詫びる 抽象的な話じゃなくてデータサイエンティストのすごい論文って具体的にどれよ >>6
R は Pythonに輪をかけて遅い。
Python自体はスクリプト言語だからメチャ速くはないけどCで書かれたnumpyやpandasをうまく活用してPythonはそういった外部ライブラリを繋ぐ糊だと考えればいい。 >>110
思うんだけど、matlabとかR使ってる研究者って
競争に負けないように、GPGPUとか3Dハードウェアアクセラレーションを使える
高度なソフトを勉強しようとは思わないのかね? >>111
matlabとかRってGPU使えないの? >>103
人工知能を研究している人間の中には、マジでそういう能力持ってるやついるらしいな。 >>113
無料じゃないなら意味なし。
片手落ちだよ。 >>115
>無料じゃないなら意味なし。
年収2000万ごえのプログラマーの意見ではないな? >>111
CPUとGPGPUで計算結果に相違が出るなんてしょっちゅうだし
GPGPU上で使えるライブラリ激減するし
使えるメモリ明らかに減るしで
使い所がかなり限定されるものに大金出すアホはそうそういないw >>110
別に研究者全員がごりごりの計算屋じゃないんだって。
MATLABだと10秒かかる計算をCだったら1秒以内だからって,
わざわざコンパイラ通すプログラム作るより楽でしょ?
俺の場合はMATLABで10時間以内で計算できるんだったら,MATLAB使うかな。
プログラムできてしまえば,一晩置いとけばいいからね。
CはMATLABじゃ数日かかってしまうようなものオンリーだな。
俺はプログラマーとしては素人同然なので,配列の面倒くさいポインターとかを考えるの嫌なんだよ。 データサイエンスに求められるレベルが違うんだよなあ
pythonができる人がただ、データーを半分にして重回帰しただけのものを機械学習って言われてもただ、条件分岐を数学的にやってるだけ
Rは統計ができる人が使うからデータサイエンスとしてのレベルが違う >>118
時代はGPUからFPGAに代わってきているし、Cみたいな高級言語覚えてもあんま意味ないよね
そう思ったとき、色々手早く動作テストするのには、適当に使える楽なPythonがいいという話になる R使う研究者とか、Python使う研究者とかそういうのはいないよ。
俺は研究者だけど、R, MATLAB, Python, C/C++, Java この辺は一通りできる。
周りもだいたいそう。
その時その時で使うライブラリによって使い分けてるだけ。 そりゃあそうだろ
研究者ならそれで別にいいけど
ビジネスでは全く違うから
研究者の世界を
ビジネスに持ち込まれても困るし
逆もまた然り >>123
ビジネスって言ったら全部ビジネスだよ。研究もビジネス。
プログラミングが関わってくる仕事は、
基礎研究、統計解析、商用開発、委託開発などなど色々あるってだけの話。 >>117
CPUとGPUの計算結果が異なることが問題になるって、
アルゴリズムがピーキーすぎんか? >>2
それでいうと、現場を知らないと問題意識が芽生えないので、データの関係だけを明らかにはできるかもしれないが、意味のある分析はできない >>117
アルゴリズムじゃなくてハードウェアの構成の違い
CPUとGPGPUとじゃ内部の加減乗除の計算順も
変わってくるから下数桁の違いなんてザラ
そんなもんだと割り切れる分野なら良いけど
カオス現象みたいに違いが深刻になる分野じゃ使えない ■ このスレッドは過去ログ倉庫に格納されています