【IT】データサイエンス向け言語はRとPythonのどっち?
■ このスレッドは過去ログ倉庫に格納されています
このほど、「matloff/R-vs.-Python-for-Data-Science|GitHub」に、データサイエンスで利用するという観点からプログラミング言語であるRとPythonを比較した記事が掲載された。これまで、データサイエンスの分野ではRが使われることが多かったが、近年はPythonの利用が進んでいる。
記事の執筆者であるNorm Matloff氏はカリフォルニア大学デービス校におけるコンピュータサイエンスの教授。以前は、同大学で統計学の教授だったようだ。同氏はR関連の書籍を4冊執筆しているほか、現在はR Journalの編集長を務めている。同氏はこれまでの経験および統計学者/コンピュータ学者という視点から、今回のトピックに関して有用な光を当てることができるだろうと説明している。
執筆段階で掲載されている比較の主な内容は次のとおり。
項目 内容
優雅さ 明らかにPythonの勝ち。主観的ではあるもの、これまでさまざまなプログラミング言語を使ってきた経験や教育してきた経験から、Pythonにおける括弧や中括弧の利用が大幅に減少したことにとても感謝している
学習曲線 Rの大勝利。Pythonを使ってデータサイエンスを始めるにはNumPy、Pandas、matplotlibなど、Python以外のライブラリについて学ぶ必要がある。また、パッケージ構成も時に難しい。Pythonに比べると、Rには行列型と基本的なグラフが最初から組み込まれており、数分以内に簡単なデータ解析を行うことができる
データサイエンス向けライブラリ Rがちょっとだけ優勢。CRANに登録されているパッケージは1万4000個ほど、PyPIに登録されているパッケージは18万3000個ほどとPytPIのほうが多い。しかし、データサイエンスに関するものはそれほど多くない
機械学習 Pythonがちょっとだけ優勢。多くの人にとって機械学習はNNを意味しており、NN用ソフトウェアの多くはPythonに関連している
統計的な正確さ Rの大勝利。Rは統計学者によって統計学者のために開発されている
並列計算 引き分け。RもPythonもベースバージョンはマルチコア計算に対して優れたサポートを提供しているとは言い難い
C/C++インタフェース Rがちょっとだけ優勢。どちらにもC/C++インタフェースは存在しているが、PythonのそれはRと比べるとそれほど強力なものではない
オブジェクト指向/メタプログラミング Rがちょっとだけ優勢。どちらもオブジェクト指向をサポートしているが、RのほうがPythonよりも真剣度が高い
言語の統一性 Rはとてもひどい状況。Rは複数の実装系が存在しており、使っていない実装系のコードは読むことが難しい状況になっている
リンクデータ構造 Pythonの勝ち。Pythonでは簡単に実装することができる
オンラインヘルプ Rの大勝利。Rのhelp()関数はPythonよりも情報が多い
以下ソース
https://news.mynavi.jp/article/20190619-845288/ データ分析クラスタも機械学習クラスタも
仕事や勉強で忙しくて
こんなクソみたいなところに書き込んだりせんだろ。 うーん、用途と使う層が違うから
比べてもしょうがないよな
ただ、統計の勉強にはRがいいと思うし、それからpython
使ってもいいだろうし、まあ両方使えば良いんじゃない。
R は、すぐにやってみられるし、検算用でも良いしね Rは、プログラミング言語ではあるけど
数学処理系といった感じですぐ使えるから、両方で良いんじゃないかい Pythonはアホでも使えるという理由だけで
機械学習まわりで広く使われてるというだけだからな
自前で実装するなら言語は何でもいい しつこいけど、maximaも覚えとくと便利かもよ
微分とか記号のまま出来るし
こういうのは、同じ言語でも、数学知ってれば
そこそこ使えるからね。あ、別にpython目の敵に
してるわけではないよ。両方使えれば、もっと
便利だ、って言いたいだけだよ これからはPython主流になるんじゃないの
Perlが食われたように、Rも消えていきそう 消えないよ、これ古ーい言語だから
今消えてないなら、もう消えないよ
ほんとは言語というより、電卓みたいなもんだから Rしか使えないっす
というか、統計に関してはネット上の情報量がRの方が多いし… あんまり用途はかぶらない気がするが、ありうるとすればPythonがRの用途を取り込んでしまう方向 >>17
昔からやっていることでも、それらしい名前を付けると人が集まってくるんだよなぁ・・・ >>18
なかったらRの完敗。
あったところで、やっと引き分け Maxima + Octave が最強だって早く気づけばいいのに
Rは分析ツール
pythonはデータシステム記述
という認識なんだが Rもpythonもc++も使ってるけど
pythonは正直要らない Rは言語仕様的に微妙なところが多い。
例外処理とかNAとかほんと糞。 コードかけないでーたさいえんちすと
出した結果とやらも再現性なし Excelはビックデータ開けんでないか。
DB+シェルスクリプト で大半はできるけど、R使うのって、何計算させるんだ? 関数型っぽいRのほうがコードが短くて一見楽ちんだけど、
Pythonのほうが柔軟で大きなデータを扱えるのかな? >>44
数式を直接扱える人はね…
ライブラリ使わないと何もできない人のほうが多いんだから… len(nums)
これがいやだから
nums.lenかnums.len()
で要素数とれるようにしてくれ >>46
最小はそう思ったわ
でもなんか慣れてしまったな
慣れてしまうから改善されないんだろうなとは思う ニュートラルネットが使いやすいのは、Pythonのほう!! プログラミング言語自体の機能を比較しても意味がない。
何を作りたくて何を使うべきかであって得手不得手がある。 Python、NumPy、Pandas、matplotlibこれで問題ないよな >>19
今のデータサイエンスはAIのCNN処理が進んでからのもので
昔流行ったデータマイニングとは訳が違う。 LibreOffice Calc + Neuronica
はどうなんだろう?
試したことはない。 機械学習屋ばっかり…
統計屋はやっぱり一人前になるの難しいのかねぇ… データマイニングという言葉は1990年代にデータベースの分野で使われだしたらしい。
knowledge-discovery in databases(KDD)と関係がある。
データサイエンスのほうが言葉としてはそれよりはるかに古いけど、
そのころの意味はコンピュータサイエンスとほとんど同義だったようだ。
今日のデータサイエンスはデータマイニングを含み込む科学分野っぽいね。 文系ど素人が働きながら効率よく身に付けるにはRから始めるべき?
どこかで基礎を学べればいいんだけど独学最強状態なのかな >>62
文系でもド素人でもいいけど、
何を身に着けたいのか不明ではどうしようもない データサイエンティストと統計学者の違いについて結局いちばん納得できた説明は、
データサイエンティストはソフトウェアエンジニアの中で特に統計に詳しい人で、
かつ、他の統計学者よりもソフトウェアエンジニアリングに詳しい人だ
ってものw
そのほかの説明は、たくみに言いくるめられているようでどれも納得がいかなかった。 >>64
あぁ、良い表現!
でも、最適化問題やってるサプライチェーンマネジメントの人や、陸運のダイヤグラム引いてる人は?
彼らだって立派なデータサイエンティストだよ >>63
managemental accounting畑で役立てるには何やったらいい? >>62
そんなこと聞いてる奴は向いてない。
その質問する間にツールをインストールしてる奴が向いてる奴
プログラミングが初めてならRはおすすめしない。
教材が少ないから。回り道でも他の教材の多い言語をやってからのほうが早い。 >>66
素直にfinancialからrisk managementに行ったほうが良いとおもう >>67
まあそうだよな
SASやSPSSより安いらしいからなんかに使いたいとか言われてさ
そういうふわっとしたオーダーが一番困る
右も左もわからんしマジ詰み
統計学からやるべきなのか?
とりまRよりPythonのがとっつきはいいのかな >>68
自分もそのつもりでしたが寄り道させられそうなんで… ExcelやLibreOfficeの分析ツールじゃあかんのですか?
RやPythonを使っていたほうがカッコいいの?
Linuxユーザーみたいだね。 >>69
ツールとしてはRのほうが使いやすいと思うよ。 rPythonパッケージをインストールすればRからPythonコードを実行でき、
RPy2ライブラリを使えばPythonからRのコードを実行できる。 >>70
risk managementの手法だって全然使われてないんだから、それをどう使うのかと、他分野への横展開を考えながらやったら良いとおもう。
寄り道しすぎると、使えなくなるよ。
エンジニア上がりのなんちゃってとどっこいになりたくないでしょ? >>71
エクセルだってそこらに居るなんちゃってデータ屋じゃ使いこなせないレベルのこと出来るからね…
結果が出るなら何でも良いともう夜 >>69
俺は沢山そういう人を見てきたが、
身につく人は質問以前にとっと手を動かしてる。
それができない人は無理なので諦めた方がいい。 Excel の定義がVBAも含んで、Excel 自体はあまり使ってないのか、
Excel でデータの準備を人がコピペでやってるのかで、全然違うな。
Excel ってグラフ化(含むPivot)くらいにしか使ってない。 Deep Learning入門:Generative Adversarial Networks (GAN)とは?
http://www.youtube.com/watch?v=2rC2_-HtpsQ
ソニーのNeural Network Consoleの登録者数は1102人しかいない
日本人が勉強しないから国家が衰退したんだよ
登録して見てやれよ >>69
R にしとけ
統計なんて大学院卒業レベルまでやりこまなくても
R を起動すれば使える
t検定とかぐらいなら
起動したインタプリタから
データいれて
関数呼ぶ
の2ステップで見やすくフォーマットされた詳しい出力がでてくる あ〜でもない、こうでもない
つぎはこれ、まえのはもうだめ
なんぼでもかわるな >>83
右も左もわからん奴には無理だと思うの。
酷い話、曖昧な質問でも答えてくれるSiriみたいなの付けないと。 >>72-74
あんがと
R軸足で見てみる
個人的にメインツールはExcel極めて他はそこそこでと思ってるんだが、職場環境はとっちらかってるんだよね
なかなか自分のスキル構築うまく行かなんのだねど、頑張るわ 2016年のあたりではデータサイエンスの間でRがトップだったけど、
今はPythonがRを上回ったらしいよ。 プログラミング未経験でRってありえん。
すげー悪い癖がつきそう。 >>82
nncは良いね。かなり使いやすい…
でも、1000人?
俺ってレアだなぁ… >>90
R使う人ってプログラム書きをメインにするわけじゃないだろうからどうでもいい話 >>90
逆だろ。
未経験でも使える敷居の低い低級言語が R だろ
将来グラマーやるわけじゃないなら、悪いくせついても全然OK Rだって代入演算子に=を使えるんだから使えばいいのにと思う。
<-と=は同じ意味なんだから。 データサイエンスなら、PythonよりもJulia。
文系の方で英文がすらすら読めるなら障害なし。 ここまでMATLAB, Spark, Scalaの推薦なし。 >>98
昔、シミュレーション系はmatlab使ってたけど、なんか作れるようになったら別に使わなくても良くなっちゃって… >統計的な正確さ Rの大勝利。Rは統計学者によって統計学者のために開発されている
重要なのはここだけだろ
excelの間違いだらけの関数とかあったけどな ■ このスレッドは過去ログ倉庫に格納されています