X



【IT】データサイエンス向け言語はRとPythonのどっち?
■ このスレッドは過去ログ倉庫に格納されています
0001田杉山脈 ★垢版2019/06/21(金) 12:01:56.83ID:CAP_USER
このほど、「matloff/R-vs.-Python-for-Data-Science|GitHub」に、データサイエンスで利用するという観点からプログラミング言語であるRとPythonを比較した記事が掲載された。これまで、データサイエンスの分野ではRが使われることが多かったが、近年はPythonの利用が進んでいる。

記事の執筆者であるNorm Matloff氏はカリフォルニア大学デービス校におけるコンピュータサイエンスの教授。以前は、同大学で統計学の教授だったようだ。同氏はR関連の書籍を4冊執筆しているほか、現在はR Journalの編集長を務めている。同氏はこれまでの経験および統計学者/コンピュータ学者という視点から、今回のトピックに関して有用な光を当てることができるだろうと説明している。

執筆段階で掲載されている比較の主な内容は次のとおり。

項目 内容
優雅さ 明らかにPythonの勝ち。主観的ではあるもの、これまでさまざまなプログラミング言語を使ってきた経験や教育してきた経験から、Pythonにおける括弧や中括弧の利用が大幅に減少したことにとても感謝している

学習曲線 Rの大勝利。Pythonを使ってデータサイエンスを始めるにはNumPy、Pandas、matplotlibなど、Python以外のライブラリについて学ぶ必要がある。また、パッケージ構成も時に難しい。Pythonに比べると、Rには行列型と基本的なグラフが最初から組み込まれており、数分以内に簡単なデータ解析を行うことができる

データサイエンス向けライブラリ Rがちょっとだけ優勢。CRANに登録されているパッケージは1万4000個ほど、PyPIに登録されているパッケージは18万3000個ほどとPytPIのほうが多い。しかし、データサイエンスに関するものはそれほど多くない

機械学習 Pythonがちょっとだけ優勢。多くの人にとって機械学習はNNを意味しており、NN用ソフトウェアの多くはPythonに関連している

統計的な正確さ Rの大勝利。Rは統計学者によって統計学者のために開発されている

並列計算 引き分け。RもPythonもベースバージョンはマルチコア計算に対して優れたサポートを提供しているとは言い難い

C/C++インタフェース Rがちょっとだけ優勢。どちらにもC/C++インタフェースは存在しているが、PythonのそれはRと比べるとそれほど強力なものではない

オブジェクト指向/メタプログラミング Rがちょっとだけ優勢。どちらもオブジェクト指向をサポートしているが、RのほうがPythonよりも真剣度が高い

言語の統一性 Rはとてもひどい状況。Rは複数の実装系が存在しており、使っていない実装系のコードは読むことが難しい状況になっている

リンクデータ構造 Pythonの勝ち。Pythonでは簡単に実装することができる

オンラインヘルプ Rの大勝利。Rのhelp()関数はPythonよりも情報が多い
以下ソース
https://news.mynavi.jp/article/20190619-845288/
0003名刺は切らしておりまして垢版2019/06/21(金) 12:08:14.88ID:BakQS1zZ
データ分析クラスタも機械学習クラスタも
仕事や勉強で忙しくて
こんなクソみたいなところに書き込んだりせんだろ。
0004名刺は切らしておりまして垢版2019/06/21(金) 12:08:14.94ID:9YVJ9qiw
うーん、用途と使う層が違うから
比べてもしょうがないよな
ただ、統計の勉強にはRがいいと思うし、それからpython
使ってもいいだろうし、まあ両方使えば良いんじゃない。
R は、すぐにやってみられるし、検算用でも良いしね
0005名刺は切らしておりまして垢版2019/06/21(金) 12:10:23.11ID:9YVJ9qiw
Rは、プログラミング言語ではあるけど
数学処理系といった感じですぐ使えるから、両方で良いんじゃないかい
0006名刺は切らしておりまして垢版2019/06/21(金) 12:13:17.57ID:nN+3LQrd
Pythonはアホでも使えるという理由だけで
機械学習まわりで広く使われてるというだけだからな

自前で実装するなら言語は何でもいい
0007名刺は切らしておりまして垢版2019/06/21(金) 12:13:29.43ID:9YVJ9qiw
しつこいけど、maximaも覚えとくと便利かもよ
微分とか記号のまま出来るし
こういうのは、同じ言語でも、数学知ってれば
そこそこ使えるからね。あ、別にpython目の敵に
してるわけではないよ。両方使えれば、もっと
便利だ、って言いたいだけだよ
0008名刺は切らしておりまして垢版2019/06/21(金) 12:13:47.22ID:BuCQ0Poa
これからはPython主流になるんじゃないの
Perlが食われたように、Rも消えていきそう
0009名刺は切らしておりまして垢版2019/06/21(金) 12:15:56.01ID:9YVJ9qiw
消えないよ、これ古ーい言語だから
今消えてないなら、もう消えないよ
ほんとは言語というより、電卓みたいなもんだから
0010名刺は切らしておりまして垢版2019/06/21(金) 12:16:05.82ID:3upXEPJ6
C言語
0011名刺は切らしておりまして垢版2019/06/21(金) 12:32:54.68ID:XDit8KU9
どっちもかじっておけばいいだろう
0015名刺は切らしておりまして垢版2019/06/21(金) 13:46:29.66ID:Lc1Al9Lz
ボッキデータは両刀使い
0016名刺は切らしておりまして垢版2019/06/21(金) 14:25:12.35ID:ok3A4L/d
あんまり用途はかぶらない気がするが、ありうるとすればPythonがRの用途を取り込んでしまう方向
0018名刺は切らしておりまして垢版2019/06/21(金) 15:59:32.67ID:WdlPGyo5
dplyrがあるからRの勝ち。
0020名刺は切らしておりまして垢版2019/06/21(金) 16:58:44.75ID:AHaHV+QF
>>18
なかったらRの完敗。

あったところで、やっと引き分け
0021名刺は切らしておりまして垢版2019/06/21(金) 19:03:31.24ID:pYBjEZPM
Octaveは?
0023名刺は切らしておりまして垢版2019/06/21(金) 20:30:12.36ID:K2tWIYhk
>>21
全敗
0024名刺は切らしておりまして垢版2019/06/21(金) 22:57:54.57ID:XiUewTyv
C++は万能の神、異論は認めない
0025名刺は切らしておりまして垢版2019/06/22(土) 00:49:32.50ID:5DQJmYDI
 
Rは分析ツール
pythonはデータシステム記述

という認識なんだが
0028名刺は切らしておりまして垢版2019/06/22(土) 03:00:20.68ID:jOao2o59
Rもpythonもc++も使ってるけど
pythonは正直要らない
0034名刺は切らしておりまして垢版2019/06/22(土) 10:38:00.57ID:6iNqGOOx
ベテランは
 エクセルマクロで頑張れ
0035名刺は切らしておりまして垢版2019/06/22(土) 10:59:42.77ID:mETSYX/M
Excelはビックデータ開けんでないか。
DB+シェルスクリプト で大半はできるけど、R使うのって、何計算させるんだ?
0037名刺は切らしておりまして垢版2019/06/22(土) 11:42:51.28ID:XYdhKkxT
MathematicaとC++でおk
0039名刺は切らしておりまして垢版2019/06/23(日) 04:25:51.93ID:lrC2jDV3
SASは正直どうなの?
0041名刺は切らしておりまして垢版2019/06/23(日) 10:27:27.56ID:6nfImTaI
PythonかじったけどRのほうを先に食べるかな
0042名刺は切らしておりまして垢版2019/06/23(日) 15:43:45.37ID:RFPJANtD
関数型っぽいRのほうがコードが短くて一見楽ちんだけど、
Pythonのほうが柔軟で大きなデータを扱えるのかな?
0043名刺は切らしておりまして垢版2019/06/23(日) 17:47:41.96ID:Iffj4eb2
C++でよいのか?
0046名刺は切らしておりまして垢版2019/06/23(日) 18:54:39.45ID:UHpmRTFF
len(nums)
これがいやだから
nums.lenかnums.len()
で要素数とれるようにしてくれ
0047名刺は切らしておりまして垢版2019/06/23(日) 23:19:43.68ID:1Usa0hnk
>>46
最小はそう思ったわ
でもなんか慣れてしまったな
慣れてしまうから改善されないんだろうなとは思う
0048名刺は切らしておりまして垢版2019/06/24(月) 01:43:30.76ID:rGZ/DxNI
ニュートラルネットが使いやすいのは、Pythonのほう!!
0050名刺は切らしておりまして垢版2019/06/24(月) 09:05:14.22ID:SHyoRWaP
C++で演算子のオーバーローディングを使えばグー
0051名刺は切らしておりまして垢版2019/06/24(月) 09:27:05.04ID:vXYvOq7p
プログラミング言語自体の機能を比較しても意味がない。
何を作りたくて何を使うべきかであって得手不得手がある。
0053名刺は切らしておりまして垢版2019/06/24(月) 09:37:19.35ID:dyIYTiaT
自前の用途決め打ち専用言語が最強
0055名刺は切らしておりまして垢版2019/06/24(月) 09:54:04.81ID:YkvjJ5d6
>>19
今のデータサイエンスはAIのCNN処理が進んでからのもので
昔流行ったデータマイニングとは訳が違う。
0056名刺は切らしておりまして垢版2019/06/24(月) 10:14:45.51ID:CaOkZT+9
heartyでええやん
0057名刺は切らしておりまして垢版2019/06/24(月) 10:20:55.81ID:SHyoRWaP
LibreOffice Calc + Neuronica
はどうなんだろう?
試したことはない。
0059名刺は切らしておりまして垢版2019/06/24(月) 11:18:26.14ID:SHyoRWaP
データマイニングという言葉は1990年代にデータベースの分野で使われだしたらしい。
knowledge-discovery in databases(KDD)と関係がある。

データサイエンスのほうが言葉としてはそれよりはるかに古いけど、
そのころの意味はコンピュータサイエンスとほとんど同義だったようだ。

今日のデータサイエンスはデータマイニングを含み込む科学分野っぽいね。
0060名刺は切らしておりまして垢版2019/06/24(月) 11:26:55.98ID:SHyoRWaP
てか、統計学の今風の呼び方っぽい。
0062名刺は切らしておりまして垢版2019/06/24(月) 14:40:16.68ID:e1DF4m49
文系ど素人が働きながら効率よく身に付けるにはRから始めるべき?
どこかで基礎を学べればいいんだけど独学最強状態なのかな
0063名刺は切らしておりまして垢版2019/06/24(月) 16:17:03.11ID:NeHE8ntE
>>62
文系でもド素人でもいいけど、
何を身に着けたいのか不明ではどうしようもない
0064名刺は切らしておりまして垢版2019/06/24(月) 17:05:14.58ID:JUXHwMoV
データサイエンティストと統計学者の違いについて結局いちばん納得できた説明は、
データサイエンティストはソフトウェアエンジニアの中で特に統計に詳しい人で、
かつ、他の統計学者よりもソフトウェアエンジニアリングに詳しい人だ
ってものw
そのほかの説明は、たくみに言いくるめられているようでどれも納得がいかなかった。
0065名刺は切らしておりまして垢版2019/06/24(月) 18:13:34.00ID:3K6RILtI
>>64
あぁ、良い表現!
でも、最適化問題やってるサプライチェーンマネジメントの人や、陸運のダイヤグラム引いてる人は?
彼らだって立派なデータサイエンティストだよ
0067名刺は切らしておりまして垢版2019/06/24(月) 19:00:58.09ID:nKPFoEz3
>>62
そんなこと聞いてる奴は向いてない。
その質問する間にツールをインストールしてる奴が向いてる奴

プログラミングが初めてならRはおすすめしない。
教材が少ないから。回り道でも他の教材の多い言語をやってからのほうが早い。
0069名刺は切らしておりまして垢版2019/06/24(月) 19:31:29.48ID:e1DF4m49
>>67
まあそうだよな
SASやSPSSより安いらしいからなんかに使いたいとか言われてさ
そういうふわっとしたオーダーが一番困る
右も左もわからんしマジ詰み
統計学からやるべきなのか?
とりまRよりPythonのがとっつきはいいのかな
0071名刺は切らしておりまして垢版2019/06/24(月) 19:35:16.75ID:1NmOhIao
ExcelやLibreOfficeの分析ツールじゃあかんのですか?
RやPythonを使っていたほうがカッコいいの?
Linuxユーザーみたいだね。
0073名刺は切らしておりまして垢版2019/06/24(月) 19:47:34.76ID:DSo3l3BR
rPythonパッケージをインストールすればRからPythonコードを実行でき、
RPy2ライブラリを使えばPythonからRのコードを実行できる。
0074名刺は切らしておりまして垢版2019/06/24(月) 19:53:31.99ID:3K6RILtI
>>70
risk managementの手法だって全然使われてないんだから、それをどう使うのかと、他分野への横展開を考えながらやったら良いとおもう。
寄り道しすぎると、使えなくなるよ。

エンジニア上がりのなんちゃってとどっこいになりたくないでしょ?
0076名刺は切らしておりまして垢版2019/06/24(月) 19:55:54.10ID:3K6RILtI
>>71
エクセルだってそこらに居るなんちゃってデータ屋じゃ使いこなせないレベルのこと出来るからね…
結果が出るなら何でも良いともう夜
0078名刺は切らしておりまして垢版2019/06/24(月) 20:24:06.87ID:1chsSL/F
機械学習と言ったらLISPでしょ!
0080名刺は切らしておりまして垢版2019/06/24(月) 20:40:50.29ID:nKPFoEz3
>>69
俺は沢山そういう人を見てきたが、
身につく人は質問以前にとっと手を動かしてる。
それができない人は無理なので諦めた方がいい。
0081名刺は切らしておりまして垢版2019/06/24(月) 20:50:39.40ID:uYm0kOLd
Excel の定義がVBAも含んで、Excel 自体はあまり使ってないのか、
Excel でデータの準備を人がコピペでやってるのかで、全然違うな。
Excel ってグラフ化(含むPivot)くらいにしか使ってない。
0083名刺は切らしておりまして垢版2019/06/24(月) 20:58:23.98ID:QMeKW+S4
>>69
R にしとけ
統計なんて大学院卒業レベルまでやりこまなくても
R を起動すれば使える

t検定とかぐらいなら
起動したインタプリタから
データいれて
関数呼ぶ
の2ステップで見やすくフォーマットされた詳しい出力がでてくる
0085名刺は切らしておりまして垢版2019/06/24(月) 21:26:02.88ID:rW/rYKCP
>>83
右も左もわからん奴には無理だと思うの。
酷い話、曖昧な質問でも答えてくれるSiriみたいなの付けないと。
0086名刺は切らしておりまして垢版2019/06/24(月) 21:58:12.01ID:e1DF4m49
>>72-74
あんがと
R軸足で見てみる
個人的にメインツールはExcel極めて他はそこそこでと思ってるんだが、職場環境はとっちらかってるんだよね
なかなか自分のスキル構築うまく行かなんのだねど、頑張るわ
0088名刺は切らしておりまして垢版2019/06/24(月) 22:24:16.16ID:DSo3l3BR
2016年のあたりではデータサイエンスの間でRがトップだったけど、
今はPythonがRを上回ったらしいよ。
0089名刺は切らしておりまして垢版2019/06/24(月) 22:28:44.50ID:56RZnfhi
Rには頑張って欲しいものだ
0092名刺は切らしておりまして垢版2019/06/25(火) 00:26:09.62ID:Lh6JfvMb
>>90
R使う人ってプログラム書きをメインにするわけじゃないだろうからどうでもいい話
0093名刺は切らしておりまして垢版2019/06/25(火) 08:10:15.36ID:kig1PYBx
>>90
関数型プログラミングってだけじゃね?
0094名刺は切らしておりまして垢版2019/06/25(火) 11:52:28.76ID:othpDRXG
>>90
逆だろ。
未経験でも使える敷居の低い低級言語が R だろ

将来グラマーやるわけじゃないなら、悪いくせついても全然OK
0095名刺は切らしておりまして垢版2019/06/25(火) 13:34:21.42ID:kig1PYBx
Rだって代入演算子に=を使えるんだから使えばいいのにと思う。
<-と=は同じ意味なんだから。
0096名刺は切らしておりまして垢版2019/06/25(火) 13:43:39.97ID:kig1PYBx
データサイエンスなら、PythonよりもJulia。
文系の方で英文がすらすら読めるなら障害なし。
0099名刺は切らしておりまして垢版2019/06/25(火) 16:27:07.92ID:S/SVRDgb
>>98
昔、シミュレーション系はmatlab使ってたけど、なんか作れるようになったら別に使わなくても良くなっちゃって…
0100名刺は切らしておりまして垢版2019/06/25(火) 16:28:46.64ID:ZHxHakO4
>統計的な正確さ Rの大勝利。Rは統計学者によって統計学者のために開発されている

重要なのはここだけだろ
excelの間違いだらけの関数とかあったけどな
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況