【IT】機械学習を用いると匿名のソースコードから個人を識別可能であることが判明

**田杉山脈 ★** · 2018/08/13(月) 17:24:20.61

プログラミング言語を用いて書かれた「ソースコード」はあらかじめ定められた規則に従って記述する必要があり、匿名で公開されたコードから個人を識別することは困難に思えるかもしれません。ところが、実際にはコードにも個人の特徴が色濃く表れており、機械学習を用いてコードのサンプルから個人を識別できることが判明しました。

ドレクセル大学のコンピューターサイエンス准教授であるレイチェル・グリーンシュタット氏と、ジョージ・ワシントン大学でコンピューターサイエンスの准教授を務めるアイリン・カルスキン氏は、プログラミング言語で書かれたコードは完全に匿名のものではなく、機械学習を用いて個人を識別可能だという研究結果を発表しました。

2人は機械学習のアルゴリズムにコードサンプルを分析させ、用いた言葉の選択やコードの長さ、コードのまとめ方といったあらゆる特徴を抽出しました。次に2人は抽出された特徴の中から、開発者個人を識別するのに役立つ特徴のみを選別し、コードから個人を特定する時に注目するべきリストを絞り込んだとのこと。コードの書き手は通常の文章と違い、一定の規則に従ってコードを書き進めなければならないという制約がありますが、それでもコードから個人を識別可能な特徴を抽出できるようです。

また、コードサンプルは非常に長いものである必要があるわけでもなく、グリーンシュタット氏らが発表した2017年の論文(PDF)によればGitHubに公開されたほんの短いコードの断片であっても、特定の開発者とそれ以外の開発者を識別できるとのこと。加えて、すでに0と1で表される機械語にコンパイルされたコードからでも、個人の識別が可能だとカルスキン氏は述べました。

カルスキン氏らの研究チームは、Googleが開催するプログラミングコンテストのGoogle Code Jamで書かれたコードをもとに、100人の開発者が書いたコードをアルゴリズムに識別させました。すると、実に96％の精度で個人を識別することができたとのこと。また、識別する開発者数を600人にまで拡大した場合でも、83％の精度で個人を識別できたとしています。

グリーンシュタット氏とカルスキン氏は、プログラミングを勉強する学生が他のコードを盗用したのかどうかを判断する場合や、マルウェアの開発者を特定する時などにコードから個人を識別するAIが役立つとしています。また、関係のない第三者を装って行われたサイバー犯罪に対しても、背後にいる人物の存在をあぶり出すことができるとのこと。

一方でオープンソースプロジェクトに匿名で参加しているプログラマーや、匿名でコードを公開しているプログラマーのプライバシーが脅かされる可能性もあります。「コード開発者の身元を100％隠すことは、一般的に考えて難しいと理解する必要があります」とグリーンシュタット氏は述べており、将来的にはコードから個人を識別不可能にするツールが開発されるかもしれないが、しばらくは匿名で公開したコードから個人を特定される危険性があるとしました。

また、グリーンシュタット氏らはプログラミングの初級者と上級者では、上級者のほうが個人を識別しやすいという事実も発見しました。これは、初心者がコードの一部をプログラミング練習サイトからコピーしてくる場合があって特徴が出にくいのに対し、上級者になればなるほどコーディングがこなれてきて、個人間に差異が出やすいためだそうです。他にも、2人はコードのサンプルが「簡単な問題を解決するために書かれたコード」である場合よりも、「複雑な問題を解決するために書かれたコード」である場合のほうが個人の識別精度が向上することも突き止めました。

グリーンシュタット氏らが行った予備調査では、カナダ人の書いたコードと中国人の書いたコードを90％以上の精度で判別できるなど、コードから得られる情報は予想以上に多いようです。記事作成時点では、コードによる個人の識別は指紋による個人識別のように100％に近い精度を持っているわけではありませんが、今後さらに識別精度が向上していくだろうと考えられています。
https://gigazine.net/news/20180813-machine-learning-identify-code-authors/

**名刺は切らしておりまして** · 2018/08/13(月) 17:27:25.77

そりゃ筆跡鑑定が可能なんだからそれくらいできんだろ

**名刺は切らしておりまして** · 2018/08/13(月) 17:32:02.39

職場ではコーディング規約に沿ってる

**名刺は切らしておりまして** · 2018/08/13(月) 17:34:05.79

>>2
だね
機械学習とか以前の問題だと思う

**名刺は切らしておりまして** · 2018/08/13(月) 17:35:41.53

公開されてるコードが全部匿名なら、個人を判別できないし
匿名でなく活動してるなら、ばれたところで
へー意外な所にコントリビューションしとるんやね
ってなるだけだから、別に困らんやろ
そんなことに使うぐらいなら、あんたはこんなバグ
いれやすいねやで、って警告でもしたら有益なんちゃう？

**名刺は切らしておりまして** · 2018/08/13(月) 17:37:08.78

>>4
アホやな、筆跡鑑定を自動でやるのは
どうしとるんや？

**名刺は切らしておりまして** · 2018/08/13(月) 17:37:38.09

無知かよネットは匿名やろ呆

**名刺は切らしておりまして** · 2018/08/13(月) 17:41:02.63

個人の特色は絶対に出るから当たり前のことのように思えるけど
判別できたら、どうなるん？

**名刺は切らしておりまして** · 2018/08/13(月) 17:47:41.95

>>8
あんたの名前もわかっちゃう

**名刺は切らしておりまして** · 2018/08/13(月) 17:48:39.19

>>8
へーあいつこんな感じなんだ

**名刺は切らしておりまして** · 2018/08/13(月) 17:49:19.29

サトシナカモトは結局だれだったの？

**名刺は切らしておりまして** · 2018/08/13(月) 17:50:52.99

>>3
コーティング規約に沿っていても、変数の作り方、宣言の仕方、初期化の仕方色々癖は出る。

**名刺は切らしておりまして** · 2018/08/13(月) 17:52:05.65

>>8
別にそれだけ。

その結果は別の何かと結び付けられて考えられるかも知らない。
でもそれはまた別のお話。

**名刺は切らしておりまして** · 2018/08/13(月) 17:52:17.53

サトシナカモトはピンチだな

**名刺は切らしておりまして** · 2018/08/13(月) 17:53:24.15

少数しかいないから分かるだけ

**名刺は切らしておりまして** · 2018/08/13(月) 17:55:02.01

そんな事はプログラマーなら既知じゃないの？

**名刺は切らしておりまして** · 2018/08/13(月) 17:55:10.40

>>1
ポールグラハムのスパムフィルターで十分だろｗ

**名刺は切らしておりまして** · 2018/08/13(月) 17:56:34.46

タイピングの各文字間の打刻時間差で個人が判別可能ってのは15年くらい前に見たよなあ
人によって一文字ごとの撃つタイミングに癖があるから

**名刺は切らしておりまして** · 2018/08/13(月) 17:56:47.26

おいらのインデントは他人と違うからすぐわかるよ

**名刺は切らしておりまして** · 2018/08/13(月) 17:57:50.61

ふーん
まぁ、癖ってあるだろうからね
その人のソースコードが多ければ多いほど、特定できる可能性も高まるだろうね

**名刺は切らしておりまして** · 2018/08/13(月) 17:57:55.20

メーカーが仕様を公開していない機器のオープンソースのデバイスドライバ、
みたいな、使う側には非常に有り難いけれど出所が突き止められたらヤバそうな
プログラムソースもあるからなぁ。

**名刺は切らしておりまして** · 2018/08/13(月) 18:04:42.72

ギフハブ「人事部さんこの人内職してます！」

**名刺は切らしておりまして** · 2018/08/13(月) 18:06:22.62

ウイルス作者ｶﾞｸﾌﾞﾙ

**名刺は切らしておりまして** · 2018/08/13(月) 18:07:11.39

すると、作詞作曲も実際の作者が違うことがわかるんですね？

**名刺は切らしておりまして** · 2018/08/13(月) 18:09:16.43

>>23
ねーよ
オブファスケーションするからまずわからない

**名刺は切らしておりまして** · 2018/08/13(月) 18:11:53.62

「facebook等からパターンを学習させることで、5chのレスから筆者を推定します」
こういうのが出てきたら一部に需要があるかもしれん

**名刺は切らしておりまして** · 2018/08/13(月) 18:12:18.61

機械学習だから学習してないものはどうなるの？

**名刺は切らしておりまして** · 2018/08/13(月) 18:13:13.91

>>26
sns連動で一発だな

**名刺は切らしておりまして** · 2018/08/13(月) 18:16:12.22

学習データがないと意味ないじゃん

**名刺は切らしておりまして** · 2018/08/13(月) 18:17:34.36

ここの書き込みの文章の癖から
個人特定するのなんかすぐなんだろうなw

**名刺は切らしておりまして** · 2018/08/13(月) 18:27:53.84

コードの体裁じゃなくて構造から特定するなら面白そう

**名刺は切らしておりまして** · 2018/08/13(月) 18:30:16.34

やば
変数名に自分の名前使うのやめよう

**名刺は切らしておりまして** · 2018/08/13(月) 18:32:39.96

まあデータが膨大ならパラメータ不明のブラックボックスだし
2度と同じものも作れない　「だから？」で済むよ

**名刺は切らしておりまして** · 2018/08/13(月) 18:33:57.99

>>32
何やってんだよ
せめてselfとかthisぐらいにしとけよ

**名刺は切らしておりまして** · 2018/08/13(月) 18:34:04.99

>>32
わかったぞ
お前の名前は　ほげ　だな

**名刺は切らしておりまして** · 2018/08/13(月) 18:36:37.22

>>27, >>29
だよなー
有名作家が別の著作者としてエロ小説書いてるのを特定みたいな状況でしか役に立たない気がする

**名刺は切らしておりまして** · 2018/08/13(月) 18:40:18.76

職場だとauthor書かされるから別にメリットなし(´・ω・｀)

**名刺は切らしておりまして** · 2018/08/13(月) 18:40:23.44

>>16
限られたメンバー内であればコード読めばなんとなく誰が書いたかわかるからな
機械学習のような手法を使えば癖を読む精度を上げられそうなのは当然だろう

**名刺は切らしておりまして** · 2018/08/13(月) 18:41:01.13

hogehogeのかわりにhigehigeって埋め込んだコードが俺だとばれてしまう…

**名刺は切らしておりまして** · 2018/08/13(月) 18:50:42.64

// ○○クラスのインスタンスラーメン生成

**名刺は切らしておりまして** · 2018/08/13(月) 18:52:24.31

改行しちゃう癖とかそういうこと？

**名刺は切らしておりまして** · 2018/08/13(月) 18:57:43.76

昔から言われてたよね

**名刺は切らしておりまして** · 2018/08/13(月) 19:03:05.60

>>28
俺はインスタもFBもツイッターもしないから無敵

**名刺は切らしておりまして** · 2018/08/13(月) 19:04:14.36

>>1
ソースコードを分析してその著者を特定するシステムが開発される
https://developers.srad.jp/story/15/01/30/0454256/

何年前のニュースだよこれ

**名刺は切らしておりまして** · 2018/08/13(月) 19:11:53.24

共同開発で複数の人の手が入ったらどうなるんだ？

**名刺は切らしておりまして** · 2018/08/13(月) 19:13:52.27

書き手のわかってるソースコードのデータがないとだめ

しかもコードの書き方に１００通りぐらいのタイプがあるとして
１００人の中から識別するならあるていど特定できても
１００万人の中から識別するなら誰だか特定するのは難しそう

そもそもソースコードを公開しつつ
誰が書いたのか伏せたいような状況はかなり限られる

**名刺は切らしておりまして** · 2018/08/13(月) 19:13:59.79

>>37
今時authorとか律儀に書いてるの？
gitとかでわかるやん

**名刺は切らしておりまして** · 2018/08/13(月) 19:24:55.80

インデントがかっちりしてるのは私のソース

**名刺は切らしておりまして** · 2018/08/13(月) 19:30:11.24

これ実質的に困ることある？

**名刺は切らしておりまして** · 2018/08/13(月) 19:33:55.23

>>11
これわかるかもね

**名刺は切らしておりまして** · 2018/08/13(月) 20:19:21.08

今後は、ボッキデータでコードも作っていく流れ

**名刺は切らしておりまして** · 2018/08/13(月) 20:19:54.99

C言語なら分かりそうな気もするが
Pythonでも分かる？

**名刺は切らしておりまして** · 2018/08/13(月) 20:21:52.60

5chは非匿名だと思っていないので、見られてもいいような事しか書いていない。

**名刺は切らしておりまして** · 2018/08/13(月) 20:31:12.82

・

C言語も
Pythonも　関係ねぇーだろ。

ソースコードを単語ごとに分解して　それ　頻度ごとに並べ替えて　つながりを分析すれば
指紋みたいなものが分かるってことだろ。

っていうかぁ
ソースコードそのものを　AIで作れって話に　進まないとおかしい。けど
こんなのは　序の口。

**名刺は切らしておりまして** · 2018/08/13(月) 20:36:15.63

ソースコードを公開していればの話

**名刺は切らしておりまして** · 2018/08/13(月) 20:38:10.94

>>46
gitなら行ごとに作者が分かる

**名刺は切らしておりまして** · 2018/08/13(月) 20:54:15.99

歩き方から個人特定とか、そういうのと同じでしょ？

**名刺は切らしておりまして** · 2018/08/13(月) 20:54:46.24

オプティマイザ通してもわかるの？　ちょっと眉唾

**名刺は切らしておりまして** · 2018/08/13(月) 21:06:20.45

javascriptとか圧縮かけてもわかるのかな？

**名刺は切らしておりまして** · 2018/08/13(月) 21:14:45.58

>>53
２ちゃんの書き込みの
クセを分析して
書いた人ごとに集約して表示するサイトでもできると
困ったことになるかもな
まあ
おれは個人情報ほとんど書かないけど

**名刺は切らしておりまして** · 2018/08/13(月) 21:30:12.43

>>11
仮想通貨の人？

**名刺は切らしておりまして** · 2018/08/13(月) 21:52:04.62

他人のソースコードのコピペでコードを書く俺はどう判定されるんだろう

**名刺は切らしておりまして** · 2018/08/13(月) 22:00:12.33

まぁ一緒にやっていても癖で大体わかるようになるしな
パターン覚えれば大体判別はできるだろう

**名刺は切らしておりまして** · 2018/08/13(月) 22:15:49.86

>>11
>>14
俺も真っ先にそれ思った

**名刺は切らしておりまして** · 2018/08/13(月) 22:53:14.84

>>64
見つけてノーベル経済学賞あげようぜ

**名刺は切らしておりまして** · 2018/08/13(月) 23:38:01.27

つまり名倉と柏木を見分けることも可能ということ？

**名刺は切らしておりまして** · 2018/08/13(月) 23:58:31.36

そんなに難しくなさそうだけどな。

**名刺は切らしておりまして** · 2018/08/14(火) 02:12:25.49

これはこれで対抗手段の出現、すなわちコードから個人の癖を消す技術の開発へと進化するだろうね

**名刺は切らしておりまして** · 2018/08/14(火) 05:05:53.22

関数型とかRustとかイミュータブルかつ式文な言語だと
問題解決の最適式バリエーション減って判別しにくいとか有るんじゃね？

**名刺は切らしておりまして** · 2018/08/14(火) 06:30:00.45

関数型というかPascal系のシンタクスだと複数の書き方ができなくて個性が出にくいというのはありそう
というかそれがウリの言語だし

**名刺は切らしておりまして** · 2018/08/14(火) 09:04:08.52

コピペプログラマーに対しては複数の引用元の特徴がごちゃ混ぜになって
わけわからんことになりそう

**名刺は切らしておりまして** · 2018/08/14(火) 09:10:26.49

>>68
ないない、識別するメリットがほぼないし、識別されて困ることもほぼない

**名刺は切らしておりまして** · 2018/08/14(火) 09:31:43.12

研究論文も、全部調べようぜ

**名刺は切らしておりまして** · 2018/08/14(火) 09:36:46.74

誰が書いても同じようなコードになるとされるPythonでも？

**名刺は切らしておりまして** · 2018/08/14(火) 09:38:36.31

空白派とタブ派やら判断材料は多いだろうな

**名刺は切らしておりまして** · 2018/08/14(火) 09:40:02.20

まあ、整形の仕方に多少でも自由度があれば書いた人の個性が出るからなあ。

**名刺は切らしておりまして** · 2018/08/14(火) 09:41:57.56

整形を統一してくれるソフトウェアを潜らせればどうなのかな？

**名刺は切らしておりまして** · 2018/08/14(火) 10:00:52.37

設計思想を解読してるわけだから、設計の良し悪しを判断させられる方向にもってこう

**名刺は切らしておりまして** · 2018/08/14(火) 10:07:00.57

>>3
ミズラCで書いて、QA-Cでチェック

**名刺は切らしておりまして** · 2018/08/14(火) 10:13:18.17

>>30
やっぱ鳴き声って最高だわ

**名刺は切らしておりまして** · 2018/08/14(火) 10:42:50.66

>>66
名倉柏木判定プログラムならすでに公表されてる

**名刺は切らしておりまして** · 2018/08/14(火) 11:10:15.04

最適化通したあとのバイナリでも識別可能とかうそくせ

**名刺は切らしておりまして** · 2018/08/14(火) 11:12:54.85

やばいあの金融機関をあそこまで追い込んだ犯人がバレちゃう

**名刺は切らしておりまして** · 2018/08/14(火) 11:14:18.09

そりゃ分かるだろうけど、で？って感じだな

**名刺は切らしておりまして** · 2018/08/14(火) 11:25:40.18

ゆうくんの無実が証明できるんだな。
もしくはソースコードの著作権訴訟に使えるかもね。

ただし機械学習で正しい答えを回答させるのに、5000ケース位正解例を読み込ませて学習させる必要がある。

また口語文体ではなく、法則性のあるソースコードの著者探しはAIにとっては簡単だろう。

**名刺は切らしておりまして** · 2018/08/14(火) 11:33:47.71

複数の誰かが書いたのをパッチワークしてるとどうなるんだろう？
継ぎ接ぎだらけだから特定の個人を識別するのは不可能だと思うが？

**名刺は切らしておりまして** · 2018/08/14(火) 12:58:31.63

コンピュータウイルスを作った犯人を特定できるんだろうか？

**名刺は切らしておりまして** · 2018/08/14(火) 16:39:54.47

ブロックチェーンの未来と合わせて考えると、結構インパクト有りそうだな。

**名刺は切らしておりまして** · 2018/08/14(火) 18:48:02.19

癖が出るよね
AAで遊ぶやつとか

会社やめたい　とか一言コメントソースコードに入れるのやめろw

**名刺は切らしておりまして** · 2018/08/14(火) 18:48:13.27

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg

**名刺は切らしておりまして** · 2018/08/14(火) 18:50:14.74

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg

**名刺は切らしておりまして** · 2018/08/14(火) 18:51:15.53

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg

**名刺は切らしておりまして** · 2018/08/14(火) 18:51:37.77

>>87
出来そう

**名刺は切らしておりまして** · 2018/08/14(火) 18:52:16.43

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://www.co.jp.hackquest.com/201808218_9_8.jpg

**名刺は切らしておりまして** · 2018/08/14(火) 19:37:57.34

機械学習以前の問題。
文字列の中に、自分の名前や適当なフレーズを入れておくことができるし。

**名刺は切らしておりまして** · 2018/08/14(火) 19:48:11.20

実行するたびにアセンブラレベルでバイナリの配置置き換えて暗号化したらどうなるんだろうか

**名刺は切らしておりまして** · 2018/08/14(火) 20:26:10.39

切り貼りオンリーならバレない。

**名刺は切らしておりまして** · 2018/08/14(火) 20:26:48.22

>>96
ソースコードを見るんだからそんなことしても意味ない

**名刺は切らしておりまして** · 2018/08/14(火) 20:40:27.51

んでも、そこまでソースコード書いてない、公開されてない人なら
特定までには至らないよね!

同じコーディング規則を使っている組織とか、参考書とかは手繰れるだろうけど

**名刺は切らしておりまして** · 2018/08/14(火) 21:01:23.27

変数名を意味が通らないなんちゃって英語でかいているとすぐばれるぞ

**名刺は切らしておりまして** · 2018/08/14(火) 21:06:14.03

カラム名で区分がkbnだったときに、その先の苦労が予見できて速攻辞めた

**名刺は切らしておりまして** · 2018/08/14(火) 22:31:02.86

　
クソコード製造器が
↓

**名刺は切らしておりまして** · 2018/08/15(水) 01:21:11.92

ガクガクブルブル

**名刺は切らしておりまして** · 2018/08/15(水) 01:21:38.37

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://news.www.yodyiam.com/live/1534251776/

**名刺は切らしておりまして** · 2018/08/15(水) 01:22:39.19

写真を一切修正しない下着ブランド「エアリー」は、無理したくない女性たちの心をわかっている
http://news.www.yodyiam.com/live/1534251776/

**名刺は切らしておりまして** · 2018/08/15(水) 07:56:00.28

>>11
これだよね
まず調べてもらいたい

**名刺は切らしておりまして** · 2018/08/15(水) 11:48:21.00

ウイルスやワームボットの作者を特定してくれ

**名刺は切らしておりまして** · 2018/08/15(水) 19:21:41.03

BCASカードをハッキングしたヤツを??!!
ってコード類は複数がかかわってそうだけど

**名刺は切らしておりまして** · 2018/08/17(金) 07:41:14.97

焼きそば屋のソースも識別

**名刺は切らしておりまして** · 2018/08/17(金) 07:41:35.48

謎の女子高生の正体は？ 45年前に撮影されたモノクロ写真がカッコよすぎる
http://www.bby.nwnlexicon.com/1009.jpg

**名刺は切らしておりまして** · 2018/08/20(月) 22:45:08.73

>>107
行きつく先がTorやオープンプロクシ

**名刺は切らしておりまして** · 2018/08/21(火) 23:48:40.27

>>73
先ず、山中伸弥と小保方晴子のそれぞれの研究論文を100報用意し、ホンモノと捏造研究を分類する学習モデルを作成します

次に、この分類器を使って東大医学部が出した最新医学論文を予測します、すると…

**名刺は切らしておりまして** · 2018/08/22(水) 01:26:55.95

ボクこんな事できるんだよ～凄いでしょ～
もっと褒めて！