人のゲノムには無数の遺伝子が含まれており、DNAとRNAの微妙な組み合わせがひとりひとりにユニークな特徴を与えています。ゲノム解析の研究者らは、これら遺伝子のひとつひとつに記号と英数字を組み合わせたコードで名前をつけ、分別して研究に役立てています。
とことが、ここ最近の解析で付与された遺伝子の"名前"は、非常に扱いにくいことで問題となりました。なぜなら、マイクロソフトの表計算ソフトExcelが、これら遺伝子の名前を入力したセルを勝手に日付だと勘違いするから。
Excelの自動書式設定機能は、日付を簡単に入力できるようにデフォルト設定されており、たとえば”12/1”と入力すれば12割る1ではなく、12月1日に変換します。国際ヒトゲノム解析機構(HUGO)のなかのゲノム命名法委員会(HGNC)の人たちが困ってしまったのは、遺伝子に付けられた名前”Membrane Associated Ring-CH-Type Finger 1”の略称” MARCH1 ”をExcelに入力すると、勝手に”3月1日”に変換されてしまう現象でした。
厄介なことに、マイクロソフトはこの自動変換をオフにする設定項目を用意していません。
同様の変換によって日付になってしまう遺伝子は多数あり、2016年に発表された遺伝学関連論文の約1/5にExcelの自動変換機能が影響を与えていたとされます。そしてHGNCではこのようなエラーの発生を防止するため、過去1年間で合計27個の遺伝子の名前を変えてきたとのこと。例を挙げるなら、” MARCH1 ”という記号を” MARCHF1 ”に、” SEPT1 ”を” SEPTIN1 ”に、といった具合。しかし、まだ自動変換にひっかかるすべての名前を変更し終わったわけではありません。
これまでにも一度つけられた遺伝子の名前が変更された例はあるものの、それらは検索時に誤検出を起こしたり、その名称が特定の人々に懸念を抱かせるようなものだったりしたため。今回のようにたまたま使っているアプリケーションソフトの標準機能のせいで名称を変えるという例は少なくともいままではありませんでした。
科学者であれど当たり前に使用するExcelですが、アプリケーションとしてはより一般的な用途に向けて設計されていることから、マイクロソフトが今回のような特定の分野の問題のためにパッチなどを用意することはなさそうな雰囲気。HGNCのコーディネーターであるElspeth Bruford氏もこの問題は「非常に限られた使用例」であり、書式の自動変換を無効化するオプションはごく一部の人たちの助けにしかならないと述べました。
ところで、Excelはセル内容の自動変換をオフにする設定項目は用意していませんが、入力する文字列の最初にシングルクォーテーションを入れれば、以降の値を文字列として処理するルールがあります。たとえば” MARCH1 ”なら、” ’MARCH1 ”と入力すれば、それは問題なく文字列として扱われるはずなのですが…?おそらくは、それでも解決できない特殊な不具合があったのでしょう。きっとそうに違いありません。
https://japanese.engadget.com/rename-genes-due-to-excel-043027343.html 0292名無しのひみつ2020/08/11(火) 11:45:51.31ID:dS4ZaS1D
記事内で完全に解決してるのに研究者が面倒くさいってだけでエクセルから変えればいいだけやんけ。
もううろ覚えだけどなんか切り替えれなかったか?
0293名無しのひみつ2020/08/11(火) 11:46:56.67ID:gUchfDLA
>>287
>他の解析ソフト由来の元データが文字列「SEPT1」という遺伝子名でcsv形式。
>そのままexcelで開くと「2020/9/1」とかとなり、
>文字列で表示すると「44075」。
>この状態で保存する
>不慣れな人間を教育するのも間違ってはないですけど、きりがない
こういう程度の低い阿呆は指導云々の価値がないから放り出すというより受け入れたこと自体間違いとしか言いようがない
>>281
流れから言って>>278への批判なんだろうが
csv読み込みの話してるのにマクロ付きファイルを配布するとかどんな誤読だよ
とにかくオリジナルファイルを上書きして「破壊」なんてのは研究者の作法どころかPCを使う基本スキルが身についていない極めて低レベルな話だ 0294名無しのひみつ2020/08/11(火) 12:02:10.89ID:vXI/ce5D
>>293
でも、誰でもやるうえに後々まで気付かないミスなんだよ
慣れてる人でもやるんだぞ 0295名無しのひみつ2020/08/11(火) 12:11:56.40ID:1Px8Z/+z
>>287
>>287
44075が2020/9/1で正しいなら、恐らく初期値は0では1899/12/30
試していませんが、44075-1は2020/08/31になるはず
その数値の加減で日付の計算、同じように時刻計算できます
数値を文字に置き換えるとそうなるのは当たり前のことなんです
きりが無いから名称変更せざるを得なかった、妥協したんでしょ
余談だけど数千数万の数ある論文をexcelで管理するのはどうかと思う
別資料とするならありだけど本文はテキスト変換が容易で
それなりに見やすく検索しやすいワープロソフトの方が個人的には良いと思う
検索キーをMARCH1”としたとき、いちいち論文を開き探すのは面倒くさい
それよりフォルダやUSBメモリまるごとファイル内部を検索対象にし、
ファイル名をピックアップ、その後文書を開けば対象箇所を見つけやすい
有能な研究者はその様にしているはず
個人的には○○docxと○○.txtを同タイミングでファイル保存します
先にtxtファイル全てを検索し、その後に同名docxを開き検索しています
まあ3年前の文書など何処行ったか分からないしファイル名も忘れるから 0296名無しのひみつ2020/08/11(火) 12:29:00.81ID:koF+mz2l
>>293
> csv読み込みの話してるのに
不特定多数の人に「自動書式設定で困ってる?自分でマクロ組めよ」って言うのか。
クソだなw 0297名無しのひみつ2020/08/11(火) 14:14:39.74ID:RPZXZt3j
>>293
もし情報系の学生なら、放り出して良いレベルだが、
excel使えるかと、科学者としてのレベルは別の話。例えば、いつもは動物実験している研究室が、網羅的データが欲しくて、
共同研究先から遺伝子発現データ(3万行分の遺伝子✕条件数の列)を受け取る、とか、よくある。
データを渡した側は、csvの扱いなんて常識なので敢えて説明せず、
受け取った側は自動変換など思いもつかない。とか。
分野毎に常識は違うので、無知と批判するより、間違いのもとになる遺伝子名を変えた、ということですね。 google先生のスプレッドシートになるんじゃないの?
>>297
読み取り時にエラーになるならまだいいけど変な変換しちゃうからそれに気づかないとずっとそのままで使う時に初めて気づくとか検索してもヒットしないとかになっちゃうからねぇ 0300名無しのひみつ2020/08/11(火) 19:12:40.04ID:gFhmbUSH
PythonのPandasで処理はだめなの?
>>299
下手すると、それでウソ論文書いちゃうことになるからなあ 0302名無しのひみつ2020/08/14(金) 21:58:26.22ID:0ToDE/mq
0303名無しのひみつ2020/08/14(金) 21:59:16.57ID:0ToDE/mq
>>269
なんで自動変換オフに出来ないことが使う側のせいなわけ? 0306名無しのひみつ2020/08/14(金) 23:14:39.36ID:aE6FzleT
>” ’MARCH1 ”と入力すれば、それは問題なく文字列として扱われるはずなのですが…?
>おそらくは、それでも解決できない特殊な不具合があったのでしょう。
>きっとそうに違いありません。(ばーかばーかwww)*括弧内は編集者
0307名無しのひみつ2020/08/14(金) 23:58:12.82ID:OCD5RqoM
これは一民間企業MSによるEXCELを通じた言葉に対する検閲であり
言葉狩りの一種だな。
「かたわ」「めくら」「つんぼ」などが仮名漢字変換で出てこない、
うまく変換できないのも似ている。
ツールが半端に賢いと、人間側が被害を被るという例でもある。
0308名無しのひみつ2020/08/15(土) 10:36:05.66ID:86isCqit
ま、でも
遺伝子にSEX1とかFUCK69とか名前つけたら
変えたくなるだろ
今ならBLACK0でも規制になるかもしれん
言葉狩りの一種かな
でもFUCK69因子が生殖と全く関係ない
遺伝子だったら紛らわしいだろ
SEPT1も別に九月とは関係ないんだろ
だったら名前変えていいんじゃないか
とか思ったんだがどうよ
0309名無しのひみつ2020/08/15(土) 10:53:03.79ID:mAOLM/4K
添付ファイルを開いたりcvsを開いたりしたら勝手にexcelが出てきてオートセーブなり上書きセーブなりで破壊するってことだろ?
cvsはノートパットにヒモ付けしとかないとな
>>309
この記事のはCSV
cvsってデータ変更管理システムだな
その後SVN今はgit ExcelにAIが搭載されれば
文系でもグラフが作れる様になるのに・・・
>>313
AIの問題か?
文系の場合はグラフを作るという意識の無さが問題の根源だと思うが? 全ての自動なんたらは一定数のユーザーにとってマイナスだよな
0316名無しのひみつ2020/08/15(土) 20:02:59.12ID:/VQYbRY/
どこの国でも税金を食んでる連中なんだから一般向けソフトも使いこなせない底辺には退場してくれ以外の感想を持ち得ない
0318名無しのひみつ2020/08/17(月) 02:29:18.56ID:up1prPMB
numbers使えよ(´・ω・`)
0319名無しのひみつ2020/08/17(月) 02:43:00.60ID:hpc0UckP
ビルゲイツは地球人類の敵
>>1
科学者なんだから、
Open Office を使って、仕様追加は自分でやって、
github で共有化しろよ。
ほんと専門以外は、情シスの新入社員以下だな。 0323名無しのひみつ2020/08/21(金) 15:02:35.93ID:YOmAz266
0324名無しのひみつ2020/08/22(土) 09:36:49.87ID:D+XykEyr
>>320
まあ、でもなんでOOo、今ならLibreOfficeだが
主流にならないんだろうな
MSのバンドルとかwindows支配の弊害とか思ったが
linuxだとOOoがデフォルトだよな。
学生も無理せずOOoでいいのにな
フリーだと品質とか補償とか言うけど
MSもバグだらけだしフリーでも使われてるソフトはあるのにな
使いやすさと言うほどMSが優れているとも思えん。
解説書は圧倒的にMSが有利か、、、 GPLは無政府主義者が経済システムを破壊する為に生み出した概念
"hoge hoge" って括ればOKというのは分かるけど、いまいちやりたくないなあ
0327名無しのひみつ2020/08/24(月) 08:48:31.09ID:wAdiUl5Q
>>326
それでOKじゃないから問題になってるんだよ? ""で括ったら括ったで別のソフトウェアで加工する時に問題になったり
何も言ってないのに自動で○○は全部糞
やるにしても打ち込んだあと範囲を指定して自動変換で充分便利だろ
0330名無しのひみつ2020/08/25(火) 00:13:49.40ID:uuVn5VWi
>>328
普通のソフトでcsvをインポートする
,"007", → 文字列007になる
Excelでcsvを開く
,"007", → 数値の7になる、""で括っても、あくまで中身で評価する
根本的に違うわけ このExcelの勝手な変換のおかげでCSV専用ソフトの需要がある
0332名無しのひみつ2020/08/25(火) 01:09:58.73ID:Q2QBEWz0
Excelのセルで足し算すると1円誤差が出るのは治ったのかね?
0334名無しのひみつ2020/09/08(火) 13:22:57.56ID:qgwl1UEf
>>324
今だと、上場IT企業でもライセンスない時にLibreOffice一時的に使ってたりする 0335名無しのひみつ2020/09/08(火) 13:24:49.68ID:qgwl1UEf
>>184
エクセルだけで使うわけじゃないんよ
混乱の元 0336名無しのひみつ2020/09/08(火) 14:40:48.77ID:aT4r7v87
00だと勝手に0が消えてバーコードつくるの間違えたことあるわ
0337名無しのひみつ2020/09/09(水) 22:42:57.37ID:C+goUSeT
初めに文字列にしとけばいいんじゃないの?
0339名無しのひみつ2020/09/09(水) 23:31:48.25ID:L9Ev8/rf
平たく言えば、Excelのcsvはcsv詐称
一般的なcsvの解釈と互換性が無い
いい加減名前を変えなさい
Ctrl+Rが左寄せにアサインされていたばかりに
置換コマンドをCtrl+Hにアサインしたマイクロソフトだけは許さない