人類基因組中有數(shù)以萬計的基因:DNA和RNA的微不足道的扭曲,它們結(jié)合在一起,表達了使我們每個人獨一無二的所有特征和特性。每個基因都有一個名稱和字母數(shù)字代碼,即所謂的符號,科學(xué)家用它來協(xié)調(diào)研究。但在過去的一年多時間里,大約有27個人類基因被重新命名,這都是因為微軟Excel一直把它們的符號誤讀為日期。
這個問題并不像最初聽起來那么意外。Excel是電子表格界的龐然大物,科學(xué)家經(jīng)常使用它來跟蹤他們的工作,甚至進行臨床試驗。但它的默認設(shè)置是以更平凡的應(yīng)用為目的的,所以當(dāng)用戶在電子表格中輸入一個基因的字母數(shù)字符號時,比如MARCH1,即"膜關(guān)聯(lián)環(huán)-CH型手指1 "的縮寫,Excel會將其轉(zhuǎn)換為日期:1-Mar(3月1日)。
研究發(fā)現(xiàn),論文中的基因數(shù)據(jù)有五分之一受到EXCEL錯誤影響。這是非常令人沮喪的,甚至是危險的,科學(xué)家們不得不用手整理恢復(fù)被破壞的數(shù)據(jù)。它也令人驚訝地廣泛存在,甚至影響到同行評審的科學(xué)工作。2016年的一項研究檢查了3597篇發(fā)表論文旁共享的基因數(shù)據(jù),發(fā)現(xiàn)大約五分之一的數(shù)據(jù)受到了Excel錯誤影響。
這種錯誤也沒有簡單的解決方法。Excel并沒有提供關(guān)閉這種自動格式化的選項,避免這種情況的唯一方法就是改變各個列的數(shù)據(jù)類型。即使這樣,科學(xué)家可能會修正自己的數(shù)據(jù),但只要別人不假思索地在Excel中打開同樣的電子表格,錯誤就會重新引入。
不過,幫助已經(jīng)到來了,那就是負責(zé)基因名稱標(biāo)準(zhǔn)化的科學(xué)機構(gòu)--HUGO基因命名委員會,即HGNC。本周,HGNC發(fā)布了新的基因命名指南,包括針對影響數(shù)據(jù)處理和檢索的符號。從現(xiàn)在開始,人類基因和它們所表達的蛋白質(zhì)在命名時將考慮Excel的自動格式化。也就是說,符號MARCH1現(xiàn)在變成了MARCHF1,而SEPT1變成了SEPTIN1,以此類推。HGNC將存儲舊的符號和名稱的記錄,以避免今后出現(xiàn)混亂。到目前為止,大約有27個基因的名字在過去的一年里被這樣改變,但指導(dǎo)方針本身直到本周才正式公布。