2009年8月14日,朵拉(左)和弗雷德·貢克爾參加“23和我”公司進行的個體基因組測試差異決定命運
如果你想知道自己未來會不會謝頂或者發胖,有多大可能得糖尿病或者癌症,甚至想知道自己究竟能活多久,能否生出一個健康的孩子,你可以:A.請一位算命先生測測自己的生辰八字;B.找一個星座大師查查自己的星盤;C.把自己的唾液寄給一家基因檢測公司。
選A和B的我們稱為封建迷信,選C的則被視為科學,因為一個人的生辰八字和星座星盤沒有理由決定他的命運,兩者之間的邏輯鍊條是不清晰的,而基因則是所有生命現象的遺傳基礎,科學家們已經搞清了遺傳的本質,明确了從基因到蛋白質之間的因果關系,用基因來算命應該是靠譜的吧?
沒錯,自從1953年沃森和克裡克發現了DNA分子的雙螺旋結構之後,我們終于知道生命信息是由DNA分子負責儲存的,而基因則是由DNA分子當中的G、A、T、C這四種核苷酸依次排列而成,不同的排列方式決定了蛋白質的結構和功能。蛋白質不但是所有生命體的結構基礎,也是所有生化反應的催化劑(酶),基因正是通過控制蛋白質來控制生命的,這條邏輯鍊不但相當完整,而且經受了時間的考驗。
2003年,人類基因組計劃宣告成功,來自全世界的科學家們通力合作,測出了所有30億個核苷酸的全部DNA序列,其中包含大約2萬個基因。值得一提的是,這2萬個基因的長度加起來隻占人類染色體總長度的1.5%左右,人類基因組中的絕大部分DNA序列都不編碼任何蛋白質。但是,這并不等于說這些DNA序列都是沒用的,它們很可能參與了基因性能的調控,并以這種方式控制了蛋白質合成的時間和數量,進而控制了生命的進程。
随着基因組測序量的增加,我們知道地球上所有人的基因組相互之間的相似度高達99.5%以上,剩下的這不到0.5%的差異之中,大部分是單個核苷酸的差别,比如某個位點大多數人是A,但少數人是G,這樣的差異我們稱為“單核苷酸多态性”(SingleNucleotidePolymorphism,以下簡稱SNP)。除此之外,還包括多個核苷酸的插入、缺失和重複等其他類型的差異,但它們所占的比例很低,本文暫不考慮。
如果讓一個外星人來研究人類基因組,他肯定會把研究重點放在那99.5%的相同部分,因為外星人感興趣的是人類和其他生物的差異,那99.5%才是決定人之所以為人的主要原因。但是,人類科學家肯定會更加關心剩下的0.5%,因為人與人之間的差異,以及很多種疾病的病因都是由這0.5%造成的。
同樣,算命先生肯定也隻關心這0.5%的基因差異,因為人類共同的命運是不需要算的。算命愛好者關心的是自己和其他同類的不同之處,幾乎所有這些不同之處都源于人類基因組内的SNP,市面上那些基因檢測公司測的就是它們。
基因檢測的芯片法
測SNP最準确的辦法當然是直接測DNA序列,最先知道的人類SNP正是在基因測序的過程中被發現的。2008年開始實施的“千人基因組計劃”(1000GenomesProject)測量了來自26個不同族群的1000多個個體的全基因組序列,發現平均每個人的基因組内都有100萬~300萬個SNP,具體數量和這個人所屬的族群有很大關系。
這個數字看似很大,但考慮到人類基因組一共有30億個核苷酸,算下來一個人平均每1000多個核苷酸才會有一個和别人不一樣,這說明SNP的出現概率其實是非常低的。
SNP是DNA複制差錯導緻的。随着人口總數的增加和基因組測序量的增大,科學家們發現了越來越多的SNP。截至2017年,國際單核苷酸多态性數據庫(dbSNP)裡已經收錄了3.24億個SNP,其中出現頻率超過1%的SNP約為8500萬個。這些SNP統一用以rs為開頭的一串數字來命名,比如rs72921001就是一個位于第11号染色體上的SNP,假如你在這個SNP位點上的核苷酸是A,那麼你很可能會喜歡吃香菜,如果是C的話,那麼你很可能會覺得香菜有股讓人惡心的肥皂味兒。
如果你想知道自己到底喜不喜歡吃香菜,當然可以把自己的第11号染色體上的那段相應的DNA序列測出來,但這麼做成本太高了。既然我們已經知道了這段DNA序列,那就可以不用測序,而是通過更加廉價的“探針法”将其檢測出來。事實上,為了區分不同的SNP,國際SNP數據庫通常會列出該SNP兩邊各幾十個核苷酸的序列,這就為科學家們合成出相應的探針提供了便利。
顧名思義,所謂“探針”(Probe),就是事先制作好的一個和目标基因互補的DNA短片段,用它可以從龐大的基因組中釣取出特定的SNP序列。比如前文提到的這個rs72921001,如果我們想要知道自己在這個SNP上到底是怎樣的話,隻要根據數據庫裡提供的信息,事先合成出一個帶有熒光标記的DNA探針,覆蓋了這個SNP兩邊的幾十個核苷酸序列,然後把這個探針和自己的基因進行雜交,SNP位點的不同會導緻雜交強度出現差異,從而引起熒光強度的變化。我們隻要設法測出熒光的強度,就可以推斷出自己在這個SNP位點上到底是A還是C了。
探針法最大的好處就是可以把探針做得非常小,然後将很多探針集成到一塊芯片上,通過機器來自動讀取熒光信息,這就大大提高了基因檢測的通量,降低了成本。最早采用這個辦法的就是大名鼎鼎的美國基因檢測公司“23和我”(23andMe),這家公司早在2007年就推出了全世界第一個基于芯片法的個人基因測試盒,後來的所有這類面向普通消費者的基因檢測公司大都沿用了他們發明的這項技術,其中就包括國内的諾禾緻源、博奧頤和、碳雲智能和23魔方等等不下幾十家公司。
總部位于深圳的“微基因”(WeGene)也是其中之一,這家公司采用了96孔和24孔兩種規格的芯片闆,其中24孔闆就是在一塊尺寸大約為12厘米×6厘米的塑料闆上安置24塊芯片,每塊芯片上事先放置了60萬個熒光探針。顧客把自己的唾液吐進專門從國外定制的收集管裡寄回公司,這批管子被集中送至同樣位于深圳的“華大基因”(BGI)公司的實驗室,由專門的實驗人員從唾液中提取出顧客的DNA,在恒溫箱中和芯片進行雜交。之後這塊芯片闆被送入專門的儀器中讀取熒光信号,再用相應的軟件進行分析,就可以獲得這位顧客基因組内的60萬個SNP位點的遺傳信息了。
“單個熒光信号并不能直接告訴我們該位點的遺傳信息,必須把來自多個芯片的信号數據整合起來分析,才能判斷出某個SNP位點到底是哪個核苷酸。”“微基因”的首席技術官陳鋼對我介紹說,“我們通過大量試驗,對芯片讀取技術進行了多次優化,終于把數據的重複率提高到了99.6%。也就是說,同樣一塊芯片,分析兩次得出的結果有99.6%都是一樣的。”
判斷一家基因測序公司的好壞,數據的可重複性是很重要的指标。另一個重要指标當然是探針的設計和SNP數據的分析方法,這裡面的學問就更多了,值得我們好好讨論一番。
祖源分析的科學基礎
祖源分析一直是全球絕大部分基因檢測公司的主要業務項目,我們可以先通過這個項目了解一下基因檢測到底是如何進行的。
從某種意義上說,祖源分析就是基因親子鑒定的擴增版,兩者的理論基礎是類似的,都是基于這樣一個事實,那就是基因突變的發生頻率非常低,絕大部分基因突變(包括SNP)都隻發生過一次。所有這些突變都會遵循基本的遺傳法則在人群中擴散,隻要掌握了這套遺傳法則,就可以根據相應的遺傳特征判斷出兩個人是否有親緣關系,以及一個人的祖先究竟來自哪裡,大約是在什麼時候和其他人群分家的。
這套分析方法的原理并不複雜,但實施起來卻并不容易,需要事先對不同的族群進行全基因組測序,從中找出最具代表性的SNP。比如,如果我們能找到一群一直生活在某一非洲地區的原住民,分析他們的DNA,再和世界其他地方的人做對比,找出哪幾個SNP是這群非洲人獨有的。之後,如果我們在基因測試的過程中再次發現了這幾個SNP,就可以推斷出這個測試者是那群非洲原住民的後代,甚至可以根據一套複雜的算法大緻估算出這位測試者到底是從什麼時候開始從那個非洲部落裡走出來的。
這套分析方法要求SNP的遺傳規律相對簡單,人類基因組當中隻有線粒體和Y染色體符合這個要求,因為它們在複制的過程中不會發生基因重組,最适合用于祖源分析。
雖然線粒體和Y染色體不會發生基因重組,但依靠它們進行祖源分析還是很難的。線粒體雖然很小,但也有1.67萬個核苷酸,Y染色體雖然是所有染色體當中最短的,也含有大約6000萬個核苷酸,科學家們需要積累很多的DNA數據才能得出可靠的結論。
最早開始研究線粒體和Y染色體的是歐美國家,他們采樣的範圍肯定偏向歐美人群,所以歐美等國在這方面的數據積累得特别多,得出的結論也就更加精确。再加上歐美等國的居民成分本來就相對要複雜一些,那裡的消費者對于自己祖先來源的興趣也更大,所以祖源分析在歐美消費者當中很有市場,很多歐美人之所以去測基因,主要目的就是為了測祖源。
相比之下,中國在這方面的優勢就沒那麼明顯了。比如我在“微基因”測過自己的祖源,發現我是99.66%的北方漢族。這個結果對我來說幾乎一點意義都沒有,不過我有幾個少數民族的朋友還是測出了一些不同的成分,不能一概而論。
這個分析結果的理論基礎來自十多年前由複旦大學金力教授牽頭實施的“東亞男性Y染色體大調查”,研究人員深入到許多偏遠地區,收集到了1.2127萬個Y染色體樣本,分别來自163個不同的東亞人群。這些人群的分布情況和遷徙路線大都是已知的,這就給研究人員提供了很多優質的參考數據,準确地把基因和族群特征聯系了起來。“微基因”隻要測出我的基因組内與此相關的若幹個SNP的情況,就可以知道我的祖先來自哪裡。
女性沒有Y染色體,隻能通過線粒體來進行祖源分析。但是線粒體本來就短,東亞人群的線粒體研究也做得不如Y染色體好,所以依靠線粒體進行祖源分析不如Y染色體那麼可靠。不過,“微基因”收集了很多位于常染色體上的祖源特征,也可以借助常染色體的SNP信息來測祖源。
如果你信不過中國的基因檢測公司,去國外做檢測,效果會不會好一點呢?答案是否定的,因為歐美人祖先的遷徙路線和中國人很不相同,歐美公司自然會偏向他們,專挑那些和歐美人的祖源有關聯的SNP去測。前文說過,算命的基礎是差異性。如果你測的SNP在中國人當中隻有萬分之一的出現率,那就說明你需要測一萬個中國人才會出現一次不同的結果,這樣的SNP對于中國用戶來說是沒有意義的。
因此,對于中國用戶來說,如果你想更精确地知道自己的祖先來自哪裡,隻能希望中國科學家們多多努力了。中國人的祖源成分雖然有可能不如歐美人那麼富有戲劇性,但在中國這塊土地上發生的族群遷徙和融合事件一點也不會輸給歐美,長達3000多年的有文字記載的中國曆史就是明證,僅僅用“北方漢族”這四個字來概括是遠遠不夠的,應該可以分得更細才對。
問題在于,人類基因組測序是很費錢的,相關數據的收集整理需要耗費大量的時間和精力,一般人缺乏動力,除非能一邊收集數據一邊掙到錢才會去幹。不過,這不就是“微基因”這樣的公司正在做的事情嗎?事實上,全世界幾乎所有的基因測序公司都是在一邊提供服務一邊收集數據,希望能從消費者提供的數據中發現新的東西,“微基因”自然也不例外。
“不過,我們畢竟是一家面向普通消費者的商業公司,不可能一上來就要求使用者填一大堆表。”陳鋼對我說,“我們會使用一些技巧,比如填一次表可以拿到一張優惠券之類的,鼓勵用戶把他們的一些個人信息告訴我們。當然了,我們會事先向用戶說明這些信息的用途。”
對于祖源分析來說,“微基因”需要的無非就是用戶的出生地、籍貫和民族等普通個人信息,收集起來難度不大。用戶在提供這些信息的同時,也就幫助了“微基因”積累更多的數據,提高祖源分析的準确性。要知道,對于“微基因”來說,光有一大堆SNP數據是沒有用的,必須把每個人的遺傳信息和他的民族籍貫等真實信息結合起來才有價值。
陳鋼還告訴我,他們最近開始嘗試一種新的玩法,鼓勵使用者上傳自己的正面免冠照片,然後他們在後台把和使用者基因型相似的所有人的照片整合起來,用軟件加以平均,生成一張“祖源平均臉”。“微基因”希望通過這個方式,發現面部特征的遺傳基礎。如果這個目标真的能實現的話,将來便可以通過一個人的基因型推斷出他的長相。美國聯邦調查局(FBI)也在研究類似的技術,他們已經利用該技術破獲了一起刑事案件。
這項看似天方夜譚的技術真的靠譜嗎?答案是:有待确定。一個人的膚色、眼珠顔色、鼻梁高低和毛發是否卷曲等特征确實和種族有關,推測起來應該不難,但決定一個人長相的并不僅僅是以上這些,還包含了面部骨骼的很多細微變化,這些變化是由遺傳和環境這兩個因素雙重控制的,沒人知道兩者各占多大的比例。即使遺傳所占的比例很高,能夠影響臉型的基因也很可能有很多個,怎麼可能預測準确呢?
事實上,基因檢測的核心問題就出在這裡。
2013年9月7日,在美國北卡羅來納州達勒姆的斯塔格維爾種植園,烹饪史學家邁克爾·特維蒂獲知了遺傳測試結果,确定他的祖先在北非從基因型到表型
依靠基因檢測來進行祖源分析之所以還算靠譜,原因在于基因型和祖源是直接相關的,中間沒有多餘的環節。但是,如果你想通過基因檢測來預判自己未來能長多高、會不會發胖、喜不喜歡吃香菜,或者預測自己生某種病的概率,可靠性就沒那麼高了,這是因為從基因型到表型之間還有很多步驟,每一步都存在諸多變數,太複雜了。
基因可以看成是制造蛋白質的工程圖紙,從基因型到蛋白質之間還要經過轉錄、翻譯和翻譯後修飾等若幹環節,兩者之間并不是簡單的一一對應關系。同樣,從蛋白質到表型(Phenotype,也就是身高體重、頭發顔色、是否會生病等等後天表現出來的整體性狀)之間同樣也要經曆很多步驟,這些步驟相互之間可以有互補和互惠等不同的關系,也不能簡單地畫等号。
就拿遺傳病來說,有一類遺傳病隻需要一個基因發生變異就可以表現出來,科學術語稱為“單基因遺傳病”。國際遺傳病數據庫中收錄的單基因遺傳病種類大概有8000種,其中4000多種病的緻病機理是比較明确的,基本上可以建立一對一的關系。這類疾病理論上是可以通過基因檢測測出來的,比如“微基因”就列出了30項中國人當中比較常見的單基因遺傳病,包括苯丙酮尿症、肥厚型心肌病和葡萄糖-6-磷酸脫氫酶缺乏症等。其中肥厚型心肌病不做檢查的話很難看出來,患者如果不注意的話有可能在做劇烈運動時發生猝死。葡萄糖-6-磷酸脫氫酶缺乏症又名“蠶豆病”,患者進食新鮮蠶豆後會誘發溶血性貧血,嚴重的有生命危險。
如果基因檢測查出一個人攜帶有某種緻病基因,并不等于他一定會得病,因為單基因遺傳病大都是隐性遺傳的,即隻有兩條染色體上攜帶的都是緻病基因時才會發病。即使在這種情況下,基因檢測仍然是有用處的,因為如果夫妻雙方都是攜帶者,那麼他們生出的孩子将有四分之一的可能性患病,因此如果某人在基因檢測時被查出是某個遺傳病的基因攜帶者,那麼配偶就應該也去做檢查,防止生出患病的下一代。
不過,絕大部分單基因遺傳病的發病率都很低,一般人中招的可能性很小。但像糖尿病、心髒病和癌症這類高發性疾病則大都是由多種遺傳因素疊加而成的,很難通過消費者級别的基因檢測做出可靠的判斷。另外,像智商這樣的表型背後的相關基因就更多了,一般的基因檢測是根本查不出來的。
還有,絕大部分疾病不但和遺傳有關,還和環境有很大關系。比如乳腺癌的發病率不但和緻癌基因有關,還和患者的初潮年齡、生育年齡和家族史等等很多因素密切相關,即使是攜帶有BRCA1或者BRCA2這兩個著名的乳腺癌基因也并不意味着一定會得癌症。安吉麗娜·朱莉之所以決定預防性摘除乳腺和卵巢,絕不僅僅是因為基因檢測,還和她的好幾位直系親屬都已得了癌症有很大關系,這個決定是在參考了多方面因素後才做出來的。
一種表型到底和遺傳有多大的關系?這是個非常難以回答的問題,因為疾病的遺傳性不但難以界定,而且是會随着環境的變化而發生改變的。舉例來說,身高的遺傳性在最近這100年裡有了顯著的增加,但這不是因為我們的基因發生了變化,而是因為人類的營養水平普遍提高了,營養不良對于身高的影響力大大下降。再比如,肺癌一直被認為是一種和後天生活環境(比如吸煙和空氣污染)關系密切的疾病,但如果一個村莊坐落在一家管理不善的火電站旁邊,或者該村的村民人人吸煙的話,那麼肺癌對于這個村的村民來說就變成一種具有高度遺傳性的疾病了。
安吉麗娜·朱莉在得知自己攜帶乳腺癌基因後,參考了多方面因素,最終決定預防性切除乳腺和卵巢正因為如此,像“微基因”這種面向普通消費者的基因測試結果是不能用于醫療診斷的,該公司也取消了“健康建議”欄目,因為他們不相信消費者有能力區分遺傳因素和環境影響之間的差别。但他們仍然保留了一些和健康有關的項目,比如運動基因、營養代謝、健康風險和藥物指南等等。不過,雖然這些項目的理論基礎大都來自可靠的科學論文,但使用者在解讀時仍需謹慎。
比如,運動基因欄目中的“膝蓋前交叉韌帶保護能力”是和膠原蛋白的合成能力挂鈎的,理由是韌帶的主要成分是膠原蛋白,但真實生活中一個人的韌帶保護能力還和他的腿部肌肉力量有關,所以這個指标隻能作為運動時的參考。再比如,營養代謝欄目中的“乳糖代謝能力”衡量的是成年人體内的乳糖酶的活性,但其實乳糖酶基因誰都有,隻是有些人成年後不再表達了而已,這個基因的表達通路經過适當的訓練是可以重新恢複的,因此這項檢測肯定會有很多人覺得不準。
以上這些測試結果之所以不完全可靠,最根本的原因在于相應的科學論文都屬于純粹的相關性研究,并沒有對雙方的因果關系做出合理的解釋。
相關與因果
鐮刀型細胞貧血症是幾乎所有遺傳學教科書上都會拿出來詳細解釋的一種遺傳病,因為這是人類第一個完全搞清楚緻病機理的單基因遺傳病,從緻病基因到貧血症之間的因果關系是非常明确清晰的。
當初科學家們先是從鐮刀型紅細胞入手,發現患者血紅蛋白β-肽鍊的第6位置上的谷氨酸被缬氨酸所代替。随即進行的生化實驗表明,僅此一項變異就能降低病人血紅蛋白的攜氧能力,并導緻紅細胞從圓盤形變成鐮刀形。之後,科學家們找到了編碼鐮刀型血紅蛋白的基因,發現DNA序列中的一個核苷酸T變成了A,正是這個變化導緻了它所編碼的氨基酸發生了改變。
這個例子象征着傳統研究範式的勝利。這套研究方法的核心訴求就是尋找因果關系,研究思路則圍繞着“假說”(Hypothesis)做文章。研究者首先必須提出一個可被證僞的假說,然後設計出精巧的科學實驗,通過改變預設條件并觀察相應的實驗結果來驗證(或者證僞)該假說。然後,研究者會把這一過程重複很多次,這才能找到自然現象與科學理論之間的因果關系。
這套研究範式統治了科學研究幾百年,取得了一大批豐碩的成果,極大地提高了人類的生活質量。但是,自從人類基因組計劃完成後,情況悄悄地發生了變化。
就拿前文提到過的香菜基因來說,這個基因的發現過程和科學界常見的研究範式背道而馳。首先,“23和我”公司的研究人員并不知道去哪裡尋找香菜基因,也沒有提出過任何假說,而是在自己的用戶群中發放了一份調查問卷,其中有一條就是詢問他們是否喜歡吃香菜。問卷收集上來之後,研究人員按照用戶對香菜的态度把所有人分成兩組,然後從他們的SNP數據中尋找規律,rs72921001就是這麼被發現的。直到今天,科學家們也隻能說這個SNP很可能與嗅覺功能有關,但它和香菜之間真正的因果關系尚不清楚。
不知道因果關系并不妨礙基因檢測公司利用這一信息為用戶提供服務。事實上,各家基因公司在更多的人群中收集到的數據表明,用這個SNP來預判用戶對香菜的态度還是很靠譜的,隻在中國遇到了一點小麻煩。因為中國烹饪大量使用香菜,很多中國人即使覺得香菜味道像肥皂,也漸漸地接受了這個味道,起碼不那麼讨厭它了。
這個香菜SNP的發現和“23和我”公司的芯片設計很有關系。人群中喜歡香菜和讨厭香菜的人都很多,因此這個香菜基因的多樣性肯定是非常高的。這家公司的科學家在芯片上放置了一大批專門針對高頻SNP的DNA探針,雖然這些SNP的功能還是未知的。等到公司收集了很多用戶,積累了大量數據之後,就可以利用這些高頻SNP來尋找有意思的基因了,香菜基因隻是其中一個比較好玩的例子而已。
事實上,這就是大部分這類普通消費者級别的基因檢測公司的生财之道。“23和我”公司2007年底剛開業的時候,一個基因測試盒的售價高達1000美元,但第二年就降到了399美元,後來更是降到了99美元的最低價,其目的就是為了收集更多用戶的基因數據,最終以此來盈利。其實這也是谷歌這類互聯網公司的生财之道,“23和我”正是從谷歌那裡學會了這一招。
就這樣,在堅持了很多年,積累了80萬用戶之後,“23和我”終于在2015年初掙到了第一桶金。著名的生物技術公司基因泰克(Genentech)宣布付給“23和我”1000萬美元現金,用于購買該公司收集到的和帕金森氏症有關的SNP數據,希望能從中尋找到和這個病有關的基因,從而開發出針對這一絕症的新藥。如果成功的話,基因泰克公司還将支付5000萬美元,使得這項合作的總價值有可能高達6000萬美元。
“微基因”顯然也想複制“23和我”的成功模式。陳鋼告訴我,他們設計的芯片上有10萬個探針檢測的是已知功能的SNP位點,另外50萬個探針檢測的是未知功能的SNP位點,後者是專門為中國人量身打造的,包括了一大批在中國人群中出現率很高的SNP位點,他們希望能把中國人群的遺傳多樣性都包括進來。
但是,這裡面存在兩個問題。第一,這些位點的選擇必須考慮到探針的靈敏度問題,有些SNP位點出現率很高,但因為自身順序的原因導緻探針很難設計,從生産工藝的角度講麻煩太多,隻能被舍棄。第二,光有基因數據一點用處也沒有,必須同時收集到用戶的個人健康信息才有用,這就涉及個人隐私的保護問題。其實這類研究的目的是造福全人類,用戶在購買服務的同時還能為科學研究做點貢獻,本身應該是件好事,可惜很多中國人對于疾病的認識還處在原始階段,覺得生病是一件丢人的事情,不願意讓别人知道。
有家公司自認為能夠一舉解決這兩個問題,這就是同樣位于深圳的華大基因。
大數據的魅力
“我們一直沒有在針對普通消費者的基因檢測方面做太多事情,因為我們覺得現有的數據量還不夠大,相關性不夠可靠。”華大基因的創始人兼現任董事長汪建在接受我專訪時開門見山地說,“所以我們決定先從自己的員工做起,而且是從全基因組測序再到生化指标檢測再到影像系統數據收集等等一起做。我們有6000多名職工,加上家屬有3萬到4萬人,足以構建一個非常龐大的優質數據庫了。”
采訪是在位于深圳郊區的國家基因庫進行的,這是在發改委等國家部委的支持下,由華大基因研究院負責組建并運營的國家級研究機構,其基因測序和數據儲存能力在全世界都是數一數二的。華大基因本來就是靠DNA測序起家的,當年曾經代表中國參與了人類基因組計劃,負責并完成了其中1%的測序工作。
基因測序可以很好地彌補探針設計上的缺陷,在基因檢測領域有着不可替代的作用,但汪建顯然早就不滿足于隻測DNA了。“如果基因是A,健康是Z,從A到Z之間還有很多步驟呢,包括小分子代謝、維生素和氨基酸調控等等等等,所有這些步驟都有很多數據需要研究,隻有掌握了這些數據,才能搞清楚兩者之間的因果關系。”汪建一邊打着手勢一邊說,“我有一次講課時給每位學員發了一串糖葫蘆,第一個葫蘆是DNA,第二個是RNA,然後是氨基酸、蛋白質、組織、器官……如果生命是一串糖葫蘆,那麼我們必須把所有的葫蘆都串起來,把所有的關節都打通,否則是不行的。”
在汪建的構想中,華大基因最終将會變成一家醫療健康服務機構。為了實現這個目标,他決定先從公司員工做起。他不但自己以身作則,還在公司内部強力營造了一個健康生活的氛圍。比如國家基因庫裡面居然沒有電梯,上下樓隻能爬樓梯。他還在每個樓梯口放了一台體重秤,時刻提醒大家注意控制體重。我還注意到,國家基因庫的辦公室桌上散落着好多握力器,他随手抓起一個對我說:“我們公司開會發言的時候每個人都拿一個握力器,握多久就講多久,我一次能握100下!”
不過,除了“少食多動”這些常見的口号之外,華大基因極力發展的大數據分析并沒有為員工們提供太多有針對性的健康建議。不過這也很容易理解,因為這項工作才剛剛開始,數據量積累得還不夠多,不可能從中總結出什麼驚世駭俗的健康理論。
“我給你講個故事吧,這個故事給我留下很深刻的印象。”汪建一邊捏握力器一邊對我說,“新中國剛成立的時候流行過一陣子克山病,這是一種心肌病變,沒人知道病因。80年代初期,聯合國發展署為了幫助中國攻克克山病,送給中國政府一大堆儀器設備,能夠對環境中的微量元素進行分析,分析結果發現,克山病高發區的土壤中硒的含量很低,于是中國政府開始有針對性地為老百姓補硒。到了1986年,這個病終于消失了。當年我還是個醫生,被派去大理和楚雄做調研,發現那裡的土壤和水系中的硒含量非常高,但當年那兩個地區照樣有克山病,我百思不得其解。後來我才意識到,當年雲南很窮,得病的人都是因為吃不飽肚子,後來經濟發展了,老百姓有飯吃了,克山病自然也就消失了。”
這真是個很有意思的故事,從中可以總結出很多道理。
首先,這個故事說明相關性研究有很多陷阱,一不小心很容易找錯目标。這方面還有一個著名的案例,有人曾經發現尼古丁受體和肺癌有很強的相關性,但如果你想研究尼古丁受體分子到底是如何緻癌的,結果恐怕會令你失望,因為兩者之間并沒有生物學上的關系,兩者的相關性純粹是因為尼古丁受體和吸煙有關,而煙草才是導緻肺癌的真正殺手。
總之,我們不能輕信相關性研究的結論,而目前大多數消費者級别的基因檢測的結果大都是基于相關性的研究,隻能作為參考,不能成為醫生治病的依據。“23和我”公司曾經受到美國FDA的懲罰,原因就在于該公司誇大了基因檢測的可靠性,導緻很多用戶把檢測結果當成制定醫療方案的根據了。
其次,這個故事說明新發現往往來自于新技術的應用。在克山病的故事裡,聯合國提供的環境微量元素測量設備是關鍵,沒有它就沒有硒理論的出台。同理,基因研究領域近年來的飛速發展同樣得益于DNA測序技術的進步。要知道,2003年測出的第一個人類基因組序列耗時13年,總花費約為30億美元。14年後的今天,這兩個數字分别降到了數天和數百美元,甚至有可能在未來的幾年裡降到一天和100美元的水平。相比之下,RNA和蛋白質測序的技術仍然停留在10年前的水平,小分子代謝領域的研究方法也沒有太多改進,這就使得DNA成為生物學研究領域的一匹黑馬,而且早就一騎絕塵,把其他研究手段遠遠地甩在了後面。如今生物學之所以會出現那麼多關于基因型和表型之間的相關性研究,根本原因就在這裡。華大基因的技術員在操作“微基因”公司的基因芯片(袁越攝)第三,雖然相關性研究不太可靠,但如果采樣範圍足夠廣、數據量足夠大的話,相關性總有一天會轉變為因果關系,隐藏在大數據中的事實真相早晚有一天會浮出水面。
就拿基因研究來說,如果我們能把全世界所有人的基因組順序都測出來,相關性肯定就變成了非常可靠的因果關系了。即使做不到每個人都測,隻要能測出一定比例的基因組,比如把三分之一的人口都測一遍,那麼隐藏在基因組中的很多秘密一定會迎刃而解的。問題在于,基因組研究的數據量非常龐大,“微基因”把原始數據發給了每一位用戶,我那份數據的大小是14.5MB,大緻相當于一首高質量的MP3歌曲。我每次用記事本打開它時都要等很久,因為普通文本文件很少有這麼大的。
這還隻是60萬個SNP位點的簡要信息,如果是全基因組測序的話,光是記錄測序結果的文件就有1GB左右,大緻相當于一部高清電影的大小。标準的全基因組測序結果還會加上質量評分和測序深度等附加信息,通常是90GB左右,如果換成音樂的話恐怕一輩子都聽不完。如果再算上轉錄組學、蛋白質組學和代謝組學等等中間步驟的數據的話,任何一個人的健康數據都将是TB級别的。對于這個級别的大數據,無論是存儲還是分析都将耗費大量的電腦資源,任何一家公司要想開展這方面的研究,都必須首先把大筆投資放在計算機系統上。好在IT領域近年來發展神速,計算機的速度越來越快,硬盤的儲存量越來越大,價格卻越來越低了,無論是華大基因還是國内另一家以測序為主業的旗艦型基因公司諾禾緻源(Novogene)都已經有了幾十PB級别的數據儲存能力,足以應付目前的研究任務。
同樣是最近這幾十年才發展起來的新興行業,生命科學和計算機科學的差距為什麼越拉越大呢?原因就在于研究範式的不同。華大基因的創始人兼現任董事長汪建(袁越攝)研究範式的改變
前文提到,最近這半個多世紀的生物學研究是以研究因果關系為主的,研究人員首先必須明确自己的研究目标,要麼是一個基因或者一個蛋白質,要麼是一種化學藥物或者一個治療方法,然後研究人員必須在實驗室裡建立一個細胞模型,把實驗條件變來變去,考察每一次改變所導緻的結果,并在這個過程中搞清其作用機理。這一步完成之後,還要再轉移到昆蟲或者小鼠中,利用動物模型來做實驗,直到動物模型也做得差不多了,這才敢轉移到人身上。無論從何種角度來看,科學家直接在人身上做實驗都是不現實的,因此隻能繞這麼一個大彎子。
這套模式導緻的結果就是一名科學家往往隻關心某一條生化路徑,找到的新藥也隻能解決某一條路徑出現的問題。在汪建看來,這是現代生物醫藥領域最大的瓶頸所在。
“分子生物學在最近這50年裡所犯的最大錯誤就是高估了單一基因的作用,因為人類的複雜程度是超出我們想象的。”汪建對我解釋說,“一個人年輕的時候有很多代償性機制可以用來彌補單一基因缺陷所帶來的隐患,但他年紀大了之後這些代償機制很可能就逐漸失靈了,所以人老了才更容易生病。現在的絕大多數化學藥都隻是堵住了某一條代謝路徑,這個思路是行不通的。”
在汪建看來,現代醫學确實提高了人類的壽命,但主要的功勞來自抗生素和疫苗的使用。這兩樣發明都是針對病菌的,可以較為容易地在培養皿裡做實驗。但像癌症和老年癡呆症這樣的疾病就沒辦法做實驗了,所以進展緩慢,逐漸變成了現代人最厲害的殺手。大數據研究方式則可以繞過這個障礙,不用拿人來做實驗,僅僅通過分析各種數據,從中找出規律就行了。
“在我看來,目前的基因大數據領域有兩種玩法,分别代表了兩個哲學層面的概念。一個是WhyNot(為什麼不),一個是ForWhat(為了什麼)。”汪建對我說,“像‘23和我’這樣的公司玩的是前者,反正就是鬧着玩的,靠不靠譜無所謂,隻要消費者玩得起就行。我雖然也在玩前者,但我最想玩的其實是後者,這就必須要有确切的科學證據才敢去做,于是在很多人眼裡我就顯得有些保守了。”
汪建的這段話很可能是有感而發的,因為他曾經的部下,擔任過華大基因CEO的王俊不久前剛剛離開華大,創立了碳雲智能公司,準備立即把他那套“糖葫蘆”理論付諸實踐。
“不過呢,新生兒遺傳缺陷、癌症和傳染病這三個領域有些不同,因為這相當于和死神賽跑,病人等不了了,所以我決定先從這三個領域入手,做點實際的事情。”汪建補充道。
他所說的新生兒遺傳缺陷,指的就是華大基因開發的一套無創産前診斷方法,用的是華大最擅長的高通量測序法。以前孕婦要想做産前診斷的話隻能抽羊水,存在一定的流産風險。華大的這套方法隻需抽取孕婦5毫升靜脈血就可以判斷出胎兒的第13、18和21号染色體有沒有出現異常情況,其中21号染色體三體就是唐氏綜合征的病因。
癌症指的是癌細胞的基因檢測,這是目前流行的癌症靶向藥物在使用前必須經過的一步。傳染病指的是用基因測序的方法判斷感染源,同樣可以幫助醫生迅速判斷出到底應該用什麼抗生素。
稍微想想即可知道,這三個領域用的都是純粹的高通量基因測序技術,和前文所說的那些研究不太一樣,肯定不是汪建和華大基因最終想要實現的目标。但那個目标太過遙遠,要想實現它,華大基因首先必須生存下去,于是這家公司正在将工作重心從純粹的基因測序服務轉移到醫療領域的實際應用上來,其醫學部分馬上就要上市了。
可惜的是,中國目前沒有任何一種基于基因檢測的診斷方法被列入醫保,中國患者隻能自費。
至于華大基因未來的那個目标到底是什麼,其實誰也說不清,因為研究範式已經發生了改變。“我們是一家Data-driven(數據驅動)的公司,不再是Hypothesis-driven(假說驅動)了。”汪建說,“這個意思就是說,我們先生産出數據,然後再從裡面找假說。”
至于說能否找得到,那就要看數據的總量和質量了。每一個自費花錢做基因測序的人,其實都是在為這個目标做出自己的一份貢獻。
結語
汪建是一個直性子的人,采訪結束後的閑談過程中,他提到自己最近正打算駕船沿着達爾文當年的足迹來一次環球旅行,把達爾文當年研究過的動植物的基因組統統測一遍。“這事就是純粹的WhyNot,雖然尚未得到政府的支持,但我現在自己也玩得起了,于是我就想痛痛快快地玩一把。”
達爾文的那次環球旅行在人類曆史上留下了濃重的一筆,因為他就是在那次旅行途中開始思考進化論的。事實上,在達爾文的時代,生物學并沒有多少理論可以提供指導,也沒有多少假說可供研究,還處在發現相關性的時代。那個時代的博物學家們滿世界尋找新穎的動植物标本,有點類似于現在的基因學家到處給人測序。最終,達爾文在浩如煙海的動植物标本中發現了規律,寫出了《物種起源》這本現代生物學的奠基之作。在他之後的生物學便一直沿着他定下的道路前行,取得了一大批豐碩的成果。
如今生物學再一次遇到了瓶頸,醫學研究領域的發展速度明顯慢了下來。也許這就是一個信号,告訴我們生物學又到了需要發現相關性的時代了,生物大數據研究就是在這個大背景下火起來的。此時汪建重走達爾文之路,好似生物學迎來了一個新的輪回,隻不過這個輪回發生在更深的層次上,其結果也很可能像當年的進化論一樣,讓所有人大吃一驚。
讓我們拭目以待吧。