人與人的基因序列中99.9%以上是相同的,僅有不到0.1%差異,可是為什么我們卻如此不同?
人們經(jīng)常把人類基因組序列(30億對堿基)比喻成一部60億字的天書,人類基因組計劃的測序,只是把天書變成“明文”,人類卻仍舊看不懂這些文字所表達的意思。
一個名叫“基因型—組織表達”(以下簡稱GTEx)的大型研究項目試圖尋找答案——即找到序列與實際性狀(疾病)的關系,確定不同基因究竟如何影響表達。GTEx計劃是現(xiàn)有規(guī)模最大的人類器官轉(zhuǎn)錄組研究計劃。這項研究由美國國立衛(wèi)生研究院(NIH)資助,包括麻省理工學院、哈佛大學、芝加哥大學等美國多個知名研究機構的研究人員參與研究,通過對不同性別的死者不同組織、不同器官的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組進行分析,試圖把基因組測序的結(jié)果“直譯”出來。
經(jīng)過10年研究,GTEx計劃9月上旬公布最新分析成果,數(shù)據(jù)以系列論文的形式在《科學》《細胞》等雜志上發(fā)表。值得一提的是,GTEx數(shù)據(jù)被廣泛用作設計新方法和工具的參考數(shù)據(jù)集,由此衍生出大量便于更深入研究的統(tǒng)計學方法。
為生活中的“小煩惱”尋找關聯(lián)基因
這里有每個人的小憂慮,歡迎“對號入座”——
如果你還沒到成為中年油膩男的年紀,或許正在擔心:為什么我的發(fā)際線在不斷升高;
如果你是位壓力山大的職場女性,或許正在擔心:去年體檢的乳腺結(jié)節(jié)不知道怎么樣了,據(jù)說乳腺癌患病率很高;
如果你是名新手寶媽,或許正在擔心:我家娃超重了!除了母乳什么也沒吃,為什么胖得連脖子都看不到了;
……
在GTEx計劃公布的研究結(jié)果中,這些問題都在基因組、轉(zhuǎn)錄組和蛋白質(zhì)組的分析中找到了答案。
這些答案來自海量數(shù)據(jù)的測序、匯總、分析……依托了大量的創(chuàng)新分析方法。研究者將所有的研究數(shù)據(jù)匯總形成GTEx數(shù)據(jù)集,目前已經(jīng)更新至第八版,其中包括來自838個供體、52個組織、兩個細胞系的17382份樣品的數(shù)據(jù)。
研究者們對這些樣品進行全基因組序列的測序分析,轉(zhuǎn)錄組表達量的分析,以及相互之間作用關聯(lián)的分析,以鑒定出哪些基因與哪些性狀有密切關聯(lián)。
這次研究首次發(fā)現(xiàn),一個被命名為C9orf66的基因,與脫發(fā)有關,這個基因在男性中的表達量遠高于女性;CCDC88C基因在女性中表達水平較高,它是一種與乳腺癌發(fā)病有關的基因;而新手寶媽最關心的嬰兒體重,可能與嬰兒本身無關,卻是和寶媽體內(nèi)的HKDC1基因密切相關,該基因具有孕期血糖調(diào)節(jié)功能,它的表達影響女性生育的后代體重。
當然還有很多與現(xiàn)實生活密切相關的發(fā)現(xiàn),例如一些基因的高表達會促進癌基因的表達;女性比男性長壽的關聯(lián)基因等,在最新的研究成果中,人們可以對早有跡象的生命活動在人類基因組的浩瀚長圖中“按圖索驥”,給出功能“注腳”。
鑒定出與疾病相關的罕見基因突變
關注并研究人類彼此間不同的0.1%基因,其實由來已久。學界通常將其命名為全基因組關聯(lián)研究(GWAS),顧名思義,是為了尋找基因與功能之間的關聯(lián)。
0.1%的不同基因序列,意味著在整個基因組30億個堿基對中至少有30萬個常見的SNP(單核苷酸多態(tài)性,即單堿基的變化)?!癎WAS僅研究了常見的SNP位點,這就意味著仍有許多罕見變異尚未鑒定?!庇蟹治稣J為,比起常見突變,罕見突變的研究需要更精確的測量,換句話說,只有大規(guī)模的全基因組分析(至少全外顯子測序)才能滿足研究的需要。
在此前發(fā)布的第一階段和第二階段成果中,GTEx計劃也將注意力集中在常見突變對轉(zhuǎn)錄組的調(diào)控。而這次公布的GTEx計劃第三階段成果終于拓展到了罕見突變。
相較其他數(shù)據(jù)庫,GTEx最大的優(yōu)勢就是來自各種器官的基因表達。但是由于都是從意外死亡的個體獲得的樣本,除了性別、年齡等基本信息,GTEx并沒有個體非常詳盡的性狀信息。這次通過與之前做過罕見突變研究的英國生物樣本庫(UK Biobank)合作,鑒定出許多對基因表達有巨大影響的罕見突變,并找到相對應的關聯(lián)性狀(疾病)。這大大提升了GTEx自身研究的意義。
GTEx系列研究論文《通過跨器官的轉(zhuǎn)錄組信號,鑒定出有功能的罕見突變》中的研究結(jié)果表明,人類基因組包含的罕見突變會增加某些疾病風險,研究通過對838個全基因組數(shù)據(jù),及多種器官的轉(zhuǎn)錄組數(shù)據(jù)的分析,檢測出了與極端基因表達量有關的罕見突變。研究者整合了來自49個器官的三種極端表達信號,最終首次鑒定出了具有高影響的罕見突變,并且和疾病做了關聯(lián)。
研究同時給出鑒定罕見突變的方法,可用于對個人基因組的解釋和罕見突變的發(fā)現(xiàn),為研究罕見突變的基因功能、提高疾病檢測能力提供了有力手段。
試圖揭示不同器官中端粒長短規(guī)律
端粒是染色體的末端。由于端粒的長度反映細胞復制史及復制潛能,它被稱作細胞壽命的“有絲分裂鐘”。
端粒長短的變化被認為是人體走向衰老走近死亡的“鐘擺聲”。
迄今為止,端粒長度的差異還從沒被精確測量,尤其在人類不同器官中,端粒長短的規(guī)律是什么,還摸不著頭緒。
GTEx計劃首次進行了系統(tǒng)的測量。更重要的是,研究者找到一種“標尺”——由于血細胞中端粒最短,其端粒長度能夠作為其他器官端粒長度的參考。
系列論文之一的《人類組織中端粒長度的決定性因素》表明,研究者測量了952例捐獻者的25種以上組織中的相對端粒長度。使用多因子定量分析技術(也叫Luminex分析法)對639個獨特組織樣本的端粒長度進行了測量,生成了最大的可共享數(shù)據(jù)集。
測量之后,研究團隊將數(shù)據(jù)與GTEx供體特征、遺傳變異和組織特異性表達的數(shù)據(jù)相結(jié)合,使用模型分析,希望尋找端粒長短的變化究竟與哪些因素相關。最終發(fā)現(xiàn),組織類型、供體年齡影響最大,而吸煙與否竟然也會對端粒長度有微調(diào)。
在檢測的不同組織中,端粒長度在血液中檢測的最短,在睪丸組織中測出的最長。在大多數(shù)組織中,端粒長度與年齡呈負相關,年齡越大端粒越短。研究還表明,基于祖先的端粒長度差異存在于生殖細胞中,并傳遞給受精卵。
作為人類基因組計劃的“續(xù)篇”,GTEx計劃不負眾望,揭示了很多重要謎團,積攢了更多數(shù)據(jù),也開發(fā)了更有效的方法。
重大生命科學計劃的間接影響力是巨大的,例如人類基因組計劃大大推動了測序效率,使得全基因組測序速度一快再快,成本一降再降。
GTEx計劃的突破,其實更像為生命之謎這塊“硬骨頭”切開一個個口子,更大、更深的重要探索將吸引更多目光和研究的聚集,為人類“揭秘自我”積攢更多人氣和經(jīng)驗值。
也難怪有研究者預測,隨著GTEx項目繼續(xù)深入開展,評價基因調(diào)控效應在疾病變化和不同環(huán)境中的差異將會獲得依據(jù),有助于推動精準醫(yī)學研究計劃目標的實現(xiàn)。