淺談基因體學研究及核心
因為自己也還在探索的路程上,也可能哪邊定義有瑕疵,這一篇會一直被持續修改及更新。
[v1. 2017.09.01 - 初稿完成; 預計放進更多references , examples 跟NGS]
[v2. 2017.09.24 - added Metagenomics scenario]
前言
繼上一篇 做基因體的沒有在做基因體 的之後,2015年下學期也開了一堂 次世代定序:理論及方法 之後,對實驗室有興趣的學生或是助理大部份都是因為想學相關分析但是不太知道是哪方面的,我其實一直在思考所謂基因體學的核心到底是什麼,甚至是現在的生物學需要什麼。
這不只是以自身的經驗覺得實驗室本身的定位在哪裡,自己要怎麼前進,然後最重要的是自己定義對了,才能找到興趣相同的學生系統化地訓練讓他們前進。
因為基因體學顧名思義就是任何對基因體的研究,而基因體本質上就是遺傳物質的傳播、運作、交互作用,調控、及功能等等。這樣聽起來很籠統沒錯,因爲基因體本身就是所有生物的藍圖。
所以各大學研究機構就有弔詭的基因體這個,基因體那個單位。某一方面改名的原因是包含著科學方法的進步或是時代經驗的累積,或是PI們對自己的研究們一起的一個定位(在此基礎下一起奮鬥在國內國際上發光發聲),或是任務上的導向(我們XX就是在做XX研究解決XX問題)。但是某一方面也是用新的名字包裝起來學生比較容易受到吸引雖然沒有相關老師?。然後學生進去之後其實發現就跟之前的動物植物 = 生命科學 = 基因 = 基因體 = 生物科技所等等方法說不定其實沒什麼兩樣。改名風潮這個議題 顏聖紘老師 已經有相關文章 [ref1]。全世界的生物系所其實也都做同樣的事。
更甚之也是因為經費導向,有這一方面的取得比較容易。以最近的趨勢來說,我們未來說不定會看到大數據神經生命基因體蛋白體醫學基本應用AI多樣性科技科學中心,簡稱:
基因體學是什麼?
我自己覺得如果基因體算是每個物種的說明書,而基因體學就是如何印出這一本說明書,跟怎麼搞懂這一本說明書。我覺得可以把它想成一個研究方法的流程,而每一段都有它需要的相關知識及細節。我舉一下通常會用的幾個例子:
實驗室 A 從事某病原真菌的相關研究已有好幾年 (ecology; molecular biology),對此真菌的型態、環境都很熟悉並已經建立出分生實驗的SOP 。近年來NGS的大眾化,想要定序此真菌的基因體,進行**組裝 (genome assembly),再來做相關的基因註解 (gene annotation)**。實驗室有好幾個phenotype不同的isolates 想要確定它遺傳上的差異 **(resequencing ; 群體基因體學 population genomics)。基因體註解完之後想知道它跟型態相近的真菌在基因體層次上有什麼不一樣(比較基因體學 comparative genomics),也想看它養在不同培養基上的條件有哪些基因有表現(轉錄體學 transcriptomics)**。因為最近在台灣不同地方疾病疫情擴大,想要定序從不同樣區收集到的50個 菌株 採取定序並找出發源地 **(流行病學 epidemiology ; 親緣關係學 phylogenetics )**。
實驗室 A-2 從事某植物研究且已經有發表 genome, 目前定序不同的樣本 (accession) 用 GWAS, population differentiation, 看phenotype 與 genotype 的相連性。因為已經建立出雜交的系統,嘗試用 linkage mapping (eQTL) 去找出對應某表現型的基因。
在人類基因體圖譜已經發表了十幾年,也陸續有不同的群體被定序:不同國家的人、不同疾病、同一個癌症但不同stage等等等。 實驗室 B 除了分析現有的資料的一些遺傳(population genomics) 並想去看他與不同資料的相連性 (statistics ; 資訊工程 computer science) 。基於大部分的資料都是歐洲或大陸的,最近想要跟相關醫學機構合作看能不能定序並建立起台灣人本身的基因體資料庫 **(resequencing ; population genomics ; computer science)**。
實驗室 C 專注於上述兩個範例的某幾個步驟開發演算法的進步跟新的軟體 (statistics ; computer science),讓實驗室 A 和 B 或是全世界在執行某一個步驟時除了更省時,更精確,也可以在軟體開發的過程中比其他實驗室發現新的不同現象並加與研究。
實驗室 D 跟實驗室C 類似,不過是在實驗上的步驟改進 (molecular biology),通才是在模式物種上建立出新的實驗SOP,如單一細胞的表現量 (single cell expression),來找出生物更深一層的機制。
實驗室 E 從上述三個實驗室的發現想要做進一步的實驗驗證 (molecular biology ; proteomics ; etc etc) 並走下一步的應用 (pharmacogenomics ; molecular biology ; funding ; marketing etc)。舉例來說,選實驗室B的成果以相對低成本但高準確率的RT-PCR達到某一族群某某疾病的風險偵測(precision medicine)
實驗室 F 什麼都不太會,但是靠著PI寫實驗室 A, B, C, D, E的模式湊一湊寫出一個驚天指標計畫書 + 天時地利人和及不可考的原因拿到一筆超級大的經費,需要做相關的基因體研究。實驗室G 想要知道不同環境中有什麼微生物 (總體基因體學; metagenomics),可能是空污、海洋、住家、物種的不同部位如腸道等等等。因為定序越來越便宜,現在可以 1) 找出它們是什麼,然後看2)菌向的豐富度 (abundance)。目前這是一個很夯的領域(微生物生態學; microbial ecology),不只是因為很多環境有什麼生物還處於太多未知的狀態下,甚至以前很多人想做但現在才可以開始探討的是很有潛力的:如腸道菌對人類或是畜牧動物、或是菌根菌對植物或是農作物的的健康跟產量的交互作用。
實驗室H 看到這領域那麼夯,趕快花大錢外包給公司作實驗發了一兩篇paper,儼然是此領域的專家然後用槓桿原理去開公司去賣專利等等。
請對號入座(誤)。
上述每一個粗體的文字都算是一個學門專業。實驗室 A 像是把所有現有的基礎知識整合起來再重新整理。實驗室 B 是實驗室 A 整理之後的知識加與延伸並擴大取樣並萃取更多的知識。實驗室 C 與 D 像是生物資訊跟分生實驗室。實驗室 E 走應用。實驗室 F 全世界哪裡都有。看到這邊,你會發現其實很多實驗室多多少少都會跟上述的例子有點相關。 把真菌換成鳥或是昆蟲一下子就變成生態基因體學 (Ecological genomics) ,換成熊貓或是藍鵲就變成國家型指標基因體計畫,換成 海洋的細菌就變成 海洋資源或是微生物生態學 等等。
我覺得基因體學算是一個龐大學門,但它的核心跟分析的方法藏在所有生物學 (Biology) 中。 某一方面它也只是整個研究上的一個補助方法,更不然它只是某些人是幾年前申請經費的關鍵字(目前是AI、大數據) 而已。
我個人覺得無所謂方法。除了實驗室 F跟H , 只要不愧對納稅人的錢,其實還不是都一樣, 都是研究生物學的實驗室而已。而且講什麼領域其實都沒差,都還不是比不上數學(咦)
基因體學的核心
每一個人對基因體的看法都不一樣。學生就想走相關的領域選課時也是霧煞煞。簡化下來,在這邊我舉我個人認為三大項
- 演化學 (Evolutionary Biology)
在分析中你需要做很多的比較。你需要知道物種之間的差異。找到了差異,如何量化?哪些是有意義的?意義如何定義?你需要知道它從何而來及它為什麼而來。而演化學就是建立架構跟探討這些問題的根本基礎。有些演化學課可以是很生動(哪個生物不生動),不過希望最好學到一些 phylogenetics, population genetics 的原理及實際操作。