淺談基因體學研究及核心

因為自己也還在探索的路程上,也可能哪邊定義有瑕疵,這一篇會一直被持續修改及更新。

[v1. 2017.09.01 - 初稿完成; 預計放進更多references , examples 跟NGS]
[v2. 2017.09.24 - added Metagenomics scenario]

前言

繼上一篇 做基因體的沒有在做基因體 的之後,2015年下學期也開了一堂 次世代定序:理論及方法 之後,對實驗室有興趣的學生或是助理大部份都是因為想學相關分析但是不太知道是哪方面的,我其實一直在思考所謂基因體學的核心到底是什麼,甚至是現在的生物學需要什麼。

這不只是以自身的經驗覺得實驗室本身的定位在哪裡,自己要怎麼前進,然後最重要的是自己定義對了,才能找到興趣相同的學生系統化地訓練讓他們前進。

因為基因體學顧名思義就是任何對基因體的研究,而基因體本質上就是遺傳物質的傳播、運作、交互作用,調控、及功能等等。這樣聽起來很籠統沒錯,因爲基因體本身就是所有生物的藍圖。

所以各大學研究機構就有弔詭的基因體這個,基因體那個單位。某一方面改名的原因是包含著科學方法的進步或是時代經驗的累積,或是PI們對自己的研究們一起的一個定位(在此基礎下一起奮鬥在國內國際上發光發聲),或是任務上的導向(我們XX就是在做XX研究解決XX問題)。但是某一方面也是用新的名字包裝起來學生比較容易受到吸引雖然沒有相關老師?。然後學生進去之後其實發現就跟之前的動物植物 = 生命科學 = 基因 = 基因體 = 生物科技所等等方法說不定其實沒什麼兩樣。改名風潮這個議題 顏聖紘老師 已經有相關文章 [ref1]。全世界的生物系所其實也都做同樣的事。

更甚之也是因為經費導向,有這一方面的取得比較容易。以最近的趨勢來說,我們未來說不定會看到大數據神經生命基因體蛋白體醫學基本應用AI多樣性科技科學中心,簡稱:

拿到經費率87%

基因體學是什麼?

我自己覺得如果基因體算是每個物種的說明書,而基因體學就是如何印出這一本說明書,跟怎麼搞懂這一本說明書。我覺得可以把它想成一個研究方法的流程,而每一段都有它需要的相關知識及細節。我舉一下通常會用的幾個例子:

  1. 實驗室 A 從事某病原真菌的相關研究已有好幾年 (ecology; molecular biology),對此真菌的型態、環境都很熟悉並已經建立出分生實驗的SOP 。近年來NGS的大眾化,想要定序此真菌的基因體,進行**組裝 (genome assembly),再來做相關的基因註解 (gene annotation)**。實驗室有好幾個phenotype不同的isolates 想要確定它遺傳上的差異 **(resequencing ; 群體基因體學 population genomics)。基因體註解完之後想知道它跟型態相近的真菌在基因體層次上有什麼不一樣(比較基因體學 comparative genomics),也想看它養在不同培養基上的條件有哪些基因有表現(轉錄體學 transcriptomics)**。因為最近在台灣不同地方疾病疫情擴大,想要定序從不同樣區收集到的50個 菌株 採取定序並找出發源地 **(流行病學 epidemiology ; 親緣關係學 phylogenetics )**。

  2. 實驗室 A-2 從事某植物研究且已經有發表 genome, 目前定序不同的樣本 (accession) 用 GWAS, population differentiation, 看phenotype 與 genotype 的相連性。因為已經建立出雜交的系統,嘗試用 linkage mapping (eQTL) 去找出對應某表現型的基因。

  3. 在人類基因體圖譜已經發表了十幾年,也陸續有不同的群體被定序:不同國家的人、不同疾病、同一個癌症但不同stage等等等。 實驗室 B 除了分析現有的資料的一些遺傳(population genomics) 並想去看他與不同資料的相連性 (statistics ; 資訊工程 computer science) 。基於大部分的資料都是歐洲或大陸的,最近想要跟相關醫學機構合作看能不能定序並建立起台灣人本身的基因體資料庫 **(resequencing ; population genomics ; computer science)**。

  4. 實驗室 C 專注於上述兩個範例的某幾個步驟開發演算法的進步跟新的軟體 (statistics ; computer science),讓實驗室 A 和 B 或是全世界在執行某一個步驟時除了更省時,更精確,也可以在軟體開發的過程中比其他實驗室發現新的不同現象並加與研究。

  5. 實驗室 D 跟實驗室C 類似,不過是在實驗上的步驟改進 (molecular biology),通才是在模式物種上建立出新的實驗SOP,如單一細胞的表現量 (single cell expression),來找出生物更深一層的機制。

  6. 實驗室 E 從上述三個實驗室的發現想要做進一步的實驗驗證 (molecular biology ; proteomics ; etc etc) 並走下一步的應用 (pharmacogenomics ; molecular biology ; funding ; marketing etc)。舉例來說,選實驗室B的成果以相對低成本但高準確率的RT-PCR達到某一族群某某疾病的風險偵測(precision medicine)

  7. 實驗室 F 什麼都不太會,但是靠著PI寫實驗室 A, B, C, D, E的模式湊一湊寫出一個驚天指標計畫書 + 天時地利人和及不可考的原因拿到一筆超級大的經費,需要做相關的基因體研究。

  8. 實驗室G 想要知道不同環境中有什麼微生物 (總體基因體學; metagenomics),可能是空污、海洋、住家、物種的不同部位如腸道等等等。因為定序越來越便宜,現在可以 1) 找出它們是什麼,然後看2)菌向的豐富度 (abundance)。目前這是一個很夯的領域(微生物生態學; microbial ecology),不只是因為很多環境有什麼生物還處於太多未知的狀態下,甚至以前很多人想做但現在才可以開始探討的是很有潛力的:如腸道菌對人類或是畜牧動物、或是菌根菌對植物或是農作物的的健康跟產量的交互作用。

  9. 實驗室H 看到這領域那麼夯,趕快花大錢外包給公司作實驗發了一兩篇paper,儼然是此領域的專家然後用槓桿原理去開公司去賣專利等等。

請對號入座(誤)。

上述每一個粗體的文字都算是一個學門專業。實驗室 A 像是把所有現有的基礎知識整合起來再重新整理。實驗室 B 是實驗室 A 整理之後的知識加與延伸並擴大取樣並萃取更多的知識。實驗室 C 與 D 像是生物資訊跟分生實驗室。實驗室 E 走應用。實驗室 F 全世界哪裡都有。看到這邊,你會發現其實很多實驗室多多少少都會跟上述的例子有點相關。 把真菌換成鳥或是昆蟲一下子就變成生態基因體學 (Ecological genomics) ,換成熊貓或是藍鵲就變成國家型指標基因體計畫,換成 海洋的細菌就變成 海洋資源或是微生物生態學 等等。

我覺得基因體學算是一個龐大學門,但它的核心跟分析的方法藏在所有生物學 (Biology) 中。 某一方面它也只是整個研究上的一個補助方法,更不然它只是某些人是幾年前申請經費的關鍵字(目前是AI、大數據) 而已。

我個人覺得無所謂方法。除了實驗室 F跟H , 只要不愧對納稅人的錢,其實還不是都一樣, 都是研究生物學的實驗室而已。而且講什麼領域其實都沒差,都還不是比不上數學(咦)

https://xkcd.com/435/

基因體學的核心

每一個人對基因體的看法都不一樣。學生就想走相關的領域選課時也是霧煞煞。簡化下來,在這邊我舉我個人認為三大項

  1. 演化學 (Evolutionary Biology)

在分析中你需要做很多的比較。你需要知道物種之間的差異。找到了差異,如何量化?哪些是有意義的?意義如何定義?你需要知道它從何而來及它為什麼而來。而演化學就是建立架構跟探討這些問題的根本基礎。有些演化學課可以是很生動(哪個生物不生動),不過希望最好學到一些 phylogenetics, population genetics 的原理及實際操作。

descent with modifications
descent with modifications
  1. 程式語言與統計

有了寫程式語言的能力,你才有所謂的一雙手去開始處理跟分析。開始寫程式語言,才會開始碰觸到不管哪邊都很重要的邏輯。不是說生物學課程就沒有邏輯,而是一開始就有太多表象要讀要背,而開始作實作的時候都已經很晚了。這包括對資料結構的了解(整理,篩選)。而真正的分析 (statistics, computer science) 則需要有統計的思考。能把事情簡化而不是簡單化。machine learning、network analysis、python、R 都很粗糙的總結在這一方面。

  1. 溝通能力與EQ

其實很多細節或是分析方式嚴格來說可以放進前兩項。想了很久,後來列了這一項。這包括語文能力+耐心+滿滿的大愛+正面思考。做了再多的研究不是自己爽的。要回饋社會,不論是在收集資料、探討現象、發表上、訓練學生、合作計畫、真正應用等等,語言的專業度某方面來說比前兩項還重要(攤手)。 基因體學有時候還會影響到整個政府跟產業之後的計畫,所以怎麼仔細溝通出正確的資訊真的很重要 [ref2]

台灣經費整個算少沒有一個好的淘汰的機制或是整個定義的大混亂或是不同領域的不了解,變成領域上的互相攻擊:你應該去這個領域而不是我們這個領域 [ref3]、你年紀比我小請乖乖等、我不認識你你算哪隻、你的物種比我的物種爛、實驗室A,B,D 說 C 都需要它們產出 data 不夠獨立、C 覺得 A,B,D 還不是什麼都不懂、實驗室E太燒錢說不定只是嘴砲、做基因體的不是生物多樣性等等等。有點可惜。你需要的是抱持你的專業程度,而不要流入口水戰中。

結語

就這些核心能力定下基礎後,學的越深,越會發現解決一個問題需要多方面的技術,或是不同問題其實只是一個問題而已。跨領域的初衷是對的。

天下武學,殊途同歸,強分派別,乃是人為。寫這麼多就是想寫這一句好中二

現象跟之後的原理 http://abstrusegoose.com/275
現象跟之後的原理 http://abstrusegoose.com/275

不過到那個地步之前,學生怎麼系統化的開始? 全世界不同大學有開始討論並加以嘗試 [ref 4] 。因為需要備課,自己實驗室有一個網路課程滿滿的清單。未來會慢慢整理放上去。不過我可以推薦從這邊開始:哈佛的 Data Analysis for the Life Sciences series, the Genomics Data Analysis series, and the Using Python for Research course 三個線上課程所有資料

我們在這個時代是應該開心的。太多新奇的事物等待我們去探索去研究去解決。希望在這段路程,讓經費可以給真正有在用的實驗室跟回歸到學生。

References

  1. 念生科系CP值低是因為系很爛?統計沒意義?還是誤上賊船? 顏聖紘
  2. 全球化視野下的基因體學 pansci
  3. 申請哥倫布計畫被「羞辱」 台大教授痛批科技部承辦人員官僚
  4. Wilson Sayres et al., Bioinformatics Core Competencies for Undergraduate Life Sciences Education (biorxiv)

淺談基因體學研究及核心
https://dogoodscience.biodiv.tw/2017/09/02/genomicscoreskills/
作者
Jason Tsai
發布於
2017年9月2日
許可協議