公共DNA數(shù)據(jù)庫中包含很多生物類群,為系統(tǒng)學(xué)提供了大量數(shù)據(jù)來源。目前,基于分子數(shù)據(jù)的物種鑒別和界定工作已經(jīng)逐步開展,F(xiàn)代測序技術(shù)的飛速發(fā)展,帶來了海量分子數(shù)據(jù)的同時,也導(dǎo)致很多研究人員無法為相關(guān)數(shù)據(jù)提供準確的分類學(xué)信息。這些分類信息不夠完整的分子數(shù)據(jù),阻礙了在物種一級水平上開展精細的數(shù)據(jù)挖掘。同時,基于較大數(shù)據(jù)庫進行物種聚類研究,也需要整合多個基因片段,從而在數(shù)據(jù)結(jié)構(gòu)和計算過程中產(chǎn)生了很多問題。
Douglas Chesters博士在中國科學(xué)院動物研究所朱朝東研究組開展博士后研究,出站后被聘任為動物所助理研究員期間,研發(fā)了一種在分子序列數(shù)據(jù)庫中界定物種的方法:1)首先獲取所有昆蟲的DNA序列,并對它們進行文本加工;2)根據(jù)一定的規(guī)則過濾掉重復(fù)數(shù)據(jù);3)劃分遺傳位點L;4)根據(jù)每個位點信息,界定物種S;5)物種單元與位點相匹配,形成一組多位點物種界定的數(shù)據(jù)矩陣L×S。
作者應(yīng)用馬爾科夫聚類的方法將數(shù)據(jù)庫劃分為同源基因片段數(shù)據(jù)集;诎蟛糠治锓N多樣性的基因,完成物種鑒定,并同時對物種單元名字賦予物種名。在物種聚類過程中,兩兩相似之處計算的復(fù)雜性主要來源于線粒體基因組中的COI位點?蒲腥藛T通過開發(fā)軟件解決了這個復(fù)雜的過程:在分類的體系內(nèi)執(zhí)行序列兩兩比對,且為不同階元的序列標注分類信息。
GenBank中GenBank中超過24個不同同源基因,194 000個未帶分類標簽的序列,包含41 525個帶分類標簽的物種(98.7%從昆蟲數(shù)據(jù)庫中獲得)。通過對每個位點的分層聚類,利用獨立的最優(yōu)參數(shù),這些序列被分組到59 173個基于單個位點的分子分類單元(MOTU)中。來自不同位點的MOTU,由多部匹配算法進行匹配。這樣,位點之間形成不一致性最低的多位點單元。匹配后,科研人員通過這24個位點,發(fā)現(xiàn)了在目前的昆蟲數(shù)據(jù)庫中,存在78 091個基于多位點信息的MOTU。其中,38 574個單元包含物種分類學(xué)信息,而34 891個則沒有包含分類標簽,剩下的4 626個單元兩種情況并存。
除了可以估算物種多樣性,科研人員開發(fā)的規(guī)程還將促進現(xiàn)代序列數(shù)據(jù)集的物種界定。特別是L×S矩陣代表了后分類學(xué)思路,將可以解構(gòu)種級元基因組數(shù)據(jù)。這些方法將可以在多個基因位點,甚至基因組水平提取大量數(shù)據(jù),產(chǎn)生更多研究物種多樣性的L×S數(shù)據(jù)矩陣,從而整合到后續(xù)的系統(tǒng)發(fā)育的流程。
該工作主要得到中國科學(xué)院知識創(chuàng)新工程、中國國家自然科學(xué)基金委面上和人才項目支持,并部分得到中國農(nóng)業(yè)部公益性行業(yè)(農(nóng)業(yè))科研專項和中國國家科技部基礎(chǔ)性工作專項的支持。
論文信息:Douglas Chesters; Chao-Dong Zhu. A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta. Systematic Biology 2014; doi: 10.1093/sysbio/syu038.
