不同來源的數據信息的比較整合是提高數據質量,獲得對特定生物更準確認識進而進行設計改造的常用方法。目前已有多種基于web的基因組注釋服務(如RAST, JCVI, IMG, IGS等),通過這些服務提交序列信息即可得到基因注釋結果,但不同服務得到的結果往往有較大不同,因此對不同來源的基因注釋信息進行數據比對整合對得到可靠的注釋結果非常重要。但由于很多注釋信息并不標準化,這個比較整合的過程常常需要費時的人工檢驗核對。
近日,中科院天津工業(yè)生物技術研究所研究員馬紅武和英國愛丁堡大學合作提出了一種通過對不同來源的基因組注釋數據整合得到更準確可靠的注釋結果的半自動化方法。研究組對由四種基因組注釋服務(RAST, JCVI, IMG, IGS)得到的注釋結果進行了比較分析。首先,通過程序對用各種ID(如EC號,COG ID,Pfam ID等)表示的功能進行比較,然后重點通過借鑒計算機科學領域中自然語言處理的方法解決了對基因功能描述的文本直接進行比較的問題。這使得87%的基因功能注釋都可以通過程序自動比較,僅僅13%需要費時的手動比較。在此基礎上,研究組又引入了一個多數規(guī)則來確定正確的基因功能注釋,從而得到整合多種來源數據的更可靠的一致化的注釋結果。將該方法應用于6種不同生物的基因組注釋的結果充分證明了該方法的有效性。
相關研究成果發(fā)表于BMC Bioinformatics 期刊上。
