X-射線晶體學(xué)(X-ray crystallography)是解析蛋白質(zhì)三維結(jié)構(gòu)的主要方法,成功獲得可供衍射的晶體是該結(jié)構(gòu)解析方法順利進(jìn)行的關(guān)鍵。然而,在目標(biāo)蛋白質(zhì)成功結(jié)晶之前,多個實(shí)驗(yàn)步驟過程均存在失敗的可能性,包括蛋白質(zhì)克隆失敗、蛋白質(zhì)重組表達(dá)失敗、純化失敗、以及最終獲得高精度的、可供衍射的結(jié)晶失敗等。因此,從蛋白質(zhì)一級序列信息出發(fā),準(zhǔn)確預(yù)測目標(biāo)蛋白質(zhì)成功通過多個實(shí)驗(yàn)步驟的傾向性,將有助于篩選容易成功結(jié)晶的目標(biāo)蛋白,從而幫助降低實(shí)驗(yàn)費(fèi)用和試錯成本,加速蛋白質(zhì)晶體結(jié)構(gòu)解析的過程。
中國科學(xué)院天津工業(yè)生物技術(shù)研究所宋江寧研究員帶領(lǐng)的結(jié)構(gòu)生物信息學(xué)與整合系統(tǒng)生物學(xué)研究組與中國農(nóng)業(yè)大學(xué)生物信息學(xué)中心合作,對蛋白質(zhì)結(jié)晶過程的重要理化性質(zhì)以及與蛋白質(zhì)克隆、表達(dá)、純化和結(jié)晶等多個實(shí)驗(yàn)步驟的相關(guān)性進(jìn)行了深入研究。最近的研究開發(fā)出生物信息學(xué)工具PredPPCrys,可以用于精確預(yù)測目標(biāo)蛋白質(zhì)結(jié)晶多步驟實(shí)驗(yàn)過程成功的傾向性。這一研究首先提取了能夠描述蛋白質(zhì)理化性質(zhì)的不同方面、互補(bǔ)的基于序列的高維特征值,再進(jìn)一步應(yīng)用了高效的多階段異源特征選擇策略,最終獲得最優(yōu)、預(yù)測精度最佳的低維特征組合。該研究構(gòu)建了兩層的高準(zhǔn)確率支持向量機(jī)(SVM)模型:第一層模型PredPPCrys I利用最優(yōu)特征值組合構(gòu)建SVM模型;第二層模型PredPPCrys II則進(jìn)一步利用第一層模型PredPPCrys I的五步驟實(shí)驗(yàn)傾向的預(yù)測結(jié)果,構(gòu)建第二層的SVM模型。研究結(jié)果表明,這一策略可以大幅度提高預(yù)測準(zhǔn)確率;谧钚潞鸵酝牟煌(dú)立測試集上的基準(zhǔn)測試結(jié)果表明,PredPPCrys工具能夠提供最佳的預(yù)測精度。另外,研究人員還將PredPPCrys工具應(yīng)用于預(yù)測目前尚未結(jié)晶的所有的結(jié)構(gòu)基因組學(xué)靶標(biāo)蛋白質(zhì),這一結(jié)果數(shù)據(jù)可從天津工生所在線網(wǎng)站下載(http://www.structbioinfor.org/PredPPCrys)。該方法還成功研發(fā)了在線服務(wù)的生物信息學(xué)工具,將為世界各地的結(jié)構(gòu)基因組學(xué)組織和研究團(tuán)隊(duì)的目標(biāo)蛋白的選擇和設(shè)計(jì)提供極大幫助。
該研究獲得國家自然科學(xué)基金(61202167, 61303169, 31350110507, 11250110508)以及中國科學(xué)院百人計(jì)劃(擇優(yōu))項(xiàng)目資助。研究結(jié)果發(fā)表在國際開放獲取期刊PLoS ONE上,天津工生所科研助理王輝林為論文第一作者。

預(yù)測目標(biāo)蛋白質(zhì)克隆、表達(dá)、純化和結(jié)晶過程多實(shí)驗(yàn)步驟成功傾向性的PredPPCrys方法示意圖
