蛋白質(zhì)結(jié)構(gòu)與功能的預(yù)測(cè)方法總結(jié)和資料匯總
“折疊(fold)”的概念
“折疊(fold)”是近年來(lái)蛋白質(zhì)研究中應(yīng)用較廣的一個(gè)概念,它是介與二級(jí)和三級(jí)結(jié)構(gòu)之間的蛋白質(zhì)結(jié)構(gòu)層次,它描述的是二級(jí)結(jié)構(gòu)元素的混合組合方式。
二級(jí)結(jié)構(gòu)的預(yù)測(cè)方法介紹:
Chou-Fasman算法:
是單序列預(yù)測(cè)方法中的一種,它是使用氨基酸物理化學(xué)數(shù)據(jù)中派生出來(lái)的規(guī)律來(lái)預(yù)測(cè)二級(jí)結(jié)構(gòu)。 首先統(tǒng)計(jì)出20種氨基酸出現(xiàn)在α螺旋、β折疊和無(wú)規(guī)則卷曲中出現(xiàn)頻率的大小,然后計(jì)算出每一種氨基酸在這幾種構(gòu)象中的構(gòu)象參數(shù)Px.構(gòu)象參數(shù)值的大小反映了該種殘基出現(xiàn)在某種構(gòu)象中的傾向性的大小。按照構(gòu)象參數(shù)值的大小可以把氨基酸分為六個(gè)組:Ha(強(qiáng)螺旋形成者)、ha( 螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中斷者)、Ba(強(qiáng)螺旋中斷者)。Chou和Fasman根據(jù)殘基的傾向性因子提出二級(jí)結(jié)構(gòu)預(yù)測(cè)的經(jīng)驗(yàn)規(guī)則,要點(diǎn)是沿蛋白序列尋找二級(jí)結(jié)構(gòu)的成核位點(diǎn)和終止位點(diǎn)。這種方法可能能夠正確反映蛋白質(zhì)二級(jí)結(jié)構(gòu)的形成過(guò)程,但預(yù)測(cè)成功率并不高,僅有50%左右
GOR算法:
也是單序列預(yù)測(cè)方法中的一種,因其作者Garnier, Osguthorpe和 Robson而得名。這種方法是以信息論為基礎(chǔ)的,也屬于統(tǒng)計(jì)學(xué)方法的一種,GOR方法不僅考慮被預(yù)測(cè)位置本身氨基酸殘基種類對(duì)該位置構(gòu)象的影響,也考慮到相鄰殘基種類對(duì)該位置構(gòu)象的影響。這樣使預(yù)測(cè)的成功率提高到 65% 左右。GOR方法的優(yōu)點(diǎn)是物理意義清楚明確,數(shù)學(xué)表達(dá)嚴(yán)格,而且很容易寫出相應(yīng)的計(jì)算機(jī)程序,但缺點(diǎn)是表達(dá)式復(fù)雜。
多序列列線預(yù)測(cè):
對(duì)序列進(jìn)行多序列比對(duì),并利用多序列比對(duì)的信息進(jìn)行結(jié)構(gòu)的預(yù)測(cè)。調(diào)查者可找到和未知序列相似的序列家族,然后假設(shè)序列家族中的同源區(qū)有同樣的二級(jí)結(jié)構(gòu),預(yù)測(cè)不是基于一個(gè)序列而是一組序列中的所有序列的一致序列。
基于神經(jīng)網(wǎng)絡(luò)的序列預(yù)測(cè):
利用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行序列的預(yù)測(cè),BP (Back-Propagation Network) 網(wǎng)絡(luò)即反饋式神經(jīng)網(wǎng)絡(luò)算法是目前二級(jí)結(jié)構(gòu)預(yù)測(cè)應(yīng)用最廣的神經(jīng)網(wǎng)絡(luò)算法,它通常是由三層相同的神經(jīng)元構(gòu)成的層狀網(wǎng)絡(luò),使用反饋式學(xué)習(xí)規(guī)則,底層為輸入層,中間為隱含層,頂層是輸出層,信號(hào)在相鄰各層間逐層傳遞,不相鄰的各層間無(wú)聯(lián)系,在學(xué)習(xí)過(guò)程中根據(jù)輸入的一級(jí)結(jié)構(gòu)和二級(jí)結(jié)構(gòu)的關(guān)系的信息不斷調(diào)整各單元之間的權(quán)重,最終目標(biāo)是找到一種好的輸入與輸出的映象,并對(duì)未知二級(jí)結(jié)構(gòu)的蛋白進(jìn)行預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)是應(yīng)用方便,獲得結(jié)果較快較好,主要缺點(diǎn)是沒(méi)有反映蛋白的物理和化學(xué)特性,而且利用大量的可調(diào)參數(shù),使結(jié)果不易理解。許多預(yù)測(cè)程序如PHD、PSIPRED等均結(jié)合利用了神經(jīng)網(wǎng)絡(luò)的計(jì)算方法。
基于已有知識(shí)的預(yù)測(cè)方法(knowledge based method):
這類預(yù)測(cè)方法包括Lim 和 Cohen 兩種方法。Lim 方法是一種物理化學(xué)的方法,它根據(jù)氨基酸殘基的物理化學(xué)性質(zhì),包括:疏水性、親水性、帶電性以及體積大小等,并考慮殘基之間的相互作用而制訂出一套預(yù)測(cè)規(guī)則。對(duì)于小于50個(gè)氨基酸殘基的肽鏈, Lim 方法的預(yù)測(cè)準(zhǔn)確率可以達(dá)到73%. 另一種是 Cohen 方法,它的提出當(dāng)時(shí)是為了α/β蛋白的預(yù)測(cè),基本原理是說(shuō):疏水性殘基決定了二級(jí)結(jié)構(gòu)的相對(duì)位置,螺旋亞單元或擴(kuò)展單元是結(jié)構(gòu)域的核心,α螺旋和β折疊組成了結(jié)構(gòu)域。
混合方法(hybrid system method):
將以上幾種方法選擇性的混合使用,并調(diào)整他們之間使用的權(quán)重可以提高預(yù)測(cè)的準(zhǔn)確率,目前預(yù)測(cè)準(zhǔn)確率在70%以上的都是混合方法,其中,同源性比較方法、神經(jīng)網(wǎng)絡(luò)方法 和 GOR方法 應(yīng)用最為廣泛。
三級(jí)結(jié)構(gòu)的預(yù)測(cè):
同源性建模:
假設(shè)對(duì)已知結(jié)構(gòu)的另一個(gè)蛋白質(zhì)序列來(lái)排列一個(gè)蛋白質(zhì)的序列,如果靶序列和已知結(jié)構(gòu)序列在整個(gè)序列的全長(zhǎng)有很高的相似性,在合理的信任度上,我們可以使用已知結(jié)構(gòu)作為靶蛋白質(zhì)的模版。
“串線(threading)”算法:
串線結(jié)構(gòu)分析是試圖把未知的氨基酸序列和各種已存在的三維結(jié)構(gòu)相匹配,并評(píng)估序列折疊成那種結(jié)構(gòu)的合適度。串線法最適用于折疊(fold)的識(shí)別,而不是模型的建立。它是快速用未知序列的氨基酸側(cè)鏈替換已知序列中的氨基酸位置。Jones等首先從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中挑選蛋白質(zhì)結(jié)構(gòu)建立折疊子數(shù)據(jù)庫(kù),以折疊子數(shù)據(jù)庫(kù)中的折疊結(jié)構(gòu)作為模板,將目標(biāo)序列與這些模板一一匹配,通過(guò)計(jì)算打分函數(shù)值判斷匹配程度,根據(jù)打分值給模板結(jié)構(gòu)排序,其中打分最高的被認(rèn)為是目標(biāo)序列最可能采取的折疊結(jié)構(gòu)。Threading 方法的難點(diǎn)在于序列與折疊結(jié)構(gòu)的匹配技術(shù)和打分函數(shù)的確定。(Jones等,1992)
蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè):
蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)通常被認(rèn)為是蛋白結(jié)構(gòu)預(yù)測(cè)的第一步,是根據(jù)它們被預(yù)測(cè)的局部結(jié)構(gòu),對(duì)蛋白序列中的氨基酸進(jìn)行分類。二級(jí)結(jié)構(gòu)的預(yù)測(cè)方法通常分為多序列列線預(yù)測(cè)和單序列預(yù)測(cè)的方法。由于單序列預(yù)測(cè)所提供的信息只是殘基的順序而沒(méi)有其空間分布的信息,所以單序列預(yù)測(cè)的算法預(yù)測(cè)準(zhǔn)確率并不高而且對(duì)于一些特殊結(jié)構(gòu),這些算法很難預(yù)測(cè)成功。 多序列列線預(yù)測(cè)和神經(jīng)網(wǎng)絡(luò)的應(yīng)用大大提高了二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確度,通過(guò)對(duì)序列比對(duì)的預(yù)測(cè)可以明確的提供單一位點(diǎn)在三維結(jié)構(gòu)上的信息。這樣通常二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率比單序列預(yù)測(cè)能夠提高10%.許多方法據(jù)說(shuō)可達(dá)到70%-77%,目前較為常用的幾種方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA。其中最常用的是PHD。PHD結(jié)合了許多神經(jīng)網(wǎng)絡(luò)的成果,每個(gè)結(jié)果都是根據(jù)局部序列上下文關(guān)系和整體蛋白質(zhì)性質(zhì)(蛋白質(zhì)長(zhǎng)度、氨基酸頻率等)來(lái)預(yù)測(cè)殘基的二級(jí)結(jié)構(gòu)。那么,最終的預(yù)測(cè)是這些神經(jīng)網(wǎng)絡(luò)每個(gè)輸出的算術(shù)平均值。 這種結(jié)合方案被稱為陪審團(tuán)決定法(jury decision)或者稱為所有勝利者(winner-take-all)法。PHD被認(rèn)為是二級(jí)結(jié)構(gòu)預(yù)測(cè)的標(biāo)準(zhǔn)。
蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè):
蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè)方法通常包括:同源性建模和從頭開(kāi)始的預(yù)測(cè)方法。對(duì)數(shù)據(jù)庫(kù)中已知結(jié)構(gòu)的序列的比對(duì)是預(yù)測(cè)未知序列三級(jí)結(jié)構(gòu)的主要方法,也即同源建模的方法。通常對(duì)于同源建模的方法過(guò)程并非統(tǒng)一,但基本思路是一致的,基本包括如下幾個(gè)步驟:
1.使用未知序列作為查詢來(lái)搜索已知蛋白質(zhì)結(jié)構(gòu)。
2.產(chǎn)生未知序列和模版序列最可能的完整比對(duì)。
3.以模版結(jié)構(gòu)骨架作為模型,建立蛋白質(zhì)骨架模型。
4.在靶序列或者模版序列的有空位區(qū)域,使用環(huán)建模過(guò)程代替合適長(zhǎng)度的片段。
5.給骨架模型加上側(cè)鏈。
6.優(yōu)化側(cè)鏈的位置。
7.使用能量最小和已知的優(yōu)化知識(shí)來(lái)優(yōu)化結(jié)構(gòu)。
在進(jìn)行序列比對(duì)時(shí),最容易使用 BLASTP 程序比對(duì) NRL-3D 或 SCOP 數(shù)據(jù)庫(kù)中的序列。如果發(fā)現(xiàn)超過(guò)100個(gè)堿基長(zhǎng)度且有遠(yuǎn)高于40%序列相同率的匹配序列,則未知序列蛋白與該匹配序列蛋白將有非常相似的結(jié)構(gòu)。在這種情況下,同源性建模在預(yù)測(cè)該未知蛋白精細(xì)結(jié)構(gòu)方面會(huì)有非常大的作用。同源性建模的成功的關(guān)鍵通常不是建模使用的軟件或服務(wù)器,在設(shè)計(jì)與模版結(jié)構(gòu)好的比對(duì)時(shí)的技巧更加重要。
結(jié)構(gòu)預(yù)測(cè)相關(guān)程序及數(shù)據(jù)庫(kù):
常用蛋白序列和結(jié)構(gòu)數(shù)據(jù)庫(kù):
數(shù)據(jù)庫(kù)說(shuō)明網(wǎng)址鏈接
PDB蛋白質(zhì)三維結(jié)構(gòu)http://www.rcsb.org/pdb
SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫(kù)http://kr.expasy.org/sprot/
PIR蛋白質(zhì)序列數(shù)據(jù)庫(kù)http://pir.georgetown.edu/
OWL非冗余蛋白質(zhì)序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL核酸序列數(shù)據(jù)庫(kù)http://www.embl-heidelberg.de/
TrEMBLEMBL的翻譯數(shù)據(jù)庫(kù)http://kr.expasy.org/sprot/
GenBANK核酸序列數(shù)據(jù)庫(kù)http://www.ncbi.nih.gov/Genbank/
PROSITE蛋白質(zhì)功能位點(diǎn)http://kr.expasy.org/prosite/
SWISS-MODEL從序列模建結(jié)構(gòu)http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE三維結(jié)構(gòu)圖示http://us.expasy.org/sw3d/
DSSP蛋白質(zhì)二級(jí)結(jié)構(gòu)參數(shù)http://www.cmbi.kun.nl/gv/dssp/
FSSP已知空間結(jié)構(gòu)的蛋白質(zhì)家族http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP蛋白質(zhì)分類數(shù)據(jù)庫(kù)http://scop.mrc-lmb.cam.ac.uk/scop/
CATH蛋白質(zhì)分類數(shù)據(jù)庫(kù)http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam蛋白質(zhì)家族和結(jié)構(gòu)域http://pfam.wustl.edu/
蛋白質(zhì)功能預(yù)測(cè):
相關(guān)概念:
1. 重疊群(contig):
基因組測(cè)序中將許多序列片段經(jīng)過(guò)比對(duì)找到重疊區(qū),從而連接成長(zhǎng)片段,稱重疊連續(xù)群,簡(jiǎn)稱重疊群。
2. 序列模體(motif):
通常指蛋白序列中相鄰或相近的一組具有保守性的殘基,與蛋白質(zhì)分子及家族的功能有關(guān)。
3. Smith-Waterman算法:
1981年,Smith 和Waterman提出的一種用來(lái)尋找并比較這些具有局部相似區(qū)域的方法,即常用的Smith-Waterman算法,它也是一種基于矩陣的方法,而且也是運(yùn)用回溯法(backtracking)建立允許空位插入的比對(duì)。這個(gè)算法的一個(gè)重要特征是矩陣中每個(gè)單元均可以是比對(duì)結(jié)果序列片段的終點(diǎn),該片段的相似性程度由該單元中的分?jǐn)?shù)值表示。
4. 計(jì)分矩陣(scoring matrix):
記分矩陣是描述殘基(氨基酸或堿基)在比對(duì)中出現(xiàn)的概率值的表。在記分矩陣中的值是兩種概率比值的對(duì)數(shù),一個(gè)是在序列比對(duì)中氨基酸隨機(jī)發(fā)生的概率。這個(gè)值只是指出每個(gè)氨基酸出現(xiàn)的獨(dú)立幾率的概率。另一個(gè)是在序列比對(duì)中,一對(duì)殘基的出現(xiàn)的有意義的概率。這些概率來(lái)源于已知有效的真實(shí)的序列的比對(duì)的樣本。
蛋白質(zhì)功能確定的思路及方法:
1. 通過(guò)相似序列的數(shù)據(jù)庫(kù)比對(duì)確定功能
具有相似性序列的蛋白質(zhì)具有相似的功能。因此,最可*的確定蛋白質(zhì)功能的方法是進(jìn)行數(shù)據(jù)庫(kù)的相似性搜索。需要明確的是,一個(gè)顯著的匹配應(yīng)至少有25%的相同序列和超過(guò)80個(gè)氨基酸的區(qū)段。對(duì)于不少種類的數(shù)據(jù)庫(kù)搜索工具,快速搜索工具(如BLASTP)速度快,也很容易發(fā)現(xiàn)匹配良好的序列,一般就沒(méi)必要運(yùn)行更花時(shí)間的工具(如FASTA、BLITZ);但當(dāng)BLASTP不能發(fā)現(xiàn)顯著的匹配時(shí),就需要使用那些搜索速度較慢但很靈敏的工具了。所以,一般的策略就是先進(jìn)行BLASTP檢索,如果不能得到相應(yīng)的結(jié)果,就可以運(yùn)行FASTA,如果FASTA也無(wú)法得到相應(yīng)結(jié)果,最后就需要選用完全根據(jù)Smith-Waterman 算法設(shè)計(jì)的搜索程序,如 BLITZ。
比對(duì)所選用的記分矩陣對(duì)最終預(yù)測(cè)結(jié)果影響也很重要,首先,選擇的矩陣須與匹配水平相一致。PAM250應(yīng)用于遠(yuǎn)距離匹配(<25%相同比率),PAM40應(yīng)用于不很相近的蛋白質(zhì)序列,BLOSUM62為一個(gè)通用矩陣。其次,使用不同矩陣,可以發(fā)現(xiàn)始終出現(xiàn)的匹配序列,這樣可以減少誤差。
2. 確定序列特性:疏水性、跨膜螺旋等
許多功能可直接從蛋白質(zhì)序列預(yù)測(cè)出來(lái)。例如,疏水性信息可被用于跨膜螺旋的預(yù)測(cè),還有不少小的序列模體(motif)是細(xì)胞用于特定細(xì)胞區(qū)室(cell compartment)蛋白質(zhì)的定向。對(duì)于跨膜螺旋的預(yù)測(cè)涉及到對(duì)跨膜蛋白跨膜區(qū)域的識(shí)別,這就需要鑒定序列中可以折疊成螺旋并存在于膜的疏水環(huán)境中的區(qū)域??缒ば蛄幸话憔哂幸恍┟黠@的特征,比如,為了跨膜α螺旋必須有大約17~25個(gè)氨基酸長(zhǎng)度,因?yàn)榧?xì)胞膜內(nèi)部是由脂肪酸的長(zhǎng)的碳?xì)滏溄M成,所以膜中的α螺旋必須存在相對(duì)的面向膜的非極性面才能在能量上是有利的。早期的算法程序會(huì)直接分析這些特征,并通過(guò)分析序列的17~25個(gè)氨基酸的窗口,對(duì)每個(gè)窗口產(chǎn)生的疏水性得分,得分高的即被預(yù)測(cè)為跨膜螺旋,現(xiàn)在一些經(jīng)過(guò)改進(jìn)的更精確的算法,不僅提高預(yù)測(cè)準(zhǔn)確性到90%以上,而且可以預(yù)測(cè)跨膜螺旋的一些其他特征,比如在膜上的方向。這些都依賴于一系列對(duì)已知跨膜螺旋的特征研究的成果。
3. 通過(guò)序列模體數(shù)據(jù)庫(kù)等的比對(duì)確定功能
蛋白質(zhì)不同區(qū)段的進(jìn)化速率不同,蛋白質(zhì)的一些部分必須保持一定的殘基模式以保持蛋白質(zhì)的功能,通過(guò)確定這些保守區(qū)域,有可能為蛋白質(zhì)功能提供線索。主要有兩種方法可用于序列模體的查找。一種方法是查找匹配的一致序列或序列模體。這種技術(shù)的優(yōu)點(diǎn)是快捷,序列模體數(shù)據(jù)庫(kù)龐大而且不斷被擴(kuò)充;缺點(diǎn)是有時(shí)不靈敏,因?yàn)橹挥信c一致序列或序列模體完全匹配才被列出,而近乎匹配的都將被忽略。使在做復(fù)雜分析時(shí)候受到嚴(yán)重限制。第二種方法是更加精細(xì)的序列分布型方法。原則上,分布型搜索的是保守序列(不只是一致序列),這樣可以更靈敏的找出那些相關(guān)性較遠(yuǎn)的序列。但分布型和分布數(shù)據(jù)庫(kù)需要大量的計(jì)算和人力,所以分布數(shù)據(jù)庫(kù)的記錄沒(méi)有序列模體數(shù)據(jù)庫(kù)多。在實(shí)際分析時(shí),應(yīng)同時(shí)對(duì)這兩種類型的數(shù)據(jù)庫(kù)都進(jìn)行搜索。
結(jié)構(gòu)密碼蘊(yùn)藏在排序中
這是一個(gè)復(fù)雜但很有意思的生命過(guò)程——基因承載了生命的遺傳信息,生命的功能則是藉由蛋白質(zhì)執(zhí)行的;蛋白質(zhì)是由20種氨基酸組成的肽鏈,而DNA中的基因控制了蛋白質(zhì)中氨基酸種類的排序。蛋白質(zhì)只有在折疊的狀態(tài)下才能表現(xiàn)出生命的功能,但折疊是如何自發(fā)形成的呢?
氨基酸序列與蛋白質(zhì)空間結(jié)構(gòu)的關(guān)系研究源于美國(guó)生物化學(xué)家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折疊和重折疊過(guò)程,發(fā)現(xiàn)在相同的環(huán)境中去折疊的蛋白質(zhì)都會(huì)恢復(fù)到原來(lái)的空間結(jié)構(gòu),認(rèn)為蛋白質(zhì)鏈會(huì)以自由能最低的方式形成三維結(jié)構(gòu),由此推測(cè)蛋白質(zhì)的折疊密碼隱藏在氨基酸排序中,即所謂的安芬森原則:蛋白質(zhì)一級(jí)排序決定三維結(jié)構(gòu)。因?yàn)椤皩?duì)控制蛋白質(zhì)鏈折疊原理的研究”,安芬森獲得1972年諾貝爾化學(xué)獎(jiǎng)。
然而,蛋白質(zhì)的空間結(jié)構(gòu)極其復(fù)雜,該如何確定呢?現(xiàn)在有兩種方法:一種是實(shí)驗(yàn)測(cè)量,包括用X射線衍射和核磁共振成像;一種是理論預(yù)測(cè),利用計(jì)算機(jī)根據(jù)理論和已知的氨基酸序列等信息來(lái)預(yù)測(cè),方法包括同源結(jié)構(gòu)模擬、折疊辨識(shí)模擬和基于第一性原理的從頭計(jì)算。
1913年,勞爾和布拉格父子第一次發(fā)現(xiàn)X射線通過(guò)晶體可以產(chǎn)生衍射現(xiàn)象從而確定原子在晶體中的位置并因此獲得諾貝爾獎(jiǎng)。1957年,劍橋大學(xué)的肯德魯用勞爾-布拉格的方法確定出第一個(gè)蛋白質(zhì)(肌紅蛋白)的三維結(jié)構(gòu)從而獲得1962年的諾貝爾化學(xué)獎(jiǎng)。此后18年間,人類共測(cè)出38個(gè)蛋白質(zhì)結(jié)構(gòu);至1980年,這個(gè)數(shù)目增長(zhǎng)到184個(gè)。
顯然,用實(shí)驗(yàn)方法測(cè)量蛋白質(zhì)及生物大分子的結(jié)構(gòu)相當(dāng)繁瑣。張陽(yáng)說(shuō):“蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)測(cè)定十分費(fèi)時(shí)費(fèi)力。多年前測(cè)定一個(gè)蛋白質(zhì)的結(jié)構(gòu)就有可能獲得諾貝爾獎(jiǎng)。如今隨著技術(shù)的進(jìn)步,實(shí)驗(yàn)測(cè)蛋白質(zhì)結(jié)構(gòu)的時(shí)間和花費(fèi)已經(jīng)大大地減少了,但測(cè)定一個(gè)蛋白質(zhì)結(jié)構(gòu)的平均費(fèi)用也在100萬(wàn)美元左右。”
自然界有大量種類的蛋白質(zhì),實(shí)驗(yàn)只能測(cè)出其中非常小的一部分,目前“蛋白質(zhì)數(shù)據(jù)庫(kù)”中只有3萬(wàn)多個(gè)蛋白質(zhì)的結(jié)構(gòu)。有沒(méi)有其他方法可以更快、更經(jīng)濟(jì)地測(cè)量出大量蛋白質(zhì)呢?
物含妙理總堪尋
既然蛋白質(zhì)結(jié)構(gòu)的密碼隱藏在序列中,那么解開(kāi)這個(gè)密碼就可以通過(guò)序列來(lái)解開(kāi)蛋白質(zhì)的結(jié)構(gòu)。張陽(yáng)說(shuō):“我們的目的就是用計(jì)算機(jī)從氨基酸的序列來(lái)直接預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。將序列輸進(jìn)計(jì)算機(jī)里,設(shè)計(jì)一套程序,讓計(jì)算機(jī)去計(jì)算和確定蛋白質(zhì)中每個(gè)原子的三維坐標(biāo)。如果這種理論方法經(jīng)實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證可行,那么就可能通過(guò)計(jì)算機(jī)自動(dòng)預(yù)測(cè)出蛋白質(zhì)的結(jié)構(gòu),這幾乎是免費(fèi)的?!?/p>
然而,用序列預(yù)測(cè)結(jié)構(gòu)談何容易。驅(qū)動(dòng)氨基酸折疊形成特定三維空間的作用諸多,包括氨基酸側(cè)鏈分子間作用力、水分子表面張力、氨基酸側(cè)鏈分子間的電偶極距和電磁力以及它與水分子的相互作用等。根據(jù)數(shù)學(xué)計(jì)算,由100個(gè)氨基酸構(gòu)成的小蛋白質(zhì)的空間構(gòu)象可能會(huì)有1050種空間結(jié)構(gòu)。
物含妙理總堪尋。一種氨基酸序列只可能有一種蛋白質(zhì)結(jié)構(gòu),這就是計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的意義所在。根據(jù)安芬森的熱動(dòng)力學(xué)原理,蛋白質(zhì)在細(xì)胞中應(yīng)該處在它與環(huán)境的自由能最低態(tài)。這意味著可以根據(jù)物理、化學(xué)、生物學(xué)等知識(shí)來(lái)設(shè)計(jì)蛋白質(zhì)的能量函數(shù),因此尋找這種最低自由能所代表的結(jié)構(gòu)。
科學(xué)家們使出十八般武藝來(lái)預(yù)測(cè)序列與結(jié)構(gòu)間的密碼,尋找出三種有代表性的預(yù)測(cè)方法:同源結(jié)構(gòu)模擬(Homology Modeling)、折疊辨識(shí)模擬(Fold Recognition)和基于“第一原則”的從頭計(jì)算方法(Ab Initio)。
同源模擬又稱為比較性模擬。如果目標(biāo)蛋白質(zhì)與已測(cè)出結(jié)構(gòu)的蛋白質(zhì)的序列有30%以上的相似,那么這兩種蛋白質(zhì)可被視為同源,它們也應(yīng)該有類似的空間結(jié)構(gòu)。因此,若知道同源蛋白質(zhì)家族中的某些蛋白質(zhì)的結(jié)構(gòu),就可利用它們作為模板來(lái)模擬目標(biāo)蛋白質(zhì)的結(jié)構(gòu),這種方法速度較快,精度也比較高。但是這種方法有局限性,畢竟已知結(jié)構(gòu)的蛋白質(zhì)數(shù)量很少,而且很多蛋白質(zhì)沒(méi)有同源系列。
折疊辨識(shí)模擬又稱串線指認(rèn)方法,意思是指把目標(biāo)蛋白序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中所有的蛋白質(zhì)結(jié)構(gòu)進(jìn)行逐一對(duì)比。自然界中有些蛋白質(zhì)的氨基酸序列不大相同,但其結(jié)構(gòu)極為相似。張陽(yáng)說(shuō):“這對(duì)我們建立新計(jì)算機(jī)模型非常有用。在無(wú)法進(jìn)行序列比對(duì)的情況下,我們就想辦法用目標(biāo)序列直接與已有的其他蛋白質(zhì)結(jié)構(gòu)進(jìn)行比較。具體做法是,設(shè)計(jì)一個(gè)打分系統(tǒng),讓計(jì)算機(jī)來(lái)識(shí)別這個(gè)序列放在被比較的其他蛋白質(zhì)上是否‘舒服’,再根據(jù)得分高低判斷序列是否會(huì)折疊成這種結(jié)構(gòu),評(píng)分系統(tǒng)是這種方法的關(guān)鍵。”
“從頭計(jì)算”方法源于安芬森的“最低自由能構(gòu)型假說(shuō)”。前兩種方法是用已知結(jié)構(gòu)的蛋白質(zhì)為模板來(lái)構(gòu)建新的結(jié)構(gòu),而“從頭計(jì)算”不需要模板,它是以物理為基礎(chǔ)來(lái)研究蛋白質(zhì)的折疊方法,怎樣設(shè)計(jì)適當(dāng)?shù)哪芰亢瘮?shù),怎樣找到相應(yīng)的最低自由能是這種方法的關(guān)鍵。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)免費(fèi)服務(wù)
目前已經(jīng)有許多蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)服務(wù)通過(guò)因特網(wǎng)對(duì)公眾免費(fèi)開(kāi)放。由于結(jié)構(gòu)預(yù)測(cè)技術(shù)本身的局限性,每種預(yù)測(cè)服務(wù)都各有得失。 我們簡(jiǎn)要介紹幾種國(guó)際上較為常用的預(yù)測(cè)服務(wù)的優(yōu)缺點(diǎn)、使用方法及工作原理。
三級(jí)結(jié)構(gòu)預(yù)測(cè)(同源建模):
瑞士生物信息研究所 SWISS-MODEL
丹麥技術(shù)大學(xué)生物序列分析中心 CPHmodels
比利時(shí)拿摩大學(xué) ESyPred3D
英國(guó)癌癥研究中心 3DJigsaw
二級(jí)結(jié)構(gòu)預(yù)測(cè)(折疊識(shí)別):
美國(guó)哥倫比亞大學(xué) PredictProtein
英國(guó)瓦衛(wèi)克大學(xué) PSIpred
印度昌迪加爾的微生物技術(shù)研究所 APSSP
歐洲生物信息研究所(EBI)Jpred
美國(guó)加利福尼亞大學(xué) SSpro
α-螺旋傾向性預(yù)測(cè)(從無(wú)到有):
歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL) AGADIR
AGADIR Service
AGADIR —— 一種預(yù)測(cè)肽鏈中螺旋含量的算法
AGADIR是一種基于螺旋/卷曲轉(zhuǎn)化理論,可以在殘基水平上準(zhǔn)確預(yù)測(cè)單體肽螺旋行為的算法。利用此算法,可以預(yù)測(cè)肽鏈的平均螺旋含量、α碳和α氫原子的構(gòu)象、偶合常數(shù)、及N-Cap、C-Cap等參數(shù)。通過(guò)用圓二色性法和核磁共振法的測(cè)評(píng),此算法對(duì)短肽鏈,即三級(jí)相互作用不明顯時(shí),預(yù)測(cè)準(zhǔn)確很高。
利用AGADIR的預(yù)測(cè)數(shù)據(jù),可以參考之對(duì)肽鏈螺旋,及至蛋白結(jié)構(gòu)進(jìn)行適當(dāng)修飾,以達(dá)到特定的實(shí)驗(yàn)?zāi)康?,或進(jìn)行其它應(yīng)用。
到目前為止,蛋白質(zhì)結(jié)構(gòu)解析的方法主要是兩種,x射線衍射和NMR。近年來(lái)還出現(xiàn)了一種新的方法,叫做Electron Microscopy。
其中X射線的方法產(chǎn)生的更早,也更加的成熟,解析的數(shù)量也更多,我們知道,第一個(gè)解析的蛋白的結(jié)構(gòu),就是用x晶體衍射的方法解析的。而NMR方法則是在90年代才成熟并發(fā)展起來(lái)的。這兩種方法各有優(yōu)點(diǎn)和缺點(diǎn)。
首先來(lái)說(shuō)一下,這兩種方法的一般的步驟和各自的優(yōu)點(diǎn)和缺點(diǎn)。
電子顯微鏡(electron microscopy)作為一種新型的技術(shù),目前的應(yīng)用還是非常少,并且比較狹窄,到最后在給它作些介紹,而且相信絕大多數(shù)人也沒(méi)有聽(tīng)說(shuō)過(guò),也不會(huì)有很大的興趣。
首先是X晶體衍射。首先要得到蛋白質(zhì)的晶體。
通常,都是將表達(dá)蛋白的基因PCR之后克隆到一種表達(dá)載體中,然后在大腸桿菌中誘導(dǎo)表達(dá),提純之后摸索結(jié)晶條件,等拿到晶體之后,工作便完成的80%,將晶體進(jìn)行x射線衍射,收集衍射圖譜,通過(guò)一系列的計(jì)算,很快就能得到蛋白質(zhì)的原子結(jié)構(gòu)。
用x射線的優(yōu)點(diǎn)是:速度快,通常只要拿到晶體,甚至當(dāng)天就能得到結(jié)構(gòu),另外不受大小限制,無(wú)論是多大的蛋白,或者復(fù)合體,無(wú)論是蛋白質(zhì)還是RNA、DNA,還是結(jié)合了什么小分子,只要能夠結(jié)晶就能夠得到其原子結(jié)構(gòu)。
所以x射線方法解析蛋白的瓶頸是摸索蛋白結(jié)晶的條件。這個(gè)時(shí)候運(yùn)氣就顯的特別重要。關(guān)于這個(gè)有好多有趣的離子。據(jù)說(shuō)國(guó)外一個(gè)同學(xué)在摸索兩個(gè)月無(wú)果之后,毅然去度假,就將蛋白扔在一個(gè)很隨便的地方,等度假回來(lái)之后,卻發(fā)現(xiàn)已經(jīng)結(jié)晶了。
然后,來(lái)說(shuō)一下NMR。
NMR(nuclear magnetic resonance)現(xiàn)象早已發(fā)現(xiàn)了很久,然后將這種方法用來(lái)解析蛋白結(jié)構(gòu),卻是近一二十年的事情。不過(guò)到今天為止,用nmr方法來(lái)解析結(jié)構(gòu)已經(jīng)十非常成熟的方法。
原理暫且放在一邊,先說(shuō)常規(guī)步驟。
首先通過(guò)基因工程的方法,表達(dá)出目的蛋白,提純之后,摸索一下蛋白穩(wěn)定的條件,如果蛋白沒(méi)有聚合,而且折疊良好,便將蛋白樣品(通常是1mM-3mM,500ul,Ph6-7的PBS)裝入核磁管中,放入核磁譜儀中,然后用一系列寫好的程序控制譜儀,發(fā)出一系列的電磁波,激發(fā)蛋白中的H、N13、C13原子,等電磁波發(fā)射完畢,在收集受激發(fā)的原子所放出的“能量”,其實(shí)也是小磁場(chǎng),通過(guò)收集數(shù)據(jù)、譜圖處理、電腦計(jì)算從而得到蛋白的原子結(jié)構(gòu)。
它的優(yōu)點(diǎn)就是,蛋白在液體中得到結(jié)構(gòu),是一個(gè)動(dòng)態(tài)的結(jié)構(gòu),事實(shí)上所有在pdb中或者文獻(xiàn)中發(fā)表的NMR結(jié)構(gòu)都是十個(gè)或者二十個(gè)結(jié)構(gòu)的ensemble(集合),這就是因?yàn)檫@些結(jié)構(gòu)都是進(jìn)行能量?jī)?yōu)化后符合條件的結(jié)構(gòu),或者說(shuō)就是溶液中的蛋白結(jié)構(gòu)。因?yàn)槭莿?dòng)態(tài)就很容易的研究蛋白與其他蛋白或者配基的相互作用。缺點(diǎn)是,受大小的限制,到目前為止NMR解析蛋白結(jié)構(gòu)的上限是50kd。
無(wú)論是晶體還是NMR,蛋白都要符合下面的條件:首先表達(dá)量要大,象NMR要求1個(gè)mM500UL,這就要求十幾個(gè)毫克,結(jié)晶要摸索很多的條件也需要大量的蛋白。所以蛋白一定要在胞質(zhì)中表達(dá)才行。其次,蛋白要折疊。我們知道許多蛋白,尤其是真核蛋白在大腸桿菌中是以包含體的形式存在,這種情況下是不行的,除非復(fù)性。如果你的蛋白在胞質(zhì)中表達(dá),如果你不確定是不是表達(dá),可以從分子篩上的位置,或者掃CD確定一下,當(dāng)然最簡(jiǎn)單的是做一個(gè)NMR一維譜,只需要幾分鐘。
小于20Kd的蛋白可以考慮NMR,因?yàn)镹MR研究功能核相互作用方面是更加擅長(zhǎng)的,而且不需要結(jié)晶,現(xiàn)在速度也不慢。如果比較大,可以考慮晶體解析。
蛋白質(zhì)的亞細(xì)胞定位
關(guān)于蛋白質(zhì)的亞細(xì)胞定位的預(yù)測(cè),In general,預(yù)測(cè)方法分為3個(gè)步驟。首先,為每一類亞細(xì)胞locations構(gòu)建客觀而具有代表性的數(shù)據(jù)集。其次,從數(shù)據(jù)集中提取特征參數(shù)或 descriptor。最后也是最關(guān)鍵的一步,通過(guò)算法比較查詢序列中所包含的特征參數(shù)與各類相應(yīng)的location的相似度,作出判斷,一般會(huì)用一組概率的形式來(lái)表述。很明顯,其中大量運(yùn)用的是機(jī)器學(xué)習(xí)理論和統(tǒng)計(jì)學(xué)的方法。對(duì)算法有興趣的朋友可以參考下面這一篇綜述,“An overview on predicting the subcellular location of a protein” In Silico Biology 2002http://www.bioinfo.de/isb/2002/02/0027/main.html
以下是該綜述中涉及的部分server,都是比較經(jīng)典的。
PSORT:http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge
TargetP:http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide
MitoProt:http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide
Predotar:http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide
NNPSL:http://predict.sanger.ac.uk/nnpsl
By amino acid composition
SobLoc:http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition
SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition
一篇文獻(xiàn):http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html
“Better prediction of sub-cellular localization by combining evolutionary and structural information”
找到一些晶體學(xué)的原理。一起學(xué)習(xí)。
蛋白質(zhì)純化與結(jié)晶
獲得蛋白質(zhì)的晶體結(jié)構(gòu)的第一個(gè)瓶頸,就是制備大量純化的蛋白質(zhì)(>10 mg),其濃度通常在10 mg/ml 以上,并以此為基礎(chǔ)進(jìn)行結(jié)晶條件的篩選。運(yùn)用重組基因的技術(shù),將特定基因以選殖(clone)的方式嵌入表現(xiàn)載體(expression vector)內(nèi),此一載體通常具有易于調(diào)控的特性。之后再將帶有特定基因的載體送入可快速生長(zhǎng)的菌體中,如大腸桿菌(Escherichia coli),在菌體快速生長(zhǎng)的同時(shí),也大量生產(chǎn)表現(xiàn)載體上的基因所解譯出之蛋白質(zhì)。一般而言純度越高的蛋白質(zhì)比較有機(jī)會(huì)形成晶體,因此純化蛋白質(zhì)的步驟就成為一個(gè)重要的決定因素。
在取得高純度的蛋白質(zhì)溶液后,接下來(lái)就是晶體的培養(yǎng)。蛋白質(zhì)晶體與其他化合物晶體的形成類似,是在飽和溶液中慢慢產(chǎn)生的,每一種蛋白質(zhì)養(yǎng)晶的條件皆有所差異,影響晶體形成的變量很多,包含化學(xué)上的變量,如酸堿度、沈淀劑種類、離子濃度、蛋白質(zhì)濃度等;物理上的變數(shù),如溶液達(dá)成過(guò)飽和狀態(tài)的速率、溫度等;及生化上的變數(shù),如蛋白質(zhì)所需的金屬離子或抑制劑、蛋白質(zhì)的聚合狀態(tài)、等電點(diǎn)等,皆是養(yǎng)晶時(shí)的測(cè)試條件。截至目前為止,并無(wú)一套理論可以預(yù)測(cè)結(jié)晶的條件,所以必須不斷測(cè)試各種養(yǎng)晶溶液的組合后,才可能得到一顆完美的單一晶體(圖一) 。
蛋白質(zhì)晶體的培養(yǎng),通常是利用氣相擴(kuò)散法(Vapor Diffusion Method) 的原理來(lái)達(dá)成;也就是將含有高濃度的蛋白質(zhì)(10-50 mg/ml)溶液加入適當(dāng)?shù)娜軇?,慢慢降低蛋白質(zhì)的溶解度,使其接近自發(fā)性的沈淀狀態(tài)時(shí),蛋白質(zhì)分子將在整齊的堆棧下形成晶體。舉例來(lái)說(shuō),我們將蛋白質(zhì)溶于低濃度(~1.0 M) 的硫酸銨溶液中,將它放置于一密閉含有高濃度(~2.0 M)硫酸銨溶液的容器中,由氣相平衡,可以緩慢提高蛋白質(zhì)溶液中硫酸銨的濃度,進(jìn)而達(dá)成結(jié)晶的目的(圖二)。
蛋白質(zhì)晶體在外觀上與其他晶體并無(wú)明顯不同之處,但在晶體的內(nèi)部,卻有很大的差異。一般而言,蛋白質(zhì)晶體除了蛋白質(zhì)分子外,其他的空間則充滿約40 %至60 %之間的水溶液,其液態(tài)的成分不僅使晶體易碎,也容易使蛋白質(zhì)分子在晶格排列上有不規(guī)則的情形出現(xiàn),造成晶體處理時(shí)的困難及繞射數(shù)據(jù)上的搜集不易等缺點(diǎn)。但也由于高含水量的特性,讓蛋白質(zhì)分子在晶體內(nèi)與水溶液中的狀態(tài),極為相似。所以由晶體所解出的蛋白質(zhì)結(jié)構(gòu),基本上可視為自然狀態(tài)下的結(jié)構(gòu)。
繞射數(shù)據(jù)的記錄
X 光繞射點(diǎn)搜集,隨著時(shí)間的推移,也由早期以閃爍計(jì)數(shù)器(scintillation counter) 一次記錄一個(gè)點(diǎn)及使用許多X-光片(X-ray film) 拍下繞射點(diǎn),每張X 光片都要經(jīng)過(guò)顯影的步驟;之后進(jìn)而使用多重金屬絲板(multiwire)自動(dòng)記錄每次偵測(cè)到的繞射點(diǎn)。目前使用的熒光記錄板(image plate),則是利用磷化物經(jīng)X 光激發(fā)后會(huì)產(chǎn)生熒光,經(jīng)熒光掃描儀記錄成數(shù)字模式的圖像文件后,再以燈光照射一段時(shí)間去除記錄板上的熒光點(diǎn),即可再進(jìn)行下一次的記錄工作。電荷耦合器(charge-coupled devices, CCD) 的出現(xiàn)及技術(shù)的改良,可以不斷地記錄繞射點(diǎn),而不需熒光板掃描及去除步驟,如此將加速繞射點(diǎn)的搜集。目前的同步輻射光源幾乎全部使用CCD 來(lái)記錄繞射數(shù)據(jù)(圖三)。
在實(shí)驗(yàn)室中的X 光光源的產(chǎn)生,一般使用銅作為旋轉(zhuǎn)式陽(yáng)極靶(rotating anode),可以產(chǎn)生波長(zhǎng)為1.54 ? Cu Kα放射光。不過(guò),以目前發(fā)表的文獻(xiàn)來(lái)看,在同步輻射(synchrotron)光源所搜集的資料有增加的趨勢(shì),因?yàn)橥捷椛渌峁┑腦 光束,其強(qiáng)度較實(shí)驗(yàn)室強(qiáng)約百倍、甚至上千倍,同時(shí)它也可以改變不同頻段的波長(zhǎng),以供非尋常散射(anomalous dispersion) 的實(shí)驗(yàn)研究
繞射原理
單一分子在X 光下的訊號(hào)極弱,無(wú)法被記錄下來(lái),然而在晶體中通常是由許多排列整齊的蛋白質(zhì)分子所組成,當(dāng)晶體內(nèi)所有的分子(數(shù)量約在1015 個(gè)以上)一起在同一個(gè)方向上進(jìn)行繞射且繞射波皆同步時(shí),即足以使所產(chǎn)生的訊號(hào)被記錄下來(lái)。每一個(gè)繞射波的強(qiáng)度與其振幅(amplitude)的平方成正比。但繞射波的另一個(gè)變數(shù),繞射波的相角(phase),則無(wú)法直接測(cè)量得到,必須利用其他的方法方能獲得(見(jiàn)相角決定方法)。若是繞射點(diǎn)振幅與相角都可獲知,則可以進(jìn)一步地來(lái)計(jì)算晶體中的電子密度圖。
下列方程式即是著名的傅立葉轉(zhuǎn)換公式,ρ表示在晶體中任何一個(gè)位置上(x, y, z) 的電子密度,φhkl 為繞射光相角,|Fhkl|為繞射光振幅,可由實(shí)驗(yàn)測(cè)得的繞射光強(qiáng)度開(kāi)平方獲得。
所以若是記錄了所有的繞射波的強(qiáng)度(h,k,l),并計(jì)算出所有繞射光的相角,帶入這個(gè)公式,蛋白質(zhì)在晶體內(nèi)的結(jié)構(gòu),就以電子密度圖的方式呈現(xiàn)在我們的眼前了(圖四)。
相角決定方法
決定相角通常有三種常用的方法,分別是同型置換法(isomorphous replacement method) 、非尋常散射法(anomalous dispersion method) 以及分子置換法(molecular replacement) ,現(xiàn)在分述如下:
(1)同型置換法
同型重原子置換法最早的應(yīng)用是在1954 年,用來(lái)解出血紅蛋白hemoglobin 的相角,需要在晶體蛋白質(zhì)的內(nèi)部加入重原子。通常以浸泡的方法使重原子能夠滲透(diffuse) 進(jìn)入到晶體內(nèi)部和蛋白質(zhì)結(jié)合。這些重原子對(duì)X 光產(chǎn)生較大的繞射,對(duì)繞射點(diǎn)的強(qiáng)度會(huì)有明顯的差異,根據(jù)這些差異,可定出重原子的位置,并進(jìn)而推算出蛋白質(zhì)晶體繞射光的相角。理論上,若是只獲得一組重原子衍生物數(shù)據(jù)(single isomorphous replacement, SIR),經(jīng)計(jì)算后,其解并不是唯一的;因此通常會(huì)結(jié)合數(shù)個(gè)不同的重原子衍生物所得到的數(shù)據(jù)(multiple isomorphous replacement, MIR), 來(lái)求得更精確的相角。
(2) 非尋常散射法
較重的原子會(huì)吸收特定波長(zhǎng)的X 光,運(yùn)用接近吸收邊緣(absorption edge)的X 光進(jìn)行繞射實(shí)驗(yàn)時(shí),會(huì)產(chǎn)生不尋常的X 光散射或吸收現(xiàn)象,稱為非尋常散射(anomalous scattering),此一現(xiàn)象可導(dǎo)致繞射振幅及相角的改變。經(jīng)由數(shù)個(gè)不同波長(zhǎng)的X 光照射,記錄吸收邊緣前后所產(chǎn)生的不同繞射結(jié)果,可依此計(jì)算出相角。由于它使用數(shù)個(gè)不同波長(zhǎng),所以稱為「多波長(zhǎng)非尋常散射法」(multiwavelength anomalous dispersion, MAD) 。使用這個(gè)方法的前提是X 光的波長(zhǎng)需依重原子的特性加以調(diào)整,而一般在實(shí)驗(yàn)室的X 光通常是屬于固定波長(zhǎng)的,并無(wú)法滿足這個(gè)方法,所以非尋常散射法就需要利用同步輻射可變波長(zhǎng)的光源來(lái)完成(5)。目前很多實(shí)驗(yàn)室使用硒化甲硫胺酸(selenomethionine)來(lái)取代甲硫胺酸 (methionine),在養(yǎng)菌的同時(shí)加入硒化甲硫胺酸,使蛋白質(zhì)的形成過(guò)程帶入含有重原子硒的硒化甲硫胺酸,接下來(lái)養(yǎng)出蛋白質(zhì)晶體,在硒的吸收邊緣進(jìn)行繞射實(shí)驗(yàn),并運(yùn)用MAD 的方法來(lái)計(jì)算出蛋白質(zhì)晶體繞射波的相角(圖四)。
(3) 分子置換法
若是一個(gè)未知的蛋白質(zhì)與另一已解出結(jié)構(gòu)的蛋白質(zhì),在胺基酸序列具有30 %以上的一致性(identity),表示這兩個(gè)蛋白質(zhì)的結(jié)構(gòu)可能類似,可以利用分子置換法來(lái)計(jì)算出未知蛋白質(zhì)的相角。利用已知蛋白質(zhì)之結(jié)構(gòu)分子帶入晶體中尋找旋轉(zhuǎn)及位移的可能位置,解析出結(jié)構(gòu)。隨著蛋白質(zhì)結(jié)構(gòu)的增加,可以發(fā)現(xiàn)類似的蛋白質(zhì)具有相同的折迭方式,而出現(xiàn)新的折迭的機(jī)率也相對(duì)減少,所以只要未知的蛋白質(zhì)在蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank, PDB )中,找到序列上具有同源性(homology)的已知結(jié)構(gòu)時(shí),即可在取得晶體繞射數(shù)據(jù)后,快速地運(yùn)用分子置換法來(lái)解決相角問(wèn)題。
三維結(jié)構(gòu)模型之建立及修正
藉由電子密度圖的三維構(gòu)形,可將每一個(gè)胺基酸依蛋白質(zhì)序列建立蛋白質(zhì)的起始模型。蛋白質(zhì)的起始模型,常由于相角的解不夠完美,使計(jì)算出來(lái)的電子密度圖產(chǎn)生誤差,誤導(dǎo)模型的走向,因此需要做進(jìn)一步的改善,稱為修正(refinement)。修正的目的在于進(jìn)行立體化學(xué)(stereochemistry)(如勝 鍵鍵長(zhǎng)、鍵角、胺基酸構(gòu)形)優(yōu)化的同時(shí),減少計(jì)算與實(shí)驗(yàn)繞射點(diǎn)強(qiáng)度的差異,用來(lái)評(píng)估的數(shù)值則是「剩余值(R-factor)」:
其中Fobs 及Fcalc 分別表示觀察值與計(jì)算值的繞射光振幅。盡可能將剩余值降到最低,直到進(jìn)一步的修正無(wú)法減少其值為止,即達(dá)最終的蛋白質(zhì)結(jié)構(gòu)模型。大部分修正后可接受的剩余值約0.2 (20%)。但低的剩余值,并不代表其結(jié)構(gòu)就是正確的。已有數(shù)個(gè)例子顯示在蛋白質(zhì)結(jié)構(gòu)上的某些部分不正確時(shí),仍可能獲得較低的剩余值。因此Brünger (7)在1992 年提出一個(gè)交互驗(yàn)證的程序,也就是取出部分的繞射點(diǎn)(建議為10%),排除于修正的程序之外,以對(duì)結(jié)構(gòu)的正確性,提供個(gè)別的檢查,稱為「自由剩余值(R-free) 」,其計(jì)算方式同剩余值。除了剩余值外,分辨率是另一個(gè)判斷晶體結(jié)構(gòu)可信度的重要數(shù)值。分辨率在蛋白質(zhì)晶體結(jié)構(gòu)中通常是定義為:可以分辨二個(gè)平面的最小距離。分辨率對(duì)模型的建構(gòu)所造成的影響,可以直接由電子密度圖看出,在低分辨率(~6 ? )時(shí),只能觀察到由α螺旋(α-helix)所形成的圓柱形密度圖;隨著分辨率提高(3 ? ~ 2 ? ) ,主鏈與支鏈結(jié)構(gòu)就會(huì)出現(xiàn),但個(gè)別原子仍無(wú)法由密度圖中看出,除非分辨率可以達(dá)到1.0 ? 或更高的分辨率。蛋白質(zhì)結(jié)構(gòu)所能達(dá)到的分辨率,主要是取決晶體內(nèi)分子排列的整齊程度。小分子晶體內(nèi)并沒(méi)有太多的水分子,所以常能得到分辨率高于0.5 ? 的繞射數(shù)據(jù)。但因蛋白質(zhì)結(jié)構(gòu)由長(zhǎng)的勝 鏈所組成,其間又是由較弱的氫鍵及凡得瓦力所維系,造成蛋白質(zhì)結(jié)構(gòu)富有彈性,蛋白質(zhì)分子與分子的堆棧也就沒(méi)有那么整齊。同時(shí)分子與分子之間的空隙由水分子來(lái)填補(bǔ),也因這些空隙的水分子排列比較紊亂,所以蛋白質(zhì)晶體繞射出的結(jié)果,僅有少數(shù)高分辨率晶體,一般蛋白質(zhì)晶體結(jié)構(gòu)的分辨率約在2.0 至3.0 ? 之間。
生物信息學(xué)簡(jiǎn)概及教程(經(jīng)典)
一、數(shù)據(jù)庫(kù)
注:Display中選FASTA形式,顯示原始的核苷酸數(shù)據(jù),便于復(fù)制。
(2)dbEST
EST來(lái)源于mRNA
-基因片度(300-400bp,數(shù)據(jù)長(zhǎng)度足以分析編碼的產(chǎn)物)或者全基因(已知)
-5’端或3’端的cDNA序列(EST)
-300-400bp single-pass sequence (可能有誤,如果要求<0.1%的錯(cuò)誤率,需要測(cè)序8-10次)
-GenBank中71%以上的是EST序列。
http://www.ncbi.nlm.nih.gov/dbEST/index.html
(3)UniGene
來(lái)源于同一基因的非重復(fù)EST,組成基因序列群(contig)
注:不同實(shí)驗(yàn)室各自采用poly(T)15法和隨機(jī)引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重疊群(Contig) http://www.ncbi.nlm.nih.gov/UniGene/
(4)dbSTS (sequence tagged sites)
a.短序列(200-500bp) b.已完成染色體上的定位 c.可以與電子PCR相連用
http://www.ncbi.nlm.nih.gov/dbSTS/index.html
(5)dbGSS (genome survey sequence)
a.基因組短序列 b. cosmid、BAC、YAC外源插入片斷末端序列 c. Alu PCR 序列
http://www.ncbi.nlm.nih.gov/dbGSS/index.html
(6)HTG (high-throughput genome sequence)
尚未完成測(cè)序的重疊群(>2kb) 更新快?。?!
http://www.ncbi.nlm.nih.gov/HTGS/
(7)dbSNP
每100-300bp有一個(gè)SNP
http://www.ncbi.nlm.nih.gov/SNP/
(8)EMBL
http://www.ebi.ac.uk/embl/
(9)DDBJ
http://www.ddbj.nig.ac.jp/
(10)EPD (Eukaryotic Promoter Database) 啟動(dòng)子數(shù)據(jù)庫(kù)
http://www.genome.jp/dbget/dbget2.html
2.蛋白質(zhì)數(shù)據(jù)庫(kù)
(1)SWISS-PROT
http://us.expasy.org/sprot/
有詳細(xì)的注釋序列;與44個(gè)數(shù)據(jù)庫(kù)相互參照(cross-reference)
(2)TrEMBL (translation of EMBL)
(3)PIR (Promoter information resource)
http://www-nbrf.georgetown.edu/pir/
表明了結(jié)構(gòu)域
(4)PRF (Promoter research foundation)
http://www4.prf.or.jp/
(5)PDBSTR (Re-organized Protein data Bank)
http://us.expasy.org/sprot/prosite.html
蛋白質(zhì)的二級(jí)結(jié)構(gòu)、α-碳位置
(6)Prosite
蛋白質(zhì)家族、結(jié)構(gòu)域
http://us.expasy.org/prosite/
3.結(jié)構(gòu)數(shù)據(jù)庫(kù)
(1)PDB (Protein Data Bank)
http://www.rcsb.org/pdb/
(2) NDB (Nucleic Acid Database)
http://ndbserver.rutgers.edu/NDB/ndb.html
(3)DNA-bind Protein database
http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html
(4)swiss-3D IMAGE
http://www.expasy.ch/sw3d/
4.酶和代謝數(shù)據(jù)庫(kù)
(1)KEGG (Kyoto Eneyclopedin of genes & genemes)
http://www.genome.ad.jp/kegg/
(2)PKR (Protein Kinase Resource)
http://www.sdsc.edu/kinases
5.文獻(xiàn)數(shù)據(jù)庫(kù)
(1)PubMed
http://www.ncbi.nlm.nih.gov/PubMed/
(2)OMIM
http://www.ncbi.nlm.nih.gov/Omim
(3)Agricola
http://agricola.nal.usda.gov/
農(nóng)業(yè)相關(guān)的文獻(xiàn)
6.提交數(shù)據(jù)
GenBank
BankIt提交
網(wǎng)上直接提交,立即得到臨時(shí)編號(hào)(1周內(nèi)提供Aceesion No.)
SequIn提交 下載軟件填寫表格,自動(dòng)確定CDS、ORF和查找重復(fù)序列、查載體序列
用Update功能修改
二、檢索數(shù)據(jù)庫(kù)的方法
1、用關(guān)鍵詞或詞組進(jìn)行的數(shù)據(jù)庫(kù)檢索 Text-based database searching
2、用和甘肅或蛋白質(zhì)序列進(jìn)行的數(shù)據(jù)庫(kù)檢索 Sequence-based database searching
關(guān)鍵詞:名詞;描述性詞、詞組;Accession number
體系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET)
檢索須知
1、連接詞:AND OR NOT
用引號(hào)將兩個(gè)詞組成一個(gè)詞組 “disease resistance” 表示必須兩個(gè)詞先后順序連續(xù)出現(xiàn);disease resistance 表示默認(rèn)AND
2、wild card “*” 放在單詞后使檢索范圍擴(kuò)大,但是專一性降低
Wan*=所有以Wan開(kāi)頭的單詞 enzyme*=enzyme + enzymes 單復(fù)數(shù)同
(1)Entrz(NCBI)
優(yōu)點(diǎn):三種檢索體系中最容易操作的; 缺點(diǎn):檢索范圍有限
8大類29個(gè)與Entrz體系相連的數(shù)據(jù)庫(kù)
1、Nucleiotide sequence database(6)
GenBank; SNP; Gene; Homologene; UniSTS; ProSet
2、Protein sequence database(1)
Proteins
3、Structure database(4)
Structure; PubChem; Compound; 3D-Domain; CDD
4、Taxonomy database(1)
Taxonomy
5、Genome database(2)
Genomes; Genome Project
6、Expression database(4)
UniGene; GEO Profiles; GEO database;GENSAT
注:數(shù)據(jù)庫(kù)來(lái)源于mRNA-cDNA-protein(更確切)
7、Literature database(7)
PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH
8、Others
PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch
檢索方法:a、數(shù)據(jù)庫(kù)間的檢索 b、選擇數(shù)據(jù)庫(kù) (可以限定檢索內(nèi)容和時(shí)間范圍)
(2)SRS (Sequence Retrieval System)
http://srs.ebi.ac.uk/ 有不同的版本,可以下載。
EBI 優(yōu)點(diǎn):檢索面寬 缺點(diǎn):檢索復(fù)雜
***類194個(gè)數(shù)據(jù)庫(kù)與SRS體系相連
檢索方法:a、快速檢索(操作簡(jiǎn)單,檢索的數(shù)據(jù)庫(kù)有限,適用于明確目標(biāo)的檢索。) b、深入檢索(檢索稍微復(fù)雜,檢索全部的數(shù)據(jù)庫(kù),適用范圍廣泛的檢索。)
(3)DBGET
http://www.genome.jp/dbget/dbget2.html
優(yōu)點(diǎn):與KEGG相連,操作較SRS簡(jiǎn)單 缺點(diǎn):檢索面較窄
檢索方法:a、Basic search b、Advanced search
三、核苷酸和蛋白質(zhì)序列為基礎(chǔ)的數(shù)據(jù)庫(kù)檢索 Sequence-based database searching
1、序列對(duì)位排列(sequence alignment)
2、將兩條或多條序列對(duì)位排列,突出相似的結(jié)構(gòu)區(qū)域(分析功能、分析物種進(jìn)化、檢測(cè)突變,插入或缺
失、序列延長(zhǎng)、序列定位、基因表達(dá)譜分析) 3、序列對(duì)位排列分析種類
a、序列對(duì)庫(kù)對(duì)位排列分析 (從數(shù)據(jù)庫(kù)中尋找同源序列,主要涉及核苷酸庫(kù)和蛋白質(zhì)庫(kù))
b、兩序(多序列)列對(duì)位排列分析
(一)序列對(duì)位排列分析的基本原理
1、記分矩陣(scoring matrix)
a、蛋白質(zhì)序列對(duì)位排列分析記分復(fù)雜
b、一致氨基酸記分不同 稀有氨基酸分值高,普通氨基酸分值低
c、相似氨基酸也積分,如D-E 用“+”表示氨基酸殘基性質(zhì)相似
2、空位(間隔)罰分(gap penalty)
基因進(jìn)化過(guò)程中產(chǎn)生突變(插入、缺失)
序列對(duì)位排列分析是允許插入空位
空位罰分涉及兩個(gè)參數(shù):空位開(kāi)放(gap opening) 空位延伸(gap extension)
(二)序列對(duì)庫(kù)對(duì)位排列分析
對(duì)待分析的序列對(duì)庫(kù)進(jìn)行相似性分析;重復(fù)許多次的兩序列對(duì)位排列分析;從數(shù)據(jù)庫(kù)找出所以的同源序列
主要檢索體系:BLAST、FASTA、Blitz
1、基本概念
a、sequence identity 兩序列在同一位點(diǎn)核苷酸或氨基酸殘基完全相同
sequence similarity(or opositive) 兩序列在同一位點(diǎn)核苷酸或氨基酸殘基化學(xué)性質(zhì)相似
b、Global alignment 完整的序列比較
Local alignment 兩序列相似程度最高的片斷相比較
c、Gapped alignment 為達(dá)到佳a(bǔ)lignment序列中加入空位
Ungapped alignment 相比較的核苷酸或氨基酸殘基連續(xù)
d、Alignment score 衡量?jī)上啾刃蛄邢嗨瞥潭鹊臉?biāo)準(zhǔn)
E (expect) value 期望得到的,完全由機(jī)會(huì)造成的,相當(dāng)于或大于目前分值的alignment次數(shù)
Raw score 原始分,分值較大,兩個(gè)比較序列相似性程度較大
Bit score 采用統(tǒng)計(jì)學(xué)方法以原始分為基礎(chǔ)計(jì)算
E=10 ;表示方法5e-46=5×10-46 E越小越好
可以接受的標(biāo)準(zhǔn):E=10-5 (重疊位置>40bp;identity>94%;遠(yuǎn)大于雜交標(biāo)準(zhǔn))
E=10-30 基因組分析,功能與序列中相似
E取決于alignment分值,相比較序列的長(zhǎng)短和庫(kù)中數(shù)據(jù)數(shù)量
e、Low-complexity alignment region(LCR)
核苷酸序列中短的重復(fù)序列或由少數(shù)幾種核苷酸或氨基酸殘基組成的序列(如polyA)
數(shù)據(jù)庫(kù)中半數(shù)以上的序列至少帶有一處LCR
序列alignment 應(yīng)避免LCR相互配對(duì)得分
BLAST用Filter功能避免比較LCR 用X和N分別代表LCR中的每個(gè)氨基酸殘基和核苷酸
2、BLAST(Basic Local Alignment Search Tool)
(1) Nucleiotide Blast (Blastn)
(2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast)
(3) Translated blast (blastx;tblstn;tblsatx)
(4) Special Blast (Blast 2 sequence;bl2seq;VecScreen)
BLAST program
Blastn 用核苷酸序列檢索核苷酸庫(kù)
BlastP 用氨基酸序列檢索蛋白質(zhì)庫(kù)
Blastx 用核苷酸序列通過(guò)6種閱讀框翻譯成不同的氨基酸序列檢索蛋白質(zhì)庫(kù)
tblastn 將蛋白質(zhì)序列譯成不同的核苷酸序列檢索核苷酸庫(kù) tblastx 將核苷酸序列通過(guò)6種閱讀框翻譯成
不同的氨基酸序列檢索核苷酸庫(kù)(庫(kù)中的序列也被譯成不同的氨基酸序列)
Blast database
nr (nucleiotide blast) GenBank(無(wú)EST、STS、GSS、HTGS)
nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF
(1)BLASTN 序列的粘貼(或用GI號(hào))-選擇database-Autoformat(full/semi)
(2)BLASTP
(3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列檢索;重復(fù)循環(huán)檢索數(shù)據(jù)庫(kù)。 注意:
PHI和PSH同一網(wǎng)頁(yè),需要設(shè)定。
(4)PHI-blast (Pattern Hit Initiated Blast) 蛋白質(zhì)并帶有特殊的結(jié)構(gòu)域(pattern)檢索庫(kù)中的
相似蛋白質(zhì)(帶有同樣的特殊結(jié)構(gòu)域或者這一臨近的序列與被查找的序列相似。) 與PSI-blast相連,可
以循環(huán)檢索。
(5)Translated Blast
(6) Conserved Domain Blast (rpsblast)
3、FASTA
www.ebi.ac.uk/fasta33/index.html
fasta3 用DNA序列檢索核苷酸序列,用氨基酸序列檢索蛋白質(zhì)庫(kù)。
Fastx3/fastay3 將DNA序列及其互補(bǔ)的序列通過(guò)6種讀碼框翻譯成不同的氨基酸序列檢索蛋白質(zhì)庫(kù)
注意:提交結(jié)果的形式與Blast不同(表格形式)
4、Blitz
http://www2.ebi.ac.uk/bic_sw/
能檢索出遠(yuǎn)緣的序列;發(fā)現(xiàn)家族成員上可*;只用于蛋白質(zhì)庫(kù);慢!一般用email服務(wù)。
(三)兩序列對(duì)位排列分析
全局(貫穿整條序列長(zhǎng)度);局部(相似性變大區(qū)段)
1、Blast 2 sequence 任兩條序列,允許空位。 blastn, blastp, tblastn(比較蛋白質(zhì)序列1與核苷酸序
列翻譯成蛋白質(zhì)序列2比較。 blastx 比較核苷酸序列(譯成蛋白質(zhì))(seq1)和蛋白質(zhì)序列(seq2)
tblastx 兩條核苷酸比較(譯成蛋白質(zhì)) 2、Global alignment program (GAP) 兩條序列,允許空位,
可以選記分的矩陣,全局對(duì)位排列,提交有格式。 >sequence 1 ATGTGAGGTCCCTGA >sequence 2
GCTGCAAGTCGTAGC 四、多序列對(duì)位排列分析和系譜分析 主要用于分析基因或蛋白質(zhì)的進(jìn)化;通過(guò)分析各
個(gè)基因和蛋白質(zhì)序列的同源性確定它們?cè)谶M(jìn)化上的關(guān)系;分析基因或蛋白質(zhì)的功能。 1、多序列對(duì)位排列
分析(Multiple Sequence Alignment) -兩條以上序列排列分析 -可以發(fā)展保守的結(jié)構(gòu)域(重要的功能
位點(diǎn)?) -多序列允許插入空位 -Clustal W 目前公認(rèn)的最好的序列alignment的方法之一(可以下載)
對(duì)要分析的序列輸入格式有要求 FAST(Pearson)格式 >sequence 1 ATGTGAGGTCCCTGA >sequence 2
GCTGCAAGTCGTAGC -分析方法(舉例) Bayor college of medicine (BCM)生物信息學(xué)主頁(yè)
http://dot.imgen.bcm.tmc.edu Multiple sequence alignment –Clustal W 1.8-結(jié)果 [o] full
options form 修改 -可以修改分析參數(shù) 一些參數(shù)的定義: (1)Gap opening penalty 增大數(shù)值使Gap
數(shù)減??; (2) Gap extension penalty 增大數(shù)值使Gap變短; (3)Weight transition penalty A-G轉(zhuǎn)
換成C-T 轉(zhuǎn)換(multiple DNA alignment) (4) Hydrophilic gap 選“on”將增加形成gap的機(jī)會(huì)