蛋白質結構分析:蛋白質數據庫文件中的額外信息

2022年3月3日發布

分子生物學的中心教義有力地解釋了信息流從DNA到RNA, RNA到a的單向流動功能蛋白質。

什麼信息比實驗結構更具有影響力和功能相關性呢?

無論你研究什麼，無論你的實驗目標在什麼地方，無論你的原生宿主在生命功能蛋白質樹上的什麼地方。

你可以為你的實驗分離RNA，很少進行蛋白質結構分析。或者你也可以將蛋白質分析作為組學項目的一部分。

不管怎樣，對於形成假設或為實驗設計提供信息至關重要的信息，目前可能被忽略了。

所以如何?

當我們在分子圖形程序中打開一個PDB文件(對大分子的實驗結構進行編碼的文件)時，很多信息根本沒有顯示出來!

所以，讓我來幫助你從你手中的數據中得出最大的結論。請跟我一起學習如何閱讀PDB文件並挖掘有用的數據。

什麼是蛋白質數據庫文件?

蛋白質結構是信息豐富的實體。

我們用它們來理解和利用大多數生命過程。我們首先想到的例子是抗微生物藥物耐藥性、疾病的發生和治療。

蛋白質的結構數據通常是通過x射線晶體學、冷凍電子顯微鏡或核磁共振在適當的樣品上獲得的。

處理完數據後，我們得到一個包含結構中所有原子位置的文件。

這被稱為PDB文件，它代表蛋白質數據庫。

PDB文件隻是一個文本文件

你有沒有想過為什麼蛋白質結構的信息如此豐富而PDB文件卻如此之小?這是因為它們隻是包含(大量)所有組成原子的坐標數據的ASCII文件。

因此，可以在記事本等文本編輯器中打開它們。

在深入研究可獲得的額外結構信息並將其放在生物環境中之前，讓我們花點時間熟悉一下PDB文件的基礎知識。

我們將查看殖民因子計時器的主要子單元CfaB的PDB文件大腸杆菌（y2n PDB ID: 4)．[1]

點擊鏈接，注意頁麵右上角的藍色按鈕，上麵寫著“下載文件”。點擊它，然後選擇“PDB格式”。

導航到文件“4y2n.”所在的位置。pdb”下載。右鍵單擊它，將光標放在“打開與”上，並選擇“記事本”。

PDB文件中有什麼?

您可以立即獲得大量元數據(關於數據的數據)。

要返回到我們的示例，您應該打開一個包含很多的信息。但別擔心;我們要把事情簡單化。

這裏有兩點需要注意:

最左邊的大寫單詞是標題或“卡片”，表示該行的信息屬於什麼。(例如，標題，標題，來源。)
任何PDB文件中的第一個數據塊都包含實驗元數據，其中描述了相應的結構是如何求解的。

關於第1點，卡片是瀏覽PDB文件的最佳方式。

關於第二點，這裏通常有大量方便的信息。通過我們的示例，我們可以立即確定宿主分類法ID、菌株ID和基因ID(都在SOURCE卡下)。

利用COMPND卡，我們可以收集到該結構對應於25-170個定植因子I的殘基。

如果您不知道這些信息在哪裏，請查看圖1，以找到正確的方向。

蛋白質結構分析:蛋白質數據庫文件中的額外信息 — 圖1．條目PDB文件的注釋截圖:4y2n。(圖片來源:托馬斯沃裏克．）

所以，我們不需要在一篇論文或它的支持信息中拖網抓取，就有了所有這些有用的信息。手動檢查PDB文件可以節省您的時間，並幫助您的蛋白質結構分析。

但是還有更多的信息，詳細介紹這些信息超出了本文的範圍。盡管如此，還是要瀏覽一遍，看看你能挑出什麼。

還要注意，並非所有PDB文件都包含相同類型的元數據。有些就沒那麼富有了。這是由於沉積的時代，軟件在解決結構，和儲戶的勤奮。

獲取有用的結構數據一目了然

元數據很有用，但本文的主要目的是描述一些額外的結構數據，這些數據可以幫助您進行蛋白質結構分析。

因此，讓我們轉到PDB文件更相關的部分，進一步擴展我們的理解。

向下滾動到ATOM卡開始的位置(參見圖2)。

ATOM卡中的數據意味著什麼?

這是一個好問題，答案對於理解下麵的例子是必要的。它還為您提供了一些判斷結構質量所需的工具。

在給出這些數據在生物環境中如何表現的例子之前，我將簡要地解釋它們。

ATOM卡的分解

讓我們一個一個地瀏覽這些內容，然後進入有趣的部分。子標題編號與每個數據列上麵的紅色編號相關(圖2)。

1.這張卡

正如前麵所解釋的那樣，這些卡片發出了緊隨其後的信息。它們有特定的定義，因為讀取PDB文件以顯示和查詢蛋白質結構的程序必須對所有信息進行分類。

因此，卡片使軟件包能夠“知道”，例如，這個亮氨酸屬於A鏈，這個原子屬於配體，這兩個原子之間不應該有共價鍵，等等。

如果你還不確定，.ris引用文件以類似的方式使用標記使像Mendeley這樣的軟件能夠生成格式化的引用。

2.原子數

除了結構中的每個原子都被分配了一個唯一的數字之外，沒有什麼可說的。這就是這個數字所對應的。

記住，每個蛋白質都是由氨基酸鏈組成的，而氨基酸鏈又是由原子組成的。還有一些原子屬於溶劑和配體，它們也可能存在於蛋白質結構中。所有這些都需要一個唯一的數字來識別它們。

3.原子類型

這些字母表示給定殘基中的原子類型。例如，“CA”是α碳，“CB”是β碳，“O”是肽羰基氧，等等。

如果你需要快速複習

我們很少想到“”或“”碳，但它們存在於較大的殘基中。

4.三字母氨基酸編碼

我們可能都很熟悉的東西——氨基酸密碼。這是代碼表如果你像我一樣，總是忘記穀氨酰胺和穀氨酸的區別。

5.鏈ID

IgG抗體由四個獨立的多肽鏈組成，由二硫鍵連接在一起。

類似地，其他蛋白質可以作為二聚體，或更大的寡聚體，它們也由兩個或更多的離散多肽鏈組成(圖3)。

在x射線晶體學中，蛋白質分子可以不對稱地聚集在一起，然後這個不對稱的單位可以對稱地聚集在一起形成晶體。

關鍵是我們需要一種方法來描述多肽鏈，這就是這個標簽。

6.剩餘數量

這裏沒有什麼特別的，隻是給定多肽鏈中從N端到c端氨基酸的數量。

這裏有幾點需要記住:

一些結構生物學家這樣做，取殘基號為“1”的氨基酸總是蛋白質序列中的第一個氨基酸很有道理,對吧?是的，但是:

結構中包含的任何n端親和標記都接受負餘數(這是可以的)。
不完全蛋白質對應的結構可能有與其在完整蛋白質序列中的位置不同的殘基數。

對於我們的例子CfaB來說，這兩個都是正確的。注意B鏈上的前兩個His殘基取的是-1和0。所以，隻有最後兩個殘基在(His)₆建立親和標記。

注意，盡管結構對應的CfaB殘基數為25-170，但殘基數為1-147。這是因為解出的結構對應於一個不完全的蛋白質序列。

在野外查看PDB文件時，您必須保持頭腦清醒。

7.原子坐標

PDB文件在二維屏幕上顯示三維結構。所以，所有的原子都有一組坐標，XYZ，用來描述它們相對於單個原點的位置，000。

8.原子入住率

這個數字表示一個原子在結構中存在於單一位置的時間百分比。

大多數時候，這個數字是1.0(100%)，因為原子通常隻占據一個位置。很簡單。

然而,有時相同Atom可以顯示兩個或多個離散的位置。隻是不是在同一時間。

嗯?

想象你的手掌代表酪氨酸殘渣上的芳香環。假設80%的時間你的手指指向上方，20%的時間你的手指指向側側。

酪氨酸在擺動。

在這種情況下，每種構象的原子占用率分別為0.8和0.2。

假設你的手腕是碳。它它不會隨著你招手而移動，所以它的入住率是1.0。

結構科學家稱這種現象為“無序”，有許多合理的理由可以解釋為什麼它可能發生在高分子或化學物質的實驗結構中，包括:

穩定不同構象的h鍵的競爭來源;
在結晶過程中采用離散但能量相似的構象;
電子顯微鏡柵格製備也是如此;
分子中沒有固有結構的區域(如環);
在極少數情況下，原子會在構象之間移動在數據收集。

在這種情況下，如果實驗數據允許的話，最好將結構的這一部分構建兩次(或更多次)，每一次都代表實驗數據所建議的一個似是而非的構象。

以及這些房間的占用情況部分將和為1.0，因為分子不能神奇地複製一個區域——這隻是結構生物學家為提供最能解釋實驗數據的結構所做的事情。

最後三點需要注意:

上麵列表中的場景1直接引出場景2和3。

配體也會出現紊亂。在優化藥物研發的先導化合物以利用(例如)對特定生物體的選擇性時，這可能是一個關鍵的考慮因素。

上麵列表中的場景5非常罕見，因為結構數據通常是在低溫下收集的。

9.原子位移參數

蛋白質的結構並不是靜止的，所有的原子都有一點顫動。有些原子經常晃動。

結構科學家的目標是建立一個能盡可能準確地描述實驗數據的結構。也就是說，一種考慮到這種晃動的結構。

因此，我們需要一些參數來描述這種抖動?——搖晃的因素。

幸運的是，有這樣一個東西，它的正式名稱是“B因子”。”[4]

它也被稱為“原子位移參數”和“熱位移參數”。

它描述了原子從平衡位置的位移，並且假設這種位移是球形的。¹

這意味著位移的大小在所有方向上都是相同的。因此它的另一個名字，“各向同性位移參數”。

有一個簡單的等式可以描述B因子:

$B = 8 \π^{2}你^ {2}$

地點:

B是給定原子的B因子，單位為Å²．
U是該原子從平衡態到平衡態的平均位移，單位為Å。

所以，如果我們想要計算一個原子的抖動程度，我們隻需要重新排列U:

$大概{U = \ \壓裂{B}{8 \π^ {2}}}$

讓我們再來看看我們的例子CfaB(圖2)。我們可以看到，第一個原子是組氨酸殘基中的肽N原子。我們還可以看到它的B因子是47.79 Å²．

為了計算這N個原子從平衡位置的平均位移，我們將其相加:

$大概{U = \ \壓裂{47.79}{78.96}}= 0.61$

作為參考,一個肽C-N鍵約1.3 Å長．所以它不怎麼晃動。

如果一組原子的B因子足夠大，它可能意味著這個區域顯示出無序，這已經被描述過了。

我聽到你問，什麼算“足夠大”?

這個問題沒有簡單的答案，因為結構科學很複雜。

為了簡單起見，我們設B因子25-80 Å²為結構解析1.5-3.5的範圍Å是“好的”。”[5]

當B因子蠕變到~ 78.96 Å²（8 $\π$ ²)，對應的U值開始超過1.0 Å，這大致接近一個典型共價鍵的長度。

所以，我們有理由說對應的原子是無序的。

當然，一個原子可能抖動不到1.0 Å，但仍然在離散構象之間無序。然而，大多數蛋白質結構數據集的質量根本不夠好，無法有把握地構建相應的構象。最終，這是由建造結構的人做出的判斷。

你和我在一起嗎?

10.元素

這些字母隻是對應於所討論原子的元素，沒有任何額外的排序。

現在，讓我們通過一些例子給所有這些信息一些生物學背景。

一個與占用有關的無序例子

讓我們來看看寄生蟲的半胱氨酸蛋白酶，LmCPB利什曼蟲墨西哥（PDB ID: 6 p4e)．這種蛋白質對寄生蟲形成利什曼病的皮膚形式至關重要，利什曼病是一種被忽視的熱帶疾病。

該結構包含LmCPB複合物和共價抑製劑，共價抑製劑表現出兩種離散的結合模式(圖4)。

結構科學家稱之為“二”-障礙。”

從PDB文件中我們可以看到，抑製劑在每個構象中的原子占用率分別為0.42和0.58(42%和58%)。

這告訴我們，盡管每種構象由不同的氫鍵穩定，但兩種構象都同樣有利。

如果入住率差異較大，則說明入住率越高越穩定。因此，如果我們要優化這個配體，我們可能想要誇大有助於形成這種構象的特征。

或者，穩定給定構象的殘基可能出現在我們不希望抑製的同源物上。在這種情況下，我們可以使用結構數據修改配體，以消除所述構象。

B因子與蛋白質功能關係的舉例說明

現在讓我們來看看人類醛糖還原酶(xgd PDB ID: 1)．它以nadph依賴的方式催化葡萄糖的還原。

我們已經了解了B因子，但知道蛋白質結構可以用“B因子膩子”圖形表示也很有用。

與漫畫相似，蛋白質分子用絲帶表示(圖5)。然而，B因子高的區域用脂肪和紅色表示。B因子低的區域是狹窄的藍色區域。中間B因子為黃/綠。

這兩個PyMOL™和加州大學舊金山分校的嵌合體可以用這種方式渲染蛋白質分子。

我們可以看到，一般來說，這個結構有低的B因子，這意味著它很好，有秩序，並且在大塊晶體中所有蛋白質分子的拷貝占據幾乎相同的構象。

不過，也有一些不穩定的地區。我圈出了其中兩個，分別叫“循環1”和“循環2”。

如果我們做一點研究，很明顯這些環中的殘基在功能上很重要。[8]

特別是，動力學數據表明，環2經曆構象重排，與NADPH結合並釋放NADP⁺．(9、10)

此外，環1中的殘基也移動與NADP形成接觸⁺．

所以，在這個例子中，原子B因子顯然與蛋白質功能有關。

事實上，我們可以從占用值中看到，循環1中的每個原子都構建了兩次，占用值為0.5。²

因此，這個環已經構建了兩次，沿著兩個不同的方向(兩種構象)，每一組“半原子”都屬於其中一種構象。

構建兩次會比在占用值為1.0時構建一次循環產生更低的B因子。

本例中還有一些其他屬性需要注意。

我們可以看到蛋白質核心的B因子相對較低。有人知道為什麼會這樣嗎?

你猜對了。因為核心被埋沒了，所以它不會晃動。它是由與自身和分子其他區域的氫鍵網絡固定的。

相反，雖然非常令人滿意，但我們可以看到分子邊緣的B因子略高於分子核心。這是因為這些區域由更少的h鍵固定，而且稍微更靈活。

請注意，一個地區擁有高B因子並不意味著如此是功能很重要。然而，B因素可能會給你指明正確的方向。

類似地，低B因子可能表示功能相關性。

關鍵是B因素是額外的數據，當你提出假設或得出結論時，需要考慮額外的證據。

蛋白質結構分析的你和我

好了，現在我們了解了PDB文件的基本語法，簡要介紹了其中包含的一些有用的元數據，並進一步了解了一些結構數據。

希望這篇文章能在您下次進行蛋白質結構分析或查詢高分子時對您有所幫助。

你有什麼問題嗎?需要任何主題展開嗎?隻是困惑的?請在下麵的評論區告訴我!

腳注

¹由於x射線衍射和低溫電子顯微鏡的結構溶液的特殊性，B因子不是由分子中原子的運動唯一確定的。實驗數據的質量也有影響。

²結構科學家可以公開地設置原子的占用率，也可以讓占用率自由變化，以確定與實驗數據最匹配的值。

參考文獻

包R等．(2016)CFA/I型菌毛的伴侶CfaA可阻止菌毛亞基的體外通路組裝產生腸毒素E．杆菌．摩爾Microbiol102: 975 - 91
藍寶石OL等．(2001)中和人抗HIV-1 IgG的晶體結構:疫苗設計的模板．科學293: 1155 - 59
安德森A，道森E和道森G等．(199)trp RNA結合衰減蛋白TRAP與RNA結合的結構．自然401: 235 - 42
太陽Z等．(2019)b因素在蛋白質科學中的應用:解釋剛性、柔韌性、內部運動和工程熱穩定性．化學牧師119: 1626 - 65
Carugo o . (2018)蛋白質晶體結構中的b因子可以有多大．BMC Bioinform19: 61
裏貝羅J等．(2020)墨西哥利什曼原蟲半胱氨酸蛋白酶B與高親和力氮二肽腈抑製劑複合物的晶體結構．地中海Bioorg化學28: 115743
Bohren公裏等．(2005)Apo R268A人醛糖還原酶的結構:控製動力學機製的鉸鏈和鎖存．Biochim Biophys學報1748: 201 - 12
Balendiran GK等．(2014)醛糖還原酶的b因子分析與構象重排．咕咕叫蛋白質組學11: 151 - 60
Kubiseski TJ等．(1992)豬肌肉醛糖還原酶的研究。輔酶結合緩慢構象變化的動力學機製和證據．J臨床生物化學267: 6510 - 7
威爾遜DK et艾爾．(1992)在1。65 Å與糖尿病並發症有關的人醛糖還原酶全酶結構．科學257: 81 - 4

分享到你的網絡:

推特臉譜網 LinkedIn

寫的托馬斯沃裏克