Riassunto analitico
Gli hotspot sono residui che contribuiscono significativamente all'energia libera di associazione proteina-proteina. Gli hotspot risiedono in regioni densamente popolate, hot regions. Mentre il contributo al binding degli amminoacidi all'interno delle hot regions è cooperativo, il contributo degli amminoacidi in due distinte hot regions è additivo. L'interfaccia d’interazione può, quindi, essere vista come costituita da regioni indipendenti, cosa che complica la predizione di hotspot basata su stime di ΔΔG. Mentre l'identificazione degli hotspot è di fondamentale importanza biomedica, lo screening in vitro esaustivo è molto oneroso. Ne consegue che, al momento, solo un numero limitato d’interfacce è stato analizzato sistematicamente in vitro per la ricerca di hotspot. Essendo gli hotspot parte di hot regions caratterizzate da fitte reti di aminoacidi interagenti, il comportamento degli hotspot può dipendere fortemente dalla comunicazione strutturale. Il gruppo ospitante di questo studio di tesi è coinvolto da lungo tempo nello sviluppo e nell'applicazione di un approccio all'avanguardia denominato analisi delle reti strutturali proteiche (PSN) per predire la comunicazione strutturale nei sistemi biologici. Il metodo si basa sull'applicazione della teoria dei grafi alle strutture proteiche. Nel presente studio l’analisi PSN è stata utilizzata per la prima volta per sviluppare un modello computazionale per predire gli hotspot nelle interazioni proteina-proteina. Sono state analizzate tutte le fonti di dati termodinamici da esperimenti di mutagenesi per determinare gli hotspot, selezionando infine il database SKEMPI 2.0. È stato, quindi, definito un training set di 141 complessi proteina-proteina unici con struttura nota ad alta risoluzione, con un totale di 488 hotspot associati. Le interfacce proteina-proteina in tale set sono state analizzate in termini di architetture dei partner interagenti, carattere fisico-chimico e conservazione evolutiva degli amminoacidi hotspot, ed effetti delle loro mutazioni sul ΔΔG. In sintesi, la maggior parte delle catene proteiche che partecipano ai complessi del training set possiede un'architettura sandwich di classe beta con una topologia simile a quella delle immunoglobuline e interagiscono con catene che possiedono architetture variegate. Le tipologie di hotspot comprendono tutti gli amminoacidi naturali con prevalenza per Y, R, D, F, K, E, W, e L. La maggior parte degli hotspot possiede bassa conservazione in sequenze omologhe, è localizzata all'interfaccia e possiede valori di ΔΔG compresi fra 2 e 5 kcal/mol. La predizione degli hotspot è stata basata sulla somiglianza tra un vettore numerico (costituito da quattro indici basati sulla rete) associato a ciascun nodo della rete e un vettore di riferimento ottenuto mediando i valori dei vettori degli hotspot determinati sul training set. Il modello computazionale è stato validato utilizzando due diversi approcci: a) una cross-validazione k-fold (con k = 2, 5 e 10) sul training set e b) utilizzando il vettore di riferimento calcolato sul training set su un set di validazione composto da 85 complessi e un totale di 461 hotspot. Cross-validazioni e validazione sono confluite verso risultati sovrapponibili. Infatti, le mediane delle percentuali di veri positivi superano l’86%. La capacità predittiva del modello è elevata indipendentemente dal tipo di amminoacido che funge da hotspot e dall'architettura delle catene interagenti. Inoltre, il modello consente di assegnare il corretto intervallo di ΔΔG al 70,3% degli hotspot del training set. Il prossimo step consisterà nell’implementare il metodo in un webserver accessibile alla comunità scientifica.
|
Abstract
Hot spots are residues that contribute significantly to the binding free energy of protein-protein interactions. Hotspots reside in tightly packed regions, hot regions. While the contribution to binding of the amino acids within hot regions is co-operative, the contribution of amino acids in two distinct hot regions is additive. The binding interface can be, thus, viewed as consisting of independent regions, which complicate the prediction of hotspots based on ΔΔG estimations. While identification of hot spots is of biomedical relevance, exhaustive in vitro screening is still very expensive. Indeed, to date, only a limited number of interfaces have been screened for residue hot spots.
Being the hotspots part of highly packed hot regions, characterized by dense networks of interacting amino acids, the hotspot behavior may strongly depend on the structural communication. The hosting group of this master thesis study is involved since long in developing and applying a cutting edge approach called protein structure network (PSN) analysis to predict the structural communication in biological systems. The method is based on the application of the graph theory to protein structures. Herein PSN analysis was exploited for the first time to develop a computational model for predicting hotspots in protein-protein interactions.
All available sources of thermodynamic data from mutagenesis experiments on hotspot behavior were searched, finally selecting the SKEMPI 2.0 database. A training set of 141 unique protein-protein complexes with known high-resolution structure and hotspots (i.e. 488) was defined. Protein-protein interfaces in such set were analyzed in terms of architectures of the interacting partners, physico-chemical character and evolutionary conservation of the amino acid hotspots as well as the effects of their mutations on binding ΔΔG. In synthesis, the majority of the protein chains participating in the training-set complexes hold a class-beta sandwich architecture with an immunoglobulin-like topology and interact with chains holding variegate architectures. The typologies of hotspots include all natural amino acids with prevalence for Y, R, D, F, K, E, W, and L. The majority of hotspots have low conservation in homologous sequences, locate at the interface and hold ΔΔG values between 2 and 5 kcal/mol.
Hotspot prediction was based on the similarity between a numerical vector (made of four network-based indices) associated with each node of the network and a reference vector obtained by averaging the values of the vectors of the experimentally determined hotspots in the training set. The proposed method was validated using two different approaches: a) a repeated k-fold cross-validation (with k=2, 5, and 10) on the training set, and b) using the training-set reference vector on the validation set comprising 85 complexes and with 461 total hotspots. Cross-validations and validation converged towards overlapping results. Indeed, the median of the percentages of true positives over the total list of training-set of complexes was higher than 86%. The predictive ability of the model is high irrespective of the amino acid type acting as a hotspot and of the architecture of the interacting chains.
Remarkably, the correct ΔΔG range could be assigned to 70.3% of the training-set hotspots.
Next step will be to implement the model in a webserver available to the scientific community.
|