Riassunto analitico
Predire Interazioni Proteina-Proteina (PPI) - predire se due proteine possano interagire fisicamente - è particolarmente importante per lo sviluppo di nuove terapie, e potrebbe rendere la scoperta di nuove terapie meno impegnativa in termini di costi e tempo riducendo il numero di PPI richiedenti verifica sperimentale. Di conseguenza, in tempi recenti sono stati sviluppati una varietà di modelli deep per affrontare il task di predizione di PPI. A quanto mi risulta, questi modelli rappresentano le proteine come sequenze di amminoacidi o in forme compatte derivate dalle loro strutture 3D, spesso costituite da particolari grafi (protein graph). Più specificamente, un protein graph rappresenta una proteina tramite un insieme di nodi (amminoacidi), interconnessi tramite archi secondo un determinato criterio. In questi modelli, le PPI (costituite da coppie di proteine interagenti o non interagenti) sono solitamente descritte tramite grafi (indicati anche come reti PPI). In particolare, il modello State-of-the-Art (SOTA) di riferimento HIGH-PPI (Hierarchical Graph Neural Networks for Protein–Protein Interactions) adotta un approccio gerarchico basato su una vista inside-of-protein inferiore (che rappresenta le proteine tramite protein graph) e una vista outside-of-protein superiore (in cui le proteine vengono utilizzate come nodi in una rete PPI e un arco tra due nodi indica la presenza di zero o più tipi di interazione tra le proteine corrispondenti) che processano i loro input tramite Graph Neural Network (GNN). In questo approccio, la vista inferiore apprende gli embedding proteici iniziali che vengono successivamente utilizzati come feature dei nodi dalla vista superiore, la quale poi raffina questi embedding con le informazioni provenienti dalla rete PPI. Va notato che i protein graph, sebbene rappresentazioni efficienti che sfruttano parzialmente la struttura 3D delle proteine, portano ad una perdita di informazione su due lati: da un lato, perdiamo l’ordine degli amminoacidi in una proteina, dall'altro perdiamo la posizione occupata dagli amminoacidi nella struttura 3D di una proteina. Recuperare tali informazioni potrebbe rivelarsi utile per il task di predizione di PPI. Sulla base di queste considerazioni, ho sviluppato SeqRCE-PPI (PPI prediction from Embeddings based on Sequence and Residue Clouds), un nuovo modello deep per la predizione di PPI basato sia su sequenze di amminoacidi che su residue cloud (point cloud in cui i punti corrispondono ad amminoacidi, costruite da strutture 3D predette da AlphaFold). Entrambi i modelli sono stati addestrati su un sottoinsieme di HuRI (Reference map of the human binary protein interactome), un dataset PPI ottenuto tramite approfondite prove sperimentali. Su uno split random bilanciato di questo dataset, SeqRCE-PPI raggiunge un'accuratezza dell'80.3% e uno score F1 dell'80.0%, ottenendo risultati simili a HIGH-PPI, ma impiegando meno tempo per l'addestramento ed essendo concettualmente più semplice, più efficiente in termini di memoria e più scalabile. Quando si considera uno split Out-of-Distribution (OOD) più difficile, in cui il dataset di test è interamente composto da proteine non viste e per cui si è adottatta una strategia di training più fair per HIGH-PPI, SeqRCE-PPI ha prestazioni significativamente migliori di HIGH-PPI, sebbene dimostri di non generalizzare bene a proteine non viste.
|
Abstract
Predicting Protein-Protein Interactions (PPIs) - predicting whether two proteins can physically interact - is especially significant for the development of new therapies, and could make therapy discovery less costly and time-consuming by reducing the number of PPIs requiring experimental verification. As such, a variety of deep models were recently developed to tackle the PPI prediction task. To the best of my knowledge, these models represent proteins as either amino acid sequences or in compact forms derived from their 3D structures, often consisting of protein graphs. More specifically, a protein graph represents a protein via a set of nodes (amino acids), inter-connected via edges according to some criterion. In these models, PPIs (consisting of couples of interacting or non-interacting proteins) are usually described via graphs (also denoted as PPI networks). Most notably, the State-of-the-Art (SOTA) model of reference HIGH-PPI (Hierarchical Graph Neural Networks for Protein–Protein Interactions) adopts a hierarchical approach based on a bottom inside-of-protein view (representing proteins via protein graphs) and a top outside-of-protein view (in which proteins are used as nodes in a PPI network, and an edge between two nodes indicates the presence of zero or more types of interaction between the corresponding proteins) processing their inputs via Graph Neural Networks (GNNs). In this approach, the bottom view learns initial protein embeddings that are then used as node features by the top view, which then refines these embeddings with information from the PPI network. It should be noted that protein graphs, although efficient representations partially leveraging the 3D structure of proteins, lead to a loss of information on two sides: firstly, we lose the order of amino acids in a protein, and secondly, we lose the position occupied by amino acids in a protein's 3D structure. Recovering such information could prove beneficial for the task of PPI prediction. Based on these considerations, I developed SeqRCE-PPI (PPI prediction from Embeddings based on Sequence and Residue Clouds), a new deep model for PPI prediction based on both protein sequence information and residue clouds (point clouds in which points correspond to amino acids, constructed from 3D structures predicted by AlphaFold). Both models were trained on a subset of HuRI (Reference map of the human binary protein interactome), a PPI dataset obtained via thorough experimental essays. On a balanced random split of this dataset, SeqRCE-PPI achieves 80.3% accuracy and 80.0% F1 score, obtaining similar results to HIGH-PPI while taking less time to train and being conceptually simpler, more memory efficient, and more scalable. When considering a more difficult Out-of-Distribution (OOD) split, where the test set is entirely composed of unseen proteins and for which a more fair training strategy is adopted for HIGH-PPI, SeqRCE-PPI significantly outperforms HIGH-PPI, although admittedly not generalizing well to unseen proteins.
|