paint-brush
Nos ensembles de données et résultats de notre étude : modèles GGL-PPIpar@mutation
3,070 lectures
3,070 lectures

Nos ensembles de données et résultats de notre étude : modèles GGL-PPI

Trop long; Pour lire

Dans cette section, nous effectuons la validation et l'évaluation de nos modèles proposés sur plusieurs ensembles de données de référence. Nous développons deux types de modèles GGL-PPI : GGL-PPI1 et GGL-PPI2. Le premier modèle, GGL-PPI1, est construit uniquement sur les caractéristiques des graphes géométriques discutées dans la section 3.
featured image - Nos ensembles de données et résultats de notre étude : modèles GGL-PPI
The Mutation Publication HackerNoon profile picture

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Md Masud Rana, Département de mathématiques, Université du Kentucky ;

(2) Duc Duy Nguyen, Département de mathématiques, Université du Kentucky & [email protected].

Tableau des liens

Résumé et introduction

Ensembles de données et résultats

Méthodes

Conclusion, disponibilité des données et des logiciels, intérêts concurrents, remerciements et références

2 Ensembles de données et résultats

Dans cette section, nous effectuons la validation et l'évaluation de nos modèles proposés sur plusieurs ensembles de données de référence. Nous développons deux types de modèles GGL-PPI : GGL-PPI1 et GGL-PPI2. Le premier modèle, GGL-PPI1, est construit uniquement sur les caractéristiques des graphes géométriques discutées dans la section 3.


D'autre part, GGL-PPI2 intègre à la fois des fonctionnalités de graphe géométrique et des fonctionnalités auxiliaires, comme détaillé par Wang et al. [41]. Les calculs de potentiel électrostatique pour les composants auxiliaires sont effectués à l'aide du logiciel MIBPB [42].

2.1 Validation

Pour valider nos modèles, nous considérons principalement l'ensemble de données AB-Bind [25], l'ensemble de données SKEMPI 1.0 [23] et l'ensemble de données SKEMPI 2.0 [24]. Nous utilisons une méthodologie d'évaluation rigoureuse en effectuant une validation croisée (CV) 10 fois 10 fois sur chaque ensemble de données. Le coefficient de corrélation moyen de Pearson (R p ) et l'erreur quadratique moyenne (RMSE) servent de mesures d'évaluation.


En comparant les performances CV de nos modèles proposés avec d'autres méthodes existantes, nous évaluons spécifiquement TopNetTree [41], Hom-ML-V2 [43] et Hom-ML-V1 [43]. TopNetTree et Hom-ML-V2 intègrent respectivement des fonctionnalités auxiliaires en conjonction avec leurs fonctionnalités basées sur la topologie et basées sur le complexe Hom. D'un autre côté, Hom-ML-V1 s'appuie uniquement sur des fonctionnalités basées sur le complexe Hom sans utiliser de fonctionnalités auxiliaires.


Figure 2 : Performances de notre modèle GGL-PPI2 sur divers ensembles de données de validation en utilisant une validation croisée 10 fois 10 fois. (a) Sur l'ensemble de données AB-Bind S645, notre modèle atteint un coefficient de corrélation de Pearson (Rp) de 0,58 et une erreur quadratique moyenne (RMSE) de 1,61 kcal/mol. (b) Sur le jeu de données S645, hors les 27


Validation sur l'ensemble de données AB-Bind S645 L'ensemble de données AB-Bind contient 1 101 points de données mutationnelles pour 32 complexes anticorps-antigène, fournissant des changements d'affinité de liaison déterminés expérimentalement lors de mutations. Pires et coll. a organisé un sous-ensemble connu sous le nom d'AB-Bind S645 [44], composé de 645 mutations ponctuelles observées dans 29 complexes anticorps-antigène. L’ensemble de données comprend un mélange de mutations stabilisantes (20 %) et déstabilisantes (80 %).


De plus, l'ensemble de données comprend 27 non-liants qui ne présentent aucune liaison dans la plage de sensibilité du test. Pour ces non-liants, les changements d’énergie libre de liaison ont été uniformément fixés à une valeur de 8 kcal/mol. Il est crucial de considérer ces non-liants comme des valeurs aberrantes lors du développement et de l’évaluation du modèle afin de garantir l’exactitude et la robustesse du modèle.


Notre GGL-PPI2 a atteint un Rp de 0,58 sur l'ensemble de données AB-Bind S645, comme le montre la figure 2a. Les résultats de la comparaison dans le tableau 1 indiquent que notre modèle est à égalité à la deuxième place avec Hom-ML-V2 43, tandis que TopNetTree [41] revendique la première place.


Cependant, lorsque nous excluons les 27 non-liants de l'ensemble de données, notre modèle surpasse tous les autres modèles existants. Plus précisément, la valeur Rp passe de 0,58 à 0,74 après avoir retiré les non-liants (Figure 2b).


De plus, GGL-PI1, notre modèle de fonctionnalités purement géométrique basé sur des graphiques, a démontré des performances compétitives avec un Rp de 0,57 sur l'ensemble de données AB-Bind S645. Curieusement, en excluant les non-liants, le GGL-PPI1 a surpassé tous les autres modèles avec un Rp amélioré de 0,73.


Ces performances révèlent que nos graphiques géométriques colorés pondérés multi-échelles peuvent caractériser efficacement le large éventail d'interactions dans les complexes biomoléculaires.


Validation sur l'ensemble de données SKEMPI 1.0 S1131 L'ensemble de données SKEMPI 1.0 consiste en une collection de 3 047 mutations de 158 complexes obtenus à partir de sources littéraires, où les complexes ont des structures déterminées expérimentalement [23]. L'ensemble de données comprend à la fois des mutations monopoints et des mutations multipoints.


Plus précisément, l’ensemble de données contient 2 317 entrées qui représentent des mutations ponctuelles, collectivement connues sous le nom d’ensemble SKEMPI S2317. De plus, un sous-ensemble de 1 131 mutations ponctuelles d'interface non redondantes a été sélectionné dans l'ensemble SKEMPI S2317 et étiqueté comme l'ensemble SKEMPI S1131 (45). Ce sous-ensemble se concentre sur l’étude de l’impact des mutations ponctuelles sur les interactions protéine-protéine.


Tableau 1 : Comparaison des performances de différentes méthodes en termes de coefficients de corrélation de Pearson (Rp) pour l'ensemble de données AB-Bind (S645).



La figure 2c montre que notre modèle GGL-PPI2 atteint un Rp de 0,873 et un RMSE de 1,21 kcal/mol en CV 10 fois sur l'ensemble de données S1131. Le tableau 2 présente la comparaison des performances de diverses méthodes sur l'ensemble de données S1131, y compris nos modèles proposés, GGL-PPI1 et GGL-PPI2.


Parmi eux, notre modèle, GGL-PPI2, a atteint les performances les plus élevées, soulignant sa supériorité dans la prédiction des changements d’affinité de liaison dus à une mutation.


Notamment, même sans fonctionnalités auxiliaires, notre GGL-PPI1 a surpassé les méthodes TopNetTree et Hom-ML-V2 qui exploitent les fonctionnalités auxiliaires. Cela met encore une fois en évidence l’efficacité de notre représentation moléculaire basée sur un graphique géométrique.


Tableau 2 : Comparaison des performances de différentes méthodes en termes de coefficients de corrélation de Pearson (Rp) pour les mutations ponctuelles dans l'ensemble de données SKEMPI 1.0 (S1131).



Validation sur les ensembles de données SKEMPI 2.0 S4169 et S8338 L'ensemble de données SKEMPI 2.0 est une version mise à jour et étendue de l'ensemble de données SKEMPI original, incorporant de nouvelles mutations collectées à partir de diverses sources [24].


Lancé en 2018, sa taille a considérablement augmenté, contenant désormais un total de 7 085 entrées, y compris des mutations monopoints et multipoints. Les données ont été obtenues en fusionnant plusieurs bases de données, dont SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 et dbMPIKT46.


De plus, de nouvelles données issues de la littérature ont été manuellement organisées et ajoutées à l’ensemble de données. Les mutations couvrent un large éventail de complexes protéiques, tels que les complexes protéase-inhibiteur, anticorps-antigène et TRCpMHC. Parmi les mutations, environ 3 000 sont des mutations ponctuelles de l’alanine, 2 000 sont des mutations non-alanine ponctuelles et 2 000 autres impliquent des mutations multiples.


Notamment, les auteurs de la méthode mCSM-PPI2 [8] ont filtré les mutations ponctuelles, donnant l'ensemble S4169, comprenant 4 169 variantes dans 139 complexes différents. L'ensemble S8338, dérivé de S4169, représente d'hypothétiques changements d'énergie de mutation inverse avec des valeurs négatives. Cet ensemble de données complet constitue une ressource précieuse pour étudier les interactions protéiques et leurs propriétés thermodynamiques.


En termes de performances, notre modèle GGL-PPI2 affiche un Rp de 0,81 avec un RMSE de 1,03 kcal/mol pour l'ensemble de données S4169, comme le montre la figure 2d, dépassant tous les modèles existants (tableau 3). Il est à noter que notre modèle GGL-PPI1, qui repose uniquement sur des fonctionnalités basées sur des graphiques géométriques, a démontré des performances comparables à celles du GGL-PPI2, surpassant TopNetTree et mCSM-PPI2 avec un Rp de 0,80 et un RMSE de 1,06 kcal/mol.


Dans le cas de l'ensemble de données S8338, nous avons appliqué une approche de validation croisée stratifiée similaire à mCSM-PPI2. Nous avons veillé à ce que les mutations inverses hypothétiques soient systématiquement placées dans les ensembles de formation ou de test lors de la division des ensembles de données, en maintenant intactes leur relation avec les mutations originales correspondantes tout au long du processus de validation croisée.


GGL-PPI2 a atteint un Rp de 0,85 avec un RMSE de 1,07 kcal/mol, comme illustré sur la figure 2e, et GGL-PPI1 a suivi de près, atteignant un Rp de 0,84 avec la même valeur RMSE. Comme l'atteste le tableau 3, notre GGL-PPI2 est à égalité avec TopNetTree et surpasse mCSM-PPI2 sur l'ensemble de données S8338.


Tableau 3 : Comparaison des performances de différentes méthodes en termes de coefficients de corrélation de Pearson (Rp) pour les mutations ponctuelles dans l'ensemble de données SKEMPI 2.0 (S4169 et S8338).


2.2 Évaluation

Pour évaluer notre modèle proposé pour prédire les changements d'énergie libre de liaison (BFE) des interactions protéine-protéine, nous considérons deux ensembles de données provenant de la base de données ProTherm (22).


Le premier ensemble de données, soigneusement sélectionné par Pucci et al. [36], nommé ensemble de données S[sym]. Ces données rassemblent 684 mutations du ProTherm, comprenant 342 mutations directes et leurs mutations inverses correspondantes, ce qui donne un ensemble de données équilibré.


L'ensemble de données se concentre spécifiquement sur les mutations de quinze chaînes protéiques avec des structures 3D résolues, garantissant des données haute résolution avec une résolution d'au moins 2,5˚A.


En fournissant des valeurs ∆∆G mesurées expérimentalement et une représentation équilibrée des mutations stabilisantes et déstabilisantes, l'ensemble de données S[sym] constitue une ressource précieuse pour évaluer les biais de prédiction dans le contexte de la prévision des changements d'affinité de liaison induits par les mutations.


Pour résoudre le problème des fuites de données et améliorer la capacité de généralisation de notre méthode, nous avons utilisé l'ensemble de données Q1744 [47]. Quan et coll. [48] ont compilé l'ensemble de données Q3421 de ProTherm, composé de 3421 mutations ponctuelles sur 150 protéines avec des structures PDB disponibles. Cependant, la présence de protéines homologues dans l'ensemble d'entraînement et dans l'ensemble de test peut conduire à des effets interdépendants de mutations, compromettant les performances du modèle.


Pour atténuer cela, Li et al. [47] ont créé l'ensemble de données Q1744, dérivé en excluant les points de données qui se chevauchent et en affinant l'homologie au niveau des protéines entre les ensembles de données Q3421 et S[sym], ce qui a abouti à 1744 mutations distinctes.


De plus, l'ensemble de données Q3488 a été créé en augmentant les mutations inverses dans l'ensemble Q1744. Nous avons utilisé l'ensemble de données Q3488 comme ensemble de formation, améliorant ainsi la capacité de notre prédicteur ∆∆G à prédire avec précision les changements de BFE dans les IPP.


Nous effectuons une évaluation de notre modèle sur l'ensemble de tests aveugles S[sym], en mettant l'accent sur les mutations directes et inverses. Pour évaluer les performances, nous utilisons le coefficient de corrélation de Pearson et l'erreur quadratique moyenne comme mesures principales. De plus, pour discerner tout biais de prédiction, nous avons incorporé deux mesures statistiques : Rpdir−rev et δ.


Le premier calcule la corrélation de Pearson entre les prédictions de mutations directes et inverses, tandis que le second représente la somme des valeurs ∆∆G prédites pour les deux types de mutations. L'hypothèse est qu'un prédicteur impartial donnerait Rpdir−rev = −1 et un δ ( ¯δ) moyen de 0 kcal/mol.


Notre objectif principal est de mettre en évidence l'efficacité de notre modèle, GGL-PPI2, en mettant particulièrement l'accent sur sa caractérisation moléculaire robuste basée sur des graphes géométriques. GGL-PPI2 a démontré une précision de prédiction exceptionnelle, maintenant la cohérence pour les mutations directes et inverses. Comme le montrent les figures 3a et 3b, notre modèle atteint des valeurs Rp cohérentes de 0,57 et un RMSE de 1,28 kcal/mol, indiquant son efficacité contre le surajustement pour diriger des mutations.


De plus, l'analyse révèle qu'une proportion significative de mutations se situe dans une erreur de prédiction de 0,5 kcal/mol et 1,0 kcal/mol, avec 34,6 % et 65,8 % pour les mutations directes et 35,1 % et 66,0 % pour les mutations inverses, comme le montre la figure. 3d et 3e.


De plus, la figure 3c démontre que GGL-PPI2 corrige efficacement le biais de prédiction en atteignant une valeur Rpdir−rev presque parfaite de -0,999 et une moyenne extrêmement faible ¯δ de 0,006 kcal/mol. Enfin, le tracé de distribution de la figure 3f montre que 99,4 % des mutations présentent un biais de prédiction inférieur à 0,05 kcal/mol.


Dans le tableau 4, nous présentons les résultats de prédiction de nos modèles et effectuons une comparaison complète avec d'autres prédicteurs ∆∆G. Nous observons que notre modèle GGL-PPI2 surpasse ThermoNet [47], qui a également été formé sur l'ensemble Q3488 à homologie réduite, sur toutes les mesures d'évaluation. Il surpasse ThermoNet de 21,3 % pour les mutations directes et de 18,7 % pour les mutations inverses.


De plus, le modèle GGL-PPI1, qui utilise uniquement des fonctionnalités basées sur des graphiques géométriques, est également plus performant que ThermoNet dans les tâches de prédiction directe et inverse. Cela souligne encore l’efficacité de notre approche de graphe géométrique.


Figure 3 : Résultats de notre modèle GGL-PPI2 pour l'ensemble de données Ssym. En (a), les mutations directes sont tracées, tandis que (b) présente les résultats des mutations inverses. Le spectre de couleurs, allant du bleu au rouge, représente la précision de prédiction correspondante, le bleu signifiant une précision plus élevée et le rouge une précision inférieure. UN


Pour une comparaison plus large avec d'autres prédicteurs ∆∆G, nous introduisons le modèle GGL-PPI2∗, formé sur l'ensemble Q6428 construit avant la réduction d'homologie de l'ensemble Q3421 [47]. Comme l'illustre le tableau 4, GGL-PPI2∗ excelle par rapport aux autres méthodes dans la prédiction des mutations inverses.


Il est à noter que même si certaines méthodes surpassent GGL-PPI2∗ pour les mutations directes, elles présentent fréquemment un biais significatif en faveur des mutations inverses.