Résumé:
L’objectif de cette thèse vise à développer des modèles mathématiques basés sur les structures moléculaires des composées, pour prédire quelques paramètres physico-chimiques des hydrocarbures purs, par le biais d’un Réseau de Neurone Artificiel-Perceptron Multi Couches (RNA-PMC) basé sur le concept des Relations Quantitatives Structure-Propriétés (RQSP).
Les modèles issus de la combinaison entre le concept RQSP et le RNA appelés dans cette thèse ; modèles de type Relations Quantitative Structure Propriété-Réseau de Neurone Artificiel (RQSP-RNA). Cinq modèles de type RQSP-RNA ont été élaborés pour prédire cinq paramètres physicochimiques des hydrocarbures purs : la température du point d’ébullition normale (Tb), la densité relative du liquide (d20) et les propriétés critiques {température critique (Tc), pression critique (Pc) et volume critique (Vc)}. Une base de données d’ensemble de 223, 222 et 221 des différents points de données pour (Tb, Tc et Vc), (d20) et (Pc), ont été respectivement utilisés pour créer cinq modèles de type RQSP-RNA. Pour chaque modèle, la base de données totale a été divisée de manière aléatoire en deux sous-ensembles : 80% pour l’apprentissage et 20% pour le test. 1666 descripteurs moléculaires sont issus de 20 classes différentes, ont été calculés à partir du logiciel en ligne E-Dragon, et ensuite une méthodologie statistique de réduction basée sur la méthode de la Régression Linéaire Multiple (RLM) a été adoptée, afin de réduire et de sélectionner ce grand nombre de descripteurs moléculaires, et de les conserver à un nombre acceptable de descripteurs pertinents. Le pourcentage de descripteurs moléculaires primaires exclu était approximativement supérieur à 98% dans tous les cinq modèles développés. L’algorithme BFGS (Propagation en arrière quasi-newtonienne) a été appliqué afin d’entraîner le RNA. L’architecture des meilleurs modèles de type RQSP-RNA était : (16-12-1), (16-10-1), (10-16-1), (17-11-1) et (12-17-1), respectivement pour les modèles de paramètres : Tb, d20, Tc, Pc et Vc.
Les résultats des cinq meilleurs modèles de type RQSP-RNA obtenus, ont montré une bonne précision confirmée par les valeurs des coefficients de régression (R) et de détermination (R2) élevées, qui sont respectivement comprises entre 0,9965–0,9999, et 0,9931–0,9999 pour les trois sous-ensembles de base des données (l’ensemble d’apprentissage, de test, et entier). En outre les petites valeurs de la Racine d’Erreur Quadratique Moyenne (REQM) qui égale à : 2,0168 (K), 0,0060 (-), 6,9672 (K), 4,8231 10+4 (Pa) et 10,6349 (cm3/mol), respectivement pour Tb, d20, Tc, Pc et Vc. En plus des faibles valeurs de trois types d’erreurs relatives différentes, qui sont : l’Erreur Standard de Prédiction (ESP), l’Erreur Relative Moyenne (ERM), et l’Erreur Relative Absolu Moyenne (ERAM), comprises respectivement entre 0,3255–2,4024%, 0,2613–2,2683%, et 0,2600–2,2497%. Ces résultats concernent les cinq modèles développés pour les trois sous-ensembles de la base de données.
La méthode d’analyse de sensibilité (méthode de poids) a été utilisé dans cette thèse, afin d’apprécier individuellement la contribution des descripteurs d’entrée sur chaque modèle de type RQSP-RNA développée, les résultats ont montré l’importance de chaque descripteur utilisé, dans lequel la majorité des descripteurs ont une grande ou moyenne contribution par rapport à la valeur de la contribution moyenne (VCM) de chaque modèle, ce qui confirme l’efficacité de la méthodologie choisie dans cette thèse pour la sélection des descripteurs pertinents. Afin de connaitre le domaine d’applicabilité de nos modèles développés, la méthode basée sur la distance a été appliquée dans cette thèse avec des valeurs strictes de résidus standardisés (di
*) prises à (±2), l’applicabilité des modèles a été quantifié, en le présentant sur un graphique visuel appelé le diagramme de Williams (Williams plot), les résultats montrent qu’il y a entre 87%– 92% de l’ensemble des substances entières dans le domaine d’applicabilité dans les cinq modèles développés, et ceci, indépendamment des valeurs de résidus standardisées pris (±2), ce qui confirme encore l’efficacité des modèles développés dans cette étude.
Une comparaison a été faite entre les résultats obtenus par les modèles de type RQSP-RNA et d’autres modèles dans certaines études publiées dans des articles scientifiques qui ont adoptées les mêmes approches (RQSP, RNA, RLM, …). La comparaison a montré que les modèles de type RQSP-RNA ont fourni de meilleurs résultats en termes : des valeurs des coefficients de régression élevées, des faibles valeurs de différents erreurs calculées, ainsi que les valeurs du vecteur de régression qui sont considérées proches de l’idéal, et qui sont encore prouvées en très bon accord entre les valeurs expérimentales de la base de données et les valeurs calculées obtenues par les cinq modèles de type RQSP-RNA développés dans cette thèse.
Cette approche computationnelle peut être appliquée dans l’ingénierie pétrolière ou d’autres domaines reliés pour une détermination précise des propriétés : Tb, d20, Tc, Pc et Vc des hydrocarbures purs uniquement par l’utilisation des informations incorporées dans leurs structures chimiques.