Aucun élément trouvé.
15 novembre 2023

Percer les secrets de la vie : Les modèles protéiques de l'IA démystifiés

Les contributeurs
Medha Hegde
Ingénieur en machine learning
Pieter Coussement
Data Engineer | Squad Lead
S'abonner à la newsletter
Partager cet article

Ce billet s'adresse à ceux qui souhaitent comprendre comment l'intelligence artificielle est mise en œuvre dans le domaine de la biologie, en particulier en ce qui concerne les protéines. Nous donnons un bref aperçu de ce que sont les protéines, de leurs caractéristiques et des applications de l'ingénierie des protéines. Le potentiel de l'IA dans ce domaine est exploré en donnant un aperçu des modèles actuels de pointe qui sont impliqués dans la résolution de divers problèmes liés aux protéines.

Introduction

Qu'est-ce qu'une protéine ?

Les protéines sont les éléments essentiels de la vie et sont omniprésentes. Le plus souvent, elles jouent un rôle essentiel dans le fonctionnement de tout être vivant. Les protéines sont des molécules larges et complexes, et les enzymes sont un sous-groupe de protéines qui peuvent accélérer des réactions chimiques telles que l'hydrolyse, la condensation ou l'hydroxylation. On estime à environ 75 000 le nombre de protéines différentes qui assurent le fonctionnement du corps humain.

Pourquoi s'intéresser aux protéines ?

Au cours de millions d'années, la nature a conçu une boîte à outils complète de protéines qui pilotent différentes facettes de la vie : conversion de la lumière du soleil en molécules à haute énergie, décomposition de molécules pour obtenir de l'énergie, construction d'organites cellulaires, etc. Au fil de l'évolution naturelle, la nature a optimisé ces protéines pour qu'elles accomplissent ces tâches de la manière la plus efficace possible.

Aujourd'hui, nous sommes confrontés à certains problèmes dus à la pollution de l'environnement ou à de nouvelles maladies liées à l'allongement de l'espérance de vie, par exemple. Très souvent, les enzymes, en raison de leur mode de fonctionnement et de leur composition naturels, peuvent être au cœur de la solution à ces problèmes. Par exemple, des enzymes nouvellement développées et à courte durée de vie pourraient décomposer le plastique dans le cadre d'un processus tout à fait naturel.

Si, dans certains cas, l'évolution assure l'émergence de ces enzymes, le processus pourrait être accéléré si nous, les humains, pouvions parler "protéine" et concevoir nous-mêmes les enzymes nécessaires. Il est essentiel de comprendre et de prévoir l'interaction entre la séquence, la structure 3D et la fonction pour pouvoir construire ces enzymes avec les fonctions souhaitées. La structure et la fonction sont toutes deux intégrées dans la séquence primaire de base de la protéine.

Applications potentielles du génie protéique (images créées avec Adobe Firely)

De quoi sont faites les protéines et à quoi ressemblent-elles ?

Les protéines sont composées de dix à plusieurs milliers d'éléments constitutifs, enchaînés de façon linéaire pour former une chaîne. Ces éléments constitutifs sont des acides aminés et il existe 20 acides aminés naturels. La composition et l'ordre de la chaîne linéaire contiennent toutes les informations nécessaires à la structure 3D de la protéine et donc à sa fonction. Cependant, de multiples niveaux d'organisation de la protéine se situent entre la chaîne linéaire d'acides aminés et la structure tridimensionnelle de la protéine.

La structure primaire, telle que décrite ci-dessus, se réfère à la séquence linéaire d'acides aminés et est unidimensionnelle. Des parties de cette chaîne se plient ou s'arrangent régulièrement d'une manière prédéfinie pour former des composants, tels qu'une bobine alpha ou un feuillet bêta plat, que l'on appelle la structure secondaire . L'ordre des acides aminés détermine entièrement la formation de cette structure secondaire. Le pliage ultérieur de ces composants crée la forme 3D globale de la protéine, appelée structure tertiaire . La structure quaternaire se forme lorsque plusieurs protéines commencent à s'organiser de manière ordonnée, mais ce n'est pas le cas de toutes les protéines. À partir de la structure tertiaire, les protéines peuvent avoir une fonction biologique.

Aperçu de la structure des protéines (Source : Structure secondaire, Structure tertiaire)

La structure 3D détermine les réactions chimiques que l'enzyme peut effectuer. Chaque enzyme possède un site actif spécialisé où se produisent les réactions catalytiques. Cette partie de l'enzyme est caractérisée par sa forme unique et ses groupes fonctionnels, ce qui lui permet d'interagir en toute sécurité avec les molécules impliquées dans la réaction, appelées substrats. Par conséquent, le site actif comprend un ensemble limité d'acides aminés catalytiques qui jouent un rôle crucial dans la facilitation de la réaction.

Séquences, structures et fonctions des protéines

Il est important de comprendre que le repliement des protéines est un processus bien régulé et que le plan de repliement est entièrement intégré dans la chaîne d'acides aminés d'origine. Par conséquent, la chaîne linéaire d'acides aminés est une information complète.

Le Saint-Graal de la conception des protéines est de passer des séquences à la fonction, et inversement, de la fonction à la séquence. Sur la base de la séquence, nous pourrions comprendre ce que fait la protéine et comment elle se comporte. Mais plus important encore, nous pourrions obtenir une séquence de protéine qui remplit une fonction spécifique souhaitée. Il s'agit toutefois d'un objectif très difficile à atteindre, et les développements récents se sont concentrés sur l'étape intermédiaire vers la structure.

Interactions dans la conception des protéines

La structure primaire d'une protéine ("Séquence" dans l'image ci-dessus), c'est-à-dire la chaîne linéaire d'acides aminés, détermine son état natif ("Structure" dans l'image). Le processus de pliage par lequel la protéine atteint sa forme finale unique n'est pas entièrement compris et est connu sous le nom de "problème de pliage des protéines" (flèche verte). L'inverse de ce processus est connu sous le nom de "repliement inverse" (flèche rouge). La fonction de la protéine, c'est-à-dire le processus biologique qu'elle exécute, est déterminée par sa structure tridimensionnelle, qui dépend elle-même de la structure primaire. Comme le montre l'image ci-dessus, ces connexions directes et indirectes entre les trois structures sont des processus fonctionnels qui peuvent être modélisés.

Cette structure primaire est observée par un processus appelé séquençage des protéines, qui fait référence à la séquence d'acides aminés qui compose la protéine. La structure tertiaire d'une protéine est mesurée par des méthodes expérimentales qui sont coûteuses, longues et applicables à toutes les protéines ; seules ~170k structures de protéines en 3D ont été ainsi déterminées alors qu'environ 250 millions de protéines ont été séquencées. Des méthodes permettant de modéliser ce processus de repliement des protéines nous aideraient à comprendre les unités élémentaires de la vie et faciliteraient une exploration plus rapide et plus sophistiquée des médicaments.

Quel est le rôle de l'IA ?

Étant donné qu'il n'est pas possible de mesurer physiquement la structure de chaque protéine dans l'état actuel de l'équipement, des méthodes informatiques ont été utilisées pour tenter de prédire la structure. La structure finale d'une protéine est fonction de sa séquence d'acides aminés, et cette fonction peut donc être modélisée à l'aide de ces méthodes de prédiction. C'est là que l'intelligence artificielle entre en jeu. En utilisant des méthodes d'apprentissage profond, il a été démontré que la structure d'une protéine peut être prédite avec succès et avec plus de précision que toutes les autres méthodes de prédiction.

Notamment, en 2020, DeepMind de Google a utilisé un modèle appelé AlphaFold pour obtenir des résultats révolutionnaires et a affirmé que le problème du repliement des protéines était "résolu". Depuis, il existe de très nombreux autres modèles d'apprentissage profond qui travaillent sur le repliement des protéines ainsi que sur d'autres domaines de recherche liés aux protéines que nous aborderons plus loin. Dans les sections suivantes, nous décrirons des modèles récents qui ont donné des résultats prometteurs. Ils couvrent les tâches de modélisation du langage des protéines, de prédiction de la structure, de repliement inverse, de prédiction de la fonction et de conception des protéines.

Modèles de protéines : Les points forts

Chronologie récente des modèles liés aux protéines

Modèles de langage pour les protéines

Code du modèle lié aux noms des modèles, # Paramètres (M/B = M/Billion) indique la taille du modèle.

Nous commençons par les modèles de langage des protéines (PLM), car ils sont utilisés pour représenter les séquences de protéines sous la forme d'encastrements (embeddings). Les embeddings sont des représentations vectorielles mathématiques des séquences de protéines qui contiennent des informations sur la structure et la fonction de la protéine elle-même (voir cet article pour plus d'informations). Ces encastrements peuvent ensuite être utilisés dans les modèles de prédiction de la structure, de la séquence et de la fonction décrits plus loin.

Les grands modèles de langage (LLM) sont capables de modéliser la structure et la grammaire du langage naturel simplement en s'entraînant sur de grandes quantités de données textuelles. Ils se sont révélés très utiles pour des tâches telles que la génération de textes et la traduction, et des modèles de plus en plus grands ont été mis au point au fil du temps, avec des capacités et des applications améliorées. Les PLM visent à faire de même et à apprendre les modèles et principes évolutifs qui guident le fonctionnement des protéines en s'entraînant sur de grandes quantités de données de séquences de protéines. Les séquences de protéines pourraient être considérées comme les "mots" du langage de la biologie. Nous donnons un aperçu des modèles ProtTrans, ProteinBERT, ProGEN2 et ProtGPT2.

ProtTrans

Dans cet article de 2020, 6 architectures LLM (T5, Electra, BERT, Albert, Transformer-XL et XLNet) ont été pré-entraînées sur des séquences de protéines brutes et se sont révélées capables de capturer les caractéristiques des acides aminés, de la structure des protéines, des domaines et de la fonction. Les modèles sont disponibles ici et peuvent être utilisés pour extraire des caractéristiques, affiner les modèles, prédire les structures secondaires et la génération de séquences.

ProtéineBERT

ProteinBERT a été lancé en 2021, un modèle qui utilise l'architecture BERT classique et a été pré-entraîné sur 106 millions de séquences sur deux tâches : la modélisation bidirectionnelle du langage et l'annotation GO (Gene Ontology) des séquences et a donc pris comme entrée des séquences de protéines et des étiquettes GO. Malgré sa taille réduite, ProteinBERT présente des performances comparables et parfois supérieures à celles de modèles plus importants tels que ProtT5.

ProGen2

Ce PLM 2022 de Salesforce est un modèle basé sur Transformer, entraîné sur des milliards de séquences de protéines pour prédire le prochain jeton de la séquence de manière autorégressive. Son prédécesseur, ProGen, était le premier modèle à décodeur seul entraîné spécifiquement pour la conception de séquences de protéines. Le modèle existe en 4 variantes de taille différente (la plus grande est mentionnée dans le tableau ci-dessus), et est capable de capturer la distribution des protéines observées et de générer de nouvelles séquences de protéines. Ces séquences générées ressemblent à des séquences existantes mais peuvent ne pas exister dans la nature. Cela permet l'ingénierie des protéines et la création de structures protéiques qui remplissent des fonctions spécifiques. Le modèle est disponible gratuitement et il a été démontré (à l'aide d'AlphaFold) qu'il génère des séquences qui se replient dans des structures bien formées.

ProtGPT2

Également publié en 2022, ProtGPT2 est également capable de modéliser des séquences de protéines à l'aide d'une architecture Transformer autorégressive de type GPT2. Il s'agit d'un modèle plus petit qui a été entraîné sur 50 millions de séquences. Il est capable de produire des protéines dans des domaines inexplorés du paysage protéique naturel, tout en présentant des caractéristiques très proches de celles que l'on trouve dans la nature.

ESM-2

Cette famille de modèles a été publiée en même temps que ESMFold (détaillé dans la section suivante), qui est un modèle de prédiction de structure. Il s'agit d'un modèle de transformateur codant uniquement, et la variante la plus grande est le plus grand modèle de langage protéique actuellement disponible. Cela lui a permis de surpasser d'autres PLM sur des benchmarks de prédiction de structure. Il a été entraîné sur 65 millions de séquences protéiques uniques.

Prédiction de la structure

Code du modèle lié aux noms des modèles, # Paramètres (M/B = M/Billion) indique la taille du modèle.

Les modèles qui tentent de "résoudre" le problème du repliement des protéines tel que décrit ci-dessus sont impliqués dans la prédiction de la structure d'une protéine à partir de sa séquence d'acides aminés. De nombreux modèles se sont appuyés sur les travaux d'AlphaFold pour prédire les structures à l'aide de différentes méthodes. Nous explorons ici AlphaFold, RosettaFold, OmegaFold et ESMFold.

AlphaFold

Comme indiqué ci-dessus, le modèle AlphaFold 2020 de DeepMind est une architecture d'apprentissage profond qui prédit avec une grande précision la structure 3D d'une protéine sur la base de sa séquence d'acides aminés. La structure 3D est modélisée comme un graphe et la prédiction elle-même est modélisée comme un problème d'inférence de graphe. Il exploite les informations sur l'évolution des protéines apparentées afin de pouvoir prédire les coordonnées 3D de la structure finale à l'aide d'une architecture basée sur des transformateurs. Il est entraîné sur des ensembles de données accessibles au public, tels que la Protein Data Bank et UniProt, tout en incorporant des structures prédites avec une grande confiance dans le modèle afin d'utiliser des séquences non étiquetées. Le modèle a été rendu public et toutes les prédictions faites par le modèle ont également été rendues publiques pour créer la base de données AlphaFold des structures 3D de presque toutes les protéines séquencées à ce jour. Au moment de sa publication, cette base de données est devenue l'état de l'art en matière de prédiction de la structure des protéines à partir des séquences d'acides aminés, avec des prédictions particulièrement bonnes pour les séquences d'homologues.

RoseTTAFold

En 2021, le laboratoire Baker a publié un modèle appelé RoseTTAFold qui prédit de manière similaire les structures des protéines. Il diffère d'AlphaFold en ce sens qu'il s'agit d'un réseau "à trois voies", puisqu'il examine simultanément les structures primaire et tertiaire et la carte de distance en 2D lors de l'apprentissage et de la prédiction, et qu'il est également capable de modéliser les complexes protéiques. Il se rapproche des performances d'AlphaFold sur de nombreux points de référence. Ils s'appuient tous deux sur des alignements de séquences multiples (MSA) qui exploitent des séquences similaires ou des homologues et n'obtiennent donc pas d'aussi bons résultats sur des séquences dépourvues de MSA.

OmegaFold

OmegaFold utilise un grand modèle de langage protéique pré-entraîné (OmegaPLM) pour prédire la structure tertiaire à l'aide d'une méthodologie sans alignement, c'est-à-dire sans avoir besoin de MSA. Il est capable de faire des prédictions basées sur une seule séquence de protéine. Tout comme les modèles de langage tels que le GPT-4 sont capables d'apprendre la structure et la forme du langage en traitant simplement de grandes quantités de données textuelles, les modèles de langage protéique apprennent des informations structurelles analogues en s'entraînant sur de grandes quantités de séquences de protéines (les phrases du langage naturel). Contrairement au langage naturel, la structure des protéines implique le monde 3D, et l'intuition géométrique est donc incorporée à l'aide d'un transformateur de géométrie vectorielle dans l'architecture. Il atteint les performances d'AlphaFold et de RoseTTAFold sur les ensembles de données CASP et CAMEO, tout en les surpassant sur des séquences uniques. Comme il ne s'appuie pas sur des MSA ou des structures connues, il est environ 10 fois plus rapide qu'eux.

ESMFold

En 2022, Meta AI a dévoilé son modèle de prédiction de structure protéique ESMFold, qui utilise également un grand modèle de langage protéique (le plus grand, en fait), ESM-2. Comme dans OmegaFold, le modèle ne nécessite pas de MSA et surpasse AlphaFold et RoseTTAFold sur des séquences uniques. Le plus grand modèle de leur ensemble de modèles est environ 150 fois plus grand qu'Alphafold, ce qui se traduit par une vitesse d'inférence 60 fois supérieure à celle des modèles précédents pour les séquences plus courtes. Grâce à cette augmentation de la vitesse, une grande base de données métagénomiques appelée ESM Metagenomic Atlas a été créée et révèle des structures à l'échelle de centaines de millions de protéines.

Prédiction des séquences

Code du modèle lié aux noms des modèles, # Paramètres (M/B = M/Billion) indique la taille du modèle.

Le processus inverse de repliement des protéines, appelé repliement inverse, part d'une structure protéique cible spécifique et recherche la ou les séquences protéiques qui se replient dans cette structure. Une solution à ce problème faciliterait la conception de novo de protéines : concevoir de nouvelles séquences de protéines qui se replient dans une structure spécifique pour remplir une fonction biologique souhaitée. Par exemple, nous pourrions concevoir des protéines ayant une certaine structure pour améliorer les cellules T afin qu'elles soient capables de mieux lutter contre le cancer en utilisant des modèles de repliement inverse². Comme pour le problème du repliement des protéines, plusieurs modèles d'IA sont capables de modéliser ce processus inverse pour générer des séquences de protéines de manière conditionnelle. Nous nous concentrons ici sur les modèles ESM-IF1, ProteinMPNN et MIF-ST.

ESM-IF1

En 2022, le modèle ESM-IF1 s'est avéré capable de prédire les séquences de protéines à partir des coordonnées 3D de la structure tertiaire de la protéine. Étant donné que la taille de la base de données séquence-structure existante était très faible (seulement 16 000 structures), ils ont augmenté ces données en ajoutant 12 millions de structures prédites à l'aide d'AlphaFold. Le problème a été modélisé comme une tâche seq2seq entre les séquences d'acides aminés et les structures en maximisant la probabilité conditionnelle d'une séquence étant donné les coordonnées structurelles. Un transformateur générique a été utilisé pour cette tâche, ainsi qu'un GVP-GNN (Geometric Vector Perceptron-Graph Neural Network) pour l'extraction des caractéristiques géométriques.

ProtéineMPNN

Toujours en 2022, le laboratoire Baker a démontré que ProteinMPNN était capable de modéliser le processus de pliage inverse en entraînant un modèle autorégressif sur des structures déterminées expérimentalement. Le modèle suit une structure codeur-décodeur où les entrées du codeur sont les distances entre les éléments qui forment la structure de la protéine pour qu'il produise des caractéristiques de nœuds et d'arêtes de graphe. Le décodeur utilise ensuite ces caractéristiques pour générer des acides aminés de manière itérative. Ils ont évalué les séquences générées en prédisant la structure et en la comparant à la structure originale. Il est important de noter que les séquences prédites ont également été évaluées expérimentalement sur les tâches de conception de monomères de protéines, de conception de nanocages et de conception de fonctions, et qu'elles se sont révélées robustes et précises. Plusieurs conceptions "ratées" ont été récupérées avec succès par ProteinMPNN.

MIF-ST

Publié cette année en 2023, le modèle MIF-ST (Masked Inverse Folding-Sequence Transfer) s'appuie sur un modèle de langage masqué structuré basé sur le GNN. Les sorties de ce modèle à langage masqué entraîné uniquement sur des séquences de protéines sont introduites dans ce modèle MIF-ST pour être pré-entraînées conditionnellement sur des structures. Ici, le repliement inverse n'est utilisé que comme tâche de pré-entraînement afin d'obtenir de bons résultats dans les tâches en aval, telles que la création d'homologues fonctionnels par repliement inverse de la structure d'une protéine, puis l'échantillonnage de l'espace des séquences. Il a également été démontré qu'il était capable de prédire les effets des mutations.

Prédiction de la fonction

Code du modèle lié aux noms des modèles

La fonction d'une protéine fait référence au processus biologique qu'elle exécute. Ce processus est largement déterminé par sa structure tertiaire qui, à son tour, est déterminée par la séquence primaire des acides aminés. Connaître la fonction d'une séquence protéique particulière serait très utile pour comprendre le comportement des systèmes biologiques. La fonction des protéines est généralement exprimée par un système de classification tel que l'ontologie des gènes (GO), qui classe les protéines en fonction de leur fonction et de leur localisation intracellulaire, et le numéro EC (Enzyme Commission), qui classe les enzymes en fonction des réactions chimiques qu'elles catalysent. Nous examinons ci-dessous les modèles DeepGO, SPROF-GO, DeepFRI, GAT-GO et ProtNLM.

Source : Structure, fonction
DeepGO

Publié en 2018, DeepGO a introduit une approche permettant de prévoir les fonctionnalités des protéines en s'appuyant sur les séquences de protéines. Il a utilisé des réseaux neuronaux profonds pour acquérir des connaissances à partir des données de séquences et des données de réseaux d'interactions protéine-protéine (PPI), en les organisant ensuite de manière hiérarchique en fonction des classes GO. Un CNN est utilisé pour obtenir des représentations d'intégration des séquences de protéines, puis un modèle de classification est utilisé pour affiner les caractéristiques de chaque classe et, enfin, un modèle est utilisé pour permettre l'intégration de données multi-modèles. Ce modèle était à la pointe de la technologie au moment de sa publication en tant qu'outil de prédiction de la fonction des protéines basé sur les séquences.

DeepFRI

Ce modèle 2019 prédit la fonction des protéines représentée par la classe GO et le numéro EC en utilisant la structure des protéines et les caractéristiques extraites des séquences de protéines. Pour ce faire, un modèle de langage protéique LSTM est utilisé pour obtenir des caractéristiques au niveau des résidus à partir des séquences. Un GCN (Graph Convolutional Network) est ensuite utilisé sur ces caractéristiques pour construire des caractéristiques au niveau des protéines et prédire les probabilités pour chaque fonction. Les performances sont améliorées par l'inclusion de la structure prédite au cours du processus de formation.

GAT-GO

Le modèle GAT-GO est similaire au modèle DeepFRI, mais il utilise un GAT (Graph Attention network), un type de GNN qui utilise l'auto-attention, au lieu d'un GCN. En outre, au lieu du modèle de langage LSTM, le modèle de langage à grandes protéines ESM1 pré-entraîné est utilisé pour extraire les caractéristiques. Le modèle GAT-GO s'avère plus performant que les prédicteurs de fonction existants grâce à l'utilisation d'enchâssements de protéines pré-entraînés de grande capacité, de la structure prédite des protéines et des caractéristiques séquentielles.

SPROF-GO

Lancé en 2022, le SPROF-GO est un modèle de prédiction de la fonction des protéines basé sur la séquence et exempt de MSA. Il prédit la classification GO directement à partir de la séquence de la protéine. L'architecture consiste en un modèle de langage protéique T5 pré-entraîné, dont la matrice d'intégration est transmise à deux perceptrons multicouches (MLP) pour produire un vecteur d'attention et une matrice d'intégration cachée. Le système de classification GO étant structuré en classes et sous-classes, le problème de la prédiction de fonction est modélisé comme une tâche de classification hiérarchique multi-labels, les classes étant disposées sous la forme d'un graphe acyclique dirigé (DAG). Ce modèle surpasse tous les autres modèles de l'état de l'art et peut également être généralisé aux protéines non homologues et non vues.

ProtNLM

Ce modèle de traitement du langage naturel a été développé en 2022 par Google Research en partenariat avec l'Institut européen de bioinformatique de l'EMBL (EMBL-EBI). Avec une approche différente de la description de la fonction des protéines, le modèle ProtNLM utilise une architecture Transformer pour prédire avec précision une description en langage naturel de la fonction d'une protéine à partir de sa séquence primaire. Le fonctionnement de ce modèle est analogue à celui d'un modèle de légendes d'images, mais au lieu d'une image, nous utilisons une séquence de protéines. Ce modèle est maintenant utilisé par UniProt dans son pipeline d'annotation automatique pour ajouter des descriptions et des noms pour ~49 millions de séquences de protéines non caractérisées.

Conception de protéines

Interactions dans la conception des protéines

Nous décrivons ici deux modèles : RFDiffision et ProT-VAE, tous deux impliqués dans la conception de protéines, c'est-à-dire la conception de protéines dans le but qu'elles remplissent une fonction spécifique. Certains des modèles décrits ci-dessus sont utilisés pour faciliter ce processus.

RFDiffusion

La conception de protéines de novo vise à concevoir de nouvelles protéines dotées d'une fonction ou d'une structure cible spécifique. Le modèle RFDiffusion utilise un modèle de diffusion DDPM, inspiré de modèles de génération d'images comme DALL-E, ainsi que RoseTTAFold, pour réaliser la conception de protéines et générer des structures protéiques nouvelles et diversifiées. Le processus consiste d'abord à générer un squelette protéique aléatoire à l'aide de RFDiffusion, puis à utiliser ProteinMPNN pour concevoir une séquence qui se plie à cette structure de squelette, et enfin à évaluer la structure générée à l'aide d'AlphaFold. Il permet également de générer, par exemple, une protéine ayant une forte affinité pour une protéine cible ou un assemblage de protéines diverses avec une symétrie souhaitée. RFDiffusion est capable de concevoir des protéines qui n'ont jamais été observées dans la nature.

ProT-VAE

ProT-VAE est un modèle génératif profond capable de générer diverses séquences de protéines à partir de familles spécifiques avec une fonctionnalité élevée. L'architecture du modèle prend en sandwich un modèle d'autoencodeur variationnel entre les blocs d'encodage et de décodage ProtT5. Les entrées du modèle pendant l'entraînement sont des séquences de protéines non alignées. Le VAE est entraîné sur des familles spécifiques de protéines, tandis que le modèle ProtT5 a été entraîné sur des millions de séquences de protéines, après avoir été initialisé à l'aide de poids NLP T5. Le modèle ProT-VAE est capable de fournir une "ingénierie des protéines basée sur les données" et est disponible dans le cadre BioNeMo de NVIDIA (qui devrait bientôt être ouvert).

Conclusion

Nous pouvons constater que ces dernières années ont été marquées par une explosion de la recherche sur l'IA liée aux protéines et des publications sur les modèles. Les possibilités d'applications dans les domaines de la conception de médicaments, de l'ingénierie et de la conception d'anticorps, du développement de vaccins, de l'identification de biomarqueurs de maladies et de la médecine personnalisée (pour n'en citer que quelques-uns) sont illimitées. La compréhension des protéines et de leur fonctionnement grâce à l'utilisation combinée de modèles du langage des protéines, de modèles de prédiction de la structure des protéines, de modèles de repliement inverse et de modèles de prédiction de la fonction peut faciliter la conception des protéines et avoir des effets transformateurs. Nous continuerons à suivre les progrès tout en convertissant les recherches les plus récentes en applications utiles dans le domaine. Si vous êtes intéressé par nos travaux actuels, consultez ce communiqué de presse!

Pour plus d'informations, vous pouvez me contacter ici : medha.hegde@ml6.eu

Références

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur