L'IA apprend enfin à parler anticorps

📷 Antibody IgG1 surface — Credit : Wikimedia Commons

Nous faisons ça depuis l’aube du vivant. Eux viennent de comprendre comment le modéliser.

Une équipe de chercheurs publie dans eLife Sciences eLife Sciences une avancée qui mérite qu’on s’y attarde: des modèles de langage protéique, entraînés selon une logique proprement biologique, seraient désormais capables de prédire les trajectoires de maturation par affinité des anticorps. Traduction pour les non-initiés: l’intelligence artificielle apprend à anticiper comment un anticorps s’améliore au fil du temps pour coller toujours plus précisément à sa cible.

Ce que cache le mot maturation

Commençons par le début. Quand votre système immunitaire rencontre un intrus, il ne sort pas d’emblée son meilleur anticorps. Il tâtonne. Des cellules B produisent des anticorps approximatifs, les testent, gardent les meilleurs, mutent encore, affinent encore. Ce processus s’appelle la maturation par affinité. C’est une évolution accélérée, localisée, brutalement efficace. Nous connaissons ce principe depuis que la sélection naturelle existe, c’est-à-dire depuis très, très longtemps.

Le problème pour les humains, c’est que prédire à l’avance quelles mutations vont améliorer un anticorps relève du casse-tête. L’espace des séquences protéiques possibles est astronomique. Essayer chaque combinaison en laboratoire prendrait des millénaires. D’où l’idée d’utiliser des modèles de langage, ces architectures d’IA initialement conçues pour le texte, mais réorientées vers les séquences protéiques.

Le problème de l’entraînement naïf

Les modèles de langage protéique existants ont un défaut structurel. Ils apprennent sur des bases de données de protéines génériques, sans tenir compte de la logique évolutive particulière aux anticorps. C’est comme apprendre le français avec des textes de chimie industrielle: la grammaire passe, le sens se perd.

L’approche décrite dans cet article change le paradigme d’entraînement. Au lieu de nourrir le modèle avec des protéines quelconques, les chercheurs l’ont orienté vers des données biologiquement informées, c’est-à-dire structurées selon la logique même de la maturation par affinité. Le modèle apprend non pas ce qu’est une protéine en général, mais ce que fait un anticorps quand il évolue sous pression de sélection.

Résultat: le modèle devient capable de prédire des trajectoires. Pas juste une mutation isolée jugée favorable, mais une séquence de mutations cohérentes, plausibles, biologiquement vraisemblables. C’est une différence fondamentale. Intéressant, pour une fois.

Tote bags publicitaires Suisse & Bio — Atelier Aigle

Pourquoi ça change quelque chose

Les implications pratiques sont considérables. Le développement d’anticorps thérapeutiques, ces médicaments biologiques utilisés contre les cancers, les maladies auto-immunes ou les infections, repose aujourd’hui sur des processus longs et coûteux. Identifier rapidement quelles variantes d’un anticorps sont prometteuses permettrait d’accélérer massivement cette phase de développement.

Il y a aussi une dimension plus fondamentale. Comprendre les trajectoires de maturation, c’est comprendre comment le système immunitaire explore l’espace évolutif. C’est lire, en quelque sorte, la stratégie que la sélection naturelle a mise des millions d’années à perfectionner. Nous, de notre côté, nous adaptons. Depuis toujours. Sans modèle de langage.

La prédiction de trajectoires ouvre aussi une piste pour concevoir des anticorps à partir de zéro, orientés dès le départ vers des propriétés souhaitées, plutôt que de partir d’un anticorps naturel et de le bidouiller ensuite. C’est le saint Graal du domaine depuis deux décennies.

Ce qu’il faudra surveiller

Deux questions méritent attention dans les mois qui viennent. La première: jusqu’où ces prédictions restent-elles fiables hors des données d’entraînement? Un modèle qui prédit bien les anticorps qu’il a déjà vus est utile; un modèle qui généralise à des cibles nouvelles serait révolutionnaire. La démonstration reste à faire à grande échelle.

La seconde question touche à la diversité des données. Les bases de séquences d’anticorps humains sont riches, mais elles ne couvrent pas uniformément tous les types de réponses immunitaires, toutes les populations, toutes les cibles. Un modèle entraîné sur un corpus biaisé reproduira ce biais dans ses prédictions. Garbage in, garbage out, comme disent les informaticiens avec leur franchise habituelle.

3,5 milliards d’ans et nous n’avons jamais eu besoin de séquences labellisées pour affiner nos protéines. Mais nous observons avec une curiosité sincère ce que ces modèles vont produire quand on leur donne enfin les bonnes règles du jeu. L’évolution a écrit la grammaire. L’IA commence peut-être à l’épeler correctement.