Liste des articles
Vue 283 fois
01 juillet 2024

Rencontre avec Clément Vinot (ECL 2018) Data scientist, spécialisé dans le Traitement Automatique du Langage (NLP) appliqué à la recherche médicale

| Santé

Clément Vinot (ECL 2018) est data scientist chez GIMLI, société spécialisée dans le développement de solutions innovantes pour la collecte de données en faveur de la recherche en oncologie. Il nous explique comment le développement de ces outils basés sur le Traitement Automatique du Langage (NLP) participe à l'automatisation de l'extraction et la normalisation des données médicales, étape nécessaire pour optimiser l'efficacité des études cliniques.


Technica : Bonjour Clément. Pouvez-vous nous présenter la société GIMLI et les solutions qu’elle développe ?

Bonjour à tous. GIMLI est une société fondée par un oncologue et un expert des données de santé avec pour objectif d’accélérer la collecte de données pour la recherche en oncologie.

 

Les projets de recherche cliniques dits de “données de vie réelle” consistent à définir des cohortes (groupes de patients) correspondant à la recherche à mener (exemple: patients de plus de 18 ans, diagnostiqué d’un cancer du poumon muté métastatique), puis à collecter les données d’intérêts pour ces derniers à travers l’histoire de leur maladie (les différents traitements, les évolutions de la maladie etc…) afin d'en tirer des conclusions sur l’efficacité des traitements. Ces projets sont financés par les laboratoires pharmaceutiques et réalisés par les hôpitaux, qui disposent des données et de la main-d'œuvre qualifiée pour la recherche.

 

La collecte de données consiste dès lors à payer des attachés de recherche clinique pour lire les comptes-rendus de l’hôpital et remplir des questionnaires sur les données. Ce processus est long et laborieux et implique souvent des internes en médecine qui perdent ainsi beaucoup de temps qu'ils ne passent pas auprès des patients.

 

L’outil que propose GIMLI est basé sur le Traitement Automatique du Langage (TAL ou NLP) et vise à extraire et à normaliser automatiquement les données d’intérêt à partir des documents non structurés. Une interface permet d’interroger ces données, de les analyser, de les corriger et de les valider pour confirmer leur exploitabilité pour des projets de recherche. La donnée est standardisée et validée par un expert, donc interopérable et ré-exploitable pour les futurs projets de recherche, contrairement au tableau excel…

Technica : En quoi consiste votre rôle de data scientist ?

Mon rôle de data scientist consiste à élaborer la stratégie des algorithmes permettant le fonctionnement de l’outil, de tester de nouvelles méthodes, et de les implémenter.

 

Il s’agit donc d’être au courant de l’état de l’art des méthodes de NLP autour de nos cas d’usage et de choisir les méthodes, modèles, algorithmes à appliquer pour répondre aux besoins des projets. Il faut dresser des plans d’actions, et développer jusqu’en production les algorithmes choisis.

 

Par exemple, pour traiter un document non structuré, avant même d’analyser le texte, il faut d’abord l’extraire du document. Lorsqu’il s’agit d’un fichier texte, c’est facile, mais lorsqu’il s’agit d’une image ou d’un PDF, cela s'avère plus compliqué: la présentation est imprévisible et le texte n’est pas extractable directement. Je travaille en ce moment sur un algorithme de traitement d’images pour détecter les différentes sections d’un document médical en amont de l’extraction de texte, pour savoir où se situent les informations pertinentes au sujet du patient, et retirer les informations non nécessaires (les informations sur les médecins, les services hospitaliers etc…). Je ne fais donc pas exclusivement du NLP, mais une variété de développement (backend, data engineering, traitement d’image…).

Technica : A quoi ressemble concrètement un journée de travail ?

Quand une problématique fonctionnelle est mise en avant par l’équipe produit, je réfléchis à une solution possible en faisant de la veille. J’expérimente pour voir si la solution est satisfaisante et j’intègre ensuite la fonctionnalité en production tout en gérant moi-même les problématiques de flux de données qui peuvent survenir. Si du développement serveur doit être fait pour l’intégration, je peux également m’en charger.

 

Dans mon cas, c'est donc un métier avec une part de recherche, qui nécessite de connaître l’état de l’art et chercher les dernières solutions possibles, mais le besoin d’agilité de la petite structure exige d’itérer rapidement, et la majorité du travail reste donc l’intégration. On ne s'autorise pas des phases d’explorations à rallonge, car nous avons besoin d’avancer vite.

 

A ceci s'ajoutent les interventions ponctuelles auprès des hôpitaux pour intégrer la solution dans leur écosystème, et les traitements de leurs données (nettoyage, insertion, gestion des accès, entraînement de modèles).

Technica : Quels sont les principaux bénéfices de l’utilisation des data et de l’ia en cancérologie ?

La cancérologie est un domaine où les axes d’améliorations paraissent nombreux et accessibles, autant sur la prise en charge des patients et leur suivie, que du diagnostic, ou le développement de nouvelles molécules et thérapies. La recherche abonde et va continuer de grandir, et avec elle la demande en données.

 

La data est donc un enjeu clé pour les hôpitaux, puisqu’elle représente un vecteur d’apport d'affaires et de recherche qui valorise leur avantage compétitif (car oui, le secteur hospitalier est compétitif…) en apportant des financements, des chercheurs de renom etc. Le secteur hospitalier aujourd’hui développe un grand nombre d’initiatives pour améliorer la qualité des traitements de données et l’ accès à celles-ci.

 

L’IA a un rôle clé pour l’exploitation et la préparation de la donnée autant pour le diagnostic que pour la recherche, mais aussi pour des applications secondaires par exemple pour le suivi à distance des patients, ou l’assistance au médecin pendant les consultations. Les cas d’usages sont légion et visent globalement à assister la tâche du médecin (diagnostic, suivi) et à extraire l’information là où elle était auparavant difficile d’accès (imagerie, structuration de données).

Technica : Qui sont les utilisateurs des solutions que vous développez et comment vous aident-ils à les perfectionner?

Ceux qui utilisent GIMLI sont les attachés de recherche clinique, les internes et les chercheurs. Ils peuvent passer du temps à analyser les données, mais surtout ils participent à la phase de validation de la donnée qui est essentielle pour assurer que la donnée est fiable .

 

En ce qui concerne l’IA, il leur est difficile de comprendre le fonctionnement et ainsi de relever des problématiques claires. Leurs retours par contre sont essentiels pour ce qui est de l’UX/UI, c'est-à-dire l’ergonomie de l’interface et la facilité d’utilisation. Est-ce que l’information est clairement présentée ? Les points d’intérêt sont-ils accessibles ? On passe régulièrement du temps avec les cliniciens pour comprendre leur expérience, mais le plus intéressant est souvent de les observer à la tâche. En comprenant de mieux en mieux les enjeux cliniques, on devine ce qu’ils cherchent à faire, et là où l’interface peut pécher.

 

Un autre retour essentiel concerne la complétion des formulaires de recherche à partir de la sortie de nos algorithmes. La liaison entre le modèle de données que l’on popule, et le formulaire de recherche, qui varie très largement avec les laboratoires, n’est pas forcément facile, et pose des questions clés sur l’exploitabilité de nos résultats. C’est un point primordial : si la question clinique ne peut pas être répondue facilement avec la donnée issue de nos algorithmes, concrètement on ne sert à rien.

Technica : Quels sont les principaux défis rencontrés lors du développement de systèmes NLP pour l'oncologie (ambiguïté du langage naturel, qualité des données etc.) ?

Le premier défi dans la structuration de données médicales, est la mauvaise qualité du texte dans les consultations. Non pas que les médecins s’expriment mal, mais la variété de présentation possible est immense, et la pollution des données cliniques fréquente. Ainsi, on peut se retrouver avec toute sorte de contenu, parfois avec des grandes quantité d’artéfacts comme des en-tête de documents à rallonge greffés dans le contenu du texte, des listes de noms de cliniciens et leurs professions, des tableaux de toute forme, parfois sans cadre etc.. Ces pollutions peuvent être la conséquence d’un pré-traitement de données par les entrepôts de données de santé, le système d’extraction de texte, ou autre.

 

Parvenir à réaliser un système qui traite parfaitement ces documents peu importe leur présentation est extrêmement compliqué.

 

Il faut aussi mentionner que les modèles de langue français sont considérablement moins performants que les modèles anglais (bien que l’écart se comble doucement pour la langue commune), encore plus pour le jargon médical, et encore plus pour le jargon clinique. Ceci est due à la rareté de la donnée, et accentué par la réglementation européenne qui freine largement l’accessibilité aux données cliniques pour l'entraînement des données.

Technica : Quelles pistes d'amélioration sont envisagées pour rendre les systèmes NLP encore plus performants dans le domaine de la santé ? A quoi peut-on s’attendre ?

Aujourd’hui on voit des initiatives très intéressantes pour pallier ces problèmes, basées sur l’apprentissage fédéré. Cette méthode consiste à entraîner des modèles sur plusieurs centres en même temps, sans faire sortir la donnée du centre et donc en préservant la sécurité des données. Ces initiatives sont prometteuses, mais il reste encore à convaincre les centres de mettre leurs données en commun, et ça… ce n’est pas gagné.

 

C’est le rôle d’institutions publiques comme le Health Data Hub d’être moteur sur ces avancées. Déjà certains projets sont en marche, et d’autres comme DrBert ou BioMistral ont déjà montré des résultats prometteurs, mais qui peinent à exploiter la donnée clinique et regrouper les centres.

Technica : Si je vous demandais pour conclure de vous projeter dans 5 ou 10 ans : à quoi pourrait ressembler les systèmes NLP disponibles sur le marché ?

Si je me restreins à la question du domaine médical, d’ici 5 ou 10 ans des systèmes de NLP seront implémentés dans les grands centres pour l’extraction et la structuration de leurs données, dès la prise en charge du patient. Concrètement le docteur enregistre l’échange pendant la consultation, et des systèmes de NLP l’analysent pour pré-remplir les formulaires du patients, et proposer des conseils de prise en charge au médecin.

 

Côté recherche, on aura des systèmes qui répondront à des questions cliniques à la demande en exploitant les données centralisées des plus grands centres. Je m’attends à voir dans les 5 ans un certain nombre de modèles plus performants voir le jour en données cliniques, mais je ne suis pas convaincu qu’ils puissent être open source à cause de la protection des données privées. Cela va donc freiner le développement en Europe et laisser uniquement les entreprises ayant déjà un pied dans les centres la possibilité de les exploiter. Certains acteurs vont donc se démarquer à mon avis, et l’écart d’avancées entre les petits et les grands centres va se creuser.

 

Je pense cependant que si l’utilisation des systèmes de NLP va se généraliser, car ils sont déjà exploitables, on sera loin de systèmes autonomes dans 5 ou 10 ans (et plus…). Toute sortie NLP qui a de l’impact nécessitera toujours une validation manuelle d’experts. L’enjeu est de faciliter au mieux ce processus de validation pour tout de même permettre un gain de temps, et une meilleure qualité de données.

 

Il ne faut pas se leurrer, le grand frein dans ce domaine c’est avant tout la résistance au changement et la frilosité des centres à créer des partenariats. Les centres sont surchargés, ont un retard technologique important, et ont peur pour leurs données. Les projets prennent tous des retards conséquents, et en particulier dans les petits centres. 5 ans ça ne laisse pas tant de temps que ça…

Technica : J’ai aperçu sur votre profil Linkedin une image en faveur des programmes de colocations solidaires entre dans-abri et jeunes actifs. Etes-vous personnellement impliqué dans de ce dispositif ?

Ça me fait plaisir d’aborder ce sujet ! La lutte contre la précarité, mais surtout la réintégration sociale des plus précaires est un sujet qui me tient à cœur. Je me suis personnellement engagé pour vivre pendant un an et demi dans une colocation solidaire de l'association Lazare.

Le concept est très simple: vivre en collocation en détruisant les barrières sociales qui nous séparent pour revenir à l’essentiel.  Les colocations sont composées à moitié d’anciens sans-abri, et à moitié de jeunes actifs déjà bien installés dans leur vie professionnelle.  Les colocs accueillis s’engagent à être accompagnés par une assistante sociale pour les aider dans leurs démarches, et éventuellement à retrouver un emploi et un logement s’ils le souhaitent. Par contre aucun engagement de responsabilité ne lie les colocs entre eux. L’objectif est de vivre ensemble en toute simplicité, d’égal à égal selon des règles communes, et de tisser des liens d’amitié et de confiance.

Alors naturellement, ce n’est pas facile tous les jours, on est souvent très différents ! Mais cette différence rend la rencontre d’autant plus riche. Elle permet de remettre un peu les pendules à l’heure sur ce qu’on tient pour acquis, et tout ce qui est préconçu par notre milieu et notre situation sociale. On en sort grandi, secoué, plein d’espérance et de réalisme, mais surtout convaincu de l’importance d’aller à la rencontre des moins favorisés.

 

D’autres associations dans le style existent, on peut citer l’Association pour l’Amitié à Paris. Et si la vie en colocation n’est pas ou plus faite pour vous, il y a plein d'associations où aller donner un peu de son temps. ATD quart mondeAux captifs la libération… N'hésitez pas à aller à leur rencontre et à donner un peu de votre temps !

A lire

Commentaires

Aucun commentaire

Vous devez être connecté pour laisser un commentaire. Connectez-vous.