Infrastructures
Data Challenge JFR 2019 : l’IA aide à détecter les nodules pulmonaires
22 novembre 2019
Categorized: CTO | Data | Infrastructures | Intelligence Artificielle
Share this post:
IBM France est l’un des trois lauréats du Data Challenge 2019 organisé lors des Journées Francophones de Radiologie. L’équipe d’IBM a su exploiter l’intelligence artificielle afin de détecter les nodules présents sur les images de scanners du poumon.
Les Journées Francophones de Radiologie 2019 (JFR 2019) – la grand-messe de l’imagerie médicale – accueillaient pour la deuxième fois un forum dédié à l’intelligence artificielle ; et un concours, le Data Challenge, centré cette année sur le thème du radiologue augmenté. Objectif : aider les radiologues à faire de meilleurs diagnostics, en leur montrant ce qui leur a échappé ou en détectant des problèmes non recherchés initialement. Le tout au travers de l’utilisation de l’intelligence artificielle (IA).
Un concours basé sur des cas réels
Trois épreuves ont été organisées par la Société Française de Radiologie :
- calcul de la surface des muscles pour la sarcopénie ;
- prédiction du handicap des patients touchés par la sclérose en plaques ;
- classification d’images de scanners du poumon suivant la taille des nodules.
C’est ce dernier défi qu’a relevé – et remporté ! – l’équipe Systems d’IBM France. Un domaine où l’apport de l’intelligence artificielle est indéniable et hors de toute polémique, la technologie se mettant ici incontestablement au service de l’humain.
Le prérequis imposé pour ce concours, mais aussi nécessaire à la réussite d’un projet d’intelligence artificielle, était de constituer une équipe comprenant plusieurs profils de compétences ;
- des data scientists ;
- des experts venant de sociétés d’imagerie ;
- un ou plusieurs radiologues ;
- des étudiants.
IBM Montpellier s’est chargé de fournir les data scientists et de trouver les étudiants. Les sociétés QuantaCell et DataValoris ont apporté leur savoir-faire en imagerie. Un radiologue issu du centre de cancérologie Jean Perrin (Membre de groupement privé UNICANCER) a complété cette équipe.
Les organisateurs du concours ont proposé trois jeux de données successifs comprenant des centaines de scanners annotés par des radiologues. Des données anonymisées livrées au format Dicom et faisant apparaitre des nodules de tailles diverses, avec une annotation différenciée pour ceux de moins de 100 mm3 et ceux dépassant ce volume. Chaque scanner correspond à 100-200 Mo de données et chaque dataset comprend environ 80 Go d’informations. Un défi en matière de capacité de traitement.
La victoire d’une équipe
Réussir un tel projet impose de travailler de concert, car la datascience est avant tout un sport d’équipe. Le data scientist seul ne peut en effet rien faire. Il lui faut les jeux de données et la compétence métier des radiologues, ainsi que le savoir-faire d’experts en imagerie. Le radiologue a également eu pour tâche de vérifier les jeux de données, d’analyser les annotations, puis de contrôler la qualité du travail fourni par l’IA.
La chaine de traitement s’est composée de plusieurs tâches clés :
- le prétraitement des images 3D, l’extraction des annotations et le détourage du poumon ;
- l’entrainement du modèle de réseau de neurones à la détection des nodules ;
- l’apprentissage de la classification des nodules, basé sur les détections opérées par le réseau de neurones et les analyses des radiologues.
L’IA n’apprend qu’à travers les données. C’est pourquoi il est essentiel de passer beaucoup de temps à collecter, traiter et nettoyer les données. Ces dernières doivent ensuite être analysées, afin de détecter les biais et informations manquantes, qui pourraient induire l’IA en erreur. Ce travail en amont est fastidieux, mais crucial. C’est celui qui prendra le plus de temps aux data scientists et data stewards[1]. Il faut savoir se montrer prudent et méthodique, afin de livrer des données propres, sans biais, défauts ou manques.
Les deux premiers jeux de données étaient fournis avec les annotations de radiologues, afin d’aider les équipes à entrainer leurs IA. Le troisième, livré sans annotations, constituait l’épreuve de vérité pour le système mis en place. Avec un score approchant les 90 % de réussite, l’équipe IBM a remporté le challenge. Les 90 % prennent en compte à la fois la capacité à détecter les nodules, à les classer en taille et à éviter les faux positifs. Le système mis au point s’est donc montré très bon à détecter les cas pathologiques, mais aussi à ne pas les « surdétecter ». Ainsi, sur 300 cas proposés, un seul faux positif a été relevé.
Des serveurs à la hauteur de l’enjeu
La chaine de traitement mise en place par l’équipe IBM s’est montrée particulièrement performante. Et pourtant ce sont des technologies standards d’intelligence artificielle et Open Source qui ont été utilisées, avec des algorithmes développés à partir de librairies Python Open Source elles aussi.
L’autre secret de la réussite d’IBM réside dans le matériel utilisé. Des serveurs conçus pour faire de l’intelligence artificielle. L’entrainement du réseau de neurones employé n’aurait probablement pas pu être mené à son terme en utilisant les GPU présents sur des cartes graphiques traditionnelles. Une puissance adaptée a permis d’explorer divers algorithmes et d’évaluer des hypothèses impossibles à tester sur d’autres machines.
Le volume de données exploité est aussi un facteur clé, car son accroissement permet de couvrir un plus large ensemble de cas et de lisser les biais présents dans certaines données. Rappelons que l’IA n’apprend que des données. Plus elles sont présentes en nombre et en qualité, plus le système pourra progresser. La capacité de traitement est donc l’autre aspect sur lequel les serveurs IBM ont su faire la différence. Une fierté pour l’équipe investie dans ce projet, qui fait partie de la Business Unit IBM créant ces solutions d’infrastructure.
Ce concours a permis aux data scientists d’IBM d’explorer de nouveaux jeux de données et de démontrer leur capacité à servir le secteur médical. Ceci permet de donner de la visibilité à IBM et de lui ouvrir les portes du monde de l’imagerie médicale, avide d’intelligence artificielle. Ce projet démontre également notre capacité à travailler en équipe avec des acteurs du secteur. Il montre enfin l’importance de l’infrastructure informatique et son impact sur l’efficacité d’une IA. Ici aussi, l’infrastructure IT peut aider à faire la différence.
[1] Coordonnateur des données
Technical Sales Specialist - Linux Servers
IBM SkillsBuild : Neuf cours gratuits sur l’IA pour booster votre carrière en 2025
D’ici 2025, l’intelligence artificielle (IA) sera un élément essentiel de tous les aspects de l’activité, aidant à résoudre des problèmes vastes et complexes dans tous les secteurs d’activité. Les personnes sont essentielles à cet effort, et il y a une demande croissante de professionnels possédant les compétences les plus récentes en matière d’IA dans le […]
Intelligence artificielle : une génération de valeur sous conditions
La valeur potentielle à capturer est telle que les projets d’IA sont légion; l’avènement de l’IA générative les démultiplie. Mais ces projets sont cependant trop souvent des échecs. D’autant qu’un succès technique ne garantie pas la libération de la valeur identifiée en amont. La ruée vers l’offre d’intelligence artificielle trouve sans doute son élan dans […]
IBM et AWS intensifient leur partenariat pour proposer à grande échelle une IA générative responsable
Lors de la conférence annuelle « AWS Re:Invent », IBM et AWS annonceront conjointement une étape majeure dans leur collaboration visant à aider les entreprises à adopter une IA responsable. Ensemble, les deux compagnies unissent leurs forces pour permettre à nos clients de tirer parti de la puissance de l’IA générative tout en mettant l’accent sur la […]