Une intelligence artificielle capable de fournir des réponses médicales plus fiables que celles de vrais médecins : c’est ce que prétend OpenAI avec ses derniers modèles testés sur des cas cliniques réels. Derrière l’annonce, une question se pose : sommes-nous prêts à déléguer notre santé à une machine ?
OpenAI lance une IA qui surpasse les médecins : révolution ou danger ?
OpenAI intensifie ses efforts dans le domaine médical avec le lancement de HealthBench, un nouvel outil d’évaluation des modèles d’IA pour les usages en santé. Ce benchmark vise à tester les capacités des modèles à mener des conversations médicales réalistes, pertinentes et fiables. L’initiative, menée en collaboration avec des médecins de 60 pays, souligne l’ambition croissante d’OpenAI de positionner ses modèles comme des assistants médicaux disponibles à toute heure, pour les patients comme pour les professionnels de santé.
Healthbench : une grille d’évaluation réaliste et exigeante
HealthBench repose sur 5 000 conversations médicales simulées, chacune accompagnée d’un système d’évaluation conçu par des médecins. Le benchmark couvre sept domaines clés, parmi lesquels la médecine d’urgence, la gestion de l’incertitude ou encore la santé globale. Il a été élaboré avec la participation de 262 médecins répartis dans 60 pays, afin de refléter une diversité de contextes médicaux.
L’objectif est de mesurer la capacité des modèles de langage à produire des réponses utiles, précises et compréhensibles dans des situations cliniques complexes. OpenAI indique que ses derniers modèles, comme GPT-4.1 nano, surpassent désormais certains modèles plus coûteux, tout en étant 25 fois moins onéreux. Ce modèle bat notamment la version GPT-4o d’août 2024.
Les performances sont comparées à celles de médecins humains, et les résultats récents montrent que dans plusieurs cas, les réponses générées par l’IA sont jugées plus pertinentes que celles produites par des praticiens. Selon l'entreprise de Sam Altman, les améliorations sont telles qu’à partir d’avril 2025, les réponses des médecins n’apportent plus de valeur ajoutée significative face à celles de ses modèles.
NEW: OpenAI is in talks with the FDA to explore using AI, including a project called cderGPT, to speed up drug evaluation and approvals.
FDA Commissioner Marty Makary confirmed the agency just completed its first AI-assisted scientific review, calling it “just the beginning.” pic.twitter.com/1VQhX6KaQW
— Healthcare AI Guy (@HealthcareAIGuy) May 9, 2025
Entre enthousiasme technologique et mise en garde clinique
Les résultats de HealthBench suscitent un vif intérêt sur les réseaux sociaux, où plusieurs utilisateurs témoignent d’une utilité concrète de ces modèles dans leur parcours de soins. Des anciens journalistes comme Joe Flaherty évoquent une efficacité perçue supérieure à celle de médecins, tandis que d’autres relèvent des diagnostics pertinents fournis par les modèles là où des spécialistes humains avaient échoué.
Malgré cet engouement, des professionnels de santé expriment des réserves claires. Le cardiologue Dr CN Manjunath, basé à Bengaluru, insiste sur l’absence d’examen physique dans ces démarches. Il rappelle que si l’IA peut offrir des orientations ou un suivi, le diagnostic initial et la gestion des traitements nécessitent l’intervention directe d’un médecin qualifié.
Cette prudence se retrouve dans l’organisation même d’OpenAI, qui recrute activement des ingénieurs spécialisés en santé, tout en confiant à Fidji Simo la direction des applications, permettant à Sam Altman de se concentrer sur la recherche et la sécurité. Cette évolution stratégique confirme que l’entreprise voit dans la santé non seulement un cas d’usage prioritaire, mais aussi un levier de transformation scientifique à long terme.
