Actualités

OpenAI dévoile BrowseComp : un nouveau défi pour les agents IA sur le web

Il y a 4 mois

1 min de lecture

OpenAI a lancé un nouveau benchmark baptisé BrowseComp, conçu pour évaluer la capacité des agents d’intelligence artificielle à trouver des informations rares et difficiles sur internet.

Publié le 10 avril 2025, BrowseComp regroupe 1 266 requêtes complexes qui exigent de la part des IA de la persistance, de la stratégie et de la créativité pour naviguer efficacement sur le web. Contrairement aux benchmarks traditionnels comme SimpleQA, centrés sur des questions factuelles simples, BrowseComp pousse les modèles à leurs limites avec des recherches qui peuvent nécessiter de consulter de nombreuses sources.

Par exemple, l’une des questions demande l’identité d’un écrivain et biographe ayant écrit une autobiographie, une biographie de son père en 1980, été amoureux du frère d’un philosophe, huitième enfant de sa famille, et ayant divorcé puis s’étant remarié dans les années 1940. Réponse : Esther Wyndham.

L’outil est open source et disponible via le dépôt GitHub simple-evals d’OpenAI. L’organisation invite les chercheurs à utiliser BrowseComp pour faire progresser les IA capables de naviguer efficacement sur internet, un domaine clé pour des assistants plus intelligents et utiles.

Retrouvez l’annonce complète sur openai.com/index/browsecomp

Promptique

Voir tous les articles

OpenAI dévoile BrowseComp : un nouveau défi pour les agents IA sur le web

Promptique

Ajouter un commentaire

Annuler la réponse

Lancement du modèle open‑source Kimi K2 par Moonshot AI

Lancement du modèle Grok 4 par xAI

Google rafle Windsurf : OpenAI écarté, DeepMind récupère l’équipe

Articles récents

Commentaires récents

Archives

Catégories

OpenAI dévoile BrowseComp : un nouveau défi pour les agents IA sur le web

Promptique

Ajouter un commentaire

Annuler la réponse

À découvrir également

Lancement du modèle open‑source Kimi K2 par Moonshot AI

Lancement du modèle Grok 4 par xAI

Google rafle Windsurf : OpenAI écarté, DeepMind récupère l’équipe

Articles récents

Commentaires récents

Archives

Catégories

Lancement du modèle open‑source Kimi K2 par Moonshot AI