OpenAI a lancé un nouveau benchmark baptisé BrowseComp, conçu pour évaluer la capacité des agents d’intelligence artificielle à trouver des informations rares et difficiles sur internet.
Publié le 10 avril 2025, BrowseComp regroupe 1 266 requêtes complexes qui exigent de la part des IA de la persistance, de la stratégie et de la créativité pour naviguer efficacement sur le web. Contrairement aux benchmarks traditionnels comme SimpleQA, centrés sur des questions factuelles simples, BrowseComp pousse les modèles à leurs limites avec des recherches qui peuvent nécessiter de consulter de nombreuses sources.
Par exemple, l’une des questions demande l’identité d’un écrivain et biographe ayant écrit une autobiographie, une biographie de son père en 1980, été amoureux du frère d’un philosophe, huitième enfant de sa famille, et ayant divorcé puis s’étant remarié dans les années 1940. Réponse : Esther Wyndham.
L’outil est open source et disponible via le dépôt GitHub simple-evals d’OpenAI. L’organisation invite les chercheurs à utiliser BrowseComp pour faire progresser les IA capables de naviguer efficacement sur internet, un domaine clé pour des assistants plus intelligents et utiles.
Retrouvez l’annonce complète sur openai.com/index/browsecomp
Ajouter un commentaire