Home » L’OpenAI lance un nouveau robot d’exploration du Web pour dévorer une plus grande partie du Web ouvert

L’OpenAI lance un nouveau robot d’exploration du Web pour dévorer une plus grande partie du Web ouvert

by Thomas

OpenAI a lancé un nouveau robot d’exploration du Web, GPTBot, afin d’élargir son ensemble de données pour l’entraînement de sa prochaine génération de systèmes d’IA – et la prochaine itération a apparemment un nom officiel. L’entreprise a déposé le terme « GPT-5 », ce qui laisse présager d’une prochaine version, tout en indiquant aux éditeurs de sites web comment éviter que leur contenu n’entre dans son corpus massif.

Selon OpenAI, le robot d’exploration recueillera les données accessibles au public sur les sites web, tout en évitant les contenus payants, sensibles et interdits. À l’instar d’autres moteurs de recherche tels que Google, Bing et Yandex, le système est toutefois opt-out : par défaut, GPTBot considère que les informations accessibles sont acceptables. Pour empêcher le robot d’exploration OpenAI d’ingérer un site web, son propriétaire doit ajouter une règle « disallow » à un fichier standard sur le serveur.

Comment interdire le GPTBot d'OpenAI. Image : OpenAI

Comment interdire le GPTBot d’OpenAI. Image : OpenAI


OpenAI affirme également que GPTBot analysera de manière préventive les données récupérées afin de supprimer les informations personnelles identifiables (PII) et le texte qui enfreint ses politiques.

Selon certains éthiciens de la technologie, l’approche « opt-out » soulève toutefois des problèmes de consentement.

Sur Hacker News, certains utilisateurs ont justifié la démarche d’OpenAI en disant qu’elle devait rassembler tout ce qu’elle pouvait si les gens voulaient disposer d’un outil d’IA générative capable à l’avenir. « Ils ont toujours besoin de données actuelles ou leurs modèles GPT seront bloqués à septembre 2021 pour toujours », a déclaré un utilisateur. Un autre utilisateur, plus soucieux de la protection de la vie privée, a déclaré que « OpenAI ne cite même pas avec modération. Elle crée une œuvre dérivée sans la citer, ce qui l’obscurcit ».

Le lancement de GPTBot fait suite aux critiques récentes concernant le fait qu’OpenAI avait déjà récupéré des données sans autorisation pour former de grands modèles de langage (LLM) tels que ChatGPT. Pour répondre à ces préoccupations, l’entreprise a mis à jour ses politiques de confidentialité en avril.

Par ailleurs, une récente demande de marque déposée pour le GPT-5 semble confirmer qu’OpenAI est en train d’entraîner son prochain modèle en vue d’un lancement ultérieur. Le nouveau système impliquerait très probablement un scraping web à grande échelle pour mettre à jour et développer ses données d’entraînement.

Cela pourrait représenter un changement par rapport à l’accent mis par OpenAI sur la transparence et la sécurité de l’IA, mais ce n’est pas surprenant si l’on considère que ChatGPT est le LLM le plus utilisé au monde, malgré un marché de plus en plus encombré et puissant. Le produit phare d’OpenAI – et celui de tout LLM – ne vaut que par la qualité des données utilisées pour l’entraîner.

OpenAI a besoin de données plus nombreuses et plus récentes, et il lui en faut beaucoup.

D’autre part, il existe un LLM open-source, assemblé par le géant des médias sociaux Meta. Ce géant de la technologie propose son modèle gratuitement, à condition de ne pas être un concurrent ou une entreprise trop importante. Meta n’a pas divulgué les ensembles de données qu’il a utilisés pour entraîner son modèle, ni les informations qu’il a collectées. Toutefois, l’approche permet aux utilisateurs d’affiner le modèle à l’aide de leurs propres ensembles de données.

Alors qu’OpenAI s’appuie sur l’ensemble de ses données pour entraîner ses modèles et créer un écosystème rentable autour de ses outils d’intelligence artificielle, Meta cherche à créer une activité rentable autour de ses données. Ainsi, Meta ne se contente pas d’utiliser ses données pour créer de meilleurs modèles, mais les partage également avec des tiers afin qu’ils puissent les utiliser.

« Nous ne vendons pas vos informations. En revanche, sur la base des informations dont nous disposons, les annonceurs et autres partenaires nous paient pour vous montrer des publicités personnalisées », explique Meta. Selon les déclarations de confidentialité standard de Meta, certaines des données collectées par l’entreprise comprennent les achats, l’historique de navigation, les identifiants, les informations financières, les contacts et les informations sensibles non divulguées, entre autres.

Certaines des données collectées par Meta auprès des utilisateurs de son application Thread. Image : Meta

Certaines des données collectées par Meta auprès des utilisateurs de son application Thread. Image : Meta


ChatGPT compte aujourd’hui plus de 1,5 milliard d’utilisateurs actifs mensuels. L’investissement de 10 milliards de dollars de Microsoft dans OpenAI semble avoir été judicieux, car l’intégration de ChatGPT a renforcé les capacités de Bing.

Pour l’instant, OpenAI est à la tête d’un secteur de l’IA en pleine effervescence, et les géants de la technologie s’efforcent de la rattraper. Le nouveau robot d’exploration du web de l’entreprise pourrait encore améliorer les capacités de ses modèles. Mais l’extension de la collecte de données sur l’internet soulève également des questions éthiques concernant les droits d’auteur et le consentement.

À mesure que les systèmes d’IA deviennent plus sophistiqués, l’équilibre entre la transparence, l’éthique et les capacités demeurera un exercice complexe.

Related Posts

Leave a Comment