Home » OpenAI lanza un nuevo rastreador web para devorar más de la Web abierta

OpenAI lanza un nuevo rastreador web para devorar más de la Web abierta

by Patricia

OpenAI ha lanzado un nuevo robot de rastreo web, GPTBot, con el fin de ampliar su conjunto de datos para el entrenamiento de su próxima generación de sistemas de IA, y parece que la siguiente iteración ya tiene nombre oficial. La empresa ha registrado el término «GPT-5», aludiendo a un próximo lanzamiento y avisando a los editores web de cómo mantener sus contenidos fuera de su enorme corpus.

Según OpenAI, el rastreador recopilará datos públicos de sitios web y evitará los contenidos de pago, sensibles y prohibidos. Sin embargo, al igual que otros motores de búsqueda como Google, Bing y Yandex, el sistema es de exclusión voluntaria: por defecto, GPTBot asumirá que la información accesible es lícita. Para evitar que el rastreador web de OpenAI ingiera un sitio web, su propietario debe añadir una regla «disallow» a un archivo estándar del servidor.

Cómo prohibir el GPTBot de OpenAI. Imagen: OpenAI

Cómo prohibir el GPTBot de OpenAI. Imagen: OpenAI


OpenAI también afirma que GPTBot escaneará de forma preventiva los datos extraídos para eliminar la información de identificación personal (IIP) y el texto que infrinja sus políticas.

Sin embargo, según algunos expertos en ética tecnológica, el enfoque de exclusión voluntaria sigue planteando problemas de consentimiento.

En Hacker News, algunos usuarios justificaron la medida de OpenAI diciendo que debe recopilar todo lo que pueda si quiere disponer de una herramienta de IA generativa capaz en el futuro. «Siguen necesitando datos actuales o sus modelos GPT se quedarán estancados en septiembre de 2021 para siempre», afirmó un usuario. Otro usuario más preocupado por la privacidad argumentó que «OpenAI ni siquiera está citando con moderación. Está haciendo una obra derivada sin citar, oscureciéndola».

El lanzamiento de GPTBot se produce después de las recientes críticas a OpenAI por la extracción de datos sin permiso para entrenar grandes modelos lingüísticos (LLM) como ChatGPT. Para responder a estas inquietudes, la empresa actualizó sus políticas de privacidad en abril.

Mientras tanto, una reciente solicitud de marca registrada para GPT-5 parece confirmar que OpenAI está entrenando su próximo modelo para un futuro lanzamiento. Es muy probable que el nuevo sistema implique un raspado web a gran escala para actualizar y ampliar sus datos de entrenamiento.

Esto podría representar un alejamiento del énfasis inicial de OpenAI en la transparencia y la seguridad de la IA, pero no es sorprendente si se tiene en cuenta que ChatGPT es el LLM más utilizado del mundo, a pesar de un mercado cada vez más saturado y potente. El producto estrella de OpenAI -y el de cualquier LLM- sólo es tan bueno como la calidad de los datos utilizados para entrenarlo.

OpenAI necesita más datos y más nuevos, y necesita muchos.

Por otro lado, existe un LLM de código abierto, creado por el gigante de las redes sociales Meta. El gigante tecnológico ha ofrecido su modelo de forma gratuita, siempre y cuando no seas un competidor ni una empresa demasiado grande. Meta no ha revelado qué conjuntos de datos ha utilizado para entrenar su modelo ni qué información ha recopilado. Sin embargo, el planteamiento permite a los usuarios afinar el modelo utilizando sus propios conjuntos de datos.

Mientras que OpenAI utiliza todos sus datos rastreados para entrenar sus modelos y construir un ecosistema rentable en torno a sus herramientas de IA, Meta aspira a construir un negocio rentable en torno a sus datos. Así, Meta no sólo los utiliza para crear mejores modelos, sino que también los comparte con terceros para que puedan utilizarlos.

«No vendemos tu información. En cambio, basándonos en la información que tenemos, los anunciantes y otros socios nos pagan por mostrarte anuncios personalizados», explica Meta. Según la declaración de privacidad estándar de Meta, algunos de los datos que recopila la empresa son, entre otros, compras, historial de navegación, ID, información financiera, contactos e información confidencial no revelada.

Algunos de los datos recopilados por Meta de los usuarios de su aplicación Thread. Imagen: Meta

Algunos de los datos recopilados por Meta de los usuarios de su aplicación Thread. Imagen: Meta


ChatGPT cuenta ya con más de 1.500 millones de usuarios activos mensuales. Y la inversión de 10.000 millones de dólares de Microsoft en OpenAI parece acertada, ya que la integración de ChatGPT ha potenciado las capacidades de Bing.

Por ahora, OpenAI lidera el candente espacio de la IA, y los gigantes tecnológicos se apresuran a alcanzarla. El nuevo rastreador web de la empresa puede mejorar aún más las capacidades de sus modelos. Pero la creciente recopilación de datos en Internet también plantea cuestiones éticas en torno a los derechos de autor y el consentimiento.

A medida que los sistemas de IA se vuelvan más sofisticados, el equilibrio entre transparencia, ética y capacidades seguirá siendo un complejo acto de equilibrismo.

Related Posts

Leave a Comment