Gracias a ChatGPT, el Internet Puro se ha perdido. ¿Alguien Salvo una Copia?

En la era post-nuclear, los científicos notaron un problema peculiar: el acero producido después de 1945 estaba contaminado. Las bombas atómicas habían infundido la atmósfera con radiactividad, lo que contaminó el metal.

Esto hizo que la mayoría de los aceros fueran inútiles para equipos precisos como contadores Geiger y otros sensores altamente exactos. La solución fue rescatar acero antiguo de acorazados hundidos de la era anterior a la guerra, reposando en el fondo del océano, lejos de la lluvia nuclear. Este material, conocido como acero de bajo fondo, se convirtió en un bien preciado por su pureza y rareza.

Avancemos hasta 2025 y está surgiendo una historia similar, aunque no bajo el mar, sino a través de internet.

Desde el lanzamiento de ChatGPT a finales de 2022, el contenido generado por inteligencia artificial ha explotado en blogs, motores de búsqueda y redes sociales. El ámbito digital está cada vez más impregnado de contenido no escrito por humanos, sino sintetizado por modelos y chatbots. Y al igual que la radiación, este contenido es difícil de detectar para las personas comunes, es omnipresente y altera el entorno en el que existe.

Este fenómeno plantea un problema particularmente espinoso para los investigadores y desarrolladores de IA. La mayoría de los modelos de IA se entrenan en grandes conjuntos de datos recopilados de la web. Históricamente, eso significaba aprender de datos humanos: desordenados, perspicaces, sesgados, poéticos y ocasionalmente brillantes. Pero si la IA actual se entrena con el texto generado por otras IA, que a su vez fue entrenada con contenido generado por IA, los modelos corren el riesgo de colapsar sobre sí mismos, diluyendo la originalidad y el matiz en lo que se ha denominado «colapso del modelo».

Dicho de otra manera: los modelos de IA se supone que deben ser entrenados para entender cómo piensan los humanos. Si se entrenan principalmente sobre sus propios outputs, pueden terminar simplemente imitando sus propias respuestas. Como fotocopiar una fotocopia, cada generación se vuelve un poco más borrosa hasta que el matiz, los atípicos y la verdadera novedad desaparecen.

Esto hace que el contenido generado por humanos, antes de 2022, sea más valioso, ya que ancla a los modelos de IA y a la sociedad en general en una realidad compartida.

Este aspecto se vuelve especialmente importante a medida que los modelos de IA se difunden en campos técnicos, como la medicina, el derecho y la fiscalidad. La precisión de la información en estas áreas es esencial.

El Problema de la IA

Esto no es solo teórico. Ya están surgiendo problemas en el mundo real.

Casi un año después del lanzamiento de ChatGPT, un capitalista de riesgo describió cómo buscaba en línea la temperatura adecuada para un horno de pizza. Se encontró revisando las fechas del contenido para encontrar información más antigua que no fuese «contenido de SEO generado por IA».

Malte Ubl, CTO de una startup de IA, respondió que estaba filtrando internet para contenido «pre-contaminación de IA».

«La analogía que he estado usando es el acero de bajo fondo, que se fabricó antes de las primeras pruebas nucleares,» dijo.

Otro ex ingeniero de Google coincidió, indicando que los conjuntos de datos modernos están siendo contaminados, y que encontrar datos de entrenamiento no modificados por IA será cada vez más difícil.

La Versión Digital del Acero de Bajo Fondo

La respuesta, argumentan algunos, radica en preservar versiones digitales de acero de bajo fondo: datos generados por humanos antes del auge de la IA. Este tipo de contenido es el lecho digital de internet, creado no por máquinas, sino por personas con intención y contexto.

Un conservacionista destacado es un miembro del consejo de Cloudflare, quien ha catalogado conjuntos de datos, sitios web y medios que existieron antes de 2022. Su proyecto busca archivar contenido que refleje la web en su forma humana, sin la contaminación de rellenos generados por LLM y SEO.

Nuestra Realidad Compartida

Los modelos de IA entrenados en parte con contenido sintético pueden acelerar la productividad y eliminar la monotonía de tareas creativas. Sin embargo, es fundamental estar anclados en algún nivel de verdad.

Las implicaciones van más allá del rendimiento de los modelos, afectando el tejido de nuestra realidad compartida. Al igual que los científicos confiaban en el acero de bajo fondo para mediciones precisas, es probable que dependamos de contenido cuidadosamente preservado antes de la IA para comprender verdaderamente la mente humana y cómo razonamos y nos comunicamos antes de la era de las máquinas que nos imitan.

El internet puro ha desaparecido. Afortunadamente, algunas personas están salvando copias. Así como los buzos están rescatando acero del fondo del mar, nos recuerdan que preservar el pasado puede ser la única forma de construir un futuro confiable.

Conclusión: En un entorno donde el contenido generado por IA se vuelve más predominante, la preservación de datos humanos anteriores a este fenómeno es esencial para poder anclar nuestra comprensión y análisis a realidades compartidas y auténticas. En Sales Solutions B2B, creemos que el éxito radica en la optimización de estrategias de venta con fundamentos sólidos y auténticos, ayudando a nuestros clientes a navegar este complejo paisaje digital.

SalesSolutionsB2B
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.