Supported by
Qué son los datos sintéticos y cómo se usarían para entrenar a la IA
Los desarrolladores de modelos se están quedando sin datos para entrenar a sus sistemas y se apoyan ahora en otros generados por la propia tecnología.
![](https://static01.nyt.com/images/2024/03/29/multimedia/00ai-data-synthetic-glwq-esp/00ai-data-synthetic-glwq-articleLarge.jpg?quality=75&auto=webp&disable=upscale)
Cade Metz reporta sobre inteligencia artificial. Stuart Thompson reporta sobre la desinformación.
OpenAI, Google y otras empresas tecnológicas entrenan a sus chatbots con enormes cantidades de datos extraídos de libros, artículos de Wikipedia, noticias y otras fuentes de internet. Pero en el futuro, esperan utilizar algo llamado datos sintéticos.
Esto se debe a que las empresas tecnológicas podrían agotar el texto de alta calidad que ofrece el internet para el desarrollo de la inteligencia artificial. Además, las empresas se enfrentan a demandas por derechos reservados interpuestas por autores, medios de comunicación y programadores informáticos por utilizar sus obras sin permiso. (En uno de esos casos, The New York Times demandó a OpenAI y Microsoft).
Las compañías creen que los datos sintéticos ayudarán a reducir los problemas de derechos de autor y a aumentar la oferta de materiales de entrenamiento necesarios para la IA. A continuación, lo que hay que saber al respecto.
¿Qué son los datos sintéticos?
Son datos generados por inteligencia artificial.
¿Esto quiere decir que las empresas tecnológicas quieren que la IA sea entrenada por IA?
Sí. En lugar de entrenar modelos de IA con textos escritos por personas, varias empresas tecnológicas como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA.
¿Los datos sintéticos funcionan?
No exactamente. Los modelos de IA se equivocan y se inventan cosas. También han demostrado que captan los sesgos que aparecen en los datos de internet a partir de los cuales han sido entrenados. Así que si las empresas utilizan IA para entrenar IA, es posible que acaben amplificando sus propios defectos.
![](https://static01.nytimes.com/newsgraphics/2024-01-29-ai-data-synthetic-data/ecc86312-9f25-4087-a65c-7839e2f2a7d0/_assets/constitution.png)
An A.I. model is asked to create multiple responses to a prompt like:
Each response receives a preference score. The response with the highest score is used.
Those scores are determined by another A.I. model, which can judge responses based on truthfulness, honesty and helpfulness.
The A.I. model is trained with its own set of values, sometimes called a constitution, which can include more complex values like fighting discrimination.
Advertisement