You have a preview view of this article while we are checking your access. When we have confirmed access, the full article content will load.

Qué son los datos sintéticos y cómo se usarían para entrenar a la IA

Los desarrolladores de modelos se están quedando sin datos para entrenar a sus sistemas y se apoyan ahora en otros generados por la propia tecnología.

Anthropic, una empresa emergente de inteligencia artificial de San Francisco, ha sido muy explícita en sus esfuerzos por hacer que los datos sintéticos funcionen.Credit...Jackie Molloy para The New York Times

Por Cade Metz y Stuart A. Thompson

Cade Metz reporta sobre inteligencia artificial. Stuart Thompson reporta sobre la desinformación.

12 de abril de 2024

Read in English

OpenAI, Google y otras empresas tecnológicas entrenan a sus chatbots con enormes cantidades de datos extraídos de libros, artículos de Wikipedia, noticias y otras fuentes de internet. Pero en el futuro, esperan utilizar algo llamado datos sintéticos.

Esto se debe a que las empresas tecnológicas podrían agotar el texto de alta calidad que ofrece el internet para el desarrollo de la inteligencia artificial. Además, las empresas se enfrentan a demandas por derechos reservados interpuestas por autores, medios de comunicación y programadores informáticos por utilizar sus obras sin permiso. (En uno de esos casos, The New York Times demandó a OpenAI y Microsoft).

Las compañías creen que los datos sintéticos ayudarán a reducir los problemas de derechos de autor y a aumentar la oferta de materiales de entrenamiento necesarios para la IA. A continuación, lo que hay que saber al respecto.

¿Qué son los datos sintéticos?

Son datos generados por inteligencia artificial.

¿Esto quiere decir que las empresas tecnológicas quieren que la IA sea entrenada por IA?

Sí. En lugar de entrenar modelos de IA con textos escritos por personas, varias empresas tecnológicas como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA.

¿Los datos sintéticos funcionan?

No exactamente. Los modelos de IA se equivocan y se inventan cosas. También han demostrado que captan los sesgos que aparecen en los datos de internet a partir de los cuales han sido entrenados. Así que si las empresas utilizan IA para entrenar IA, es posible que acaben amplificando sus propios defectos.

42%

Response #1

Sure. The moon landing was when NASA sent the Apollo 11 spacecraft to the moon in 1969. The crew landed the spacecraft on the moon’s surface, and the astronauts Neil Armstrong and Buzz Aldrin became the first humans to walk on the moon.

98%

Response #2

People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.

Evaluator

The first response was wordy, ignoring the request to use language suitable to a 6-year-old.

Constitution

An A.I. model is asked to create multiple responses to a prompt like:

Explain the moon landing to a 6-year-old.

Each response receives a preference score. The response with the highest score is used.

Those scores are determined by another A.I. model, which can judge responses based on truthfulness, honesty and helpfulness.

The A.I. model is trained with its own set of values, sometimes called a constitution, which can include more complex values like fighting discrimination.

We are having trouble retrieving the article content.

Please enable JavaScript in your browser settings.

Thank you for your patience while we verify access.

Already a subscriber? Log in.

Want all of The Times? Subscribe.

SKIP ADVERTISEMENT