banner
Hogar / Blog / El extraño fracaso de la IA
Blog

El extraño fracaso de la IA

Jul 07, 2023Jul 07, 2023

Por Kyle Chayka

Es un ejercicio clásico en la clase de arte de la escuela secundaria: una estudiante se sienta en su escritorio, con un lápiz de carboncillo en una mano, colocado sobre una hoja de papel, mientras que la otra mano yace extendida frente a ella, con la palma hacia arriba y los dedos relajados para que se curvan hacia adentro. Luego usa una mano para dibujar la otra. Es una tarea para principiantes, pero la tarea de representar manos de manera convincente es uno de los desafíos más notorios del arte figurativo. Recuerdo que fue increíblemente frustrante: acertar con los ángulos y las proporciones de cada dedo, determinar cómo se conecta el pulgar con la palma, mostrar un dedo superpuesto a otro. Con demasiada frecuencia, terminaba con un meñique extrañamente largo o un pulgar que sobresalía en un ángulo imposible, como un hueso roto. “Así es como los estudiantes empiezan a aprender a dibujar: aprendiendo a mirar de cerca”, me dijo Kristi Soucie, mi profesora de arte de la escuela secundaria en Connecticut, cuando la llamé recientemente. "Todo el mundo supone que sabe cómo es una mano, pero hasta que no la miras realmente no lo entiendes".

La inteligencia artificial se enfrenta a un problema similar. Las herramientas recientemente accesibles, como Midjourney, Stable Diffusion y DALL-E, pueden representar un paisaje fotorrealista, copiar el rostro de una celebridad, remezclar una imagen con el estilo de cualquier artista y reemplazar sin problemas los fondos de las imágenes. En septiembre pasado, una imagen generada por IA ganó el primer premio de arte digital en la Feria Estatal de Colorado. Pero cuando se les pide que dibujen manos, las herramientas han escupido una serie de apéndices de pesadilla: manos con una docena de dedos, manos con dos pulgares, manos de las que brotan más manos como un mutante botánico. Los dedos tienen demasiadas articulaciones o ninguna. Parecen diagramas de un libro de texto de medicina de un mundo extraño. La ineptitud de las máquinas en esta tarea particular se ha convertido en una broma recurrente sobre las deficiencias de la IA. Como dijo una persona en Twitter: "Nunca le preguntes a una mujer de su edad o a un modelo de IA por qué esconden sus manos".

Como han informado otros, el problema de la mano tiene que ver, en parte, con la capacidad de los generadores para extrapolar información de los vastos conjuntos de datos de imágenes con los que han sido entrenados. Cuando un usuario escribe un mensaje de texto en un generador, se basa en innumerables imágenes relacionadas y replica los patrones que ha aprendido. Pero, al igual que un arqueólogo que intenta traducir los jeroglíficos egipcios de la Piedra Rosetta, la máquina sólo puede deducir a partir del material proporcionado, y existen lagunas en su conocimiento, particularmente cuando se trata de comprender formas orgánicas complejas de manera integral. Los conjuntos de datos defectuosos o incompletos producen resultados defectuosos. Como argumentaron recientemente el lingüista Noam Chomsky y sus coautores en un artículo de opinión reciente en el Times, las máquinas y los humanos aprenden de manera diferente. "La mente humana no es, como ChatGPT y similares, un pesado motor estadístico para la comparación de patrones, que se atiborra de cientos de terabytes de datos", escribieron. En cambio, “opera con pequeñas cantidades de información; no busca inferir correlaciones brutas entre puntos de datos sino crear explicaciones”.

Un generador puede calcular que las manos tienen dedos, pero es más difícil entrenarlo para que sepa que sólo deben haber cinco, o que los dígitos tienen longitudes más o menos determinadas entre sí. Después de todo, las manos se ven muy diferentes desde diferentes ángulos. Mirando mi propio par mientras escribo esto en el teclado de mi computadora portátil, mis dedos están en escorzo y medio oscurecidos por mis palmas; un observador no podría determinar su estructura exacta de rayos X a partir de una imagen estática. Peter Bentley, profesor de informática en el University College de Londres, me dijo que las herramientas de inteligencia artificial “han aprendido que las manos tienen elementos como dedos, uñas y palmas. Pero no entienden qué es realmente una mano”. El mismo problema ocurre a veces cuando la IA intenta representar características más pequeñas, como las orejas, que aparecen como remolinos carnosos sin la intrincada estructura del cartílago; o dientes que no se asientan correctamente en la boca; o pupilas, que resultan como manchas caprinas. La IA puede captar patrones visuales pero no la lógica biológica subyacente.

Parte del problema es que la mayoría de las imágenes de personas no se centran en sus manos. No estamos inundados de primeros planos de dedos como lo estamos de fotografías de rostros. "Si el conjunto de datos fuera cien por cien manos, creo que funcionaría mucho mejor, ya que el modelo asignaría más capacidad a las manos", Alex Champandard, cofundador de una empresa llamada Creative.ai, que desarrolla herramientas para industrias creativas, me dijo. Una solución puede ser entrenar programas de IA en conjuntos de datos monográficos especializados. (En su empresa, Champandard está construyendo actualmente conjuntos de entrenamiento compuestos enteramente de imágenes de asfalto o ladrillos para que los cineastas o desarrolladores de videojuegos puedan agregar rápidamente textura a la superficie). Otra podría ser agregar representaciones tridimensionales a los conjuntos de datos de IA, dijo Bentley. a mí. Actualmente no existe un equivalente tridimensional de un archivo de Getty Images bien etiquetado en el que se pueda entrenar una herramienta de inteligencia artificial, pero en diciembre pasado, la startup OpenAI, respaldada por Microsoft, publicó un artículo en el que se muestra una herramienta que crea modelos tridimensionales, lo que podría ayudar. dar a los generadores de imágenes más conciencia espacial: un conocimiento de la estructura esquelética debajo de la piel en 2-D.

Al escribir indicaciones para generadores de IA, los usuarios a menudo no son muy exactos. Es posible que ingresen la palabra "mano" sin especificar qué debería hacer dicha mano o cómo debería posarse. Jim Nightingale, un ex redactor que vive en Nueva Zelanda y que se ha convertido en consultor de inteligencia artificial, me dijo que aconseja a las personas "imaginar cómo se podrían haber etiquetado las imágenes de entrenamiento y realizar ingeniería inversa a partir de ahí". Nightingale sugirió nombrar “gestos reconocibles”, como un puño cerrado, y rasgos, como nudillos peludos, para ayudar a los generadores a aislar imágenes fuente más específicas o detalladas. Sin embargo, estos trucos no siempre funcionan. Un cliente de Nightingale era un autor que necesitaba una portada de libro digital. La IA generó una figura humana convincente, pero tuvo problemas para producir un gesto específico con la mano que el autor tenía en mente, por lo que Nightingale contrató a un artista humano independiente para pintarlos manualmente en la imagen de la IA.

Al menos hasta ahora en la vida útil de la IA generativa, los usuarios tienden a buscar imágenes que se acerquen lo más posible a la realidad. Juzgamos la IA en función de la precisión con la que replica lo que ya hemos visto. Al mirar las manos retorcidas de la IA, caemos en el valle inquietante y experimentamos una sensación visceral de disgusto. Las manos son reales (texturadas, arrugadas, manchadas, con más detalles de los que la mayoría de los artistas humanos podrían lograr) y totalmente en desacuerdo con la forma en que se supone que deben ser las manos. El fallo de la máquina es, en cierto modo, reconfortante. Las manos son un símbolo de humanidad, “una correspondencia directa entre imaginación y ejecución”, como escribió recientemente Patti Smith. Mientras seamos los únicos que los comprendamos, tal vez nuestras computadoras no nos suplanten por completo. Las extrañas contorsiones de las manos de la IA me hacen sentir una sensación de nostalgia anticipada, por un futuro en el que la tecnología inevitablemente mejorará y recordaremos defectos como una reliquia kitsch de la era de la “IA temprana”, la forma en que las fotos granuladas de las cámaras digitales huelen a los dos mil.

Con el tiempo, tendremos menos pistas sobre qué imágenes fueron generadas por IA y cuáles fueron creadas por manos humanas. Como me dijo Champandard, sobre la proliferación de dedos impares y garras incompletas, "creo que es un problema temporal". Soucie, mi profesora de arte, identificó un problema similar de novato en las imágenes de IA y en los dibujos de sus alumnos. “Un estudiante que está en octavo o noveno grado, cuando dibuja su mano, siempre se concentra en el contorno”, dijo. Un joven artista que sigue la línea ondulante de la piel arrugada se distrae pensando en la forma general de la mano, en su calidad tridimensional. Como cualquier estudiante de arte con dificultades, las herramientas de inteligencia artificial se beneficiarán de una mayor capacitación. "Llega un punto en el que la estructura y el contorno se unen para un estudiante", dijo Soucie. "Por lo general, eso es como el segundo año de universidad". ♦