Resumen
El artículo "A Critical Look at AI Image Generation" de Stephanie Kirmer explora las implicaciones y limitaciones de las herramientas de generación de imágenes de IA. El artículo destaca cómo estos modelos, entrenados en vastos conjuntos de datos de imágenes y texto, reflejan los sesgos y tendencias presentes en la cultura y la sociedad, especialmente en la representación de diferentes grupos de edad y grupos étnicos. El artículo argumenta que los outputs de estos modelos no ofrecen una representación objetiva de la realidad, sino que más bien reflejan las elecciones y prioridades de los humanos que crearon los conjuntos de datos de entrenamiento.
Temas principales:
- Estética y representación: El artículo explora cómo los distintos modelos de IA generativa de imágenes (Stable Diffusion, Midjourney, YandexART y ERNIE-ViLG) producen imágenes con estilos estéticos distintivos y cómo estos estilos reflejan sesgos presentes en los datos de entrenamiento.
- Datos de entrenamiento: Se destaca la importancia de los datos de entrenamiento en la configuración de la salida del modelo. Los modelos son entrenados con grandes conjuntos de imágenes y texto, provenientes principalmente de contenido generado por usuarios en redes sociales y medios/publicidad.
- Limitaciones y sesgos: Se examinan las limitaciones de estos modelos, particularmente en su capacidad para representar con precisión diferentes generaciones. Se argumenta que los modelos perpetúan los sesgos sociales presentes en los datos de entrenamiento, lo que lleva a representaciones inexactas, especialmente de grupos demográficos mayores.
Ideas y hechos importantes:
- Influencia de la cultura y la sociedad: "El punto que quiero destacar es que estos no están libres de la influencia de la cultura y la sociedad, ya sea que esa influencia sea buena o mala. Los datos de entrenamiento provienen de creaciones humanas, por lo que el modelo trae consigo todo el bagaje social que tenían esos humanos."
- Representaciones generacionales: "[A] medida que avanzamos en el tiempo, las generaciones más jóvenes tendrán imágenes de toda su vida en línea, pero para los grupos mayores, las imágenes de su juventud o adultez temprana no están disponibles digitalmente para los datos de entrenamiento, por lo que es posible que nunca los veamos presentados por estos modelos como personas jóvenes."
- Pre-instrucciones y ajuste fino: Los modelos reciben instrucciones previas a la solicitud del usuario, lo que influye en su estilo y contenido. El ajuste fino mediante el aprendizaje por refuerzo, donde los observadores humanos evalúan las salidas, también moldea la estética del modelo.
- Naturaleza limitada de la representación: "Estamos viendo una parte de nuestra sociedad, pero no todo de una manera verdaderamente veraz. Entonces, debemos establecer nuestras expectativas de manera realista en función de lo que son estos modelos y cómo se crean."
Conclusión:
El artículo argumenta que si bien los modelos generativos de imágenes de IA pueden ofrecer información sobre las identidades generacionales filtradas a través de los medios, es crucial reconocer sus limitaciones y sesgos inherentes. Los modelos reflejan los prejuicios presentes en los datos de entrenamiento, lo que lleva a representaciones potencialmente inexactas de la realidad.
Se recomienda precaución al interpretar las salidas de estos modelos, recordando que no proporcionan una imagen objetiva o completa de la sociedad.