AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

[复制链接]
admin 发表于 2024-8-9 09:07:08 | 显示全部楼层 |阅读模式
设想一下,如果让你画一幅 “茶杯中的冰可乐” 的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。那么,当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时,我们便进行了这种尝试,得到了以下结果:

4e0217c4397177cd62c93379f39a3f79.jpeg

可以看出,即使是最先进的 AI 画家(例如 Dall・E 3),也无法凭空构建 “茶杯中的冰可乐” 的场景,它们往往会摸不着头脑,纠结良久后画出一个装满冰可乐的透明玻璃杯。即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”,这一问题在学术界被归类为文生图模型的文本图像不对齐问题(text-image misalignment)。最近,上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支,该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会(ECCV)上。

2dacaf2ac3ac6f2e80445df1de3eea26.jpg

ba7e76135b7ebd39c39cf2ac263ab2fe.jpg

文本图像不对齐问题是图像生成领域中的一个重要方向,与传统不对齐问题不同的是,在传统不对齐问题中,人们主要关注的是一组概念对中两个概念的相互影响,例如给定 “一个苹果和一个梨” 的需求,得到的图像要么是两个苹果,要么是两个梨,不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中,有一个关键的隐藏变量 “透明玻璃杯”,其从未在文本提示中出现,却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。
回复

使用道具 举报

评论0
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Discuz! X

GMT+8, 2025-2-6 01:05 , Processed in 0.044397 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.