Why AI art struggles with hands(为什么 AI 总是画不好手)

https://www.youtube.com/watch?v=24yjRbBah3w

在使用 Midjourney 时,就发现有这个问题(V5 版本对「手」做了很大的优化,但还不到完美的程度),AI 生成的手总是会显得不自然,比如 6 根手指,或者奇怪的姿势。这个视频 就聊了这个现象背后的原因,主要有 3 个:

  1. 数据样本少 + 描述简单。比如专门用来训练脸的照片可能会有好几万,手的照片则少得多。而且即使图片里出现了手,通常也不会对「手」进行单独说明,比如「一个撑着伞的男人」,不会详细到「大拇指在前,食指在另一侧的上部,其他三根手指在下面握着伞柄」。
  2. 手的变化太灵活了。不像脸部特征,很容易提取,且位置固定。手就不一样了,手腕转动、手指旋转、视角变换等都会让手呈现出完全不同的特征,这就加大了 AI 理解手的难度。
  3. 手的容错率很低。因为对「手」太熟悉了,且大家的手基本都一样,大脑对「手」已经有了很细致的模型。画出来的手稍有不一样就容易被发现。

解决方案的话,可以增加手的样本量,丰富描述,还可以通过 RLHF(人工反馈的强化学习,也是 ChatGPT 采用的方法)来告诉 AI 哪些手画的好,哪些不好,让它逐渐找到画好手的诀窍。

这可能也是用照片训练 AI 的一个局限,不像现实生活中,我们可以立体地观摩对象,还可以从解剖学的角度去理解它的运行机制,从而对目标建立更深刻的认知。如果 AI 可以感知现实中的事物,或许可以创作出更丰富更逼真的作品。

PS: 视频的评论中有人提到,我们做梦时,也无法看到清晰的手的形态,或者有点畸变,所以可以通过看手来判断是在梦里还是在现实中。会不会人类经常以与 AI 相似的方式构建心理图像?

❤️