让GAN再次伟大！拽一拽关键点就能完成P图网友：PS已死-中国建造师网

　　不仅直接蹿升B站关键词联想搜索第一，视频播放上百万，微博推特也是火得一塌糊涂，转发者纷纷直呼“PS已死”。

　　大到让整只狗子蹲下来，甚至让马岔开腿“跑跑步”，都只需要设置一个起始点和结束点，外加拽一拽就能搞定：

　　如此“有手就能做”的修图神器，来自一个MIT、谷歌、马普所等机构联手打造的DragGAN新模型，论文已入选SIGGRAPH 2023。

　　目前这个项目在GitHub上已经有5k+ Star，热度还在不断上涨中（尽管一行代码还没发）。

　　具体而言，给定StyleGAN2生成的一张图像，用户只需要设置几个控制点（红点）和目标点（蓝点），以及圈出将要移动的区域（比如狗转头，就圈狗头）。

　　然后模型就将迭代执行运动监督和点跟踪这两个步骤，其中运动监督会驱动红色的控制点向蓝色的目标点移动，点跟踪则用于更新控制点来跟踪图像中的被修改对象。

　　所以，DragGAN的运动监督是通过生成器特征图上的偏移补丁损失（shifted patch loss）来实现的。

　　如下图所示，要移动控制点p到目标点t，就要监督p点周围的一小块patch（红圈）向前移动的一小步（蓝圈）。

　　由于运动监督步骤不容易提供控制点的精确新位置，因此我们的目标是更新每个手柄点p使其跟踪上对象上的对应点。

　　但同样，这些额外的模型可能会严重影响效率，并且在GAN模型中存在伪影的情况下可能使模型遭受累积误差。

　　基于这以上两大组件，DragGAN就能通过精确控制像素的位置，来操纵不同类别的对象完成姿势、形状、布局等方面的变形。

　　作者表示，由于这些变形都是在GAN学习的图像流形上进行的，它遵从底层的目标结构，因此面对一些复杂的任务（比如有遮挡），DragGAN也能产生逼线几秒钟出图

　　所以，要实现几秒钟“精准控图”的效果，是否需要巨大的算力？nonono。大部分情况下，每一步拖拽修图，

　　例如，由于它是基于StyleGAN2生成的图像进行P图的，而后者训练成本很高，因此距离真正商业落地可能还有一段距离。

　　DragGAN的作者一共6位，分别来自马克斯?普朗克计算机科学研究，萨尔布吕肯视觉计算、交互与AI研究中心，MIT，宾夕法尼亚大学和谷歌AR/VR部门。

　　，他本科毕业于清华大学（2016年），博士毕业于香港中文大学（2021年），师从汤晓鸥教授。

　　现在是马普计算机科学研究所的博士后，今年6月，他将进入南洋理工大学担任助理教授（正在招收博士学生）。

　　，香港大学博士毕业（2019年），后在马普信息学研究所做博士后研究，现在是宾夕法尼亚大学助理教授（也在招学生），领导该校计算机图形实验室，也是通用机器人、自动化、传感与感知 (GRASP)实验室成员。