在大家沉迷于Midjourney、Stable Diffusion 技术中无法自拔时,一时被人遗忘的GAN又带着新技术重出江湖了。现在P图,你只需要“轻轻点两下”,AI就能迅速理解你的想法,秒速生成结果图。
DragGAN是由Max Planck研究所开发的一种新的人工智能工具,它允许用户通过几个点击和拖动来真实地修改照片,目前还未对外开源。王道控股旗下的「李白实验室」算法团队抢先「复刻」出了DragGAN。
目前,可直接使用的模型能够让你轻松掌控图片中的人物和动物,通过拖拽控制点和目标点来调整他们的位置、形状、姿势等等。现在已经可以在 Hugging Face 上直接使用了。
一、效果展示
修改微笑弧度,让一张严肃的照片变成露牙甜美笑。
放大图片中小哥哥的眼睛。
拍照脸型不好看,一键瘦脸,毫无PS痕迹。
觉得猫咪太瘦不够可爱,可以给它拉大脸庞,增加可爱度。
发际线拯救神器,这简直就是秃头星人的救命工具。
轻轻一拖,在不影响美观的情况下,可以让猫咪的耳朵缩小。
让狮子向右侧方向移动,终于有一天,可以完成甲方提出「让大象转个身」的需求。
可以随意改变模特的发型,短发变长发;本来双脚分开站立的模特,可以瞬间把腿拉至并拢。
二、关于DragGAN技术原理
虽然上述的效果展示很多,但是其实DragGAN也就两个技术原理:
1、基于特征的运动监督,驱动手柄点向目标位置移动;
2、一个新的点追踪方法,利用鉴别性的发生器特征,不断定位手柄点的位置。
DragGAN是一种基于GAN的图像编辑方法,可以实现运动监督和精确点跟踪。任何人都可以通过DragGAN对像素进行精确的控制,进而编辑如动物、汽车、人类、风景等多种类别的姿态、形状、表情和布局。
DragGAN还允许用户选择感兴趣的区域以执行特定于区域的编辑,而不需要依赖其他网络。 李白实验室复现的「DragGAN」只需要几秒就能完成效果,你可以选择不同的迭代步数,步数越多效果越夸张,其生成时间就越慢。
此外,DragGAN的无损优化功能可以让用户输入二进制掩码,指示图像中的可移动区域,从而实现更细致的控制,避免损坏图片的原属性。
与传统PS的液化功能相比,DragGAN在编辑图片时可以更好地保持图片的原始属性,并且具有更广泛的应用范围。例如,可以使用DragGAN来改变图片中车辆的位置、大小和轮胎的形状等。这种方法可以在几次鼠标拖动的时间内完成,非常方便快捷。
三、团队介绍
「李白实验室」是一个年轻且有活力的人工智能技术团队,其中主创始人唐勇博士,毕业于美国宾夕法尼亚州立大学,具备深厚的学术背景,在美国知名500强企业担任技术学科专家,高级工程师等。其他成员均毕业于国内外知名高校,清华、北大、浙大、英国皇家理工和美国常青藤范围等。
在开启创业征程之前,李白人工智能实验室的创始人唐博士曾在美国的知名研究机构以及世界五百强企业中献身于科研事业。他主导并参与了众多关乎社会、环境和能源的重大项目,这些项目的合作伙伴包括美国环保署,美国国家海洋和大气管理局以及全球顶尖能源公司。他专注于运用数学物理模型、高性能计算、多目标优化以及人工智能技术,解答现实世界中大尺度、多模态、多变量的复杂难题,这其中包括洪水预报、气候变化、能源管道设备优化设计以及系统安全等一系列棘手问题。
然而,唐博士深知现实世界的问题千丝万缕,影响因子五花八门,充满了无法预料的不确定性。完全理解其数学物理机理似乎是一项几乎无法完成的挑战。因此,在遇见志同道合的合伙人并得到杭州王道创投基金的坚定支持后,唐博士毅然决定成立李白人工智能实验室,希望通过人工智能技术提升模型的泛化能力,从而更有效地解决现实世界的复杂问题。
除此之外,郭铭涛作为主创人员,为李白实验室带来无限的全新可能性,在团队攻坚克难之下,终于复现了DragGAN。郭铭涛来自四川大学图像所,目前在读博士一年级,主要研究方向就是深度生成模型,此前他还获得了CVPR 2023 工业图像缺陷生成竞赛冠军。
李白实验室自创立之初,便秉持“让人人都能享有技术带来便捷”的使命,投入大量精力研发计算机视觉、语音以及自然语言处理等前沿技术。在推动技术进步的同时,李白实验室也已经在设计、营销、生命科学等多个领域进行了商业落地,使得我们的科技成果得以在实际生活中发挥作用,惠及社会。
我们深信,李白实验室的未来将会在科研进步的道路上继续前行,将最先进的技术成果转化为社会的生产力,推动人类社会的科技进步,为构建一个更美好的未来做出我们的贡献。
四、团队成果
「李白实验室」在2019年创办了“PicUP.Ai皮卡智能”项目,海外同步上线“cutout.pro”项目,海外月活超千万用户,海外站更是跻身图像编辑工具分类排名前十。基于GAN技术实现图像分割、图像修复增强、视频处理等实用性功能,其中图像背景分割算法模型在全球图像分割alphamatting.com的模型评比中斩获全球第一,获得国内外近30项学术和研究成果专利,80%为发明专利。皮卡智能计算机视觉模型目前已应用到各行业场景,例如互联网医疗、互联网金融、文旅智慧景区、电商图像处理、APP/小程序素材设计开发等等。
2023年在AIGC爆火期间,「李白实验室」推出“神采PromeAI”的网站。该网站通过算法优化升级,可直接应用于建筑、室内、产品、游戏/动漫场景设计中,不需要复杂的关键词及参数设置,就可一键生成效果图、线稿、电商产品图等,实现把AIGC从玩具到工具的实用性转变。
从此次DragGAN的「复刻」表现程度来看,「李白实验室」一直走在AI技术革新的前列,并不断创新发展,致力于让每一个普通用户都能简单使用这些工具。若将DragGAN与图像生成工具结合使用,用户将能够更接近他们心目中理想图像的输入。下一代内容革新技术产品或许即将诞生!