南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)-热点聚焦

孙燕姿果然不愧是孙燕姿，不愧为南洋理工大学的高材生，近日她在个人官方媒体博客上写了一篇英文版的长文，正式回应现在满城风雨的“AI孙燕姿”现象，流行天后展示了超人一等的智识水平，行文优美，绵恒隽永，对AIGC艺术表现得极其克制，又相当宽容，充满了语言上的古典之美，表现出了“任彼如泰山压顶，我只当清风拂面”的博大胸怀。

本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文，让流行天后念给你听。

Sadtalker配置

之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步，但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近，事实上，音频和不同面部动作之间的连接是不同的，也就是说，虽然嘴唇运动与音频的联系最强，但可以通过不同的头部姿势和眨眼来反作用于音频。

【资料图】

和Wav2lip相比，SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库，一方面，它从音频中生成逼真的运动系数（例如，头部姿势、嘴唇运动和眨眼），并单独学习每个运动以减少不确定性。对于表达，通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失（唇读损失，面部landmark loss）中提取系数，设计了一种新的音频到表达系数网络。

对于程序化的头部姿势，通过学习给定姿势的残差，使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后，通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场，并扭曲参考图像以生成最终视频。

Sadtalker可以单独配置，也可以作为Stable-Diffusion-Webui的插件而存在，这里推荐使用Stable-Diffusion插件的形式，因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面，更方便将Stable-Diffusion生成的图片做成动态效果。

进入到Stable-Diffusion的项目目录：

cd stable-diffusion-webui

启动服务：

python3.10 webui.py

程序返回：

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  Version: v1.3.0  Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  Installing requirements  Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  LatentDiffusion: Running in eps-prediction mode  DiffusionWrapper has 859.52 M params.  Running on local URL:  http://127.0.0.1:7860

代表启动成功，随后http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装，输入插件地址：github.com/Winfredy/SadTalker

安装成功后，重启WebUI界面。

接着需要手动下载相关的模型文件：

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。

接着配置一下模型目录的环境变量：

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此，SadTalker就配置好了。

edge-tts音频转录

之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测，也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换，我们首先需要将文本转换为语音，才能替换音色。

这里使用edge-tts库进行文本转语音操作：

import asyncio    import edge_tts    TEXT = """    As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it.    My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.    Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.     You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.    Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.    At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day.     In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.     With this I fare thee well.    """    VOICE = "en-HK-YanNeural"  OUTPUT_FILE = "./test_en1.mp3"      async def _main() -> None:      communicate = edge_tts.Communicate(TEXT, VOICE)      await communicate.save(OUTPUT_FILE)      if __name__ == "__main__":      asyncio.run(_main())

音频使用英文版本的女声：en-HK-YanNeural，关于edge-tts，请移步：口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)，这里不再赘述。

随后再将音频文件的音色替换为AI孙燕姿的音色即可：AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践，复刻《遥远的歌》，原唱晴子(Python3.10)。

本地推理和爆显存问题

准备好生成的图片以及音频文件后，就可以在本地进行推理操作了，访问 localhost:7860

这里输入参数选择full，如此会保留整个图片区域，否则只保留头部部分。

生成效果：

SadTalker会根据音频文件生成对应的口型和表情。

这里需要注意的是，音频文件只支持MP3或者wav。

除此以外，推理过程中Pytorch库可能会报这个错误：

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这就是所谓的"爆显存问题"。

一般情况下，是因为当前GPU的显存不够了所导致的，可以考虑缩小torch分片文件的体积：

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音频文件实在过大，也可以通过ffmpeg对音频文件切片操作，分多次进行推理：

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此，就解决了推理过程中的爆显存问题。

结语

和Wav2Lip相比，SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节（如眼睛眨动）等等，可谓是细致入微，巨细靡遗，当然随之而来的是模型数量和推理成本以及推理时间的增加，但显然，这些都是值得的。

推荐内容

南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)-热点聚焦

滚动：如果选择合适的企业数据防泄漏解决方案

每日观点：可视化组件封装系统|无需编程，快速封装发布仿真模板APP，实现仿真自动化

欣旺达APS项目实施

每日看点!蒋圣龙：怀念在国青与希丁克相处的时光 外租两年对我帮助很大

微头条丨官宣！本泽马2亿年薪加盟吉达联合，曝沙特再对梅西提高报价

网上如何提取封存公积金？公积金贷款申请条件是什么？

昌吉州领导巡查调度高考准备工作 天天快看

高考考生们看考场 当前滚动

天天视讯！李云泽会见美国花旗集团首席执行官范洁恩

热文：孟晚舟：万物正走向可感知、互联、智能 数字孪生世界正在构建

华安期货：建议生猪谨慎观望-环球今日讯

车辆抵押贷款有哪些优缺点？汽车贷款还完后怎么办理解押手续？

为什么这么多大宅用户都选择“巴法禄水牛空调”？

哪些平台可以办理车辆抵押贷款？汽车抵押贷款需要看征信吗？

掘金全队聚餐，2大奇兵入镜！巴特勒却去花天酒地，热火G3危险了 报道

天天热资讯！哈登左右为难原因何在？76人聘请纳斯造争冠新幻想

人生赢家？曝里夫斯约会女星霉霉，两人年龄差8岁，女方情史混乱|天天快资讯

曝湖人想留下拉塞尔，佩林卡愿意给1.2亿美金，2个原因曝光 环球热议

CBA乐透抽签出炉：富邦火箭喜提状元签 清华莺歌广工魔兽皆是佳选 世界热头条

资讯推荐:2023年高考全国卷语文作文题来了！命题专家这样解读

全球关注：日本4月同步指标月率初值 0.2%，前值0.1%。日本4月领先指标月率初值 0.7%，前值-0.5%

深公司早报｜得润电子获得国际知名汽车客户开发定点项目、迪阿股份5月新增自营门店1家、力合微发行可转债获证监会注册批复 世界新消息

06月06日芝加哥商业交易所（CME）WTI原油、布伦特原油、天然气成交量及未平仓数据

全球快播：国信期货：估值优势渐显 生猪逢低买入

高层建筑的阳台护栏高度一般不应低于多少（高层建筑的阳台护栏高度一般不低于多少）_天天观察

什么是线路输入设备（什么是线路输入）-全球观天下

视讯！睿怎么写好看图片（睿怎么写）

环球热点评！四大咨询公司的报告百度网盘（四大咨询公司是指）

焦点日报：潍坊公路客运总站官网（潍坊公路客运总站在哪里）

手机分期有利息吗？手机分期上征信吗？

哪些平台可以办理手机分期？iphone手机分期付款的条件有哪些？

科教融汇 如何“融”怎样“汇”澎湃新闻专访环球网校CEO伊贵业

当前速读：开封市顺河回族区与河南大学新闻与传播学院签署战略合作协议

南部新城：多举并措防溺水，织牢安全“生命线”

网贷还清了必须开还清证明吗？网商贷结清凭证去哪里申请？

环球播报:南阳市唐河县：登记窗口“向前移” 服务群众“零距离”

河南获嘉县：“托管服务”帮助降低成本 农户省心省力又增收 天天报资讯

2023年深圳市龙岗区投控集团集团本部专业技术岗位人才招聘

流产后出门可以让女性重新获得自信 全球热讯

九江广场舞梨花颂：广场舞梨花颂？ 天天最资讯

全球通讯！卵泡监测可以提高备孕成功率

世界看点：流产自我保护的过程

艾草暖宫贴有助于缓解痛经疼痛 世界速讯

AI怎么写高考作文？我们试了一下！

数读高考的理论与创新 已催生3000篇博硕论文与190项专利

世界看点：驻日本使馆发言人就福岛核污染水排海问题发表谈话：出于成本考虑决定向海洋一排了之是不负责任的行为

世界视点！我省360名职工将参加全国数字化应用线上大比武

世界焦点！衡水市住房城乡建设系统工会联合会成立

一个小孔可能致发动机起火 福特汽车召回12.5万辆汽车 环球速读

分析师：苹果Vision Pro几年后才会被广泛使用|世界最新

热点！vivo与诺基亚专利纠纷：产品下架 上诉申请悬而未决

5G已融入超六成国民经济大类

【全球时快讯】名单公示！永靖县移民中学1名学子通过清华报名审核→

对话私募：判断估值的多因子 天天快播报

今亮点！党建引领“数字”先行——济南这栋楼里有个“梦享家”

三亚今日仍有较强降雨天气！考点道路交通情况|通讯

【天天快播报】奥斯卡晒与许昕切磋乒乓球照，用上海话发文：伐要特色一哦

国际乒联第23周世界排名新鲜出炉，樊振东打破纪录

分期付款买车怎么算利息？汽车分期零首付不走银行吗？

午评：沪指震荡微涨，旅游、传媒等板块拉升，CPO概念等活跃

当前播报:创业板指半日跌1.32% CPO等概念表现活跃

分期付款买车无力偿还怎么办？分期付款买车无力偿还的后果是什么？

买车是全款好还是分期付款好?全款购车的优点有哪些？

文物 | 中国文化遗产研究院组织召开2023年文化和自然遗产日活动“文化遗产保护与科技赋能专题论坛”|天天亮点

第一视角！直击“长空之王”实弹射击现场

没有工作可以贷款买车吗？网贷是否影响买车？

在4s店买车贷款需要抵押哪些东西？4s店贷款买车一般几天能提车？

4s店贷款买车要提供征信报告吗？4s店贷款利息一般几个点？

MR头显概念周二跌幅明显

超图软件：公司与Unity有紧密的技术合作

世界今头条！中超股份冲刺创业板IPO 客户数超300家

中国气象局：未来两天麦收区多晴好天气 利于小麦抢收和晾晒

观天下！亚太股市主要股指早盘多数上涨

A股午评：指数沪强深弱，创业板指跌1.32%，宁德时代跌超5% 当前要闻

汽车贷款办理流程有哪些？4s店买车服务费和贷款手续费是一回事吗?

贷款买车需要满足哪些条件？按揭贷款买车需要注意什么套路？

全球时讯：为什么大人的丁丁会长毛（高中男生长毛的丁丁）

时间暂停学院动漫（求停止时间学院动漫全集）

每日看点!蒋圣龙：怀念在国青与希丁克相处的时光外租两年对我帮助很大

昌吉州领导巡查调度高考准备工作天天快看

高考考生们看考场当前滚动

热文：孟晚舟：万物正走向可感知、互联、智能数字孪生世界正在构建

掘金全队聚餐，2大奇兵入镜！巴特勒却去花天酒地，热火G3危险了报道

曝湖人想留下拉塞尔，佩林卡愿意给1.2亿美金，2个原因曝光环球热议

CBA乐透抽签出炉：富邦火箭喜提状元签清华莺歌广工魔兽皆是佳选世界热头条

深公司早报｜得润电子获得国际知名汽车客户开发定点项目、迪阿股份5月新增自营门店1家、力合微发行可转债获证监会注册批复世界新消息

全球快播：国信期货：估值优势渐显生猪逢低买入

科教融汇如何“融”怎样“汇”澎湃新闻专访环球网校CEO伊贵业

河南获嘉县：“托管服务”帮助降低成本农户省心省力又增收天天报资讯

流产后出门可以让女性重新获得自信全球热讯

九江广场舞梨花颂：广场舞梨花颂？天天最资讯

艾草暖宫贴有助于缓解痛经疼痛世界速讯

数读高考的理论与创新已催生3000篇博硕论文与190项专利

一个小孔可能致发动机起火福特汽车召回12.5万辆汽车环球速读

热点！vivo与诺基亚专利纠纷：产品下架上诉申请悬而未决

对话私募：判断估值的多因子天天快播报

中国气象局：未来两天麦收区多晴好天气利于小麦抢收和晾晒

韩国出租车司机电视剧（宋扬司机电视剧）微资讯

物业管理委员会和业主委员会的区别民法典（物业管理委员会和业主委员会的区别）

学院中暂停时间百度网盘（学院中暂停时间动漫迅雷）

彩金群英会金币价格今天多少一克（2023年06月07日）天天热资讯

世博如意金条价格今天多少一克（2023年06月07日）快资讯