当前快报:南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)
孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。
本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。
(资料图片)
之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。
和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。
对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。
Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。
进入到Stable-Diffusion的项目目录:
cd stable-diffusion-webui
启动服务:
python3.10 webui.py
程序返回:
Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr 5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)] Version: v1.3.0 Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3 Installing requirements Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml LatentDiffusion: Running in eps-prediction mode DiffusionWrapper has 859.52 M params. Running on local URL: http://127.0.0.1:7860
代表启动成功,随后http://localhost:7860
选择插件(Extensions)选项卡
点击从url安装,输入插件地址:github.com/Winfredy/SadTalker
安装成功后,重启WebUI界面。
接着需要手动下载相关的模型文件:
https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。
接着配置一下模型目录的环境变量:
set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/
至此,SadTalker就配置好了。
edge-tts音频转录之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。
这里使用edge-tts库进行文本转语音操作:
import asyncio import edge_tts TEXT = """ As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it. My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes. Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring, unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song. You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response. Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable. At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day. In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough. With this I fare thee well. """ VOICE = "en-HK-YanNeural" OUTPUT_FILE = "./test_en1.mp3" async def _main() -> None: communicate = edge_tts.Communicate(TEXT, VOICE) await communicate.save(OUTPUT_FILE) if __name__ == "__main__": asyncio.run(_main())
音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。
随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。
本地推理和爆显存问题准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860
这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。
生成效果:
SadTalker会根据音频文件生成对应的口型和表情。
这里需要注意的是,音频文件只支持MP3或者wav。
除此以外,推理过程中Pytorch库可能会报这个错误:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
这就是所谓的"爆显存问题"。
一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60
如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:
ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav
藉此,就解决了推理过程中的爆显存问题。
结语和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。
标签:
推荐
- 当前快报:南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)
- 家装循环水(家装循环水正规做法是什么) 天天观焦点
- 格罗西:国际原子能机构专家组将赴扎波罗热核电站考察
- 必须等!多位记者:巴萨不能立即签梅西,是否继续等待取决他自己
- 镜头下的毕业季丨南华大学毕业生喜迎多彩“毕业礼”
- 苹果向所有用户免费开放iOS 17、watchOS 10等开发者测试版_环球关注
- 世界快资讯:全网恶评,史上最丑的美人鱼《小美人鱼》
- 将工业机器人装配任务从仿真转为现实
- 【环球新要闻】Spotify将裁员2% 主要集中于播客部门
- 高盛下调美国天然气价格预期
- 即时焦点:金锭子_金锭
- “ 2023 中国最具价值品牌 100 强”出炉:华为排名第一! 环球热讯
- 《暗黑破坏神4》回城卡死的解决方法-每日观点
- 图片合成视频软件手机版_图片合成视频软件|天天热头条
- 遵照创始人遗愿,海洋王实控人掏数千万设奖励基金,公司回应-当前热闻
- 秋葵的营养价值有哪些_秋葵的营养价值
- 全球新动态:绿城管理控股(09979.HK):翁美仪获委任为联席公司秘书及法律程序文件代理人
- 6月中国零售业景气指数为50.9% 持续向好预期已形成 当前快报
- 当前最新:合肥机场T2航站楼进入大面积屋面柱和钢梁吊装阶段
- 市场环境分析方法有哪些种类_市场环境分析方法有哪些 天天热闻
- 2018款揽胜传世加长版好不好及揽胜传世加长版发动机好不好
- 陇东学院改名公告_陇东学院吧 天天速看料
- 省减灾办发布高考期间自然灾害风险预警 全力为高考创造良好环境_环球今日报
- 房企退市潮,机构仍重仓:119只基金平均亏3%,谢治宇重仓市值超36亿元
- 今日热讯:文化兴国运兴丨流失文物回归昭示了一个道理
- 网贷无力还款最佳处理方法是什么?无力偿还会坐牢吗-当前热门
- 江苏高考期间最高温34℃ 8日沿江和苏南地区有降雨|环球实时
- 【真相|漫评】面对伸向儿童的“黑手”,山姆大叔装起了鸵鸟|快资讯
- 世界焦点!田园喜乐沈瑞雪_田园喜乐
- 天天日报丨打架致人重伤可以私了吗
- 注意!中交地产:股东重庆渝富计划减持公司股份1115万股
- 青州城投15亿元私募项目状态更新为“已反馈”
- 勇士试训夏威夷大学大五锋线,他会成为NBA历史上首位因纽特人?
- “高考经济”持续升温,但需警惕野蛮生长
- 只为“抢收”!重拾“老本行” 老机手迎来“新任务”
- 中国与突尼斯签订联合考古协议
- 大洋电机:未来技术路线可能是“少用重稀土,多用轻稀土”|天天看点
- 解决MR头显软件生态难题:苹果将推出Vision Pro开发者套件
- 实时:ETF追踪:昨日ETF净申购23.74亿元 资金加仓创业板ETF
- 每日热文:汽车线束导线的选择
- 苏州工业园区成交1宗商地 将打造为金家堰邻里中心、总投资额不低于6.75亿
- 苹果Mac Pro发布:24核心 192G内存 首发M2 Ultra
- 地砖种类及优缺点图解(地砖的种类及优缺点)|独家焦点
- 市值一度涨破万亿却遭“铁粉”背刺,英伟达涨势还能维持多久? 世界观点
- 天天快看:广西!抗旱雨“闪亮登场”,暴雨大雨会出现在广西下列城市
- 环球今热点:今日在NBA2Konline怎么能背后运球转身?
- 前抖音产品负责人Seven加入AI创业公司深言科技_天天快报
- 五部门联合发布《公民生态环境行为规范十条》 世界微动态
- 浦项钢铁盘前涨近2% 与通用汽车将扩大北美电池材料合资工厂产能
- 央广网小记者团关注“六五环境日”
- 仙剑三魔剑养成后快结局了_仙剑三魔剑养成 每日报道
- 容汇锂业IPO透视:成本远高行业均值,盈利前景几何?_实时
- 沙特新航司首架787-9新装亮相!
- 当前报道:中国煤炭运销协会:后期煤炭供求关系可能相对宽松,煤炭市场价格或将继续下行
- 【环球速看料】公安部:2022年以来挂牌督办130余起重大案件
- 联通宽带修改wifi密码步骤192.168.1.1(联通宽带修改wifi密码)
- 世界热讯:建成54年,至今没投用!“北京最神秘地铁站”最新消息
- SNE:全球 1~4 月电动汽车动力电池装车量182.5GWh 同比增长49%
- 华平投资近期将旗下两上海商业地产项目售予红杉中国、平安集团
- 新时达:目前与特斯拉暂无合作|焦点滚动
- 第六届全国大学生焊接创新大赛在洛举办_视焦点讯
- CFTC:截止5月30日当周COMEX白银期货持仓报告 世界今亮点
- 外屏大过iPhone 4 moto折叠新机开售5699元起
- 环球信息:实现稳定跟踪!我国载人飞船黑障区跟踪测量取得重大突破
- 当前楼市冰火两重天!为何有人“跑步进场”,也有人抛售离场?|全球热点评
- 每日播报!最美莫过诗意人生(对于最美莫过诗意人生简单介绍)
- 天天热头条丨文集序言简短范文_文集序言
- 世界球精选!考证交钱获真题?别信!警惕学历提升骗局
- 全球观热点:豪华旗舰新定义 试驾2023款宝马7系
- 新疆生产建设兵团第五师81团_关于新疆生产建设兵团第五师81团简介
- 天天热资讯!为什么炸弹一定要露出几根线,专门让人来剪?丨轻武专栏
- 接发多少钱一般管多久 接发多少钱-环球快播报
- 世界快看点丨人格权主要是指姓名名誉肖像和人身等权利对吗_人格权主要是指
- 泳装精选壁纸第四十二期-环球热点
- 园林绿化工程类账务处理(园林绿化工程如何做账)
- 【报资讯】ChatGPT在前,华为盘古Chat在后
- 职权扩大,TikTok CEO周受资接管Lemon8;爱奇艺计划赴港二次上市丨Going Global
- 浙江力诺将于6月8日解禁8365.6万股
- BYND股票销售增长过快 你应该投资吗
- 服务于宁德时代干线运输任务,新能源卡车新势力DeepWay完成首批次批量交付_观热点
- 社区美食节 居民享口福 环球快消息
- 凌志电动雷克萨斯概念车 看起来像紧凑的城市电动汽车吗
- 天天热点!生死迷情_关于生死迷情介绍
- 上海金园路进口食品批发市场_上海进口食品批发市场
- 全球要闻:官方下载qq邮箱到手机桌面_下载qq邮箱到桌面
- 高考6月7日-9日举行 考生尽量不穿有金属配饰衣物 每日热门
- 神十五航天员乘组安全返回健康出舱-环球微头条
- 台风“玛娃”造成日本1死35伤 多地新干线一度停运-焦点讯息
- A+级SUV价值领跑者 一汽奔腾全新车型T90月内上市
- 世界最资讯丨猪吃盐有什么好处?
- 盘龙城社区(关于盘龙城社区的基本详情介绍)_世界快看
- 世界热点评!仙草冻和龟苓膏哪个热量高_仙草冻和龟苓膏的区别
- 最终目的(对于最终目的简单介绍)
- 要闻:拜登毕业典礼上刚摔了,下飞机又把头撞了!特朗普发声
- 微信来消息时怎么隐藏内容(微信怎么隐藏来信息的内容) 全球热消息
- 快讯:七彩语文配套试卷(七彩语文)
- 菲亚特Joy维修手册 焦点速读
- 青蛙旅行家攻略_青蛙旅行家
- 好看听书网app下载_好看听书网
- 男主在女主那里放东西的小说_有一部小说中 有一幕是 男主角在女主角睡觉中往女主角手里塞了 头条焦点
X 关闭
行业规章
X 关闭