AI做西游记,唐僧都调上情了
大家好,我是川哥。
周六晚上八点,我会在视频号上分享一场内部直播,主要分享几个搞钱项目,比如抖/快无人直播带货、小红书引流变现、IP合伙人项目等等,务必不要错过,抓紧预约!错过无回放!!
以下正文:
这两天,刷B站的时候,被一条很新的视频给硬控住了。
西游记的经典角色,在一本正经地唱情歌MV。
这画风,你们感受一下。
刚刷到的时候,觉得还挺上头的,一口气连刷了好多条。
结果手一滑点进一个作者主页,直接给我整愣住了。
不到两个月的时间,总共发了20多条作品,每条都是类似的视频,西游记的经典IP形象唱MV。
粉丝,已经涨到四十多万了。
说真的,现在 AI 做这类视频的质感,很多人已经分不清这是拍的还是AI生成的了。
看完之后我也照猫画虎,复刻了一条“紫霞仙子”的录音棚直拍片段。
其实制作流程还蛮简单的,门槛没有想象的那么高。
核心就三步:
AI重绘 + Suno生成音乐 + 即梦对口型。
第一步:画图
视频好不好看,70%取决于第一帧。
所以我们第一步要做的就是,先搞定画面。
方法也很简单,就是直接去网上找一张经典IP的形象,比如紫霞仙子。
然后上传给AI重绘。
这一步其实很多 AI 画图工具都能做。
像即梦、GPT-4o这些,只要能比较好地保持人物一致性,都能拿来用。
当然,实测下来,GooGle 最新推出的 Nano banana pro 细节把控是最好的,非常到位。
但如果你现在用不上 Nano banana pro,也没关系。
豆包或者即梦,画这种风格的人物,也完全够用了。
比如这张图片就是用即梦生成的,虽然不能完全保留人物特征,但效果也大差不差了。
Prompt的话,这里给大家总结一个万能公式,你可以直接套模板:
保持人物形象不变。
场景为【现代录音棚】,背景包含【模糊的音箱、调音台、隔音墙】。
人物动作为【侧脸/三分之二侧脸特写】,面对【专业电容麦克风和防喷罩】,神态【专注、温柔、略带微笑】。
【白色柔光,电影感布光,浅景深,背景虚化,皮肤细腻光滑,8k超清细节】,比例【16:9】。
这段话的核心就是四个点:
人不能变、场景现代化、光影氛围要到位、画面比例统一。
生成个几张,挑一张你最满意的,就可以进入下一步了。
第二步:Suno生成MV歌曲
生成音乐之前,要先制作一份歌词。
这一步我一般会先让 GPT 帮我写一个写歌词的提示词。
然后把这个提示词,再丢给豆包去写歌词。
这个是我用GPT写出来的提示词,你可以简单参考一下。
为什么中间要绕一下,用豆包而不是直接用 GPT 写歌词呢?
因为中文歌词的韵脚和节奏,豆包现在整体更好。
国外模型写中文歌,最常见的问题就是,句子看起来没问题,但唱起来拗口,押韵也总差半拍。
豆包这块儿,至少在押韵上,会更贴近中文听感。
有了歌词之后,把整段词扔给 Suno,让它帮你谱曲 + 演唱。
设定一下风格,比如抒情流行、金属摇滚之类的。
Suno 会一次性生成四首歌曲。
说真的,每首歌曲的旋律听起来都有一种又好听又熟悉的感觉。
放几个片段在这里大家可以听一下:
第三步:即梦对口型
对口型这块,其实也有不少开源方案。
比如 GitHub 上挺火的 Infinite Talk,效果也不错。
就是对电脑配置要求,真的离谱。
我这台用了快 5 年的 3060Ti,跑一下直接可以原地起飞了。
所以,比较实用的方案还是即梦AI的数字人功能。
把刚才我们生成好的图片和音频上传进来,即梦就可以根据音频内容自动对口型。
这一步有两个点需要注意一下:
一是音频时长不能超过 30 秒。
所以需要提前把整首歌裁剪成 20~30 秒的片段,分几次做对口型。
二是最好提前做人声 / 伴奏分离。
只用人声部分去做对口型,嘴型会更准,表情也更自然。
很多分离工具用起来都很傻瓜,直接搜人声伴奏分离就能搜到很多工具,或者直接用剪映也是可以的。
到这一步,其实整个视频已经成型七七八八了。
最后,就是把生成好的视频导入到剪映,简单剪辑一下。
根据音乐的节奏,把视频和完整音乐拼接到一起,卡准起承转合。
再加一点简单的镜头运动,比如轻微推拉、晃动,还有字幕、光效,就够用了,不需要花里胡哨的转场。
这类视频,本质上卖的是角色+情绪,不是炫技。
做完一整套下来,其实门槛真的没想象的那么高。
也就是说,像这种级别的MV,以前可能需要一个小团队,但现在通过几个 AI 工具的组合,就能轻松实现平替甚至超越。
你可以用《西游记》去演绎甜歌情歌,也可以让《红楼梦》里的角色唱一段说唱,甚至让漫威的超级英雄们组个摇滚乐队。
IP 可以无限混搭,剧情可以无限乱炖,玩法无穷无尽。
你脑子里那些天马行空的脑洞,或许就是未来的第一生产力。
推荐阅读:
最后,没加我微信的务必扫码加我微信,有很多不方便公开发公众号的搞钱案例,关于无人带货,AI搞钱,副业项目等资源;
我都会分享在朋友圈!