新闻中心
与美摄一起,让世界变得更加精彩
你现在的位置:首页 > 新闻中心 > 产品资讯 > AIGC,让画中人活起来

AIGC,让画中人“活”起来

自ChatGPT-3发布以来,AIGC界重磅消息不断,各路玩家争先恐后推出吸引眼球的新产品、新功能。近日,微软再次突袭发布了新版Bing Chat,带来多项重大更新:支持多模态问答,交互方式由原本的纯文本升级为图文并茂模式,并支持一百多种语言;支持保存历史聊天记录,接续此前的问答继续提问,以及聊天记录导出;向第三方开放插件平台,实现如餐厅订位等更多复杂功能……

其中,支持多模态问答这点颇为吸睛。在原本的Bing和ChatGPT中,用户只能使用纯文本与AI交流。现在,用户可以在提问时上传图片、视频,AI回答时也可以融入图表、图像、视频等元素。同时,微软还将Bing Image Creator集成到了新版必应中,这是一项基于文字生成图像的服务,于今年3月份正式上线,底层采用了由OpenAI提供的高级版DALL∙E模型。用户只需用文字描述想要的画面,即可生成对应的图像。

AIGC正飞速发展,与之相比,元宇宙似乎已经偃旗息鼓。事实上,AIGC与元宇宙并非此消彼长的关系,AIGC的发展恰恰为元宇宙提供了进一步成长的机会。以元宇宙中的虚拟化身为例,曾经需要设计师耗时耗力完成的形象设计,如今借助AI的力量,所需时间和步骤都大大减少。其中包含语音驱动、动作驱动和换脸三个关键技术。

语音驱动:利用语音去驱动口型和面部表情,生成口播视频,代表产品有虚拟直播、“活照片”等;

动作驱动:基于源视频输入的动作和口型、表情等,驱动目标视频人物做出相同的动作、表情和口型;

换脸:将目标视频中的人脸换成某个指定的形象,并且保持目标视频中人物的动作、表情、口型不变。

神话故事中常有这样的情节,画卷上的人被施了法术之后变得会动、会说话,如今AI让这一想象成为了现实。基于虚拟视频生成技术,美摄科技拓展了一系列AIGC虚拟数字人生成方式,通过综合运用计算机视觉、图像处理和深度学习等技术,实现虚拟视频快速生成。

- 照片生成数字人

用户只需上传想要的播报文本和一张带有人脸的照片,AI可以将照片转化为动态数字人播报视频,并支持中文、英文、法文、日语多种语言,合成逼真的音频效果。

- 视频生成数字人

用户上传想要的播报文本和一段主播出镜的视频,AI可以将原视频中的语音替换为用户提供的文本内容,并配以自然的口型。

- GLB模型生成数字人

GLB文件是以图形语言传输格式保存的3D模型,它以二进制格式存储有关3D模型的信息,包括节点层级、摄像机、材质、动画和网格。在以GLB生成数字人形象时,可以先将其转换为美摄自研的3D文件格式“.ARSCENE”,转换后的效果包可以通过美摄SDK在不同的平台上实时渲染驱动。

目前,数字人已经广泛应用于手机、汽车、智慧大屏等设备中。在形象生成之外,数字人与ChatGPT等AI工具的结合也将在更多领域带来更好的用户体验。

一是在智能助手问答方面,AI可以扩充数字人的知识储备。当数字人语音助手将ChatGPT的混合语义理解能力和美摄自研的语音交互系统集于一体时,可以对用户提出的一些开放性问题给出更好的应答。

二是在内容创作方面,ChatGPT与视频剪辑、数字人相结合可以革新视频内容创作。用户只需填写一句话,设定好要求,系统就可以通过ChatGPT返回分镜脚本,并从中提取所需标签,由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐的视频素材,一键套用模板,直接生成预览视频,极大提高视频创作效率。

AIGC目前仍在如火如荼地发展中,面对微软接连不断的大招,谷歌等大厂将作出何种回应让人倍感期待。美摄科技将持续追踪AI发展动态,融合前沿技术,打造创新产品,推动AIGC工具在更多领域业务场景中落地。

免费试用
WeChat
WhatsApp
邮件咨询