中国国家标准咨询服务网 >> 从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

标准,标准咨询,,行业标准,地方标准,国标标准,标准服务,标准信息,标准代译标准频道已成为国际互联网上最大的标准咨询服务门户网站，提供行业标准、地方标准及国际标准、国外标准的全方位咨询服务。网站在为用户提供信息内容服务的同时，坚持以信息资源建设为核心，努力发展成为标准信息服务提供商，开发独具特色的信息处理方案和信息增值产品，为用户提供从数据、信息到实际生产贸易活动的服务和解决方案，服务于国民经济信息化建设，推动标准化的可持续性发展。

您现在的位置： ChinaGB标准频道 >> 热点新闻 >> 国内新闻 >> 正文

从“无到有”走向“有到优” 国产视频生成大模型渐入佳境

作者：佚名文章来源：经济参考报点击数：374 更新时间：2024/8/9

【发表评论】【打印此文】【关闭窗口】

文生视频大模型Sora诞生半年后，它的中国“挑战者”列队登场，争夺下一张AI杀手级应用的“船票”。过去一个月，4款国产视频生成模型陆续上线、走向大众。

与Sora仅释放小样、未开放使用不同，中国的视频生成大模型发布即上线，便于使用者“拿来就用”。眼下，在应用端，一批内容创作者已初尝“会打字就会生视频”“生视频不求人”的乐趣；在技术侧，还有一批孵化中的视频生成模型正在路上。尽管国产工具还不具备一次性“分钟级”的生成能力、无法实现比肩实拍的“无缝”“丝滑”，但视频生成已解决了“有”的问题，逐步向“优”进化。

想象力“动”起来

最近，文生视频赛道挤满了强有力的中国选手。7月下旬，我国人工智能独角兽智谱AI推出视频生成模型“清影”、爱诗科技发布视频生成产品PixVerse V2、生数科技上线视频生成模型Vidu的同时，快手6月发布的“可灵AI”已积累百万用户。

“Sora还停留在实验室的小样阶段，国产视频生成工具已密集上线，并向C端开放使用，令人振奋。”北京大学深圳研究生院信息工程学院助理教授、博导袁粒说。

Sora的中国“挑战者”有何本领？

清晨，大熊猫坐在湖边弹吉他、兔子在餐厅里看报纸、袋鼠和金丝猴在一旁吃早餐，然后去动物城的运动场上集合，观看一年一度的自行车大赛……这部由可灵AI生成的动画微电影，尽管时长只有62秒，却表现出了对现实世界物理规律（反射定律、重力定律等）的理解与呈现能力，以及一定的想象力与故事的实现能力。

进入“奥运时间”，不少刷屏朋友圈的、可衔接不同场景和运镜的短片，也同样出自国产视频生成大模型之手。

“视频生成，简言之是通过生成式AI技术，将文本、图片等多模态输入，转化为视频信号。”快手视觉生成和互动中心负责人万鹏飞说，“与过去我们常见的相机拍摄、图形渲染获得视频的方式不同，视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本，达到更高的内容自由度。”

进入Vidu的视频生成页面，记者体验了“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”，在对话框里输入想要生成场景的文字描绘，点击“生成”键，一条栩栩如生的短视频就自动生成了。从进入页面到下载完毕，不足1分钟。

一名技术负责人告诉记者一个“生成秘籍”：“试试‘镜头语言+建立场景+细节描述’的提示词公式，不出5次就能获得想要的视频内容。”比如，在对话框中输入“写实风格，近距离，老虎伏在地上，身体微微起伏”的文本。1分钟后，一段视频出现在屏幕上：微风拂过的草地上，老虎的身体随呼吸起伏，它的毛发、胡须随风而动，甚至能“以假乱真”。

视频生成技术的快速迭代，建立在对生成内容效果的精准评价之上。如何区分视频生成模型性能的优劣？“一看可控性，即生成内容与输入文本的对应程度；二看稳定性、一致性；三看合理性，即生成内容是否合乎物理规律；四看风格、审美、创意；最后一点，看生成的实时性。”香港大学计算机系教授、欧洲科学院外籍院士徐东这样归纳。

成本降下去速度提上来

国外网友已经用行动表达了对中国自研视频生成模型的赞许，不少Twitter账号发布的文字已经配上了可灵AI、清影AI生成的视频。

“坦白说，现在技术还没有到成熟的阶段，视频生成模型的技术天花板高，可以提升的空间大。但是，我们看到了影视、动画、广告、游戏行业的痛点：制作周期长、制作成本高，而这是技术可以努力解决的。”生数科技联合创始人、首席执行官唐家渝告诉记者。

一项技术想要成为“刚需”，须在增强可用性、可控性的前提下降低成本。作为直接拉低创作与制作门槛的技术，视频生成模型的出现，让影视动画从业者看到了“小团队制作动画”“小成本内容创作”的春天。

“创作AIGC（生成式人工智能）动画短片是一次有趣的经历。我们先是有了一个创意，把它画成故事版，然后用AI生成图像，再用Vidu把图像生成了视频。”北京电影节AIGC短片单元最佳影片得主、Ainimate Lab AI负责人陈刘芳告诉记者。

视频生成，将让科幻、奇幻、动画不再是大厂才敢玩的“烧钱游戏”。陈刘芳说，用上Vidu之后，制作周期与制作成本的降低堪称显著。

“拿动画短片《一路向南》来说，创作团队仅由三人构成：一名导演、一名故事版艺术家和一名AIGC技术应用专家。而传统流程需要20人，包含导演、故事版、美术、建模、材质、灯光、渲染等不同‘工种’，周期在一个月左右。这样算下来，成本降低了90%以上。”陈刘芳说，当然，目前视频生成技术的精致程度还不够，约为传统动画性能的三分之一。

然而，更低的成本、更高的效率，已让传统的影视、动画、游戏从业者感受到技术颠覆前夜的凛冽。“‘人人成为设计师’‘人人成为导演’的时代将会到来，就像当年进入‘人人拥有麦克风’的时代。”智谱AI首席执行官张鹏说。

“这对于动画行业而言，是挑战，也是机遇。比如一名武林高手，哪怕用最简单的武器、最普通的招式也会威力十足，核心在于他的内功强大。对于动画行业而言，‘招式’好比新技术，‘内功’则是创意、是视听表达、是对审美的品控判断。”中国传媒大学动画与数字艺术学院教授、动画系主任艾胜英说。

技术固然带来了性价比更高的工具，但也凸显了创意的关键作用。“当影视、动画、游戏的制作环节投入占比大幅降低后，比拼的就更加是创意。”陈刘芳说。

“炼”一个杀手级应用

大语言模型敲开生成式AI的大门后，视频作为图像模态的再扩展，将AIGC的技术推向高潮，也让AIGC的应用离大众越来越近。

当前，全球视频生成的技术路线主要有两种：一种是扩散模型，这其中又分为两类，一类是基于卷积神经网络的扩散模型，如Meta的Emu Video、腾讯等推出的VideoCrafter；另一类是基于Transformer架构的扩散模型，如生数科技的Vidu、OpenAI的Sora、快手的可灵AI等。第二种是自回归路线，如谷歌的VideoPoet、Phenaki等。

“国内视频生成的主流选择是基于Transformer架构的扩散模型，这一架构能使模型在处理语言、计算机视觉、图像生成等领域表现出扩展能力，遵从‘规模定律’。”徐东说。

这一选择也意味着，更大的算力、更高的质量与更大规模的数据，以及复杂的算法。

“首当其冲的是算法。视频在图像的基础上增加了时间维度，算法的复杂程度会指数级增长。”徐东说，数据、算力一定的条件下，模型性能关键在于算法的能力，取决于算法人才水平的高低。

其次，最为缺乏的是数据。“视频生成强依赖于数据。与文本数据相比，视频数据的积累难度更大。数据的质量提升，不仅包括视频的解析度、风格、分镜、组合、连续性等，还包括数据的清洗、筛选、处理。”张鹏说。

视频生成模型更是“吞卡巨兽”。从Sora的实践来看，持续提高模型的数据量、参数规模，迄今依然是AIGC进化的核心。中信证券测算，一个60帧的视频（约6至8秒）大约需要6万个Patches（补片），如果去噪步数是20的话，相当于生成120万个Tokens（词元）。考虑到扩散模型在实际使用中需多次生成，实际计算量会远超120万个Tokens（词元）。

“大模型参数正以每年十倍的速度增长。不论对科技企业还是研究机构而言，如何持续训练高性能的模型，依然是巨大挑战。但与此同时，C端的‘杀手级应用’让人充满期待。从创意的生成，到图片、音乐、视频的制作，AI都将有大施拳脚之地。未来，视频制作也许就像今天做PPT一样简单便捷。”北京智源人工智能研究院院长王仲远说。

文章录入：user5 责任编辑：user5

上一篇文章： 2024世界智能网联汽车大会：将首发十大突破十大趋势

下一篇文章：三部门：实施一批算力与电力协同项目

网友评论：（只显示最新10条。评论内容只代表网友观点，与本站立场无关！）

网站介绍

没有相关文章

专题栏目

· 闪联标准晋级国际标准  · 高清标准战升级
· 中外标准对垒刀片服务器  · 文档格式标准之争
· 手机电视的标准之争  · 数字电视
· 中国的3G之路

免责声明：

本网转载内容均注明出处，转载是出于传递更多信息之目的，并不意味赞同其观点或证实其内容的真实性。