快手可灵:扩展视频行业想象边界

作者:本报记者 李雪昆 来源:中国新闻出版广电报 时间:2024-07-10


7月6日,在2024世界人工智能大会期间,可灵应用再次受到关注。资料图片


  伴随Sora的面世,“挑战者”也正前赴后继地涌现,其中不乏国产大模型的身影。最近,在国内社交平台以及海外推特等平台,大量网友在“求”一个中国视频生成应用的内测机会,这个让国内外网友纷纷关注的大模型就是快手发布的自研视频大模型——可灵。截至7月初,已有累计超过70万人排队申请内测。可灵大模型的发布,不仅代表着快手在AI领域的又一重大进展,也预示着短视频行业即将迎来一次全新的变革。

  《中国新闻出版广电报》记者体验后发现,可灵正以其强大的生成能力和便捷的创作模式,为用户提供一个全新的视频生成解决方案。用户只需输入简单的文本指令,即可让可灵生成高清、高质量、长达3分钟的视频,其分辨率达1080P,帧率达到30Fps,为用户的创意赋予了无限可能。其不仅支持自由调整的视频宽高比,还能够生成符合真实物理特性的运动场景。无论是模拟自然界的物理规律,还是将复杂的概念或想象转化为生动的画面,可灵均表现出了不错的能力。


  创意表达打开新天地


  技术的创新和应用始终是推动行业发展的核心动力。可灵的诞生,不仅实现了技术上的突破,更为用户打开了创意表达的新天地。在技术创新的推动下,可灵以其独特的优势,为用户提供了全新的视频生成解决方案,使得短视频制作不再受限于传统的制作流程和技术壁垒。

  长达3分钟的视频是如何生成的?简单而言,用户使用可灵大模型可以通过文生视频和图生视频两种模式,生成约5秒钟视频,此后可使用视频续写功能,让每次续写都能将视频延续约5秒,最终可实现长达3分钟的视频。同时,每一段续写还能够融入用户的创意和想法,实现场景转换和过渡,用户可对每一段延长的视频添加不同提示词,生成连续长视频。

  对此,天风证券认为,在输出视频的自由度方面,可灵3分钟的内容长度远超Sora的60秒长度。在对文本提示词的体验中记者发现,可灵具备了将复杂概念和想象可视化的能力。通过文本提示词,用户可以引导可灵生成特定主题或情绪的视频,这使得创意不再受限于制作者的技术水平,而是可以个性化地在视频中展现创意。

  例如,当使用一张女孩子的照片生成视频时,模型默认生成的效果可能是微风中她发丝轻轻飘动,周遭花朵摇曳,水面闪烁着细腻的波纹。而如果用户具体输入“女孩转身背对镜头”,视频便会智能添加女孩优雅转身的动作,并细腻捕捉到转身瞬间的微笑和眨眼,展现了自然而生动的细节处理能力。

  再比如用巨龙图片生成视频,输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”,视频便呈现出巨龙昂首展翅掀起漫天黄沙,嘴部开合仿佛在咆哮的生动效果与奇幻场景。通过这种文本与图像的紧密联动,可灵可以将按需定制的视觉叙事提升到一个新高度。

  这也意味着,用户能够更方便地创作出内容连贯、情节丰富的长视频,这无疑扩展了视频创作的边界。

  美国《麻省理工科技评论》也刊文谈道,AI或将颠覆短视频的内容创作场景,将在短期内使创作者受益。从长远来看,以快手为代表的短视频平台有可能接管视频制作,直接为用户生成定制的内容,从而减少平台对明星创作者的依赖。


  实用效果源于技术支撑


  在一段测试倒牛奶的视频中,力学方面的重力规律、液面上升都较符合现实,甚至倒液体时泡沫一直在最上层的特性也被考虑其中。由此可见,可灵大模型在模拟真实世界时,所生成的视频是较符合物理规律的。

  据快手大模型团队介绍,可灵整体框架采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中的U-Net,这一决定大幅提升了模型的处理能力和生成能力,同时也增强了模型的扩展性。在该团队看来,一个优秀的视频生成模型,需要考虑四大核心要素——模型设计、数据保障、计算效率和能力扩展。这其中,在技术创新方面,可灵采用了3D VAE机制和DiT模型来建模复杂的时空运动。这种先进的技术架构使得可灵能够更真实地模拟物理世界中的运动和变化,无论是物体的自然运动,还是复杂的场景交互,都能够生成符合现实世界规律的视频。

  得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型构建起了一个无限逼近现实的想象空间,无论是真实世界的光影反射、重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。比如,只需上传一张牧羊犬追球的静止照片,模型就能生成一段生动的视频:牧羊犬活灵活现地奔跑追逐网球,其耳朵轻轻晃动,毛发随风飘扬,而网球则在空中弹跳,视频整体自然且流畅。

  在AI领域,数据是模型训练不可或缺的基础。快手可灵大模型之所以能够在视频生成方面取得不错的反响,得益于其在数据建设上的深入工作。记者从快手研发团队了解到,他们构建了高效的大规模自动化数据解决方案,其中较为完备的标签体系,可以精细化筛选训练数据,或对训练数据的分布进行调整。该体系从视频基础质量、美学、自然度等多个维度对视频数据质量进行刻画,并针对每一个维度设计多种定制化的标签特征,由此助力了视频内容的高质量呈现。

  就目前而言,市场对可灵的评价普遍积极,他们认为,可灵是真正经过验证且可以直接使用的中国版Sora。同时,在商业前景方面,市场分析机构对可灵同样持乐观态度。摩根士丹利和天风证券等机构分析认为,可灵的成功发布将有望使快手的用户规模和活跃度进一步提升。而随着可灵技术的不断完善和功能的扩展,其在短视频、电商、广告等多个领域也将带来巨大的应用潜力。

  业界普遍认为,生成式AI在视频创作和世界模型的大踏步进步将实现对视频/3D/游戏等下游应用场景的渗透。对此,天风证券预测,在短视频、创作工具、游戏等下游领域,可灵、Sora等AI原生产品有望融入工作流,增强用户体验,降低用户使用壁垒,进一步降低创作成本,并极大拓展创作者能力边界。因此可灵大模型的推出,不仅为用户带来了全新的视频创作体验,也将为短视频行业带来技术革新机遇。