跳上“火箭”奔向未来

作者:王姝 来源:中国新闻出版广电报 时间:2024-02-28

  在国内多数人沉浸在龙年春节的欢快中时,美国人工智能研究机构OpenAI用一段60秒的生成视频惊艳全球,并由此发布了他们的首款基于文本的视频生成模型——Sora。瞬息之间,风云变色。作为ChatGPT的开发公司,OpenAI这一次带来的冲击和震撼显然更加猛烈,一部分人赞叹其为“核弹级成果”,另一部分人则惊呼“现实,不存在了”。全球影视行业更是一片哗然,大有黑云压城城欲摧的紧迫和焦虑感。其实,在现阶段出现的Sora之于影视行业,最多像是山雨欲来风满楼。

  就Sora可能会给行业带来的影响力或者摧毁力,业界更多感知到的是因兴奋而产生的焦虑:你知道有一枚火箭即将发射去往未来,但当下的你无法知道自己如何能够搭上这枚火箭。这其实就是一种积极拥抱的心态,只是影视人想要加入的路径尚未清晰。

  其实,在Sora正式亮相之前,大部分全球头部科技企业都已经拥有自己的文生视频大模型。从2023年年底开始,文生视频模型陆续发布重大进展:11月3日,Runway发布Gen-2更新,支持4K清晰度作品;11月16日,Meta发布Emu Video;11月18日,国内的字节跳动发布Pixel Dance;11月21日,Stability AI发布生成式视频模型Stable Video Diffusion。今年1月,谷歌发布视频生成模型Lumiere,专门用于将文本转换为视频。只不过,在生成视频时长、实现单视频多机位、拥有精准物理规则的真实世界等技术层面,Sora堪称“碾压式”领先其他文生视频模型,实现了隔代超越。

  Sora并未使用与过往不同的新技术,几乎所有技术都是已经公开的。以其使用的DiT架构为例,国内的一些研发团队在去年就开始应用了。但Sora所用的视频生成方式对算力要求极高,这种对算力和资金消耗极大的方式,大幅提高了同行跟进的门槛。客观评估,不仅是国内的研发团队,即便是包括Runway、Pika等在内的国外团队,短期内也很难追赶,更遑论超越。但这只是单纯就技术作出的判断,而非就技术应用给出的结论。

  生成视频是否具有可控性,是其能否被引入影视工业流程的重要考量。业内资深的视效总监李智勇认为:“从现阶段的样片看,已经能满足一部分电影内容的需求,但凡是不需要连贯性的内容创作,Sora都非常有优势。再退一步,用来制作参考内容,做一些探索,Sora也很有效率。”也就是说,现阶段将该技术用于制作动态预览以及美术、视觉参考是可行的,但影视制作流程中的重头部分恰恰并不在这里。同时,浙江大学CAD实验室研究员邹常青也认为:“人物表情、动作、情绪,这些导演要传达的东西是AI几年内很难理解并直接取代的。”

  从技术应用的规律来看,任何一项新技术从突破到应用,再到产生市场价值并改变行业发展,都会是一个漫长的过程。哪怕这个过程随着科技的快速发展而大幅缩短,“达尔文之海”也依旧存在,科技成果转化落地应用的规律和难点依旧无法回避。电影已经有100余年的发展历史,电视亦经历了将近百年的发展历程,对一个成熟的行业来说,其严整的流程是很难被瞬间推翻或摧毁的,更可能的更新方式是逐步替代。而逐步替代,正是每一个乐于拥抱新事物的人能够享有的机会。

  “视效公司不等于技术公司,更不等于人工智能公司。”作为国内头部视效公司MOREVFX的创始人之一,徐建面对技术冲击时的心情其实很矛盾。这种清晰的“不等于”恰恰是科学与影视融合推动“技术赋能”的价值和空间所在。强调影视行业对技术开发的关注、参与和互动,其核心并不是要求影视行业去理解技术背后的逻辑,强迫所有人熟悉技术的底层算法与架构。在这一互动模式中,影视行业更多是作为使用者参与这一变革,推动相关技术发展的方式是提出需求,给出技术进化的方向,发现技术在应用中的不足甚至是潜在风险,由此丰富技术团队对于自身技术的认知。在这一过程中,打破原本上下游的单一关系模式,以互动实现技术与用户的联通,也实现了科技与影视发展的融合。

  芳林新叶催陈叶,流水前波让后波。如果新技术意味着对行业已有模式的必然颠覆,那么,以Sora为代表的新技术终将成为人类的工具,我们与其在不确定中恐慌和焦虑,不如大胆一些前进一步,跳上那枚“火箭”,成为技术变革中的重要一环。

  (作者系中国科学与影视融合项目发起人、《流浪地球2》科学团队制片人、中国科普作协科学与影视融合专委会副主任)