Sora来了,会砸掉你的饭碗吗?

作者:韩博 胡正荣 来源:中国新闻出版广电报 时间:2024-02-28




  美国当地时间2月15日,知名美国人工智能研究公司OpenAl又放“大招”,其发布的Sora视频生成模型让人工智能生成视频的能力有了跨越式发展。AI生成的视频,从早期的固定画幅、短时间、低像素组合型生成,发展到如今长达1分钟、画幅可调整、高清且初步具备现实场景的完整制作能力。这一变化引起科技界热议的同时,也引发广电业的强烈关注。Sora等人工智能是否会“消灭”广电行业?面对更加“真实”的人工智能生成内容,新闻真实、新闻伦理如何重构?广电业又该如何应对“危机”的到来?这需要我们从底层逻辑上解析Sora,从中找出应对之策。


  核心关键点:向“世界模型”更进一步


  表面上看,Sora的主要目标是实现文生视频的视频制作功能,但真正引发社会广泛关注的点似乎超越了视频生成这一范畴,反而更关注其官方技术报告中提到的“新的模拟能力”。根据OpenAI文生视频模型Sora的官方技术报告显示,这种模拟能力包含以下几个方面:

  其一,是3D 一致性。Sora能够像现场摄像一样,生成类似于“拍摄”出来的长镜头。在这一过程中,人和物之间的关系基本保持协调一致,近大远小、出画入画等基本规律与现实拍摄无二。其二,是拍摄对象持久性。在正常拍摄过程中,拍摄对象不会因为镜头移开就消失不见。Sora在视频制作过程中保留了这种特征,生成视频中的元素经过遮挡镜头的元素后仍保留在自身位置,且可独自进行符合其特征的活动,实现了人工智能生成物的独立与鲜活。其三,是与世界互动的能力。Sora有时能自主模拟较为简单的物理性关联行为,如画家画笔挥过,有新的内容生成,咬一口汉堡,面包上留有痕迹等。其四,是模拟数字世界。根据建构规则渲染数字世界,根据数字世界规则操纵其中的数字人物进行“冒险”,探索数字世界。

  这些新的模拟能力,将人工智能的内容输出能力从文字、图片,提升到视频层级,也代表着其“解读”世界的能力,正在从二维向三维过渡。因此,Sora可以被视作“世界模型”征程的新起点。“世界模型”的主要目的,是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测(图像、状态等)和即将采取的动作,根据模型对世界的记忆和理解,预测下一个可能的观测(图像、状态等)和动作,并通过采取动作后,捕捉下一时刻的实际观测和预测观测之间的差异。简单来说,就是感知、模拟、预测真实世界。

  这种努力从图灵测试到马文·明斯基建造的第一台神经网络机SNARC,再到ChatGPT、Sora,一以贯之。这些努力实质上都在尝试推动拟态环境真实化,使人类具备“创造”世界的能力。在不少神话故事中,“创世”是神最重要的工作,但人类正在通过人工智能等技术手段逐步实现这一“神圣”的工作。不少专家学者指出,Sora只是二维视觉的压缩扩散和时空表达,不是物理引擎,也不是“世界模型”;Sora官方的技术报告也公开承认其具有明显的局限性,特别是不能准确地模拟许多基本相互作用的物理过程。但可以明确的是,人工智能除了通过文字描述了解世界外,多了对世界更直接的观察和感受。如果在未来实现了世界的甚至只是部分世界规律的人工智能模拟,就预示着人类已经逐步“吃透”某些世界规律,在“虚拟创世”的路上更进一步。与快速输出视频、缩小通用人工智能(AGI)的实现时间等“生产性”意义相比,也许这才是Sora真正令人振奋的核心关键点。


  现实冲击:替代与伪造


  向“世界模型”迈进是Sora的宏观意义与影响,其现实冲击依然要落在其基本功能——视频生成上。这就对输出视频内容的广电行业产生了巨大的冲击。综合来看,Sora的视频输出包含几个基本特点:

  其一,是“文生长视频”。通过用户提示语,可以生成高品质长视频,虽然目前的输出时长仍有1分钟的限制,但这至少意味着其具备了长视频的生产能力,更长时间的视频输出在未来并不困难。其二,是多镜头展示主题内容。在同一条视频中,类似多个镜头切换的播放效果生成的同时,可保持观赏的连续性。其三,是强大的理解能力。能够自主创造出复杂的人物表情、场景组合、运镜。其四,是“图生视频”。通过现有图片生成动态视频,补全视频之间的空缺,实现视频转场。

  从产业链的角度,特别是现在广播电视学的基本业务分类——采、写、编、评、摄的角度来看,广电行业从业者特别是摄影、导演、剪辑人员,面对Sora等人工智能视频生成工具,或将面临结构性失业问题。不可否认,一部分内容生产过程属于经验性、重复性劳动,存在较为明显的规律性与数字化可行性。而随着剪辑手法、运镜手法的数据化,Sora等工具可逐步替代这些工作,且完成质量将明显优于一般工作人员。类似于短视频制作过程中大量的人工智能配音取代人工配音,简单的重复性劳动被机器取代是人类社会智能化过程中不可避免的基本规律与过程。

  在新闻伦理方面,“有视频有真相”将不复存在。Sora在模拟世界的进程中前进了一大步,相较于“贴图”“换脸”“变声”等技术手段,这类软件的能力堪称“逆天”。Sora等人工智能视频生成工具,其能力已经从深度伪造(deep fake)升级到真实伪造(real fake)。面对真实伪造,基于物理性质、拍摄手法、场景分布、图层分析等视频检测手段的有效性将大大降低,新闻真实性将受到巨大打击。未来,如何区分拟态真实和现实真实,将是广电业保证内容真实性的关键所在。

  人工智能的视频内容输出方面,内容偏见问题依然严峻。从Sora公布的官方技术报告来看,其生成的场景以欧美为主,人物亦是如此。虽然也通过日本元素、唐人街舞龙等融合生成了一些内容,但其关注的重点内容仍然是欧美地区用户拍摄视频反映的重点,场景构建亦是如此。换言之,这些基本视频素材都是非国产内容,连一根青草、一片云都是“欧美”草、“欧美”云。


  区别人工智能:打造“真实”赛道


  当前,深度学习模型的最大限制是没有长时间的持久化记忆,只能在当下“就事论事”。值得注意的是,就在Sora正式公布的两天前,2月13日,OpenAI公司在一篇最新博客文章中表示,该公司正在测试一项名为“记忆”的功能,使ChatGPT能够记住用户的对话特征。这一消息被Sora的光芒所掩盖,但实际上,意义十分深远,这意味着ChatGPT已在“默默”补全深度学习模型的不足,最终将实现人工智能输出内容的“千人千面”。面对如此发展的人工智能,未来广电业面对的冲击将更加强烈。从Sora代表的人工智能逻辑机制出发,也许可以从以下方面未雨绸缪,提前布局以应对人工智能危机。

  培养富于逻辑思维、强于形容的编导人员。Sora等人工智能工具,定位非常清晰——在人类的指导下进行工作的工具。相应的,顺应工具运行特点的工具语言是否“顺畅”,甚至是更好发挥工具作用的关键。聚焦网络中流行的Sora生成视频,其提示语如“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”“电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐漠,电影风格,用35毫米胶片拍摄,色彩鲜艳”等。不难发现,其整体形容文字是具有描述性且富于逻辑的。Sora在官方技术报告中指出,“对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量”。针对一般用户描述性不足的话语,甚至可以“利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型”,以生成高质量的视频。可见,描述性对于人工智能工具而言至关重要。使用者的逻辑性、目的性,特别是其用语言对场景进行形容的能力将直接影响输出结果的质量。同样是汽车,驾校学员、老司机、赛车手,在驾驶上展示出的效果各不相同,人工智能工具运用亦是如此,应提前进行系统化、实操化培训,高校也应设置相关课程,以实现对Sora等工具“拿过来就能用”,用就能用好。

  打造区别于人工智能内容的真实性、人工生成内容赛道。在超市采购过程中,我们会看到非常平常的一幕,不少食用油、豆制品等,将使用“非转基因”原料作为宣传重点在包装上突出呈现。相较于其他产品,这些产品往往价格更高,但仍有不少消费者愿意选择。类似的情况,面对人工智能生产内容,人生产的内容也将显得“弥足珍贵”。而内容生产正是广电行业的优势与专长。广电业需要做的是继续深耕内容,做出区别于人工智能生产内容的新赛道。初步来看,再真实的模拟,依然是元素的组合,而非真实发生的社会过程,保障内容的真实性将直接击中Sora等人工智能生产工具的“死穴”。在涉及群体利益、个人得失等方面,人们对真实、准确、权威信息的追问,给了广电业不同于人工智能工具的生存空间。关键在于广电业能否继续坚持立足实践的内容输出,生产出的内容是否符合人民群众对信息的需求。脱离群众,脱离实践,只去比拼“炫酷”,无疑是自废武功。坚持打造真实性、人工生成内容赛道,就是在对抗虚假新闻,对抗真实伪造,以正向信息冲击虚拟、虚假信息泛滥。

  在Sora等人工智能生产工具“辈出”的年代,立足中国实践的人工智能生成内容是我国广电业必选项,既是代表中国立场、观点,又是保卫文化自主权的应有之义。从Sora等人工智能工具的开发来看,OpenAI曾“雄心壮志”地表示,要继续花7万亿美元进行投资。这也从侧面反映出,人工智能开发的“烧钱”程度。仅靠某个广电集团来完成这一过程显然是不现实的,靠某个科技集团来实现也较为困难。人工智能时代,我国面临深度的中国内容生存危机,一方面,国内算法尚未追赶上ChatGPT 4.0等先进水平;另一方面,优质中文语料匮乏;再配合上Sora等人工智能生产工具不断输出训练自欧美材料的内容,中文信息在人工智能时代的生存权正在受到严峻挑战。建立开源的中文语料联盟,助力权威中文素材库走向世界,推动中国算法、中国人工智能生成内容刻不容缓。这需要集中力量办大事,需要台与台之间的横向联盟、台与网之间的深度整合,需要掌握核心内容的广电业与掌握算法研发的科技公司之间进行深度合作。

  (作者韩博系中国社会科学院新闻与传播研究所助理研究员,胡正荣系中国社会科学院新闻与传播研究所所长)