速览人工智能生成内容多种形式

来源:中国新闻出版广电报 时间:2024-03-28

  近年来,AI发展可谓坐上了“火箭”,其极强的生产力带来了“外挂”般的工作效率,对人类社会的生产力和生产效率进行了极强的赋能和颠覆性重构。我们见证了AI带来文生图、文生音乐的进展速度,近日,文生视频也吸引诸多目光。

  2024年开年,OpenAI发布视频大模型Sora,它仅仅根据提示词,就能够生成60秒的连贯视频,以Sora为代表的人工智能,正以其独特的方式,重新定义我们与数字世界的“连接”方式。本周刊为读者梳理了人工智能生成内容的代表性事件以及其在版权领域引发的关注,共同回望其发展足迹。

  01 文生图

  文生图是基于文本通过生成式AI生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的Stable Diffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心·一格也投入商用。

  在国际保护知识产权协会伦敦大会决议中提出,人工智能生成物只有在生成过程有人类干预的情况下才可能获得版权保护,其独创性也产生于生成过程中的人类干预。

  2023年8月18日,美国联邦地区法官裁定,仅靠人工智能生成的作品不符合版权保护的条件。

  2023年年底,北京互联网法院针对一起人工智能生成图著作权侵权纠纷案作出了一审判决,这也是我国首例涉及AI文生图的著作权案件。法院审理认为,利用生成式人工智能生成图片时,如果能体现出人的独创性、智力投入,就应当被认定为作品,受到《著作权法》的保护。

  02 文生音乐

  文生音乐是通过人工智能技术生成的音乐。2016年,3位音乐家创立了AIVA technology,利用AI为电影、广告等创作情感配乐。AIVA通过学习历史上著名作曲家的作品,结合用户偏好,生成个性化音乐。

  2020年,OpenAI的Jukebox,通过输入流派、艺术家和歌词,Jukebox能够输出新音乐样本,展示了AI在音乐创作上的潜力。

  2023年,谷歌推出的AI音乐生成器Music LM,不仅能够根据随便起的音调生成一段完整的编曲,还能够基于文本描述生成高保真的音乐。

  2024年年初,Stability AI推出一款革命性的文本到音乐AI模型Audio Sparx 1.0。该模型通过潜在扩散技术,可依据文本提示创作完整歌曲形式,包括引子、副歌等元素。

  03 文生视频

  2024年2月16日,OpenAI发布Sora文生视频大模型,该模型能根据提示词生成60秒的高品质、多角度视频。Sora的训练数据主要源于从其他公司获得授权的无数视频已经发在互联网上的公共数据,它在训练过程中为所有原始素材添加了高质量文本描述,使得它能准确理解人类下达指令的含义,生产符合人类需求的视频。同时,它能理解真实世界物理场景和物理规律,模拟真实物理世界的运动,具备向AGI(通用人工智能)发展的潜力。

  此外,Sora能在开头或结尾扩展视频内容,无限延长视频内容;能在零样本条件下改变输入视频的风格和环境;能在两个输入视频之间逐渐进行转场。这些功能在一定程度上会降低视频生产成本,激发人类认知、理解、探索世界的全新想象力。

  当然,关于Sora带来的更多版权问题也正在被人们深度讨论。

  (朱丽娜、张家仪、董欣宁整理)