技术迭代,数据版权使用规则亟待建立

作者:米新磊 来源:中国新闻出版广电报 时间:2025-07-17

  大数据时代,数据已成为与土地、劳动力、资本、技术并列的五大生产要素之一,其战略价值与经济意义不言而喻。相较于原始数据,经市场主体收集、加工、整理、分析形成的“数据集合”,虽在传统所有权归属上存在争议,却已成为更具商业价值的核心资源。

  随着数据集合在各行业中的价值迸发,各方竞争者为争夺数据资源引发的纠纷与诉讼层出不穷。其中,通过爬取、搬运竞争对手具有商业价值的数据集合,以极低成本“吸引流量”或“抢占用户”的行为并不鲜见。近期,北京海淀法院审结的“全国首例互联网医疗平台数据抓取案”等三起非法“爬取”“搬运”数据集合的不正当竞争案件,正是这一现象的典型缩影。

  回顾既往案例可以发现,类似互联网医疗平台数据抓取这类涉及用户生成内容(UGC)的平台诉讼模式,早在2007年便已显现,近20年来随技术迭代不断升级,并因近几年人工智能生成内容的爆炸式发展而呈现新变化。

  用户内容的著作权认定存在困难

  早期平台间纠纷多停留在“搬运用户内容”的原始层面,主张侵犯著作权是最直接的维权手段。但实际操作中面临三大核心问题:用户发布内容是否构成作品?若构成作品,著作权归属平台还是用户?若归属用户,平台如何有效维权?

  2007年大众点评网与爱帮网的三次诉讼,为此类问题提供了标志性裁判路径。

  第一次诉讼:“用户点评不构成汇编作品”。2007年底,大众点评网发现爱帮网大量搬运其用户原创点评内容,遂以侵犯著作权为由诉至北京海淀法院。一审法院认定:大众点评网对餐馆介绍及用户点评内容整体享有汇编作品著作权,且用户注册协议已授权平台任意使用内容,无需二次许可。但二审法院彻底推翻这一结论:首先,用户点评因表达方式有限(描述餐馆特点的可选表达高度雷同),若受《著作权法》保护将导致思想被垄断,违背“仅保护表达不保护思想”的立法原则;其次,大众点评网对点评信息的排列仅按时间顺序,缺乏独创性,故整体不构成汇编作品。

  第二次诉讼:“并非所有内容都是作品”。首次诉讼失利后,大众点评网于2010年调整策略,发起第二次著作权之诉。此次诉讼精选部分独创性较强的点评内容主张权利,并取得用户授权确认书,既解决了作品认定问题,也明确了平台诉讼主体资格。一审法院最终认定:不同消费者对同一餐馆的点评虽可能内容近似,但因感受、体验、表达能力、角度、方式、特点的差异,在表现形式上体现作者个性、情感、体验的评论具有独创性,属于《著作权法》保护的作品。但法院同时强调:大众点评网上的点评内容成分复杂,并非全部构成作品,需结合证据逐一甄别。因大众点评网未对全部内容提交充足证据,法院仅以提交的对比表为限确定审查范围,其余内容不予处理。此役虽胜,但从商业角度看,大众点评网并未赢得“战争”——逐一获取用户授权再逐条维权的模式成本高昂,2.5万元的赔偿额更显杯水车薪。

  第三次诉讼:进入《反不正当竞争法》场域。在此背景下,大众点评网发起第三次诉讼,将维权武器从《著作权法》切换为《反不正当竞争法》,直指爱帮网“搭便车”的商业模式。此次诉讼成为此类纠纷的转折点。

  大众点评网与爱帮网的第三次诉讼,标志着UGC平台诉争模式进入2.0阶段。一、二审法院均认定爱帮网的行为违反《反不正当竞争法》第二条,构成不正当竞争:对于大众点评网的商户简介和用户点评,爱帮网未付出劳动、未支出成本、未作出贡献,却通过垂直搜索等技术手段直接抓取并在自身平台展示,以此获取商业利益,属于典型的“不劳而获”和“搭便车”行为,违反公平原则、诚实信用原则及公认的商业道德。

  此次判决更重要的意义在于,为平台扫除了用户授权的障碍:相较于著作权之诉对权利完整性、独占性、排他性的严格要求,反不正当竞争之诉仅需证明平台主张的权益合法,且作为经营者在竞争中因不当行为遭受损害即可。

  此后,“利用《反不正当竞争法》第二条‘商业道德’条款阻却竞争对手‘搭便车’行为,以保护数据集合的竞争性权益”,成为互联网公司维权的标准路径。在近期审结的“全国首例互联网医疗平台数据抓取案”中,法院再次强调:平台对用户生成内容经合法收集、整理形成的集合,因投入劳动与成本并具有商业价值,应受法律保护;竞争对手通过技术手段抓取并实质性替代原平台内容的行为,构成不正当竞争。

  AI生成时代重回著作权模式

  互联网内容生产方式,经历了PGC(专业生产内容)—UGC—AIGC(人工智能生产内容)的过程。以ChatGPT发布作为标志,2022年也被称为AIGC元年。自此,机器开始大规模涉足知识类和创造性工作,AI 开始在各个领域攻城略地。与之对应的是,AI时代的数据集合诉讼也呈现出了新的样态。从目前全球范围内的诉讼来看,不论是图片、新闻、音乐还是影视行业,巨头们向AIGC平台发起的战争,无一例外都重新回归著作权的模式。

  2023年1月,美国图库老大哥Getty Images以侵犯版权、数据库权利和商标保护权的名义,在英国对生成图片的人工智能公司Stability AI提起诉讼,指控其未经许可使用图片训练其AI系统。

  2023年12月27日,美国最具影响力的媒体之一《纽约时报》起诉OpenAI及其投资人微软公司侵犯版权,指控二者未经许可使用其数百万篇文章训练人工智能模型,而这些聊天机器人现在与该新闻机构形成竞争,成为可靠的信息来源。

  今年6月24日,全球三大唱片公司索尼、环球、华纳对两家人工智能初创企业Suno、Udio提起诉讼,指控它们未经许可大规模使用其受版权保护的音频资料来训练AI模型。

  今年6月11日,美国迪士尼和环球影业针对知名“文生图”人工智能公司Midjourney发起版权诉讼,指控其利用这些版权内容生成并分发了大量未经授权的、以两家电影公司著名角色为原型的图像副本。

  这些诉讼之所以选择著作权模式,和AIGC的运作原理密切相关。AIGC的工作可以分为三个阶段:数据采集和模型训练阶段、内容输入阶段、内容生成阶段。在第一阶段,AIGC平台用来训练大模型的数据一般不会对外公开,所以较难举证是否存在违法行为;在第二阶段,一般由用户来操作,和AIGC平台关联性不大;在第三阶段,AI生成具体内容之后,经过实质性相似的对比之后,才可能进行判断,AIGC平台是否在训练AI模型过程中使用了原告拥有版权的数据。

  我们正在亲历的人工智能革命,基础就是大数据。从UGC时代到AIGC时代,互联网平台之间、内容企业和AIGC平台之间,关于数据集合的诉讼争斗模式经历了“著作权—不正当竞争—著作权”的流变。当然,历史的进程并非线性,在这个过程中必然会存在各种模式的交叉往复。诉讼的背后是商业竞争,期待这些诉讼案件的最终结果,能够为AIGC时代的数据使用版权规则建立雏形。

  (作者系北京金诚同达律师事务所合伙人)