系统构建AI版权合规的“三层治理模式”

作者:本报记者 朱丽娜 通讯员 亦婕 来源:中国新闻出版广电报 时间:2025-07-10

资料图片


  在日前召开的北京知识产权法研究会2025年会“数字时代著作权的严格保护”专题论坛上,中国政法大学法律学院教授陶乾围绕基础模型的著作权问题进行了深入探讨,系统阐释了“数据—信息—作品”三元关系理论,明确提出基础模型训练本质上是使用“载体数据”而非“信息作品”,不属于《著作权法》规制的“表达性使用”行为,为AI产业的版权合规提供了全新法理框架参考。


  厘清“表达性使用”的边界


  陶乾从知识产权基础理论切入,指出作品本质是信息,数据则是信息的载体。“知识产权无论是技术方案还是作品,均属于以非物质形态存在的知识信息;数据作为信息的物理载体,承担着传输与存储功能。”她提到,数字时代使作品呈现“双重无形性”:传统载体,如图书、光盘等具有物理形态,作品(无形)与载体(有形)界限分明;数字载体,如电子数据中,作品与载体均无形,导致“作品使用”与“数据使用”混同。正是这种混同,使得界定著作权法意义上的“作品使用”成为数字时代的核心挑战。

  通过对《著作权法》体系的解构,陶乾提出:《著作权法》保护的客体是表达,规制的行为是对表达的“使用”。在权利内容维度,复制、发行、表演等行为均是将作品表达呈现给人类感知的过程;在侵权判定维度,“实质性相似”比对的核心是表达而非思想;在权利限制维度,合理使用制度豁免的仍是对表达的使用,如适当引用。她引入“表达性使用”概念,强调其本质在于使用者通过感知表达获得精神体验,例如阅读文字或观赏画作。与之相对的非表达性使用,如统计学分析文本词频则不受《著作权法》约束。

  聚焦基础模型训练场景,陶乾认为,AI训练是对“数据载体”的物理处理,而非对“作品信息”的“表达性使用”。技术原理佐证了这一观点:首先,模型仅分析数据元素间的分布规律,如文字组合概率、图像像素关联,不识别作品艺术价值或思想内涵;其次,AI处理证件照与艺术照的功能完全一致,均属数据模式识别,无人类审美体验;再次,实证案例更显示,“投喂”山东方言倒装句数据后,模型仅习得语法结构规律,不受版权保护,而非具体表达内容。“机器学习的本质是掌握符号统计规律,与人类通过欣赏表达获得知识存在根本逻辑差异。”陶乾总结道,“因此,训练行为并不构成‘使用作品’,更无需讨论是否构成合理使用。”


  构建版权合规新范式


  因此,陶乾提出适配AI产业实践的“三层治理模式”。她认为,AI产业链的版权合规应当遵循分层治理原则。在基础层,商业化数据集开发者需严格把控版权合规,在复制和汇编作品时必须取得著作权人授权。在技术层,模型开发商的责任在于确保从合法渠道获取整体数据集,而非审查数据集中的单个作品版权。在应用层,监管重点应放在侵权内容的传播环节,对于AI工具生成的侵权内容,应当依据传统网络传播权规则,追究实际传播者而非工具开发者的责任,适用“避风港原则”和“红旗标准”进行规制。这种分层治理模式可以既保障权利人的合法权益,又为AI技术创新提供合理发展空间。

  随着全球AI竞赛进入深水区,版权合规已成技术发展的关键变量。从《著作权法》基本原理出发,陶乾通过厘清数据与作品的法律属性,为产业发展提供了“何处需严管(数据集汇编)、何处应放开(模型训练)”的建议,值得业界进一步探讨。


  声明:《版权监管周刊》部分插图源自网络,版权归作者所有。作者可通过左上角的联系方式与编辑部取得联系,编辑部将及时支付稿酬。