破解AI训练数据版权合法性之困
来源:中国新闻出版广电报 时间:2024-12-19
人工智能(AI)训练数据的版权合法性面临着多方面的挑战,主要集中在高质量数据授权难、突破现行法律规定难两个方面。
在内容获取、输入和输出的每个环节,未经授权许可的人工智能机器学习都存在较大的版权侵权风险。版权保护的基本原则是事前授权、有偿使用,然而这样传统的使用付费模式在人工智能海量学习的需求面前显得力不从心,训练数据的合法性问题也成为全球之困。
我国现行《著作权法》并未针对数据训练设置专门的免责条款,致使人工智能研发者在开发和训练模型时极易背负侵权“原罪”。《生成式人工智能服务管理暂行办法》要求人工智能服务提供者使用具有合法来源的数据和模型,对其施加了相对严苛的合规义务。由此,人工智能开发者和服务提供方在数据训练、数据输出等阶段往往面临版权合法性困境。
为破解人工智能训练数据的版权合法性之困,需采取多元化、体系性的方案。第一,合法购买数据与合同约定风险。通过事前购买高价值著作权内容并签订授权合同明确风险承担,确保人工模型合规发展。第二,通过集体管理组织解决授权难题。著作权集体管理组织能够批量解决海量作品授权问题,提高效率并减少交易成本。第三,通过爬虫技术获得公共领域或者白名单数据。第四,利用开放授权的数据资源。开放授权机制如知识共享协议(CC)能降低信息获取成本,促进创意产品交融分享,契合人工智能发展需求。
如何实现保护与发展的平衡是推动人工智能发展的一个关键议题,高质量的数据是人工智能发展的瓶颈之一。世界知识产权组织等国际组织与各国对于高质量数据的标准尚未达成一致,版权所有者与人工智能开发者之间的权益平衡辩论仍在持续。
面对复杂的授权和利益分配难题,经济学家提出了建立互利的收益分享协议作为解决方案,但过于复杂的经济学模型可能无法有效解决一对一的授权问题。为应对上述挑战,一种政策建议是创建有条件的共享训练数据池,对权威来源的数据,如国家图书馆、版本库等优质数字资源进行整合和共享,可以提高数据的可用性和质量,在支持人工智能技术健康发展的同时,为各参与方提供合理的回报。