人工智能大模型开源的版权之问

作者:辜凌云 来源:中国新闻出版广电报 时间:2024-09-05


资料图片


  人工智能大模型开源作为理论与实践相结合的新型范式,有效促进了算法的创新和优化,推动着人工智能技术的迭代升级。在此环境下,人工智能大模型的研发依托开源运动,不仅实现技术共享、创新和发展,还促进跨学科、跨领域的知识交流,为技术创新提供强有力支持,拓展了人工智能技术向前发展的边界。

  然而,随着人工智能大模型开源的不断深入,开源许可证中的版权问题逐渐浮现并成为一个显著的发展瓶颈。一般而言,人工智能大模型开源中的版权问题主要表现为人工智能大模型学习语料的获取困境、人工智能大模型开源的版权许可政策以及人工智能大模型生成内容的版权属性判断问题。本文重点关注的是人工智能大模型学习语料获取的版权困境、开源许可证中的版权政策逻辑及带来的市场变化,以明晰大模型开源后的商业利益考量与商业选择策略,推动人工智能技术的广泛应用和负责任地发展。


  获取学习语料易侵权


  在开源运动的加持下,人工智能大模型的研发与应用获得了前所未有的推动力。作为以数据驱动的人工智能大模型,其研发与迭代升级无法脱离高质量的数据训练。这直接导致了人工智能大模型在获取学习语料时,需要在尽可能短的时间内多获取高质量数据源,尤其是包含人类智慧精华的作品数据。

  然而,根据我国《生成式人工智能服务管理暂行办法》和《著作权法》规定,人工智能服务提供者应使用具有合法来源的数据及不得侵害他人依法享有的知识产权。实践中,以美国《纽约时报》诉OpenAI为例,原告《纽约时报》指控被告OpenAI公司擅自使用大量文章数据训练其人工智能大模型,侵犯了原告的版权。尽管该案暂未判决,但人工智能服务提供者在未获取版权人授权的情况下使用作品数据,很容易构成侵权。

  人工智能大模型学习语料的获取能否适用《著作权法》中的合理使用制度同样存在争议。具体而言,人工智能大模型的研发涉及对数据的收集获取、微调等训练过程,一旦在此过程中涉及收集使用与作品相关的数据,相应行为便存在侵权风险。与此同时,基于前端未获授权作品训练的人工智能大模型一经开源,大量代码研发者可以在原有训练基础上继续利用作品,以此迭代更新后续大模型,这种做法极易造成数据泄露等风险的扩大,影响技术的创新发展。


  开源版权许可政策有差别


  在人工智能大模型开源之后,相关主体往往在开源许可证中设置相应的许可政策以确保开源的目标得以顺利实现。一般而言,许可证中的许可政策是指对某种软件的使用、复制、修改和分发等方面的控制策略,它们定义了用户可以如何使用软件及其源代码。其中,开源人工智能大模型的版权许可政策集中体现为不同类型许可证在版权方面的管理宽松程度。

  开源许可证一般分为两大类:宽松许可证(如MIT许可证与BSD许可证),以其对用户自由度的极大扩展而著称。这些许可证通常仅施加最低限度的限制,允许用户在保留版权声明等基本条款的前提下,自由地使用、修改及重新分发软件。相对地,严格许可证(如GPL许可证)除了提供自由的使用权,还要求用户在修改后的软件或衍生作品中,需以相同的许可证发布其源代码,这被称为“强制性开源”。

  然而,人工智能大模型的开源并非完全将大模型归属于公共领域,实际上仍是基于商业利益考量作出的市场选择。以Llama许可证为例,Meta公司在将人工智能大模型开源的同时,通过Llama许可证设置相应的开源要求。其中,Llama3.1许可证不仅要求对“使用Llama材料或Llama材料的任何输出或结果”标注来源,同时还明确了严格的知识产权诉讼条款。这种严格且带着商业利益的许可证规定同样见于苹果所开源的7B模型之中,其中apple-ascl许可证更是明确“未经Apple事先书面许可,不得使用相关的知识产权标记”,并规定免责条款以规避风险。

  以上限制均意味着人工智能大模型的开源并非纯粹地进入公有领域,而是基于商业利益衡量后的一场市场化行动。


  版权授权难题何解


  进入智能开源时代,人工智能大模型的开源运动为学术研究与工业实践带来了前所未有的机遇。然而,随之而来的是版权问题的复杂性和挑战性。对这一难题的化解,不仅需要我们综合考虑到开源社区的技术开放和商业化的双重需求,而且需要用更加灵活的措施以适应版权制度的发展。

  一是研发主体应尽量在事前获取版权许可,巧用技术手段规避侵权风险。人工智能大模型研发主体需要尽量在事前获取相应的训练数据版权许可或者通过集体管理组织获得版权授权。此外,利用技术手段对数据集进行版权检测,识别并排除可能侵犯版权的内容。同时,为了减少版权风险,可以通过技术手段对所使用的数据进行清洗和脱敏,移除版权保护的内容,确保在不侵犯版权的前提下使用数据。

  二是创新合理使用制度,促进人工智能技术发展。一方面,通过创新《著作权法》合理使用制度,在条件成熟之时,针对人工智能大模型的数据训练提出灵活的适用性条款,从而适应技术的发展,保护创作者的合法权益。另一方面,通过法律解释对特定行为进行个案认定,更好地理解人工智能技术的特点和需求,从而制定出更加合理的法律规则,促进人工智能技术的发展。

  三是提高风险防范意识,实现开源知识共享与商业使用的利益平衡。针对人工智能大模型开源的版权许可问题,开源可以促进技术的开放和共享,促进创新,但对开发者来说,开源也可能涉及放弃部分商业化的机会。因此,在选择开源的同时,需要在保持技术开放性和保持商业利益之间找到一个平衡点。对于人工智能大模型使用者而言,在选择相应大模型之前,应谨慎阅读与开源相关的开源许可证规定,尤其是其中的版权许可内容,通过事前明晰条款内容,以避免后续侵权风险的发生。

  科技浪潮汹涌,人工智能大模型的开源已是不可逆转的趋势,这不仅加速了技术的发展,也极大地促进了学术界和产业界的合作。人工智能大模型开源中的版权之问作为科技与法律互动协调的问题,理应在技术商业化与知识共享之间寻求问题的解决之道,为大模型的健康发展找到合适的路径,以期最终实现人工智能技术的广泛应用和社会价值的最大化。

  (作者单位:北京大学法学院)