人工智能应用正从“投喂”到精调,当大模型“吃”尽互联网公开文本——

出版业积累的专业内容或将成为金矿

作者:本报记者 商小舟 李婧璇 来源:中国新闻出版广电报 时间:2025-03-17

  “如今,把大量数据融合在一起‘投喂’给大模型的阶段基本上已经过去。下一阶段,出版单位要在一些重点方向和领域,通过数据去优化、精调我们的模型。”日前,在中国音像与数字出版协会出版融合工作委员会主办的出版业人工智能技术应用创新研讨会上,多家出版单位代表分享了各自在人工智能应用方面的丰富实践与思考。

  “DeepSeek的出现为大模型在出版业的广泛应用提供了更多可能,同时也引发了大模型领域的激烈竞争,出版单位要充分利用这个机遇,结合各自现有的发展优势和发展基础,加大研发投入。”中国音像与数字出版协会常务副理事长兼秘书长敖然指出,出版单位要在服务模式创新、产品多元化呈现、组织架构优化、管理制度完善、专业人才培养等方面认真谋划、扎实推进,深入挖掘探索这些新技术在提升出版质量、拓展市场空间、增强用户体验等方面的具体应用和实践路径,从而形成新产业和新模式。

  大模型周级迭代加速行业变革

  过去一段时间,全球大模型上演技术接力赛:2月18日,马斯克发布Grok-3大模型;2月20日,DeepSeek提出开源5个核心库;2月24日,阿里千问2.5上线……腾讯云智慧传媒行业中心首席架构师李进杰感受到了人工智能日新月异的变化。

  “技术迭代周期已从月压缩至周,这不仅是技术突破,更是商业模式的颠覆。”李进杰说,2024年全球数字经济大会发布的《全球数字经济白皮书(2024年)》显示,全球AI大模型数量达1328个,中国占比36%。当前的大模型也逐渐从感知向认知提升、从分析判断向生成式转变、从专用向通用发展,实现了从量变到质变的飞跃。

  “在原来的产品中,读者们搜索一个词语,会出现很多来自不同辞典的同名条目。现在的大模型可以通过语义分析很快聚焦到目标数据,将最权威的、覆盖面最广的释义推荐给读者。”上海辞书出版社数字出版中心技术部主任廖俊柱介绍,新出现的大模型语义分析和知识库建设,改变了原有的数据分类方式,大大提升了电子工具书的用户体验。在新模型的加持下,该社研发的聚典数据开放平台自上线以来调用量突破17亿次,其中收集得到的数据也很好地反哺了纸质出版。

  “以DeepSeek为代表,它以更低的成本、更高效的资源利用,打破了大模型的技术壁垒,通过自身的强化训练去除了人工校准的节点,提升了AI的训练效率,为出版业低成本应用铺平道路。”李进杰认为,有了技术的基础,场景是技术最终落地的方向,“大模型要提供由端到端的整体服务,如供应链、内容生产、营销场景等,每个场景都会有多个产品或者业务配合,协助出版业形成全新生态。”

  以应用模式反推大模型训练需求

  与此同时,技术带来的红利也伴随风险。据李进杰测试,DeepSeek在一些专业领域的幻觉率达13%,其跨模态能力尚未突破。面对技术应用带来的便利与挑战,出版业需建立“技术&内容”双轮驱动机制,既要用大模型提效,更要筑牢内容安全防火墙。

  “在训练大模型方面,我们一直强调安全性和复用性。”化学工业出版社数字出版中心总经理温强提出,在训练大模型时,首先要保证资源安全;其次要扩大一个模型的使用范围,覆盖出版社的多元业务。“目前出版单位在大模型方向上的投资,还是要注重以应用模式反推大模型训练需求。不能是训练一个模型就耗费我们大量的资源与精力,要积累相关的经验和工具,在保证准确性、低成本的同时,争取带来投资的高回报。”温强认为,出版业也应通过知识库等技术手段来构建垂直领域的应用,而非单纯依赖通用大模型。此外,面对快速迭代的新技术,亟须确立大模型领域更为精细的行业标准,普及基本概念和技术方案,同时也要聚拢出版业的核心竞争力,以抵御新浪潮的冲击。

  在不断的实践中,各出版单位的技术路线也一直在经历动态变化与调整。“多模态AIGC生成和大模型技术已经在我们的整个知识生产,包括出版全流程环节中发挥很大作用,但要运用模型,还需要把行业所有业务和底层模型进行衔接。”腾讯研究院资深专家王鹏揭示了更深层变革,即出版单位传统业务需求和底层大模型用新的人机交互模式连接起来,形成新的行业工作范式。

  以数智人的实践为例,去年腾讯大模型团队和腾讯视频团队共创,把热播剧《长相思》中的人物性格与智能体作连接,让观众与虚拟角色深度互动。“通过这种方式,书籍中的人物、作者都可以类似方式变成有生命、有活力的真实IP智能体。”王鹏表示,腾讯的价值与能力就是连接,能够将平台与出版社各类业务融合在一起,内部服务业务,外部连接用户,形成行业完整的生态链。

  数据枯竭成大模型算力提升瓶颈

  “当大模型‘吃’尽互联网公开文本,出版业积累的专业内容将成为金矿。”王鹏关注到大模型训练数据枯竭的危机。他提出,源头数据是大模型的根本,除了面临底层算法和算力层面的瓶颈,数据瓶颈也是需要解决的关键问题。

  对于王鹏所说的这一观点,广东人民出版社首席信息官李军也深有感触,“人工智能语料匮乏,特别是高质量人工语料。”他坦言,这也坚定了出版单位的信心,“我们拥有好的优质资源,这些语料经过认真梳理,尤其是中国传统文化这一板块,具有无法代替的价值。”

  “要让黄金数据集变成独特产品。”高等教育出版社副总编辑张泽对这句话印象深刻。他强调,人工智能大数据时代,出版单位不是以做数据为导向,要以应用智能体为导向,“我的产品和服务怎么跟别人不一样,怎么比别人优秀,关键靠特色数据来支撑。有条件的出版单位可以做模型训练,拿自己独有的数据进行训练。”在他看来,出版业最终还是要打造自己的数据平台,但与此同时,也要更好地保护出版单位的知识产权。“做平台也可以聚集更多的边缘数据,而其中独特的数据集就能打造成独特的产品。”

  对于出版业如何更好地拥抱AI技术,深入开展相关探索实践,腾讯集团公共事务副总裁、腾讯研究院高级顾问冯宏声提出了5对关键词:一是态度和使命,面对新技术,各方要保持积极跟进的态度,并共同肩负起行业使命;二是机会和定位,大模型应用仍处于发展中,传统出版单位仍有机会发挥优势,在数智时代找到自己的新定位;三是用户和产品,要聚焦用户需求,利用新技术小步快走,尽快推出可落地的产品;四是方法和思路,出版行业应秉持开放的心态,积极与作者、技术企业等行业相关主体开展合作,对原有出版物形态和出版服务模式深度拆解,回归行业价值本源再出发,通过实践探索,与更多产业伙伴共同创建新的版权秩序;五是行业和生态,建议出版行业要及时做好顶层规划,设计好战略布局,整合资源、优化机制,平衡把握安全与发展的前进方向,构建起可持续发展的文化产业新生态。