打造对标ChatGPT大模型

加快形成自主关键技术

作者:常湘萍 来源:中国新闻出版广电报 时间:2023-02-28

  □本报记者 常湘萍


  ChatGPT火爆、百度即将推出“文心一言”、北京市经信局表示支持头部企业打造对标ChatGPT的大模型、上海市经信委表示要加快形成人工智能生成内容(AIGC)的自主关键技术……这意味着内容产业迎来全新时代,AIGC在传媒行业的应用生态发展进入新阶段。

  拥抱AIGC给主流媒体带来哪些机遇与挑战?就此,《中国新闻出版广电报》记者采访了中国社会科学院新闻与传播研究所所长胡正荣、中国传媒大学媒体融合与传播国家重点实验室大数据中心首席科学家沈浩、国家广播电视总局广播电视科学研究院AI算法研究员郝。

  大模型加持

  AIGC拥有多种可能

  近期,160多家媒体宣布接入百度“文心一言”的消息广受关注,同样也引起了业内学者、专家的广泛讨论,大家还与火爆的ChatGPT、首秀的谷歌Bard做比较。

  “ChatGPT出来后大家非常兴奋,百姓觉得人工智能离自己的生活并不远。”胡正荣说,“对于社会各个领域而言,人工智能的深度应用已呈现出一种强大的生命力和可能性。”

  沈浩认为,ChatGPT是基于大型语言模型(LLM)训练出来的一个自回归语言模型,它虽然支持中文,但对于中文及与中国相关的数据积累有限。而百度拥有知识增强文心大模型,再借助其搜索引擎积累的大数据及检索增强和知识增强能力,其推出的“文心一言”将可能在实现与ChatGPT水平整体持平的基础上局部超越。沈浩认为:“软件定义媒体,数据驱动新闻,算法重构渠道。”

  “160多家媒体携手入驻百度‘文心一言’在一定程度上可以促进我国在自然语言处理(NLP)领域的科学发展与技术应用。”郝说。

  郝认为,OpenAI在大型语言模型上深耕多年,ChatGPT的火爆属于厚积薄发的成果。谷歌Bard虽然首秀“翻车”,但其在人工智能方面的技术积淀十分深厚,可以持续关注Bard或其他类似产品。现在多家媒体携手接入百度“文心一言”,可以为“文心一言”的模型训练提供大量的优质数据,对模型性能的提升提供帮助。同时,优质的模型可以很好地为媒体从业人员提供服务。这两个是相辅相成、相互促进的关系。

  胡正荣认为,ChatGPT是AI深度应用在技术进步过程中呈现出的一个阶段性成果。任何一种技术应用的进步,都不是在技术高速公路上快速奔跑的一个独立现象,它受政治、经济、社会及文化等各种因素制约。ChatGPT推出后短时间内就出现众口难调的情况,这表明一个技术应用绝对不简单地受制于单一因素。

  不过,胡正荣的观点非常明确:“不论百度即将推出的‘文心一言’的发展,还是现在火爆的ChatGPT的发展,我们应保持一种客观的、冷静的、科学的、理性的状态来准确认知这些现象。”

  智媒化发展

  推进媒体深度融合

  据郝介绍,AIGC对传媒行业的发展有三大影响:一是提高内容生产效率,大量优质内容将会被呈现;二是塑造出一批优秀的AIGC媒体内容生产机构,产出更加优秀、有创意的内容;三是促进形成媒体新业态,带来新型智媒体形式。

  他认为,“文心一言”对传媒机构而言是一个强大的内容生产力工具,它的出现将会使媒体内容出现井喷式爆发,用户对内容的需求更加新颖独特,这对媒体工作者而言是一大挑战。

  “接入像ChatGPT、百度‘文心一言’等技术应用,对主流媒体发展而言是一个很好的智媒化发展前提条件。”胡正荣说,进入Web3.0时代,互联网发展进入新阶段,传媒行业也步入由数据化和智能化主导的全媒体传播体系建设阶段。AIGC的引入,对主流媒体而言可让内容生产变得唾手可得,同时还可以让生产出来的产品样态更加多样化和复杂化,实现精准化传播。但这些技术应用投入巨大,与互联网大厂进行合作可加快主流媒体的数字化和智能化转型。

  “主流媒体携手接入百度‘文心一言’,拥抱AIGC,表明其意识到AI对传媒行业的巨大改变,积极融入智媒化建设,提升自己的影响力和竞争力。”沈浩说,AIGC的引入及应用可以快速提升新闻撰写、编审及发布速度,提高其准确性,同时还可以补齐知识短板,实现视野的扩张。

  “‘文心一言’这类大规模自然语言处理技术应用里,对数据加工和处理能力要求更高的是大规模音视频语言的处理。”胡正荣认为,当AIGC大规模应用于音视频语言处理时,大规模自然语言处理技术应用将会得到快速发展。

  “大视听领域中,ChatGPT、百度‘文心一言’等同类产品将有广泛的应用。”郝给出了三点理由:一是在用户产品方面,可更好地实现并优化人机交互、智能推荐、适老化等各类应用;二是在节目制作方面,可更好地支持自动字幕生成、节目收视率及受欢迎程度预测、节目制作辅助、节目翻译等策划制作工作;三是在节目监管方面,可更好地完成内容审核自动化、节目广告识别、节目分类、节目评分、节目数据分析等工作。

  信息安全保障

  AIGC发展的重中之重

  信息安全问题也是专家们比较关注并提醒业界注意的问题。

  胡正荣强调,媒体接入百度“文心一言”最应该注重的是信息安全,一个是数据安全,另一个是产品安全。媒体在上游进入数据池时存在数据安全问题,在下游生产时则面临着产品安全问题,主要体现在信息安全和意识形态安全上。他举例道,如河南大象新闻接入“文心一言”不仅要用百度已有的内容,还要向百度提供内容,这个数据共享的过程中,安全问题凸显。

  沈浩认为,AIGC引入新闻生产将面临不少信息造假问题,通过AIGC快速生成,释放大量虚假信息,产生虚假认知、进行虚假解读,扰乱目标人群。因此,他建议,应当加强政府监管、行业自律、传播管理等各个环节的工作,才能够更好地去规范化使用AIGC生产内容。

  “AIGC应用过程中,对媒体工作者的职业道德提出更高的要求。”郝建议,各传媒机构应严格把控媒体内容安全,尤其是内容的意识形态、伦理道德和价值观等;同时还应厘清借鉴、引用AI生成的创意及内容的边界,谨防利用AI生成技术的新型抄袭、剽窃行为。

  “AIGC引入新闻生产所面临的首先是版权问题。”沈浩说,现在业界提出可以采用哈希捆绑进行无假自证,即生成一个内容时将时间与位置数据实时捆绑后去做哈希计算。“但这所能证实的只是你是不是在这个时间这个位置生成了这个内容。如何界定AIGC内容的版权归属还需进一步探讨。”沈浩说。

  “媒体产品是具有公共性的,而它的消费必须要具有公共普遍性,作用也要有公共性。”胡正荣认为,区块链技术可以使AIGC内容版权溯源更有据可循,随着技术的发展,将能更好地为版权溯源提供可信依据。但“文心一言”生产出的新闻内容,至少包含作者、媒体、机器及百度的四方贡献,面对四方如何界定版权归属?这可能会影响到AIGC的版权所有者的界定。