- 分享到:
- 全屏阅读
- 放大
- 缩小
- 默认
浙江日报报业集团创新应用AI技术
数智人正成为身边新同事新助手
来源:中国新闻出版广电报 时间:2025-05-13
“五一”期间,不少外地游客跟着《老姜打卡杭帮菜》的推荐,在被戏称为“美食荒漠”的杭州,寻觅令人惊喜的美食菜单。那么,“老姜”是谁?其实他是浙江日报报业集团社长姜军的数智人分身。除了“老姜”,在潮新闻两周年发布会上,浙江日报报业集团超60人的“数智人矩阵”集体营业。AI技术让科幻照进现实,数智人不再是小说中的概念,正成为媒体人身边的新同事、新助手。
传媒+科技
构建数智人“筋骨”
打造“数智人矩阵”离不开前沿科技的支撑,尤其需要将AI技术深度融入媒体生态。浙江打造重大新闻传播平台,上线潮新闻客户端伊始,作为技术支撑的传播大脑科技公司即开启了智能时代“传媒+科技”的前沿发展战略探索,聚焦媒体融合、数字文化,发力新兴技术的创造性融合。
“传播大脑是技术集成中心、数据交互中台、融合传播中枢,海量的数据为数智人众创平台提供了强大支撑。”浙江日报报业集团副社长、潮新闻总编辑、传播大脑科技公司董事长钱伟刚介绍说,“数智人矩阵”是围绕“众创”与“共享”为核心特色打造的,数智人众创平台利用“大模型+数字人+虚实融合”创作,提供了高质量的数智人服务。
其中,大模型能力在数智人应用中起到重要作用。凭借其深度学习算法与海量数据训练所构建的强大语言理解、知识图谱构建以及自然语言生成能力,赋予数智人“生命”。大模型能力可以支持AI语义、动作自动预测,从而生成表情、口型、动作等高度一致和高度自然的2D数智人视频。在数智人内容创作过程中,也可以高效生成高质量的新闻内容。
同时,浙江日报报业集团还配备了先进的高清摄影棚、专业的摄影灯光,在录制过程中能保证口型饱满度和表现力,控制动作精准度与自然度。这一系列专业配置,确保了数智人形象实现逼真、生动的极致效果。尤其以“共享共创,联动联通”为理念,打造了“1+1+ 3+6+N”生态体系,集虚拟演播、多机位拍摄、数字人生成、AIGC内容创作于一体,融合VR、AR、AI等前沿技术,实现虚实融合、实时制作、云端直播等多种功能,全面支持内容创作、展示与技术应用的“浙报融媒众创空间”在4月全面开放使用,让虚实融合技术和数智人内容能力“实战上线”。
此外,浙江日报报业集团拥有海量的新闻播报样本。这些丰富的视频素材,如同珍贵的宝藏,助力精准模拟新闻主播的形象与风格,使数智人在新闻播报等领域能够展现出与专业主播相媲美的水准,极大提升了数智人的竞争力。
“数智人众创平台资产非常丰富,包括高精、专属和标准数智人,能够满足不同用户的需求。”在钱伟刚看来,数智人的应用不仅是技术的革新,更是新闻传播生态重构的探索。平台面向浙江全省媒体、政务机构和企业,提供数智人生产与营销的多场景解决方案,真正实现“数智赋能,多元共创”。
虚拟+现实
数智人分身形神兼备
对于数智人是如何打造的,钱伟刚介绍,传播大脑通过数智人众创平台,利用AI技术将虚拟与现实结合,操作起来就像升级版的“捏脸游戏”。言简意赅,主要分三步:第一步是进行素材录制,第二步是对素材进行优化,第三步是基于素材进行模型训练。
素材录制,简单说就是人物形象拍摄,用户只需要在摄影机前摆几个动作,随意切换坐姿或者站姿即可。然后把拍摄素材上传至数智人众创平台,AI就能精准捕捉人物特点,如眼睛、嘴型等进行训练。只需要72小时就能一键生成专属数智人形象。不仅五官一比一还原,微表情细节也可以精准拿捏。
数智人不仅造型百变,还能多国语言丝滑切换。用户通过专业设备或者手机录音功能进行语音采集。接下来就是优化,如通过降噪和标准化处理,确保声音清晰。平台会对音频进行分段标注和频域处理,精准分析声音的细节,提取声学特征和时序特征,捕捉用户的“声音指纹”。最后,通过模型训练,专属用户的声音模型就生成了。结合语音分析与口型同步技术,用户的声音与唇形就可以完美匹配,真正做到“声形合一”。
钱伟刚告诉记者,有“形”更要有“神”,数智人分身前置工作完成后,内容生产平台就可以帮助用户分类、预览、编辑视频,轻松搞定从草稿到成品的全流程。数智人众创平台形象库可以自定义数字人的形象外观,能够调整人物音色,支持文本、语音驱动播报内容,还可以提供海量背景模板,适配各种场景。这些自定义设置,让数智人个性突出、独一无二,真正“活”起来。
众创+共享
丰富数智人应用场景
数智人只能播新闻?远远不止。在高端演讲、文旅宣传、智能问答和企业宣传等多元场景,数智人也都能轻松应对。比如,在“企业服务”场景中,数智人可以是24小时在线的智能客服,它能理解复杂查询,实时响应客户问题,精准又高效;在“文旅宣传”场景中,从景点讲解到非遗推广、从美食安利到文化出海,数智人能切换多国语言为文旅代言。
“未来,数智人众创平台将通过众创模式,吸引更多单位与个人加入数智人创作行列,推动数智人应用的快速迭代与普及。”钱伟刚表示,目前,传播大脑团队正全力推进一系列核心升级。
在技术层面,传播大脑将着力研发多模态情感计算框架,力求实现微表情与语义的精准智能匹配,赋予数智人更为细腻的情感感知与表达能力;构建轻量化神经渲染引擎,让数智人即便在4G网络环境下也能流畅运行,极大地拓展应用场景的边界;积极探索数智人群体智能,实现多角色的协同交互,为用户带来更加丰富、多元的交互体验。
在生态构建方面,传播大脑将面向开发者推出接口开放平台,开放各类核心能力接口,为开发者提供更为便捷、高效的创作工具;建立数智人创作者社区,目前社区已成功孵化多个特色数智人IP,为数智人创作注入了源源不断的活力;搭建数智人资产交易平台,完成浙江省内首个媒体数智人版权确权案例。
钱伟刚表示,预计到2025年底,数智人众创平台将支撑超过500个数智人应用场景,形成覆盖“生产—流通—应用”的全链条生态体系,希望为用户带来更加智能、便捷、丰富的数智人服务体验。