“主流价值语料库”入选“高质量数据集典型案例”

来源:中国新闻出版广电报 时间:2025-09-15

  本报讯 国家数据局近日发布一批“高质量数据集典型案例”,人民网“主流价值语料库”入选。

  此次评选是为落实“人工智能+”行动有关部署,按照《国家数据局综合司关于征集高质量数据集典型案例的通知》工作安排,经严格的申报推荐、专家评审环节最终确定名单。

  据悉,人民网依托传播内容认知全国重点实验室科研能力,早在2023年初就启动了“主流价值语料库”的建设工作。该语料库依托党报党网长期建设形成的新闻资讯、理论评论、政策法规和科普知识等优质资源,经科学采样、归集、清洗、标注、定制、风控等环节精心打磨而成。目前,语料库已入库3000多万篇基础语料、31万对问答语料、500多万对图文语料,在国内多家主流大模型厂家得到实际应用,正向纠偏作用明显。

  “主流价值语料库”入选国家数据局发布的“高质量数据集典型案例”,是人民日报社AI建设的阶段性成果。人民网将持续保持项目建设的力度和质量,继续扩大语料库规模,不断深挖重点领域,为人工智能行业供给更多高质量语料。

  据了解,国家数据局将定期围绕高质量数据集组织相关技术交流及主题研讨等活动。 (夏晓伦 许维娜)