铀媒智能校对系统:

以深度学习技术扩展校对应用场景

作者:尹琨 来源:中国新闻出版广电报 时间:2023-04-03

□本报记者 尹琨
  国家新闻出版署日前公布2022年出版业科技与标准创新示范项目。上海蜜度信息技术有限公司的铀媒智能校对系统入选科技创新成果。随着移动互联网蓬勃发展,微博、微信公众号、头条号、网易号、企鹅号等新媒体平台如雨后春笋,每天生产、发布大量内容。如何高效、快速、准确地审核和分发内容成为很多机构账号的关注点。在这一背景下,蜜度公司推出支持跨平台内容“采、编、审、发”一站式、全流程的新媒体账号管理服务铀媒系统,铀媒智能校对系统成为其中内容分发管理的关键环节。

文本自动学习提高出版物校对审核效率
  “用户可以随时随地生产内容,加速了信息传播的广度、深度和速度,而一旦有不准确、不合规或不合法的信息发布,便会迅速在全网发酵,容易引发舆论风险。”上海蜜度信息技术有限公司智能校对事业部总经理张晓娟在接受《中国新闻出版广电报》记者采访时说道。
  为尽可能避免内容风险问题,铀媒智能校对系统采用人工智能领域的深度学习技术,依据行业规范、标准和业务知识,能够快速准确地完成文稿中包括文字标点差错、知识性差错、内容导向风险识别三大类型26种错误分类的识别、审核与校对,并给出纠错建议。
  在出版领域,铀媒智能校对系统主要在图书编辑加工和校对环节为用户提供校对与审核服务。张晓娟告诉记者,在编辑加工环节,编辑可以直接在系统支持的Word或WPS插件中对文稿进行校对,一本15万字的图书,可以在5分钟内完成校对,时间效率得以提升。在校对环节,系统可以识别各种排版的PDF文件内容,并进行校对,更好地为用户解决文件格式解析问题。
  “铀媒智能校对系统可以对出版领域的大规模文本进行自动学习,让机器发现典型的语言规律,实现对文本的智能校对处理。”张晓娟表示,系统开发设计的知识描述技术,能够将出版业的隐性知识转化为可复用的显性知识,实现文本检测以及自动发现其中潜在的错别字等问题。
  通过深度学习技术,铀媒智能校对系统还可对出版物等进行“事前审校排查、事后巡查分析”,不仅可以辅助人工审稿,缩短审校时间,提高审稿效率,降低错误率,还能助力内容生产的合规严谨,避免不良传播,提高各领域机构的公信力、权威性。“比如出版单位的微博账号通过该系统不仅能够校对微博文稿错误,还能进行发布审核流程的监督,保障账号内容的规范性、严谨性。”她举例说道。

落实文字规范化要求服务出版业高质量发展
  《出版物汉字使用管理规定》明确要求出版物的内文,包括正文、内容提要、目录以及版权记录项目等辅文,必须使用规范汉字,禁止使用不规范汉字。《图书质量管理规定》中也有图书编校质量差错率的计算方法,对图书中存在的文字差错、标点符号差错等问题进行规定。
  “出版行业对于文字规范性有更高的要求。”张晓娟对此说道。她同时关注到国务院办公厅公布的《关于全面加强新时代语言文字工作的意见》中指出,语言文字信息技术创新还不适应信息化尤其是人工智能的发展需求,语言文字工作治理体系和治理能力现代化水平亟待提升。
  为进一步推动语言文字与人工智能、大数据、云计算等信息技术的深度融合,铀媒智能校对系统自主设计智能文本校对的深度神经网络模型,融合了汉语的上下文语义、字形、发音、释义等信息,实现对文本更为全面的语义刻画,从而能够识别文本中存在的语言文字错误,帮助提升语言文字的规范性。同时,系统基于实时权威数据库形成对固定表述、机构名称、专有名词及术语以及法律法规条款、新华社媒体报道禁用慎用表述等多类知识性差错进行校对的能力,协助出版单位等把控好内容风险的防线,保障内容符合国家颁布的语言文字规范标准。
  目前,蜜度智能校对相关业务的覆盖范围还在不断延伸拓展。2022年7月,公司正式推出“蜜度校对通系统”。该系统除了包含铀媒智能校对系统的全部校对能力和功能外,还包括新推出的广告法校对和包含12个少数民族语言文字的多语言智能校对等功能。
  张晓娟表示,蜜度智能校对相关业务紧扣《出版业“十四五”时期发展规划》提出的目标任务。聚焦大数据、云计算、人工智能等新一代信息技术,蜜度将人工智能领域的自然语言处理技术,以智能校对的方式引入到行业之中,提升关键软硬件技术创新和供给能力,提高出版行业的智能化水平,助力推动出版业实现高质量发展。