点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:2027年要初步建立的“国家关键语料库”是什么 怎么建
首页> 科技频道> 综合新闻 > 正文

2027年要初步建立的“国家关键语料库”是什么 怎么建

来源:中国青年报2025-05-26 09:33

  “当前,随着新一轮科技革命和产业变革,大语言模型、人工智能技术快速发展,语料库的建设规模与应用范围也经历了大幅度完善和拓展。”前不久,教育部语言文字信息管理司相关负责人提到,决定实施国家关键语料库共建共享计划,扩展关键领域,支持共建共享,推进应用转化,为全方位释放语言文字在经济社会发展中的数据要素价值奠定更加宽厚基础。

  近期,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》)。其中提到,到2027年,国家数字中文建设行动取得重要成效,语言文字数据要素价值有效释放。基本形成“政府主导、部门协同、社会参与、共建共享”的语言文字信息化工作机制;基本建成国家语言文字大数据中心,初步建成国家关键语料库和国家战略语言资源信息库;语言文字信息化标准、前沿语言技术、优质语言资源、新型语言服务等基础支撑能力显著增强。

  “国家关键语料库”是什么

  《意见》提出,推动基础性语言资源建设,实施国家关键语料库共建共享计划,重点支持建设大规模中文语料库及高质量民族语言文字语料库、手语盲文语料库、行业领域语料库、语言监测动态语料库等。

  教育部语言文字信息管理司相关负责人在接受中青报·中青网记者专访时提到,语料库是自然语言处理、大语言模型、人工智能技术创新应用的重要支撑,是经济社会信息化建设、数字化赋能和智能化发展的基础要素,促进语言数据赋能信息技术创新与信息技术赋能语言文字资源使用的双向赋能。

  以文化传承领域为例,目前已经建设了中华思想文化术语库、中华精品字库、甲骨文数据库、中国语言资源保护数据库等。

  其中,中华思想文化术语库包括了中华民族所创造或构建,凝聚、浓缩了中华哲学思想、人文精神、思维方式、价值观念,以词或短语形式固化的概念和核心词。该语料库中包括1200余条思想文化术语、中医文化关键词、典籍译本、典籍译名、博雅双语词等。

  教育部语言文字信息管理司相关负责人提到,2024年,智能化学习工具“AI小语”正式上线。“AI小语”是以中华思想文化术语库为基础训练语料、以大语言模型技术为核心技术的高交互感智能平台,对赋能中华优秀传统文化对内传承和对外传播具有重要意义。

  截至目前,教育部、国家语委通过组织开发、集成汇聚、动态更新等方式,组织高校、企业、科研院所等,建设大规模高质量语料库30余项,相关语料库已广泛应用于经济社会发展的关键领域。

  “国家关键语料库”怎么建

  “信息技术深刻融入经济社会发展各领域,需要推动语言文字与信息技术的深度融合,找准两者的结合点、融合点、发力点。”教育部语言文字信息管理司相关负责人说。

  长期以来,国家语委会同有关部门研制并发布了《信息技术中文编码字符集》等国家通用语言文字和民族语言文字信息化规范标准100多项,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定规范基础。

  面向人工智能时代,该负责人介绍,要开展语言资源建设、管理、应用、共享标准研究,重点推进语料库、数据标注、数据评价等规范标准的制订;服务教育教学,研制大语言模型能力素养(师生版),引导师生有效、安全使用大语言模型等人工智能技术;助力文化传承,研制甲骨文数字化共享技术标准。

  此外,既要支持语言文字信息处理基础标准研究,也要鼓励高校、企业开展行业标准、企业标准研制。加强与工信部、国家民委、国家标准委等部门单位合作。推动已有语言文字信息化相关规范标准的修订工作,加强已有规范标准的宣传推广等。

  在专业化人才队伍培养上,教育部语言文字信息管理司相关负责人提到,推动高校增设语言智能、计算语言学等交叉学科方向,增设“语言文字+人工智能”核心课程。此外,鼓励企业建设产教融合实训基地,开展中文信息处理、多语种机器翻译、语料加工处理、数据标注等技能培训,提升中文专业以及相关专业学生的职业技能,扩大就业范围和就业渠道。

  “今年是落实《教育强国建设规划纲要(2024-2035年)》的关键之年,语言文字信息化发展将展望十年、谋划五年、立足三年,把握赋能全局高度,加快试点先行进度,激发协同创新力度,在落实重点任务上下功夫、见实效。”在前不久举行的教育部新闻发布会上,教育部语言文字信息管理司司长刘培俊说。

  中青报·中青网记者 杨洁

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 第二十一届文博会闭幕

  • “国门铁路”警察守护旅客平安路

独家策划

推荐阅读
“黑夜给了我黑色的眼睛,我却用它寻找光明。”
2025-05-27 13:22
“世界杰出女科学家奖”由联合国教科文组织和法国欧莱雅基金会在1998年联合设立
2025-05-27 11:10
无法释放起落架的民航客机在巨大的摩擦声中以机腹着地方式从跑道上滑过,高速进入大气层的空天飞机像一个“火球”剧烈燃烧,大型运输机在超强暴风雪中艰难起飞,先进战斗机在复杂空战环境中被导弹碎片打得千疮百孔……
2025-05-27 09:27
近日,中国科学院广州地球化学研究所副研究员高名迪与研究员王煜、中国科学院院士徐义刚,以及澳大利亚国立大学教授Stephen Foley合作,通过高温高压实验与超深金刚石包裹体成分对比研究,揭示了再循环碳酸盐如何改变地幔氧化还原状态,及对克拉通演化和深部碳循环的影响。
2025-05-27 09:22
“浚澜”船配备了高压岸电接入模块,可以采用全电力驱动挖掘系统,实现施工作业零碳排放。
2025-05-27 09:16
天问二号探测器按计划完成了技术区总装、测试、加注、转场、功能检查、联合测试等工作。
2025-05-27 09:10
研究发现,自20世纪80年代以来,北半球高纬地区大气甲烷浓度的季节振幅呈现减弱趋势,而副热带及热带地区的季节振幅却显著增强。这一变化趋势及其空间差异为解析全球甲烷源汇的长期演变提供了关键观测证据,为全球甲烷减排提供了科学支撑。
2025-05-27 09:09
据两位消息人士透露,英伟达还在为中国开发另一款采用Blackwell架构的芯片,最早可能于9月开始生产。
2025-05-26 12:51
研究人员成功诱导干细胞发育成充满液体的羊膜囊。这种模型囊体直径约2厘米,相当于一个4周胚胎周围羊膜囊的实际大小,可用于研究早期妊娠。
2025-05-26 09:21
你有过牙齿酸酸胀胀的体验吗?这会让我们真切地感受到牙齿有多敏感。其实,在咀嚼食物时,这种敏感性大有用处,它能提供关于温度、压力,还有疼痛方面的重要信息。
2025-05-26 09:18
最新一期《自然》杂志发表的论文报告发现一个原以为“不可能存在”的神秘结构。
2025-05-26 09:18
阿尼玛卿雪山保存着50余条冰川,年均径流量占黄河上游总流量35%,其变化对黄河流域水资源具有重要影响。
2025-05-26 09:16
如今,在各地田间地头,植保无人机凌空起舞、无人拖拉机破土前行、水肥一体精准施肥、北斗导航精准播种、智能机器人全天候巡检……科技感十足的农耕图景随处可见。
2025-05-26 09:15
可持续的减肥从不靠极端节食,而是科学的生活习惯。
2025-05-23 13:30
邓宏章对此形象地比喻:“传统LNP像‘硬闯城门’的士兵,难免伤及无辜;而TNP则是‘和平访问’的来客,以最小代价达成使命。”
2025-05-23 13:13
加强统筹协调,健全部际协同、央地协作、区域合作的工作机制,创新体制机制,加大政策支持,加强统计监测,深化开放合作,着力提升科技服务业发展环境。
2025-05-23 13:50
以“矢志创新发展,建设科技强国”为主题的第九个全国科技工作者日系列活动将于近期陆续开展。
2025-05-23 13:01
这一发现对恒星演化理论、致密星吸积物理和双星并合引力波源研究具有重要意义。
2025-05-23 08:01
若不采取紧急行动,到2030年,全球至少半数青少年(超10亿人)将生活在健康风险高发的“多重负担国家”,面临HIV感染、早孕、抑郁、营养不良等多重威胁。
2025-05-23 09:13
中国科学技术大学生命科学与医学部薛天、马玉乾团队与国内外科研机构合作,制备出高透明、高转化效率的上转换隐形眼镜,可实现人类近红外时空色彩图像视觉能力。相关研究成果5月22日在线发表在国际期刊《细胞》上。
2025-05-23 08:55
加载更多

OSZAR »