摘要:2023年12月20日下午,中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会,面向社会发布用于大模型的首批中文基础语料库。


中国网络空间安全协会人工智能安全治理专业委员会12月20日在京召开发布会,面向社会发布用于大模型的首批中文基础语料库。

新一代人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。人工智能的快速发展迫切需要高质量、大规模、安全可信的语料数据资源。在办相关业务部门指导下,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。中文基础语料库的发布,是各界协同汇聚形成高质量语料库的初步成果。

语料数据通常指用于人工智能大模型训练的文本库或数据集合,具有大规模性、多样性、动态性等特点。高质量大规模的基础语料数据是大模型训练算法的关键基础资源。目前国内大模型语料库建设在取得一定成就的同时还存在着一些挑战,高质量中文基础语料库建设已经成为国内大模型科研攻关和产业发展亟待解决的重要课题。

网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。

来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。