当前位置:商业频道首页 > 财讯 > 正文

多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”(2)

“万卷·丝路”语料库子集分类

专家标注+数据智能,兼顾安全与质量

“万卷·丝路”语料库通过专家人工标注,确立了包含七个维度的文本数据质量评估体系,从完整性、有效性、可理解性、流畅性、相关性、相似性和安全性等方面保障数据的高标准与高质量。

通过使用基于大语言模型的数据质量评估开源工具——Dingo,研究团队从多维度对“万卷·丝路”的数据质量进行了全面评估。结果表明,其五个子集均获得优异的综合评分,显著优于同类语言语料库。

多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”

为充分体现多语言特色、全面提升数据质量与适用性,发挥实验室领先的数据处理能力优势,研究团队为“万卷·丝路”设计一套精准化数据处理流程:

1、对网页及非网页数据进行标准化处理,统一数据格式,然后运用局部敏感哈希算法高效去重,降低冗余;

2、在安全性处理上,建立域名黑名单筛除不良网页数据,构建多语言特色敏感词表并结合语境评估,精准过滤有害内容,同时训练语言安全模型,进行多维度不良内容检测和筛选;

3、利用主题分类器对数据进行分类,优化知识域分布;

4、通过PPL(困惑度)初筛快速剔除低质量数据,再借助基于BERT的质量分类模型精准筛选高质量内容。

该流程有效融合多语言特点与行业通识技术,为多语言模型训练提供了高质量、安全可靠的数据基础。

多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”

热点推送

本周关注

MORE