近日,国家数据局公布首批104个高质量数据集典型案例,中国电信自主研发的“网络大模型高质量数据集”从全国663个申报案例中脱颖而出,成功入选国家级示范名单。这是继今年5月荣获国务院国资委“央企人工智能行业高质量数据集优秀建设成果”后,中国电信在人工智能与数据要素融合应用领域再次获得的重要认可。
作为数字中国建设的主力军,中国电信始终坚持以科技创新驱动产业发展,此次入选标志着其在推动大模型产业落地、构建高质量数据基础设施方面取得突破性进展,彰显了央企在赋能千行百业数字化、智能化转型中的引领作用。
破解行业难题,构建通信领域高质量数据基座
在人工智能与实体经济深度融合的背景下,大模型技术在实际落地过程中仍面临诸多挑战。尤其在通信这类高度复杂且专业性强的行业中,通用大模型往往难以直接适用,存在专业知识缺失、输出“幻觉”、决策可信度低等问题。中国电信直面行业痛点,以“破解应用鸿沟、提升模型专业性”为目标,系统推进高质量通信数据集建设。
该项目以“5+2”云网知识体系为核心架构,全面覆盖接入、传输、核心、数据和业务五大网络层级,并融入云资源与网络安全两大维度,形成体系化、结构化的通信知识框架。在组织建设上,确立以“组织、流程、运营、安全”为四大支柱的实施路径,构建起科学严谨的数据治理体系。
通过聚合多源异构数据,包括设备运行状态、网络流量、运维日志、故障工单、用户行为轨迹等,中国电信建成总规模6TB的高质量、多模态领域数据集,涵盖超数百个细分业务场景。数据标注经过严格质量控制与专家校验,确保高一致性与可用性。这一数据基座不仅为通信网络运营管理全面迈向自动化和智能化奠定基础,更拓展至智慧城市、工业互联网、金融科技等跨界场景,为行业提供了可复用的数据资源典范。
技术创新驱动,实现高效治理与分钟级知识构建
中国电信在数据工程技术层面实现多项突破,系统融合多源智能解析、动态清洗与多级去重机制,显著提升数据处理的规模化与自动化水平。面对通信数据中存在的敏感信息与隐私保护需求,团队自主研发高精度隐私保护算法,集成差分隐私、联邦学习等先进技术,实现对用户数据和运营信息的有效保护,真正实现“数据可用不可见”。
在知识构建环节,团队首创SIE(来源-索引-编码)分层建库技术,通过对多模态数据实行统一来源管理、智能索引构建与标准化编码,实现分钟级知识入库与更新。该技术极大提升知识迭代效率,解决了传统建库模式周期长、响应慢的痛点,特别适合实时性要求极高的通信场景。
检索与知识发现方面,项目提出多模态混合检索架构与重排序技术,支持文本、图像、结构化数据之间的跨模态语义关联查询,有效提升深层次、隐性知识的发现与召回准确率。目前,其知识增强服务累计检索量已突破千万次,准确率稳定在90%以上,达到行业领先水平。这些技术成果不仅服务于中国电信内部多个智能化业务系统,也通过开源工具和标准化接口向行业开放,助力产业链共同提升数据治理与知识自动化水平。