近日,國家數(shù)據(jù)局公布首批104個高質量數(shù)據(jù)集典型案例,中國電信自主研發(fā)的“網(wǎng)絡大模型高質量數(shù)據(jù)集”從全國663個申報案例中脫穎而出,成功入選國家級示范名單。這是繼今年5月榮獲國務院國資委“央企人工智能行業(yè)高質量數(shù)據(jù)集優(yōu)秀建設成果”后,中國電信在人工智能與數(shù)據(jù)要素融合應用領域再次獲得的重要認可。
作為數(shù)字中國建設的主力軍,中國電信始終堅持以科技創(chuàng)新驅動產業(yè)發(fā)展,此次入選標志著其在推動大模型產業(yè)落地、構建高質量數(shù)據(jù)基礎設施方面取得突破性進展,彰顯了央企在賦能千行百業(yè)數(shù)字化、智能化轉型中的引領作用。
破解行業(yè)難題,構建通信領域高質量數(shù)據(jù)基座
在人工智能與實體經(jīng)濟深度融合的背景下,大模型技術在實際落地過程中仍面臨諸多挑戰(zhàn)。尤其在通信這類高度復雜且專業(yè)性強的行業(yè)中,通用大模型往往難以直接適用,存在專業(yè)知識缺失、輸出“幻覺”、決策可信度低等問題。中國電信直面行業(yè)痛點,以“破解應用鴻溝、提升模型專業(yè)性”為目標,系統(tǒng)推進高質量通信數(shù)據(jù)集建設。
該項目以“5+2”云網(wǎng)知識體系為核心架構,全面覆蓋接入、傳輸、核心、數(shù)據(jù)和業(yè)務五大網(wǎng)絡層級,并融入云資源與網(wǎng)絡安全兩大維度,形成體系化、結構化的通信知識框架。在組織建設上,確立以“組織、流程、運營、安全”為四大支柱的實施路徑,構建起科學嚴謹?shù)臄?shù)據(jù)治理體系。
通過聚合多源異構數(shù)據(jù),包括設備運行狀態(tài)、網(wǎng)絡流量、運維日志、故障工單、用戶行為軌跡等,中國電信建成總規(guī)模6TB的高質量、多模態(tài)領域數(shù)據(jù)集,涵蓋超數(shù)百個細分業(yè)務場景。數(shù)據(jù)標注經(jīng)過嚴格質量控制與專家校驗,確保高一致性與可用性。這一數(shù)據(jù)基座不僅為通信網(wǎng)絡運營管理全面邁向自動化和智能化奠定基礎,更拓展至智慧城市、工業(yè)互聯(lián)網(wǎng)、金融科技等跨界場景,為行業(yè)提供了可復用的數(shù)據(jù)資源典范。
技術創(chuàng)新驅動,實現(xiàn)高效治理與分鐘級知識構建
中國電信在數(shù)據(jù)工程技術層面實現(xiàn)多項突破,系統(tǒng)融合多源智能解析、動態(tài)清洗與多級去重機制,顯著提升數(shù)據(jù)處理的規(guī)模化與自動化水平。面對通信數(shù)據(jù)中存在的敏感信息與隱私保護需求,團隊自主研發(fā)高精度隱私保護算法,集成差分隱私、聯(lián)邦學習等先進技術,實現(xiàn)對用戶數(shù)據(jù)和運營信息的有效保護,真正實現(xiàn)“數(shù)據(jù)可用不可見”。
在知識構建環(huán)節(jié),團隊首創(chuàng)SIE(來源-索引-編碼)分層建庫技術,通過對多模態(tài)數(shù)據(jù)實行統(tǒng)一來源管理、智能索引構建與標準化編碼,實現(xiàn)分鐘級知識入庫與更新。該技術極大提升知識迭代效率,解決了傳統(tǒng)建庫模式周期長、響應慢的痛點,特別適合實時性要求極高的通信場景。
檢索與知識發(fā)現(xiàn)方面,項目提出多模態(tài)混合檢索架構與重排序技術,支持文本、圖像、結構化數(shù)據(jù)之間的跨模態(tài)語義關聯(lián)查詢,有效提升深層次、隱性知識的發(fā)現(xiàn)與召回準確率。目前,其知識增強服務累計檢索量已突破千萬次,準確率穩(wěn)定在90%以上,達到行業(yè)領先水平。這些技術成果不僅服務于中國電信內部多個智能化業(yè)務系統(tǒng),也通過開源工具和標準化接口向行業(yè)開放,助力產業(yè)鏈共同提升數(shù)據(jù)治理與知識自動化水平。