?價值互聯網階段(2014年至今),核心需求是知識構建,關鍵問題是如何在不可信的網絡上交換可信數據以形成知識。數字經濟以數字化的數據作為關鍵生產要素,用以產生信息、知識和創造價值。然而,不可信網絡中的數據交換存在以下問題:一是數據安全無法保障,數據侵權、數據泄露等現象頻發,引發相關個體、企業對數據安全的擔憂,導致數據的過度保護,阻礙數據的流通;二是數據真實性難以保證,偽造數據、劣質數據層出不窮,數據使用者難以依托互聯網數據構建有價值的知識成果,導致無效的數據挖掘,阻礙數據應用的發展;三是數據價值分配缺乏合理性,互聯網平臺利用優質創作內容吸引非創作用戶流量、實現快速變現,但用戶無法通過自身產生的內容數據獲得合法收益,導致用戶的消極情緒,阻礙數據的持續產出。
因此,探索新的規范和協議,保障數據安全、真實并實現數據價值的合理分配,達成數據的可信交換,是價值互聯網階段的主要任務。區塊鏈技術是滿足可信數據交換的關鍵技術之一,也是融合加密技術、共識機制及圖靈完備的智能合約語言的可信計算平臺,將通過維護不可篡改的分布式賬本,支撐價值互聯網中可信化要求的新的基礎設施構建。同時,為解決上述數據安全、可信及價值分配等問題,區塊鏈技術還需完善并融合承載數據治理規則和數據要素利用的數據互操作技術,在彌合網絡碎片和連通數據孤島的基礎上,保障數據全生命周期的可信、可用、可管、可控。
第一,互聯網發展新階段數據互操作至關重要。互聯網發展新階段,數據與應用解耦成為關鍵特征。信息化進程從數字化、網絡化發展到智能化階段,數據與應用的關系隨之發生變化。在數字化階段,由于互聯網技術還沒有普及,數據和應用在用戶本地,用戶對數據具有完全的控制權。隨著數據產生速率的持續提升和應用模式的不斷創新,數據交換成為基本需求,直接推動了互聯網的誕生。同時,數字化數據的傳輸容量和傳輸速度需求進一步推動了網絡技術的發展。在網絡化階段,互聯網服務的發展催生了數據和應用均在網絡云端的新模式。互聯網服務為人們生活帶來極大便利,但也導致了用戶數據完全由云服務提供者掌握,用戶逐漸失去了數據的控制權。互聯網平臺作為數據的實際控制者和數據價值的直接受益者,承擔起數據安全、可信、可控的全部責任。
然而,互聯網平臺僅是數據全生命周期的一個參與者,目前數據收益分配機制不利于數據產業生態的健康可持續發展。在智能化階段,數據和應用解耦成為必然趨勢。在《數據安全法》和《個人信息保護法》等相關法律法規相繼出臺促使數據合規及治理要求越來越高的同時,終端計算能力也隨著數字技術和網絡技術的發展逐步提升,隱私數據和重要數據以相關方可選擇的方式存儲于安全、可信、可控的數據自治空間中,應用服務提供方在經過相關方許可的前提下,“按需使用”獲取數據,以進一步提供服務。同時,建立數據價值分配機制,也可以使用戶依靠生產數據獲取持續收益。
互聯網數據互操作是用于解決數據跨域互聯互通和交換共享的互聯網基礎技術,秉持“數據不離域,可用不可見”的基本原則,驅動數據應用從“數據中臺”到“數據中樞”模式的轉變。一方面,由TCP/IP、HTTP/HTML、DNS等協議構成的傳統互聯網基礎技術,作為連接互聯網物理基礎設施、支撐互聯網多樣化應用的關鍵技術,因未考慮數據權屬和保護問題,造成數據訪問受控于網站,難以滿足數據與應用解耦模式下可信數據交換的要求,制約了數據要素的流動和價值釋放;另一方面,傳統以“數據中臺”為基本模式的跨域數據交換,因存在一個收集原始數據的集中平臺,導致數據需從本地可控存儲流向集中的不可控第三方平臺,同樣造成數據安全可信保障的困難。
因此,數據互操作技術需從保護數據安全及權屬的角度出發,基于已有的互聯網基礎技術,構建應用與數據之間的“橋梁”;避免數據的離域,用“數據中樞”的新型模式替換“數據中臺”的傳統模式,用跨域數據索引與確權替代傳統數據中心存儲數據的方式,在歸還數據管理與授權的基礎上,實現對互聯網數據資源的定位,在保障數據權屬的前提下安全交換數據,為數據與應用解耦后的數據高效利用夯實基礎。
第二,數據互操作技術支持數據跨域互聯互通。數據互操作技術需貫穿數據采集、傳輸、存儲、計算、應用、消亡的數據全生命周期,支持發現和定位數據資源,并在保障數據權屬和促進數據可信的前提下實現數據資源安全交換。數據互操作需解決標識確權、認證授權和安全交換三大關鍵問題,并支撐數據標識體系、數據確權體系、身份認證體系、訪問授權體系、分級分類體系、算法管理體系構建。
其中,統一標準的標識體系為數據建立全球唯一標識索引,形成共享和交換數據信息的紐帶,使得產生的數據能被發現、需要的數據能被找到;統一標準的確權體系,明確數據權屬,保障數據持有者、加工者、經營者等各方的合法權益;統一標準的認證體系,確保身份的唯一性和不可偽造性,為數據的跨域使用提供分布式身份認證能力,打破因無法認證操作者而拒絕數據跨域使用的現狀;統一標識的授權體系,僅允許經授權后的數據訪問,以保障數據可控,保證數據互操作流程的安全性和合法性,減輕個人、企業等對數據侵權進一步引發的數據泄露等問題的擔憂;統一標準的分類分級體系,以依據核心數據、重要數據、一般數據構成的分級框架和公共個人維度、公共管理維度、信息傳播維度、行業領域維度的分類規則,形成具體可操作、可執行的數據分類分級標準,保障數據跨域互操作過程的合規性;統一標準的算法管理體系,對可信算法統一管理和認證,以結合現有的隱私保護技術,在不離域的前提下實現科學數據的價值釋放。
數據互操作技術的“互操作”需要做到與現有技術向后兼容的數據互聯互通。因此,以標識為基礎,發揮已有互聯網基礎技術的能力和優勢進一步推動技術演進,是數據互操作技術的主要實現思路。從最初以地址標識為基礎的路由系統,到以名字標識為基礎的域名系統,支撐數據交換、信息共享的歷史要求雖已完成,但已難以適應當前知識構建和價值交換的要求,因而一種以泛在標識為基礎的數據標識系統的產生成為必然。
當前,域名及域名系統是互聯網關鍵資源的核心連接點,它基于對IP地址等資源的關聯和映射,不僅將全球的網站連接在一起,更是成為全球互聯網的中樞神經系統。實現全球的數據連接,構建數字經濟的中樞神經系統,要實現從DNS(域名系統)到DIS(數據互操作系統)的演進。需要強調的是,數據互操作技術要實現向后兼容,以符合互聯網統一標準的方式發現和定位數據資源,并在保障數據權屬和促進數據可信的前提下實現數據資源的安全交換,而不是自建體系。這既是互聯網基礎技術創新的趨勢,也是數據治理落地實施的保障,更是數字經濟發展對數據基礎設施的要求。
數據互操作技術是數據基礎設施構建的核心技術。在本質上,數據互操作技術是一套實現數據交換的機制設計,包含標識確權、認證授權、安全交換三個核心步驟,其中標識確權和認證授權對應了數據交換確權和行權的過程,明確了數據提供方的權利和義務,即負有保證數據內容真實可靠、安全合規的義務,同時也享有根據數據的實際價值、需求程度、數據質量獲得收益分配的權利;而安全交換則對應于數據交換過程的安全性。此外,數據互操作系統承載了基于此系統實現的每一筆數據交換的真實記錄。就技術定位而言,數據互操作實現了對從采集傳輸到應用消亡的數據全生命周期的監管。數據互操作是數據基礎設施的底層技術架構,數據基礎設施應包含的其他功能,如數據內容審核、任務資源分配等,都能夠基于這一底層機制和技術架構向上構建。
在未來,數據基礎設施的內涵與功能將隨著現實數據需求與數據治理實踐的變化而不斷豐富,但圍繞每一次數據交換的實現思路與方向是基本不變的。就具體功能而言,明確數據權屬以及保障交換安全本身屬于“控制”的具體內涵,其中,明確的數據權屬配合真實的交換記錄為數據治理提供依據。數據互操作系統能夠與數據治理規則相容,從數據流通的底層架構中為數據治理留出操作窗口,對數據治理手段進行數字化賦能,使其不再獨立于技術系統與平臺之外。
數據基礎設施助力數字技術迭代升級。大數據、云計算、區塊鏈、物聯網、人工智能等數字技術作用于數據生命周期的部分環節甚至全流程,數字技術的迭代升級與數據互聯互通息息相關。以人工智能技術為例,機器學習中的神經網絡是大型語言類模型出現之前,人工智能技術中應用最為廣泛的門類,能夠較好地解決圖像識別、聲音識別等問題,并應用于人臉識別門禁卡、無人駕駛汽車等領域。神經網絡技術理念的提出最早可以追溯到McCulloch and Pitts(1943),上世紀六十年代曾經歷了技術理論的繁榮發展期,但是神經網絡技術直到2010年才開始大規模普及應用,算力基礎設施不健全與數據資源匱乏是其中的主要限制因素。
同樣,算力基礎設施與豐富的數據資源支撐了ChatGPT等大型語言類人工智能模型的構建。一方面,ChatGPT等大型語言類模型的發展高度依賴于高知識密度數據的積累,而“數據孤島”問題的凸顯,難以有效支撐人工智能技術及其應用的發展,這就需要數據基礎設施為人工智能技術的發展提供豐富的高知識密度數據;另一方面,ChatGPT等大型語言類人工智能模型的發展隱含一定治理風險,呼喚數據基礎設施在數據資源體系大循環中扮演總體控制的角色。
主管單位:中國反腐敗司法研究中心
主辦單位:企業廉潔合規研究基地
學術支持:湘潭大學紀檢監察研究院
技術支持:湖南紅網新媒科技發展有限公司