數(shù)據(jù)是新型生產(chǎn)要素,對助推傳統(tǒng)產(chǎn)業(yè)轉型升級、打造新產(chǎn)業(yè)新業(yè)態(tài)新模式、壯大經(jīng)濟發(fā)展引擎,都起到重要的作用。根據(jù)“十四五”規(guī)劃綱要,“統(tǒng)籌數(shù)據(jù)開發(fā)利用”“推進數(shù)據(jù)跨部門、跨層級、跨地區(qū)匯聚融合”成為我國數(shù)字化轉型的頂層設計。在激發(fā)要素潛能和隱私保護的雙重驅動下,大批在提供隱私保護前提下實現(xiàn)數(shù)據(jù)價值挖掘的數(shù)據(jù)處理模式相繼涌現(xiàn),包括多方安全計算、可信執(zhí)行環(huán)境為代表的隱私計算技術,以低代碼、零代碼為核心的“軟件即服務”(SaaS)平臺等。
數(shù)據(jù)合規(guī)從技術層面來說具有多方面優(yōu)勢,體現(xiàn)在以技術手段促進組織形式與價值創(chuàng)造的分離。例如,多方安全計算可在非信任主體間數(shù)據(jù)相互保密的前提下,進行高效融合計算,實現(xiàn)“數(shù)據(jù)占有權和使用權的分離”;可信執(zhí)行環(huán)境可通過硬件隔斷形成封閉運行環(huán)境,兌現(xiàn)更高標準的隱私保護承諾,實現(xiàn)“數(shù)據(jù)供給和數(shù)據(jù)保護的分離”;低代碼和零代碼可為開發(fā)者提供可視化應用開發(fā)環(huán)境,降低或去除應用開發(fā)對原生代碼編寫的需求,實現(xiàn)“算法手段和算法目的分離”。
數(shù)據(jù)合規(guī)的前沿技術風險
前端風險在于誘發(fā)人機對抗。技術手段下數(shù)據(jù)合規(guī)具有“白盒特性”,各參與方都可以直接獲取完整的技術參數(shù),惡意攻擊者同樣可以利用該特性偽裝成誠實參與方竊取運算結果、扭曲模型訓練、破解可信環(huán)境或生成惡意低代碼。參與方自愿提供數(shù)據(jù)、消耗算力參與數(shù)據(jù)合規(guī)實踐,其具有強烈的自利動機,輕則通過參與獲得技術使用權,重則掠奪中間數(shù)據(jù)和源頭數(shù)據(jù)。依據(jù)危害性由低到高的順序,將數(shù)據(jù)合規(guī)的參與方劃分成三種類型。此種劃分方式表明,隨著利益需求的不斷變化,各參與方的角色定位也可能發(fā)生改變。
中端風險在于加劇算法歧視。算法歧視主要源于數(shù)據(jù)集偏差或數(shù)據(jù)缺陷,在數(shù)據(jù)合規(guī)場景中,不同來源數(shù)據(jù)間的強搭和錯配可能對聯(lián)合數(shù)據(jù)造成沖擊與擾亂,使算法歧視規(guī)模性放大。除了數(shù)據(jù)投毒等極端手段,誠實但好奇參與方的數(shù)據(jù)輸入因數(shù)據(jù)梯度同其他參與方相差過大,也可能間接導致模型被“污染”,輸出歧視性結果。單次歧視的即時危害雖不易被察覺,卻足以在更長時間維度和更長數(shù)據(jù)鏈條上產(chǎn)生積累式影響。例如,當不同學校的畢業(yè)生數(shù)據(jù)被用于訓練招聘篩選系統(tǒng),或者當男性占絕對多數(shù)的IT行業(yè)數(shù)據(jù)和其他行業(yè)數(shù)據(jù)被共同用于訓練升職評價系統(tǒng)時,同身份緊密捆綁的群體歧視將借由算法“共訓”之名,從數(shù)據(jù)向模型蔓延。
后端風險在于催生逆向淘汰。在各類促進數(shù)據(jù)合規(guī)的技術大規(guī)模部署前,面對受眾,智能應用被限制在各自為政的領域,彼此之間沒有交流與協(xié)作,更多的是算法間的良性循環(huán),即效率高、服務好、安全穩(wěn)定的智能應用將獲得更高市場份額,榨取用戶剩余的智能應用將面臨被淘汰或整改的命運,因嚴重違法違規(guī)收集使用個人信息而被強制下架的各類APP即為典型事例。由于披上了“合規(guī)”的外衣,數(shù)據(jù)合規(guī)科技可能逐漸導致“算法趨同”,在技術黑箱的掩護之下,過去算法間的“朝上競爭”極有可能向“逐底競爭”轉變。對數(shù)據(jù)規(guī)整性要求不高、通信成本更低、算法可解釋性匱乏的智能應用,或將隨著技術手段下數(shù)據(jù)合規(guī)的不斷發(fā)展,逆向淘汰相對保守的傳統(tǒng)智能應用。
破解數(shù)據(jù)合規(guī)的應對措施
為應對前端風險,應引入聲譽概念作為衡量參與方信任度的核心指標。多權重主觀邏輯模型使基于聲譽的可信賴客戶端之間的“朝上競爭”成為可能,配合區(qū)塊鏈技術的不可篡改特性,分布式信譽管理將成為現(xiàn)實。例如,主導方可圍繞深度強化學習設計激勵策略,在開源分布式特殊場景中推行資源“按勞分配”,以達到邊緣節(jié)點的最佳訓練水平;利用區(qū)塊鏈技術跟蹤全局模型更新,對積極貢獻用戶給予豐厚獎勵,實現(xiàn)局部模型的更高穩(wěn)定性。此外,契約理論可被用于各參與方算力投入和模型質量的衡量。不過,技術互嵌的解決方案有時也存在相互掣肘,技術方需“量力而行”。例如,區(qū)塊鏈技術的公共賬本特性存在通信延遲、數(shù)據(jù)吞吐量大等問題,必然對通信設備、服務器帶寬以及主機算力等提出更高要求。為此,可通過對通信成本和模型準確性之間進行表征的多節(jié)次方程式對二者的權衡取舍予以指導。
為應對中端風險,應構建數(shù)據(jù)清洗過程適用的缺省性數(shù)據(jù)篩選機制。避免算法歧視“群體化”需要深入數(shù)據(jù)處理的社會性聚合機制,尤其需拷問作為多方安全計算、聯(lián)邦學習和低代碼參與方的自身稟賦、行業(yè)特點和地域限制在何種程度上影響了數(shù)據(jù)樣本的生成。無論如何清洗,來源于同一主體的數(shù)據(jù)通常會被打上難以察覺的烙印,具有隱性的身份化表征,在無形之中限定了數(shù)據(jù)合規(guī)的應用格局。不同數(shù)據(jù)間集體身份在數(shù)據(jù)合規(guī)實踐中相互排斥和博弈越明顯,得出的運算結果、訓練出的公共模型和成型的低代碼模塊就越有可能產(chǎn)生歧視。簡言之,原本稀松平常的數(shù)據(jù),可能由于同其他非適配數(shù)據(jù)的聯(lián)合,導致數(shù)據(jù)池難以自洽。在數(shù)據(jù)處理的過程鏈條上,被污染的數(shù)據(jù)池無法充分發(fā)揮技術潛力,甚至可能造成數(shù)據(jù)共享機制和自動化決策機制一同組成的整體解決方案的走樣。歧視源于數(shù)據(jù),因此,主導方應在數(shù)據(jù)清洗過程中主動去除冗余、不相關、不合格數(shù)據(jù),在降低通信成本的同時提升運算精度,避免各參與方因“數(shù)據(jù)饑渴”而“來者不拒”,以期從源頭“掐斷”算法歧視群體化的苗頭。
為應對后端風險,應確立智能應用開發(fā)和投入市場的基礎倫理標準。引導科技向善、避免智能應用出現(xiàn)“劣幣驅逐良幣”的有效手段,是通過法律將標準和原則植入技術的底層行動邏輯。在投入市場前,任何技術應用都應滿足倫理先行原則,不得游走于現(xiàn)有法律體系的灰色地帶進行監(jiān)管套利。因匯聚了海量大數(shù)據(jù),技術方極有可能經(jīng)不住誘惑,利用算法壓榨個體,攝取不成比例的回報。倫理先行原則表明,技術目標的選擇不應是簡單的效益至上或是性能擇優(yōu)。在數(shù)據(jù)合規(guī)場景中,各參與方的效益增長勢必會同步拉動社會公共利益的福祉提升。此外,對于數(shù)據(jù)主體而言理應共享技術紅利,技術方必須兌現(xiàn)用戶授權時所抱有的信賴利益,否則數(shù)據(jù)主體有權主張數(shù)據(jù)處理合同自始無效。