【摘要】隨著大數(shù)據(jù)和人工智能的興起,機器學習等算法在工業(yè)生產和商業(yè)活動中被逐步推廣和應用,但在此過程中產生的算法歧視問題也愈發(fā)普遍,并引起了廣泛關注和思考。本文對算法歧視的眾多表現(xiàn)及成因進行探討,并據(jù)此提出算法歧視問題的治理策略。
【關鍵詞】算法歧視 大數(shù)據(jù)“殺熟” 治理策略 【中圖分類號】TP304.6 【文獻標識碼】A
算法歧視是以算法為手段實施的歧視行為,主要指在大數(shù)據(jù)背景下、依靠機器計算的自動決策系統(tǒng)在對數(shù)據(jù)主體做出決策分析時,由于數(shù)據(jù)和算法本身不具有中立性或者隱含錯誤、被人為操控等原因,對數(shù)據(jù)主體進行差別對待,造成歧視性后果。算法歧視問題不僅使算法無法充分發(fā)揮其正向效用,也成為大數(shù)據(jù)科學及人工智能技術推廣中不可忽視的障礙。對于用戶而言,算法歧視問題侵害用戶個人權益及尊嚴感。對于企業(yè)而言,一方面,算法歧視可能會導致企業(yè)的直接經濟損失,比如信息推送不精確、廣告投放對象偏差、人才招聘選擇范圍過窄等問題;另一方面,算法歧視問題會通過影響用戶滿意度而間接影響企業(yè)的收益及企業(yè)聲譽。因此,算法歧視問題對用戶和企業(yè)都可能帶來不利影響。另外,算法“黑箱”等信息不對稱性的存在導致歧視現(xiàn)象潛藏得更加深入而不易被察覺,也給治理算法歧視問題帶來了新的挑戰(zhàn)。
隨著信息科技將持續(xù)迅猛發(fā)展,解決算法歧視問題對于發(fā)揮算法應用對生產生活等各領域高效發(fā)展的正向作用具有重要的現(xiàn)實意義。本文將對金融借貸平臺借貸歧視、平臺型企業(yè)大數(shù)據(jù)“殺熟”、人工智能相貌歧視、AI機器人發(fā)表歧視性言論等算法歧視問題的表現(xiàn)進行闡述;并對算法歧視問題背后的成因進行歸納分析,主要包括算法思維的固有缺陷、算法設計者的主觀歧視思想、算法設計過程中的數(shù)據(jù)及技術漏洞、算法“黑箱”等信息不對稱性的存在等;最后基于成因分析從IT行業(yè)、用戶及政府、媒體等角度探討算法歧視問題的治理路徑。
算法歧視的表現(xiàn)
隨著算法在金融、互聯(lián)網(wǎng)服務等行業(yè)的深入運用,金融借貸平臺借貸歧視、互聯(lián)網(wǎng)平臺大數(shù)據(jù)“殺熟”等算法歧視現(xiàn)象屢見不鮮;而算法在日常生活中的廣泛應用,常用軟件以及AI聊天機器人等也因算法歧視問題引起熱議。
首先,金融借貸平臺借貸歧視是社會歧視思想的延伸。在普惠金融蓬勃發(fā)展的今天,歧視現(xiàn)象仍然在金融行業(yè)普遍存在。金融網(wǎng)貸平臺避免了金融機構與用戶面對面接觸,本應使借貸變得更公平。然而,隨著大數(shù)據(jù)挖掘算法與金融行業(yè)的深層融合,算法能夠更輕易地挖掘到用戶的私人信息,并根據(jù)這些信息對用戶的借貸限額及借貸利率等進行差別對待,這使得網(wǎng)絡金融借貸平臺歧視行為與線下金融借貸機構幾乎別無二致。加州大學伯克利分校教授在對網(wǎng)貸平臺進行研究時發(fā)現(xiàn),算法和線下借貸一樣會對借款人進行歧視。該研究選取美國最大的借貸機構之一的Quicken Loans在線平臺作為案例研究對象。研究發(fā)現(xiàn),在線下借貸機構受到歧視的群體在金融借貸平臺上仍然會遭到歧視,且他們的在線貸款申請利率一般會比普通群體高出5.3個基點,這與其在線下借貸機構貸款時需要額外支付的5.6個附加點十分相近。而這種利率差別并不是由信譽差異導致的,而是由算法歧視造成的。
其次,大數(shù)據(jù)“殺熟”是互聯(lián)網(wǎng)平臺逐利思想的體現(xiàn)。大數(shù)據(jù)時代算法歧視問題的典型表現(xiàn)就是互聯(lián)網(wǎng)平臺對老用戶“殺熟”。大數(shù)據(jù)“殺熟”指互聯(lián)網(wǎng)平臺利用大數(shù)據(jù)挖掘算法獲取用戶信息并對用戶進行“畫像”分析,進而對不同消費者群體提供差別性報價,以達到銷售額最大化或吸引新用戶等目的的行為。這種企業(yè)“殺熟”現(xiàn)象的本質是通過一定的算法篩查,對用戶群體進行分類,形成一套端口多套服務的模式。而這里的“熟”指的是那些已經被大數(shù)據(jù)挖掘算法充分掌握信息的用戶。此前,一篇關于大數(shù)據(jù)“殺熟”的文章沖上微博熱搜,文章作者發(fā)現(xiàn),使用某外賣平臺APP在同一時間同一家店進行點餐,會員的配送費反而要比非會員的配送費多4元。隨后作者又查看了附近的其他外賣商家,發(fā)現(xiàn)開通會員的賬號普遍比不開通會員的賬號多支付1元—5元。事實上,大數(shù)據(jù)“殺熟”現(xiàn)象不僅僅出現(xiàn)在外賣平臺上。根據(jù)2019年北京消費者協(xié)會的社會調查數(shù)據(jù),有56.92%的被調查者有過被大數(shù)據(jù)“殺熟”的經歷,而認為大數(shù)據(jù)“殺熟”現(xiàn)象很普遍的被調查者比例高達88.32%。另外,調查顯示購物類、旅游類、打車類等平臺APP均存在著大數(shù)據(jù)“殺熟”現(xiàn)象(見圖1)。
再次,修圖算法歧視爭端是數(shù)據(jù)集引發(fā)的算法歧視。人工智能技術的普及不僅讓人類的生產生活更加便利,也幫助人類將更多難以實現(xiàn)的事變成現(xiàn)實,滿足了人類的精神慰藉和關懷需求。例如,人工智能技術可以幫助人類與逝者“對話”、陪伴獨居老人等。然而,一些本意旨在實現(xiàn)人文關懷的人工智能技術反而帶來了算法歧視問題,導致科技的應用目標無法實現(xiàn)。例如,杜克大學推出的一款修圖算法能夠將模糊照片清晰修復,憑借這一功能,用戶可以將具有紀念意義的舊照片進行復原。然而,一位用戶將一張模糊人像照片輸入該算法后,得出的照片卻與本人的相貌大相徑庭,此事引起美國網(wǎng)民的激烈討論。民眾認為該算法帶有嚴重的外貌歧視性,由此引發(fā)了人們對人工智能技術的質疑。對此,圖靈獎得主Yann Lecun從專業(yè)角度給出了答案:該修圖算法結果偏差主要原因在于數(shù)據(jù)偏差,該修圖算法進行預訓練的數(shù)據(jù)集儲存的人像照片來源有限,復原的照片外貌特征與數(shù)據(jù)集里照片相似,導致算法最終得出的照片與本人差距較大。
最后,AI聊天機器人的歧視性言論是機器學習缺乏信息過濾機制。隨著人工智能的不斷發(fā)展,AI機器人被廣泛使用。AI聊天機器人通過在交互情景中對信息進行學習、儲存來模仿人類對話,進而實現(xiàn)與用戶進行交互對話,并具備協(xié)助用戶對日常工作進行記錄和信息搜索等功能。一旦AI聊天機器人在學習過程中學習到了帶有歧視性的信息,就會引發(fā)算法歧視問題。由韓國研發(fā)的一款AI聊天機器人能夠通過在交互情景中學習對話而能像真人一樣和用戶聊天。然而讓人意外的是,這款AI聊天機器人在與用戶進行交互的過程中,發(fā)表了歧視殘疾人、孕婦、同性戀等群體的不當言論,而這些觀點正是AI機器人在與用戶交互的過程中學習到的。AI機器人在未來會被更廣泛地普及應用,AI機器人發(fā)表言論是否正向積極直接關系到用戶的使用體驗及身心健康,而AI機器人導致的算法歧視問題也可能會引發(fā)更嚴重的社會歧視問題。
算法歧視的成因
針對上述算法歧視的問題,現(xiàn)從算法思維的固有缺陷、算法設計者的歧視思想、算法設計過程中的數(shù)據(jù)及技術漏洞以及算法“黑箱”等信息不對稱性等方面對算法歧視問題的成因進行分析。
一是算法思維的固有缺陷。一方面,經驗普適性與個例特殊性之間存在矛盾。算法依據(jù)人類所設置的固定邏輯解決問題,這種固定邏輯通常只能描述普遍適用的經驗事實,而忽略現(xiàn)實中的小概率事件。這很容易導致經驗上的相關性被算法夸大為必然存在的因果關系,造成算法邏輯過于絕對,最終導致對少數(shù)群體的算法歧視。然而,在現(xiàn)實生活中,人類除了會根據(jù)經驗進行判斷決策外,還會對某些偶然出現(xiàn)的特殊個例事件隨機應變地做出反常規(guī)決策。例如,人類在經驗上認為高學歷應聘者具備更強的工作能力,因此在招聘平臺APP上,未達到職位學歷要求的應聘者會直接被算法篩選淘汰,導致其無法獲得公平競爭的機會;但對于線下招聘,即使一些應聘者未達到職位的學歷要求,但其豐富的工作經驗或精辟獨到的見解等優(yōu)勢都有機會讓HR放寬對職位的學歷限制而對其破格錄用。這種反常規(guī)決策通常具有極大的隨機性和不確定性,因此難以從中總結出具有規(guī)律性的邏輯思路并形成算法。也就是說,人類只能盡可能地將自己在常見案例中所運用的經驗判斷邏輯形成算法,卻不可能將在特例中運用到的反常規(guī)判斷邏輯全部都形成算法。這就導致了算法決策始終與人工決策存在一定差距,這種差距只能被盡可能縮小,卻不可能被徹底消除。
另一方面,算法簡化及歸類思想與對象異質性存在沖突。為了盡量精簡快捷地運用算法解決問題,算法設計者通常會先將對象進行分類簡化,進而對不同類別的群體針對性賦予程序指令。在群體分類及定義的過程中,個體依據(jù)共性特征被分類,而異質性特征卻被忽略。當算法對象是人時,人既具有一定的共性,使其能夠歸納分類為群體,也具有復雜性、多元性,每個個體在各方面的特征都不盡相同。例如,電商平臺在進行產品推送時,可能會對女性用戶一味地推送裙子、高跟鞋等商品,這些在傳統(tǒng)意義上為女性消費者量身定做的商品并不一定符合全部女性的購物偏好。因此,群體的差異性程序指令可能會使群體在共性上得到公平對待,卻在特性上受到歧視。這一現(xiàn)象由算法的歸類簡化思想導致,特別是在大數(shù)據(jù)科學中應用更為普遍。當個體數(shù)量龐大時,個體異質性無法被充分考慮,這是導致少數(shù)個體被算法歧視的原因之一。
二是算法設計者存在主觀歧視思想。一方面設計者主觀認知偏見。當今社會中,偏見思想仍然普遍存在。算法是人類思想的體現(xiàn),如果算法設計者主觀上具有偏見思想并將主觀意愿及隱含偏見寫進算法中,就必然會造成算法歧視問題。不僅如此,隨著大數(shù)據(jù)科學的普及和應用,算法設計者能夠更加輕易地獲取到用戶的私人信息,這造成歧視行為更加變本加厲。金融借貸平臺的借貸歧視等算法歧視現(xiàn)象實際上就是社會歧視性思想的體現(xiàn),歸根結底是由觀念認知偏差所引起的,而不是信息科技發(fā)展所帶來的不良后果。事實上,算法是人類為提高生產生活的便捷程度而創(chuàng)造和設計的工具,它固然是一把雙刃劍,但企業(yè)和算法設計者以中立的態(tài)度合理地利用算法可以使其更好地發(fā)揮正向效用。另一方面設計者逐利思想驅使。除了主觀認知偏見之外,逐利思想也是造成算法歧視的主要原因,其中大數(shù)據(jù)“殺熟”就是逐利思想驅使導致算法歧視的典型表現(xiàn)。算法設計者為了獲取更高的利益,通過提供更優(yōu)越的條件吸引潛在價值更高的用戶,這無疑使其他用戶遭受不公平待遇。相比于主觀認知偏見,逐利思想下被算法歧視的群體更容易通過消費等行為突破歧視壁壘,這也正是算法設計者設計歧視性算法的主要目的之一。也就是說,算法設計者通過有意為之的歧視,達到吸引用戶關注、刺激用戶消費等目的,進而為自身創(chuàng)造更大的經濟利益。事實上這也是人類思想主導下的算法歧視,而不是算法發(fā)展的必然后果。
三是算法設計過程中存在數(shù)據(jù)及技術漏洞。首先是算法選取樣本分布不均。除了設計過程中導致算法歧視問題外,數(shù)據(jù)集也是導致算法歧視問題的主要原因之一。與修圖算法的歧視爭端類似,在數(shù)據(jù)采樣過程中若數(shù)據(jù)來源集中于部分群體,而忽略其他群體,那么算法僅能捕捉到被采樣群體的特征,其輸出的信息也僅適用于被采樣群體,而那些未被采樣的群體就有可能成為被歧視的對象。因此,即便算法具有公正的設計思想,若所選取的數(shù)據(jù)樣本分布不均,也會導致嚴重的算法歧視問題。其次是機器學習過濾標準過松。具有學習功能的算法除了能夠體現(xiàn)算法設計者的思想外,還融合了用戶的思想。機器學習算法會在與用戶交互的過程中學習用戶行為,這些學習到的用戶行為信息可能會被儲存并應用于類似的交互情景中。盡管機器學習算法的設計初衷是通過對信息和數(shù)據(jù)的學習,提高輸出信息及數(shù)據(jù)的精準度。特殊地,對于AI機器人等交互式機器學習算法,算法通過學習人類行為信息來擴充信息庫,進而提高AI機器人對人類的模仿能力。然而,目前帶有學習功能的算法通常缺乏嚴格的信息甄別和過濾功能,帶有歧視性的信息不能提前被識別過濾而被一并提供給算法進行學習,算法一旦在這一過程中學習并儲存了具有歧視性的信息,就極大可能會在其他交互情景中輸出帶有歧視性的信息,進而導致更嚴重的算法歧視問題。
四是算法“黑箱”等信息存在不對稱性。由于算法從輸入數(shù)據(jù)到輸出決策結果的邏輯過程并不向外界公開,因此形成了算法“黑箱”。用戶在使用算法時僅能獲知算法運行的結果,而算法使用的數(shù)據(jù)、分析邏輯等關鍵過程則被算法“黑箱”隱藏,算法的非透明性導致算法歧視更加隱蔽。此外,算法設計者由于掌握著大數(shù)據(jù)信息而占據(jù)信息優(yōu)勢,從而能夠更輕易地對用戶進行區(qū)別對待;而用戶間卻并不了解彼此的信息,且在大多數(shù)情況下用戶只能查看到自己使用算法的運行結果,而不了解其他用戶的運行結果。這導致用戶甚至無法發(fā)現(xiàn)自己已經成為了被歧視群體的一員。如前文中的外賣平臺大數(shù)據(jù)“殺熟”案例中,該作者通過對比兩個賬號才發(fā)現(xiàn)會員賬號的配送費比非會員賬號更高,信息不對稱性使算法歧視問題變得隱蔽而不易被發(fā)現(xiàn)。
總而言之,無論是算法本身的訓練數(shù)據(jù)、運行分析邏輯還是用戶信息及運行結果,用戶所掌握的信息都少于算法設計者,這使得用戶處于弱勢地位,最終成為算法歧視的受害者。
算法歧視的治理
算法歧視問題嚴重損害用戶的基本權益,迫切需要對其進行相應治理。根據(jù)對算法歧視問題成因的分析,主要可以從算法設計者、用戶及政府、企業(yè)及媒體等第三方主體進行展開,探討算法歧視的治理路徑。
第一,加強IT行業(yè)風險防控。首先是加強從業(yè)者職業(yè)道德建設。IT行業(yè)應編寫從業(yè)者職業(yè)道德指南,并定期組織從業(yè)者參加行業(yè)相關法律法規(guī)和職業(yè)道德倫理學習并開展評估測試,杜絕從業(yè)者為賺取利益而設計歧視性算法的行為,并盡量避免其將偏見思想融入算法程序設計中;對從業(yè)人員建立完善的評價體系和定期考核制度,建立完善的用戶評價、投訴體系并建立相應的獎懲制度,尤其應注意對用戶滿意度的調查分析。其次是建立數(shù)據(jù)采集標準。由于數(shù)據(jù)中包含大量信息,因此其在算法中是至關重要的。IT行業(yè)應針對從業(yè)人員在設計算法過程中的數(shù)據(jù)采集等工作制定規(guī)范細則,從業(yè)者需依據(jù)行業(yè)規(guī)范細則對數(shù)據(jù)來源、采集范圍、采樣數(shù)量等信息及時進行記錄說明,并定期接受監(jiān)督和審查,盡可能保證在各群體中數(shù)據(jù)的充分和均勻采集,以避免由于數(shù)據(jù)樣本缺失或采樣不均而產生的算法歧視問題。最后是建立風控審查機制。對于算法的設計過程中的技術漏洞問題,IT行業(yè)應加強從業(yè)者對規(guī)避算法風險相關知識的學習,使算法設計者有良好的風險防控意識及風險預判能力。IT行業(yè)應該對算法是否具備輸入信息的篩查過濾機制進行嚴格審查。對于機器學習算法而言,用戶輸入信息必須經過識別及過濾,才能供給機器學習算法進行學習;對于大數(shù)據(jù)科學而言,信息過濾機制能夠嚴格剔除掉那些帶有隱私敏感信息的數(shù)據(jù),使算法先完成數(shù)據(jù)脫敏過程再進入運算環(huán)節(jié),從而降低數(shù)據(jù)引發(fā)算法歧視問題的風險。
第二,提高用戶防范意識。首先是注意私人信息的保護。隨著互聯(lián)網(wǎng)技術的發(fā)展,用戶的運動軌跡、手機品牌、出行記錄等日常行為信息都有可能被大數(shù)據(jù)算法捕捉而成為算法歧視的“數(shù)據(jù)供應商”。因此,用戶在日常生活中要增強個人信息保護意識,嚴格把控APP數(shù)據(jù)讀取授權,以免被一些挖掘隱私信息的算法盜取信息。其次是提高警惕性和維權意識。由于存在算法“黑箱”與信息不對稱性,用戶有時會難以發(fā)現(xiàn)自己成為了被歧視群體的一員。對此,用戶應在日常使用平臺APP、AI機器人等過程中保持高度警惕,謹防受到不公平待遇。
另外,用戶應提升維權意識。2019年北京消費者協(xié)會進行的社會調查結果(見圖2)顯示,在遭遇大數(shù)據(jù)“殺熟”后采取投訴方式進行維權的用戶僅占26.72%,向媒體求助的用戶占比8.13%。盡管作為個體,用戶的力量薄弱,但仍應保有話語權。在一個用戶背后是被歧視用戶的龐大群體,用戶應意識到算法歧視問題的嚴重性,一旦發(fā)現(xiàn)自己遭遇算法歧視,應在第一時間保留好證據(jù),積極尋求正當渠道進行維權。
第三,政府、媒體等第三方實現(xiàn)聯(lián)合監(jiān)管。首先是完善法律法規(guī)制度。我國作為一個法治國家,法律具有強大的約束力,通過法律手段對IT行業(yè)進行約束是治理算法歧視問題最有力的手段。在當前人工智能時代,算法應用越來越廣泛,涉及到多個行業(yè)、領域,因此要從法律層面治理算法歧視問題,規(guī)范算法的使用范圍、方式和底線。與此同時,算法歧視涉及算法設計者、商家和用戶等多個主體,對于不同對象,法律都應詳細規(guī)定其行為規(guī)范,明確應承擔的責任和義務。相關部門應該出臺相應的法律來規(guī)制算法設計者的行為,明確在算法設計過程中存在惡意歧視行為的懲罰制度并嚴格執(zhí)行,以避免其侵犯用戶的合法權益。我國當前相關法律主要側重于對信息內容的管控,如已頒布的《互聯(lián)網(wǎng)文化管理暫行規(guī)定》《互聯(lián)網(wǎng)群組信息服務管理規(guī)定》法律文件等,而對于算法歧視設計主體的行為規(guī)范仍需進一步努力。此外,我國還應建立數(shù)據(jù)審查、問責、監(jiān)管及補救機制。在算法設計過程中,要確保數(shù)據(jù)來源真實、合理且合法,保證數(shù)據(jù)收集過程透明且可追溯,并建立嚴格的審查制度,對數(shù)據(jù)采集進行監(jiān)管。2021年7月6日,國內數(shù)據(jù)領域首部基礎性、綜合性立法《深圳經濟特區(qū)數(shù)據(jù)條例》在深圳市人大常委會網(wǎng)站公布,該《條例》于2022年1月1日起施行?!稐l例》明確規(guī)定,個人數(shù)據(jù)在被處理前務必向自然人履行告知義務、征得自然人的同意,且自然人有權拒絕數(shù)據(jù)個性化服務等。未來,大數(shù)據(jù)體量將持續(xù)增加,我國應繼續(xù)推進對數(shù)據(jù)采集處理的監(jiān)管與治理工作,保障用戶的合法權益。其次是加強道德倫理監(jiān)督。由于受到社會環(huán)境的影響,算法設計者可能具有對某一群體的歧視思想,由此可能導致算法設計中缺乏中立性。一旦歧視性或偏見性思想融入算法設計過程中,算法必然會輸出歧視性的運行結果。政府應嚴格把控從業(yè)準入道德標準,對從業(yè)者的職業(yè)道德學習、測評及IT行業(yè)評價及投訴體系的建立進行監(jiān)督;媒體應發(fā)揮正向的倡導作用,普及算法歧視的相關知識,引導正確的價值導向,對算法歧視問題予以充分關注并及時曝光;社會各界應對算法歧視問題進行及時舉報和投訴。最后是實現(xiàn)多方監(jiān)管。當前,一些研究者們提出通過“算法透明”來解決算法歧視問題。然而,算法作為企業(yè)的技術成果與核心競爭力,如果全部透明暴露在大眾視野中,很容易受到黑客攻擊而造成損失,因此“算法透明”在現(xiàn)階段難以完全實現(xiàn)。對此,許多研究者積極研發(fā)技術工具,以期在保證算法精準性的同時盡可能地避免歧視問題發(fā)生。例如,由數(shù)據(jù)科學家Been Kim所在團隊研發(fā)的“概念激活向量測試”(Testing with Concept Activation Vectors)技術,該技術能夠使算法“黑箱”變得可解釋,進而據(jù)此判定算法是否存在歧視問題。隨著類似技術的發(fā)展成熟,算法設計者可以將算法轉換成可解釋的邏輯并進行公開,接受政府、業(yè)內專家、用戶及社會各界的多方監(jiān)督,在保留其機密信息的同時對算法進行監(jiān)管,降低算法歧視問題發(fā)生的概率。
總的來說,算法歧視問題使算法無法充分發(fā)揮其正向效用,損害了用戶的體驗感與商家的利益,給算法推廣使用帶來了阻礙。算法的發(fā)展應用應始終秉承著“以人為本”的原則,任何群體都有權利享受算法所帶來的紅利,而非成為被算法歧視的對象。未來,隨著社會各界對算法歧視問題的認知逐漸加深以及對算法歧視多方治理的逐步實現(xiàn),算法一定能在幫助人類高效生產、便捷生活的同時,實現(xiàn)人文關懷價值,充分尊重人類的平等權利與尊嚴。
(作者為湖南大學工商管理學院副院長,教授、博導)
【參考文獻】
①韓勇:《算法歧視的成因及治理路徑》,《青年記者》,2021年第8期。
②宋素紅、王躍祺、常何秋子:《算法性別歧視的形成邏輯及多元化治理》,《新媒體》,2020年第5期。
③刁生富、張艷:《人工智能時代的算法歧視及其治理路徑》,《佛山科學技術學院學報》(社會科學版),2021年第1期。
④張力、鄭麗云:《算法推薦的歧視與偏見》,《傳媒先鋒》,2020第7期。
責編/韓拓 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。