【摘要】人工智能和大數(shù)據(jù)分析技術(shù)的發(fā)展為社會(huì)科學(xué)研究提供了新的技術(shù)方法和理念,同時(shí)也帶來(lái)了新的挑戰(zhàn)。本文從人工智能技術(shù)在我國(guó)社會(huì)科學(xué)研究中的運(yùn)用現(xiàn)狀出發(fā),分析了未來(lái)人工智能技術(shù)背景下社會(huì)科學(xué)研究范式的多元化發(fā)展和文理融合發(fā)展的趨勢(shì)。強(qiáng)調(diào)推動(dòng)我國(guó)可計(jì)算社會(huì)科學(xué)研究發(fā)展需要避免的幾個(gè)誤區(qū),比如偏重相關(guān)關(guān)系的研究而忽略對(duì)因果關(guān)系的探索,受樣本數(shù)據(jù)偏差的影響而陷入“統(tǒng)計(jì)的胡說(shuō)”現(xiàn)象,以及過(guò)度依賴(lài)于算法而導(dǎo)致結(jié)果偏差放大的現(xiàn)象等。隨著文理融合時(shí)代的到來(lái),統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的跨學(xué)科普及至關(guān)重要,需要盡早開(kāi)展相關(guān)的交叉學(xué)科的設(shè)置,積極提供網(wǎng)絡(luò)教育等相關(guān)知識(shí)普及的公共品。
【關(guān)鍵詞】人工智能 大數(shù)據(jù) 社會(huì)科學(xué) 統(tǒng)計(jì) 計(jì)算機(jī)語(yǔ)言
【中圖分類(lèi)號(hào)】C3 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.005
隨著人類(lèi)社會(huì)的進(jìn)步和科技的發(fā)展,科學(xué)研究的方法也在不斷演進(jìn),從早期以亞里士多德的天動(dòng)學(xué)說(shuō)為代表的自然哲學(xué)研究手法,逐步演變到以牛頓為代表的對(duì)自然哲學(xué)的數(shù)學(xué)原理的探索,進(jìn)一步發(fā)展到如今基于數(shù)值計(jì)算和模擬仿真的計(jì)算科學(xué)時(shí)代。而進(jìn)入21世紀(jì),人工智能技術(shù)(Artificial Intelligence)的發(fā)展,揭開(kāi)了被稱(chēng)為第4代科學(xué)——數(shù)據(jù)集約型(大數(shù)據(jù))科學(xué)發(fā)展的序幕。[1]
傳統(tǒng)的科學(xué)研究方法主要是基于研究人員通過(guò)觀察和實(shí)驗(yàn)提出假說(shuō),然后通過(guò)反復(fù)試錯(cuò)驗(yàn)證來(lái)實(shí)現(xiàn)對(duì)理論的探索,是先提出理論然后進(jìn)行驗(yàn)證的過(guò)程。而人工智能背景下研究的特征則體現(xiàn)在利用相對(duì)有限的小規(guī)模的觀察數(shù)據(jù),然后通過(guò)不同場(chǎng)景假設(shè)和模擬仿真技術(shù)來(lái)獲取更多數(shù)據(jù)——即深度學(xué)習(xí),最終完成新理論的發(fā)現(xiàn),可以稱(chēng)之為模擬仿真驅(qū)動(dòng)型科學(xué)研究,是一個(gè)從數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律的過(guò)程。
人工智能的發(fā)展的基礎(chǔ)是計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)的發(fā)展,然而應(yīng)用人工智能的研究領(lǐng)域卻不僅僅局限于計(jì)算機(jī)科學(xué),而是跨界于各個(gè)自然科學(xué)和社會(huì)科學(xué)的領(lǐng)域。在我國(guó),人工智能在科學(xué)研究中的應(yīng)用也越來(lái)越普遍,主要集中于計(jì)算機(jī)科學(xué)、工程和自動(dòng)控制系統(tǒng)領(lǐng)域?!吨袊?guó)人工智能發(fā)展報(bào)告2018》中已經(jīng)顯示中國(guó)目前是人工智能論文產(chǎn)出和人工智能專(zhuān)利布局最多的國(guó)家。在過(guò)去的20年里,中國(guó)人工智能領(lǐng)域的論文產(chǎn)出全球占比從4.26%上升到了27.68%,按照國(guó)際經(jīng)濟(jì)學(xué)對(duì)比較優(yōu)勢(shì)的定義,[2]中國(guó)人工智能領(lǐng)域的論文產(chǎn)出全球占比已經(jīng)大于中國(guó)GDP的全球占比了,因此中國(guó)在人工智能的研究領(lǐng)域已經(jīng)屬于具有比較優(yōu)勢(shì)的國(guó)家了。這一定程度上是得益于現(xiàn)今人工智能算法的進(jìn)化很大程度上以大數(shù)據(jù)為基礎(chǔ),而中國(guó)龐大的人口規(guī)模是世界上最好的天然的大數(shù)據(jù)試驗(yàn)場(chǎng)。
與此同時(shí),隨著微觀數(shù)據(jù)的可獲得性的增加,社會(huì)科學(xué)研究領(lǐng)域在最近的20年來(lái)越來(lái)越趨向于量化研究,其中包括實(shí)證研究和反事實(shí)分析。以經(jīng)濟(jì)學(xué)為例,在經(jīng)濟(jì)學(xué)領(lǐng)域備受關(guān)注的約翰·貝茨·克拉克獎(jiǎng),該獎(jiǎng)項(xiàng)60%的獲獎(jiǎng)?wù)叨极@得了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。在1995年之前,僅有20%的獲獎(jiǎng)?wù)叩牡某晒墙⒃跀?shù)據(jù)基礎(chǔ)上的實(shí)證研究(80%是理論研究成果),而在過(guò)去的15年內(nèi),實(shí)證研究的獲獎(jiǎng)比例上升到了70%。因此,可以預(yù)見(jiàn)人工智能中的大數(shù)據(jù)和大數(shù)據(jù)技術(shù)在社會(huì)科學(xué)研究領(lǐng)域中的運(yùn)用將會(huì)越來(lái)越普遍,而成為社會(huì)科學(xué)研究領(lǐng)域的一個(gè)重要趨勢(shì)。
人工智能的技術(shù)為社會(huì)科學(xué)領(lǐng)域的研究者們帶來(lái)了前所未有的大數(shù)據(jù)的同時(shí),也為社會(huì)科學(xué)研究提供了新的技術(shù)和方法,甚至是新的研究理念。這些對(duì)社會(huì)科學(xué)領(lǐng)域的研究而言無(wú)疑是巨大的機(jī)遇。但需要注意的是,人工智能技術(shù)雖然使得社會(huì)科學(xué)與自然科學(xué)研究在方法上形成了一定的共通性,但是這兩類(lèi)研究之間仍然具有幾點(diǎn)本質(zhì)的不同,如何合理而有效地利用人工智能技術(shù),對(duì)社會(huì)科學(xué)研究者們提出了一些特殊的挑戰(zhàn)性問(wèn)題。首先,社會(huì)科學(xué)的主要研究對(duì)象是人和人類(lèi)的行為,存在倫理限制的技術(shù)手段無(wú)法在人類(lèi)活動(dòng)中實(shí)現(xiàn)完全實(shí)驗(yàn)環(huán)境,因此人工智能所帶來(lái)的大數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域很難真正實(shí)現(xiàn)理想中的總體而非樣本的情境。其次,人工智能可以協(xié)助研究者們從更為微觀的層面對(duì)社會(huì)科學(xué)問(wèn)題進(jìn)行分析,在獲得微觀個(gè)體的精確行為的同時(shí),也對(duì)研究者進(jìn)行宏觀規(guī)律總結(jié)帶來(lái)了挑戰(zhàn)。人類(lèi)微觀活動(dòng)之間的交互作用是非常復(fù)雜的,因此宏觀加總的難度也隨著數(shù)據(jù)的細(xì)化而成幾何級(jí)數(shù)式的增加。最后,我們對(duì)社會(huì)科學(xué)的研究成果的應(yīng)用一般不是具體的產(chǎn)品或者服務(wù),而是一些戰(zhàn)略性的政策,比如說(shuō)企業(yè)的營(yíng)銷(xiāo)策略,激勵(lì)機(jī)制,政府的政策方針,等等,因此,社會(huì)科學(xué)的研究成果的影響面會(huì)比較大,在分析過(guò)程中的稍許偏差很可能會(huì)帶來(lái)巨大的社會(huì)影響。
基于上述背景,本文嘗試從社會(huì)科學(xué)領(lǐng)域利用人工智能的現(xiàn)狀出發(fā),闡述人工智能為社會(huì)科學(xué)研究帶來(lái)研究范式的多元化以及研究技術(shù)和方法革新,并進(jìn)一步深入探討人工智能給社會(huì)科學(xué)研究所帶來(lái)的挑戰(zhàn)以及如何應(yīng)對(duì)的策略和建議。
社會(huì)科學(xué)領(lǐng)域利用人工智能研究的現(xiàn)狀
相比自然科學(xué),人工智能在社會(huì)科學(xué)領(lǐng)域中的應(yīng)用尚處在比較基礎(chǔ)的階段。羅晨和沈浩(2018)根據(jù)美國(guó)科學(xué)情報(bào)研究所(Institute for Scientific Information, ISI)編制的Web of Science(WoS)引文數(shù)據(jù)庫(kù),選取了以人工智能為主題的社會(huì)科學(xué)領(lǐng)域的發(fā)表論文和會(huì)議論文,發(fā)現(xiàn)社會(huì)科學(xué)涉及到人工智能的研究最早可以追溯到1975年。然而在最開(kāi)始的10年,人工智能相關(guān)的社會(huì)科學(xué)領(lǐng)域每年的論文數(shù)量?jī)H在個(gè)位數(shù)徘徊,直到最近的10年,這一數(shù)字出現(xiàn)了飛速地增長(zhǎng),每年都有超過(guò)百篇的相關(guān)論文,其中2017年和2018年,分別超過(guò)了200篇。雖然中國(guó)在工程和自然科學(xué)類(lèi)的人工智能方面的研究數(shù)量領(lǐng)先于世界各國(guó),但是在社會(huì)科學(xué)領(lǐng)域,我們對(duì)人工智能方面的應(yīng)用還是與發(fā)達(dá)國(guó)家(尤其是美國(guó))有一定的差距,截止于2018年,社會(huì)科學(xué)領(lǐng)域人工智能相關(guān)的文獻(xiàn)中國(guó)的數(shù)量還不到美國(guó)的四分之一。
社會(huì)科學(xué)是研究人類(lèi)社會(huì)種種現(xiàn)象的各學(xué)科的總體或者其中任一學(xué)科,它包括商業(yè)與經(jīng)濟(jì)、政治學(xué)、法學(xué)、倫理學(xué)、歷史學(xué)、社會(huì)學(xué)、心理學(xué)、教育與教育研究、運(yùn)籌學(xué)與管理科學(xué)等。社會(huì)科學(xué)的不同子科學(xué)涉及人工智能的研究深度和廣度都各不相同。截至2018年,我國(guó)人工智能在社會(huì)科學(xué)子學(xué)科中應(yīng)用最多的是商業(yè)與經(jīng)濟(jì)方向,共有515篇相關(guān)論文;而論及人工智能的應(yīng)用廣度,即在人工智能研究領(lǐng)域的某社會(huì)科學(xué)子學(xué)科與其他學(xué)科的關(guān)聯(lián)度,心理學(xué)的度數(shù)中心度則是最高的。其他涉及人工智能較多的社會(huì)科學(xué)子科學(xué)分別是運(yùn)籌學(xué)與管理科學(xué)、教育與教育研究,以及其他社會(huì)科學(xué)子學(xué)科(跨學(xué)科、倫理學(xué)和社會(huì)科學(xué)史)。表1表示了應(yīng)用人工智能最多(深度)的五個(gè)社會(huì)科學(xué)子學(xué)科,以及他們相應(yīng)的廣度指標(biāo)(社會(huì)網(wǎng)絡(luò)分析的度數(shù)中心度[3])。
表1
從表1中我們可以看到,社會(huì)科學(xué)領(lǐng)域中涉及到人工智能較多的這些子學(xué)科,也是近年來(lái)研究數(shù)量化趨勢(shì)比較明顯的社會(huì)科學(xué)子學(xué)科。人工智能的跨學(xué)科特征在社會(huì)科學(xué)研究中的體現(xiàn)是十分明顯的,毫無(wú)疑問(wèn)未來(lái)將會(huì)是文理融合的時(shí)代。
人工智能與社會(huì)科學(xué)研究范式的多元化
如前言所述,人工智能在社會(huì)科學(xué)研究中的引入使得社會(huì)科學(xué)的研究方法更為多元化。根據(jù)米加寧等(2018)的研究,可以把社會(huì)科學(xué)的研究范式歸納分為四種。
一是定性分析,即通過(guò)類(lèi)比和推理歸納概括研究對(duì)象之間的關(guān)系,而現(xiàn)代的社會(huì)科學(xué)的定性分析就是通過(guò)理論建模,解釋研究對(duì)象之間的復(fù)雜邏輯關(guān)系,對(duì)應(yīng)于自然哲學(xué)研究方法。
二是定量分析,通過(guò)“假設(shè)-檢驗(yàn)”,利用人工采集的數(shù)據(jù)論證研究對(duì)象之間的關(guān)系。在社會(huì)科學(xué)中因果關(guān)系的確認(rèn)是研究者們極為關(guān)注的,但長(zhǎng)期以來(lái)由于數(shù)據(jù)的局限性,同時(shí)社會(huì)科學(xué)的研究對(duì)象的構(gòu)成要素復(fù)雜多變,因此在社會(huì)科學(xué)研究中大量的定量分析常常存在由于樣本的選擇而帶來(lái)的偏差問(wèn)題,對(duì)應(yīng)于數(shù)學(xué)原理探索方法。
三是計(jì)算實(shí)驗(yàn)的仿真研究,其中最具代表性的就是經(jīng)濟(jì)學(xué)領(lǐng)域中使用的可計(jì)算一般均衡分析。它是在通過(guò)復(fù)雜的數(shù)學(xué)推導(dǎo)的定性分析基礎(chǔ)上,利用有限的真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行校準(zhǔn),當(dāng)復(fù)雜模型被證實(shí)有一定程度的有效性之后,通過(guò)模擬現(xiàn)實(shí)不存在的模擬數(shù)據(jù),對(duì)研究對(duì)象進(jìn)行反事實(shí)分析來(lái)完成的。最近10年,計(jì)算實(shí)驗(yàn)的仿真研究方法在社會(huì)科學(xué)研究領(lǐng)域越來(lái)越到受影響力大的專(zhuān)業(yè)學(xué)術(shù)期刊的關(guān)注,其原因歸結(jié)于這類(lèi)研究方法能夠較好地克服定性分析和定量分析的局限性。
四是基于人工智能的數(shù)據(jù)集約型研究?,F(xiàn)在的大數(shù)據(jù)研究從數(shù)據(jù)獲取、建模到分析預(yù)測(cè)幾乎都可以由計(jì)算機(jī)來(lái)完成。其數(shù)據(jù)上的優(yōu)勢(shì)是毋庸置疑的,研究的效率也要遠(yuǎn)勝于其他研究方法;然而這類(lèi)研究方法的重點(diǎn)卻應(yīng)該鎖定在理論建模分析中。如果忽略甚至放棄了理論建模,那么就可能造成對(duì)研究對(duì)象之間的因果關(guān)系以及其他復(fù)雜邏輯都不能準(zhǔn)確判定,研究結(jié)果也難以給與合理解釋?zhuān)虼?,必須反?fù)強(qiáng)調(diào)的是,一旦大數(shù)據(jù)的樣本存在偏差或者算法出現(xiàn)偏誤,研究結(jié)果也將會(huì)存在很大的誤差。
人工智能的發(fā)展為社會(huì)科學(xué)的研究帶來(lái)了過(guò)去無(wú)法想象的大數(shù)據(jù)、新算法,和超強(qiáng)的計(jì)算能力,因此在未來(lái)社會(huì)科學(xué)研究的范式必然向多元性發(fā)展。
首先,在研究問(wèn)題的提出方面,大數(shù)據(jù)的研究范式可以驅(qū)動(dòng)研究者們提出新的研究問(wèn)題和研究關(guān)注點(diǎn)。到目前為止大多數(shù)人工智能所提供的大數(shù)據(jù)是被動(dòng)收集的,受研究熱點(diǎn)或傳統(tǒng)研究方向的主觀影響較小,因此,這些大數(shù)據(jù)無(wú)論是深度還是廣度都可以給研究者們帶來(lái)新的研究問(wèn)題的啟發(fā),可以幫助研究者跳出必須基于對(duì)先行文獻(xiàn)綜述的傳統(tǒng)的框架,而對(duì)學(xué)科重要問(wèn)題展開(kāi)拓展研究的空間變大。
其次,無(wú)論是數(shù)據(jù)的獲得、整合和分析,人工智能的運(yùn)用都會(huì)大幅度提高效率,大數(shù)據(jù)分析,可以讓研究者能夠更加順利地觀察和捕捉到研究對(duì)象之間的邏輯關(guān)系。
再次,由于“因果關(guān)系是人類(lèi)理性行為與活動(dòng)的基本依據(jù),人類(lèi)理性本身不可能否定因果關(guān)系”(王天思,2016)。社會(huì)科學(xué)傳統(tǒng)的理論建模定性分析可以獲得研究對(duì)象之間的理論因果關(guān)系,在此基礎(chǔ)上,如能充分利用人工智能的先進(jìn)算法,毫無(wú)疑問(wèn)可以使得理論建模的假設(shè)大幅度減少,模型的復(fù)雜程度可以得到大幅度提高,仿真程度也會(huì)變得更高和更好。
最后,研究者們可以根據(jù)理論模型的定性分析,利用人工智能進(jìn)行進(jìn)一步的大數(shù)據(jù)收集和整合,實(shí)現(xiàn)對(duì)理論研究結(jié)果進(jìn)行準(zhǔn)實(shí)驗(yàn)性的定量分析。在社會(huì)科學(xué)領(lǐng)域的實(shí)證分析中,變量的內(nèi)生性問(wèn)題,遺漏變量問(wèn)題以及樣本選擇性偏差問(wèn)題是困擾研究者能否作出準(zhǔn)確因果判定的關(guān)鍵原因。人工智能所帶來(lái)的多維度的大數(shù)據(jù)一般能很好的解決遺漏變量問(wèn)題,降低樣本選擇性偏差的概率,同時(shí)如果輔以在大數(shù)據(jù)采集和挖掘前的準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)來(lái)解決變量?jī)?nèi)生性問(wèn)題,那么社會(huì)科學(xué)的定量研究的說(shuō)明力將會(huì)更強(qiáng)。
如上所述,研究范式的多元化的目標(biāo)和趨勢(shì),是需要既能克服傳統(tǒng)研究范式的數(shù)據(jù)劣勢(shì),又能克服完全給予數(shù)據(jù)科學(xué)的大數(shù)據(jù)研究范式的理論解釋力度不足的問(wèn)題。
可計(jì)算社會(huì)科學(xué)研究的發(fā)展
人工智能的運(yùn)用對(duì)社會(huì)科學(xué)的研究技術(shù)和方法帶來(lái)巨大的影響,推動(dòng)了被稱(chēng)為可計(jì)算社會(huì)科學(xué)研究領(lǐng)域的發(fā)展。主要體現(xiàn)在突破大數(shù)據(jù)技術(shù)突破數(shù)據(jù)瓶頸,提高分析效率以及能夠?qū)崿F(xiàn)宏觀研究的微觀支持等方面。
大數(shù)據(jù)技術(shù)(數(shù)據(jù)采集挖掘,數(shù)據(jù)儲(chǔ)存整合和數(shù)據(jù)分析)。人工智能為社會(huì)科學(xué)研究提供了諸多新的分析技術(shù),其中最具代表性的就是大數(shù)據(jù)技術(shù),這一技術(shù)徹底改變了社會(huì)科學(xué)研究中數(shù)據(jù)難獲得的重大問(wèn)題,由于數(shù)據(jù)量的激增,傳統(tǒng)的社會(huì)科學(xué)研究中的數(shù)據(jù)整合和簡(jiǎn)單數(shù)據(jù)分析的方法也隨之發(fā)生巨大的變化。正如Einav和Hendry(2013)所指出,大數(shù)據(jù)具有四個(gè)主要的特征,即數(shù)據(jù)體量大,生成速度快,種類(lèi)多樣,以及價(jià)值密度低。大數(shù)據(jù)的運(yùn)用與傳統(tǒng)的數(shù)據(jù)的處理方法將發(fā)生巨大的變化。
第一是數(shù)據(jù)的實(shí)時(shí)可得性。傳統(tǒng)的數(shù)據(jù)通常是人工采集的,并且是為了社會(huì)科學(xué)研究某個(gè)特定“假設(shè)-檢驗(yàn)”為目的而收集的,通常具有較嚴(yán)重的滯后性。數(shù)據(jù)的實(shí)時(shí)可得性為社會(huì)科學(xué)研究中的預(yù)測(cè)提供了良好的基礎(chǔ)。盡管數(shù)據(jù)的時(shí)效性稍差對(duì)揭示基于歷史過(guò)程的社會(huì)科學(xué)領(lǐng)域的一般規(guī)律不會(huì)產(chǎn)生較大的影響,但是對(duì)于利用這個(gè)一般規(guī)律來(lái)對(duì)未來(lái)進(jìn)行預(yù)測(cè)的時(shí)候,數(shù)據(jù)的實(shí)時(shí)性對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確度而言就是至關(guān)重要的了。
第二是數(shù)據(jù)量的巨大。伴隨數(shù)據(jù)量的巨大化所帶來(lái)的多維度數(shù)據(jù)一方面在為研究者提供更多信息的同時(shí),也讓研究者在使用數(shù)據(jù)整合和分析的統(tǒng)計(jì)學(xué)工具方面也會(huì)隨之發(fā)生質(zhì)變。處理海量數(shù)據(jù)將會(huì)更加依賴(lài)高效的計(jì)算機(jī)算法和云計(jì)算。
第三是數(shù)據(jù)的結(jié)構(gòu)多元性。傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一般不是數(shù)值就是文本,而大數(shù)據(jù)的數(shù)據(jù)來(lái)源更加多樣化,可能是傳統(tǒng)的數(shù)值或文本,也可能是圖片、音頻,甚至是視頻。比如在經(jīng)濟(jì)學(xué)中常用的用來(lái)估算當(dāng)?shù)亟?jīng)濟(jì)發(fā)展的衛(wèi)星燈光數(shù)據(jù)的原始格式就是圖片格式。這意味著傳統(tǒng)的數(shù)據(jù)分析方法就不再適用,數(shù)據(jù)整合的第一步是如何把不同數(shù)據(jù)格式的數(shù)據(jù)進(jìn)行量化處理,轉(zhuǎn)化成社會(huì)科學(xué)研究可以直接利用的數(shù)據(jù)形式,這也是需要新的算法和計(jì)算機(jī)的運(yùn)算能力。
第四是數(shù)據(jù)挖掘、儲(chǔ)存和分析的技術(shù)的更新速度會(huì)大幅度增加。當(dāng)數(shù)據(jù)的規(guī)模越來(lái)越大,數(shù)據(jù)庫(kù)、并行計(jì)算、云計(jì)算、機(jī)器學(xué)習(xí)等技術(shù)都會(huì)成為社會(huì)科學(xué)研究的中間步驟。
計(jì)算模型+數(shù)據(jù)校準(zhǔn)分析的算法和數(shù)據(jù)輔助。在社會(huì)科學(xué)領(lǐng)域,研究者們所探究的研究對(duì)象的因果關(guān)系不會(huì)完全被大數(shù)據(jù)中的相關(guān)關(guān)系完全取代。在某些規(guī)范(normative)研究中,人工智能所帶來(lái)的高效可靠的相關(guān)關(guān)系確實(shí)已經(jīng)足夠進(jìn)行一些預(yù)測(cè)分析,并且可以為政策制定者提供很好的借鑒和支持。然而實(shí)證(positive)研究是不可能止步于相關(guān)關(guān)系的,因果關(guān)系才能是社會(huì)科學(xué)研究者們追尋人類(lèi)和社會(huì)發(fā)展規(guī)律的本源。人工智能以及人工智能所帶來(lái)的大數(shù)據(jù)不應(yīng)該成為因果關(guān)系的阻礙,理想的結(jié)果是“大數(shù)據(jù)會(huì)成為因果分析的強(qiáng)大手段”(劉濤雄、尹德才,2017)。
人工智能的算法能夠大大提高社會(huì)科學(xué)研究的分析效率,研究者們?cè)诮⒗碚撃P偷臅r(shí)候,不需要由于傳統(tǒng)的計(jì)算能力問(wèn)題而對(duì)模型進(jìn)行各種假設(shè)限制,這使得模型能更好地對(duì)真實(shí)世界進(jìn)行模擬。其實(shí)在人工智能涉足社會(huì)科學(xué)研究領(lǐng)域之前,經(jīng)濟(jì)學(xué)就已經(jīng)使用了計(jì)算一般均衡模型取代傳統(tǒng)的理論模型來(lái)探討能源和環(huán)境等問(wèn)題。
計(jì)算模型在自然科學(xué)領(lǐng)域早已被廣泛應(yīng)用,比如物理學(xué),幾乎所有的理論物理研究都是建立在計(jì)算模型的基礎(chǔ)上。然而計(jì)算模型在社會(huì)科學(xué)領(lǐng)域雖然被應(yīng)用的時(shí)間不短,但是始終沒(méi)有實(shí)現(xiàn)質(zhì)的飛躍,其根本原因就是計(jì)算模型在校準(zhǔn)時(shí)所需要的數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域比較難以獲得。人工智能的介入恰恰能解決社會(huì)科學(xué)研究數(shù)據(jù)難的問(wèn)題。大數(shù)據(jù)的數(shù)據(jù)規(guī)模和維度可以用來(lái)對(duì)計(jì)算模型進(jìn)行高精度的校準(zhǔn),同時(shí)數(shù)據(jù)的實(shí)時(shí)性也可以為計(jì)算模型對(duì)社會(huì)問(wèn)題的預(yù)測(cè)提高準(zhǔn)確度。
微觀分析和宏觀分析的結(jié)合?,F(xiàn)在社會(huì)科學(xué)研究在做微觀個(gè)體分析與其在做宏觀政策分析時(shí)相對(duì)比較割裂。[4]比如說(shuō)宏觀經(jīng)濟(jì)學(xué)的研究方法和微觀經(jīng)濟(jì)學(xué)的研究方法就有很大的差異,哪怕兩者研究的是同一個(gè)問(wèn)題,相互之間都很難統(tǒng)一。這是由于社會(huì)科學(xué)研究的主體是人和人類(lèi)的行為,人類(lèi)行為之間的交互作用極為復(fù)雜,往往存在“加總的謬誤”現(xiàn)象,即微觀研究很難進(jìn)行宏觀加總,同樣的,宏觀的分析也很難進(jìn)行微觀的拆分。
人工智能為社會(huì)科學(xué)研究帶來(lái)的大數(shù)據(jù)使得社會(huì)科學(xué)研究必然能從更微觀的層面進(jìn)行,同時(shí)人工智能也能帶來(lái)新的計(jì)算機(jī)算法,能夠?qū)ξ⒂^研究的結(jié)果進(jìn)行宏觀的復(fù)雜加總和綜合,使得社會(huì)科學(xué)的宏觀分析和微觀分析有更好的統(tǒng)一性。如此一來(lái),我們既可以實(shí)現(xiàn)對(duì)微觀個(gè)體行為的深入研究,也能夠破析出各個(gè)微觀個(gè)體相互之間的網(wǎng)絡(luò)結(jié)構(gòu),從而進(jìn)一步得出每個(gè)微觀個(gè)體對(duì)不同宏觀因素的作用。
可計(jì)算社會(huì)科學(xué)研究所面臨的挑戰(zhàn)
盡管人工智能技術(shù)的運(yùn)用揭開(kāi)了可計(jì)算社會(huì)科學(xué)研究發(fā)展的序幕,然而要真正達(dá)到創(chuàng)造具有實(shí)踐意義的研究成果,尚需完善一些基礎(chǔ)條件。人工智能的核心技術(shù)是深度學(xué)習(xí),盡管它具有處理大量各類(lèi)數(shù)據(jù)的超強(qiáng)能力,但尚不能應(yīng)對(duì)一些異常項(xiàng)的干擾,因此對(duì)于復(fù)雜現(xiàn)象以及個(gè)別特殊現(xiàn)象的推定和解釋?zhuān)x不開(kāi)具有理論知識(shí)的專(zhuān)家系統(tǒng)的支持。如果不考慮這些問(wèn)題,往往容易陷入一些誤區(qū)。同時(shí),對(duì)于作為專(zhuān)家支持系統(tǒng)的研究人員首先要不忘社會(huì)科學(xué)研究的初心,探索規(guī)律和理論,不能被數(shù)據(jù)綁架而導(dǎo)致結(jié)果偏離。因此不僅需要具有理解各種數(shù)據(jù)特征和使用數(shù)據(jù)的能力,也需要具備數(shù)據(jù)科學(xué)的基本素養(yǎng)和一定的編程能力。
可計(jì)算社會(huì)科學(xué)研究中的誤區(qū)。人工智能為社會(huì)科學(xué)領(lǐng)域帶來(lái)了新的研究范式和新的研究技術(shù)和方法,這些無(wú)疑對(duì)于現(xiàn)在越來(lái)越依賴(lài)于定量分析的社會(huì)科學(xué)研究而言是極大的機(jī)遇。然而,我們必須也要意識(shí)到人工智能在帶來(lái)研究效率提升的同時(shí),很可能也會(huì)使得社會(huì)科學(xué)研究者們陷入研究的誤區(qū)。
第一個(gè)誤區(qū)是過(guò)度注重相關(guān)關(guān)系而忽略研究對(duì)象之間的因果關(guān)系。大量的文獻(xiàn)已經(jīng)關(guān)注到了這點(diǎn),王天思(2016)從哲學(xué)的角度闡述了大數(shù)據(jù)中的因果關(guān)系,劉林平等(2016)也探討了規(guī)律和因果在大數(shù)據(jù)應(yīng)用到社會(huì)學(xué)領(lǐng)域的重要性,馬費(fèi)成(2018)在論述人文社會(huì)科學(xué)與自然科學(xué)應(yīng)當(dāng)相互學(xué)習(xí)借鑒時(shí)也提出可以在相關(guān)關(guān)系的基礎(chǔ)上分析因果關(guān)系。如前所述人工智能的運(yùn)用要擺脫對(duì)數(shù)值計(jì)算的偏重而應(yīng)將其作為社會(huì)科學(xué)因果關(guān)系的研究的輔助。
第二個(gè)誤區(qū)是陷入“統(tǒng)計(jì)的胡說(shuō)”現(xiàn)象。這里需要關(guān)注的是大數(shù)據(jù)究竟帶來(lái)的僅僅是樣本的增加,還是可以成為總體。在大多數(shù)情況下人工智能技術(shù)所帶來(lái)的大數(shù)據(jù)只是統(tǒng)計(jì)樣本的增加,也就是從傳統(tǒng)分析的小樣本到大數(shù)據(jù)下的大樣本。美國(guó)機(jī)場(chǎng)電子護(hù)照的通行經(jīng)常無(wú)法識(shí)別深膚色的人種,其主要原因就是在設(shè)計(jì)人臉識(shí)別的人工智能算法校準(zhǔn)的時(shí)候采用了不具有代表性的大數(shù)據(jù)樣本。在社會(huì)科學(xué)的研究中也是如此,通過(guò)分析有偏的樣本,即使它是大數(shù)據(jù)的樣本,得出的研究結(jié)論也必定是有偏差的。
第三個(gè)誤區(qū)是過(guò)度依賴(lài)算法而導(dǎo)致偏差的擴(kuò)大?,F(xiàn)在的人工智能算法只能處理一個(gè)特定的任務(wù),也就是狹義的人工智能,[5]由于狹義人工智能的算法是為了某個(gè)特定目標(biāo)而施行的,其算法會(huì)在有偏的基本數(shù)據(jù)樣本上帶來(lái)更大的偏差。Barocas和Selbst(2016)討論大數(shù)據(jù)分析可能會(huì)帶來(lái)意想不到估計(jì)偏差,文中提到美國(guó)波士頓政府曾利用人工智能的算法根據(jù)智能手機(jī)對(duì)道路坑洼的識(shí)別來(lái)決策道路維護(hù)資源的投入,由于智能手機(jī)識(shí)別道路坑洼這一大數(shù)據(jù)樣本本身就是有偏的,而人工智能自動(dòng)迭代更新的算法會(huì)帶來(lái)道路維護(hù)資源的進(jìn)一步錯(cuò)配。相對(duì)經(jīng)濟(jì)發(fā)展較為落后的地區(qū)而言,波士頓富人區(qū)的智能手機(jī)持有數(shù)量較多,人工智能的算法是通過(guò)智能手機(jī)是否感受到行車(chē)路上是否有坑洼來(lái)分配政府的修路資源,帶來(lái)的結(jié)果只能是富人區(qū)的道路情況被過(guò)度維護(hù)。原先的數(shù)據(jù)樣本偏差僅僅是富人區(qū)的道路坑洼會(huì)更多地被匯報(bào),而人工智能來(lái)分配道路維護(hù)資源的算法會(huì)產(chǎn)生進(jìn)一步的資源不公平分配的結(jié)果。
即使算法是無(wú)偏的,人工智能的單一目標(biāo)也可能會(huì)帶來(lái)公平性的問(wèn)題?!杜聿┥虡I(yè)周刊》在2016年的一篇文章中深入討論了亞馬遜公司通過(guò)人工智能算法來(lái)最大化包裹投遞效率和服務(wù)最多的客戶(hù)的目標(biāo)卻導(dǎo)致公司在自動(dòng)選擇服務(wù)區(qū)域時(shí)完美避過(guò)大多數(shù)的黑人區(qū)。作為美國(guó)最大的網(wǎng)絡(luò)零售商,利潤(rùn)最大化無(wú)疑是其目標(biāo),因此亞馬遜公司所設(shè)計(jì)的人工智能算法并不會(huì)把種族考慮在內(nèi),這種看似“無(wú)偏”的算法實(shí)際上卻帶來(lái)了類(lèi)似于“種族歧視”的服務(wù)設(shè)定范圍,造成社會(huì)公平的損失。
需要強(qiáng)調(diào)的是,在社會(huì)科學(xué)研究的過(guò)程中,人工智能可能會(huì)帶來(lái)樣本和算法有偏的兩個(gè)誤區(qū)會(huì)產(chǎn)生相互疊加的放大效應(yīng),輕則是我們的研究結(jié)果可信性下降,重則我們的研究結(jié)果可能是偽命題。相比理論的定性分析和傳統(tǒng)數(shù)據(jù)的定量分析,人工智能介入的社會(huì)科學(xué)研究的研究方法更為復(fù)雜,因此增加了其他研究者對(duì)研究結(jié)果的辨錯(cuò)難度。
社會(huì)科學(xué)研究人員在利用人工智能進(jìn)行深度研究所必需的能力。人工智能源于計(jì)算機(jī)科學(xué),它所需的學(xué)習(xí)和技術(shù)與社會(huì)科學(xué)研究者所接受的綜合訓(xùn)練之間交集很小。相比中國(guó)人工智能的論文產(chǎn)出,中國(guó)的人工智能人才擁有量不是最高,從絕對(duì)數(shù)量來(lái)說(shuō)遠(yuǎn)低于美國(guó),從研究領(lǐng)域來(lái)看,中國(guó)人工智能人才的研究領(lǐng)域也相對(duì)比較分散。
隨著人工智能對(duì)社會(huì)科學(xué)研究的逐漸滲透,社會(huì)科學(xué)研究者們除了要具備傳統(tǒng)的社會(huì)科學(xué)領(lǐng)域的學(xué)科訓(xùn)練之外,還需要具備一定的數(shù)據(jù)工程師和軟件工程師的能力。與此同時(shí),社會(huì)科學(xué)研究者們還需要理解社會(huì)科學(xué)領(lǐng)域的因果分析方法和現(xiàn)在大數(shù)據(jù)的相關(guān)關(guān)系分析方法之間的利與弊,在研究不同問(wèn)題的時(shí)候選擇合適的研究方法。
政策建議。新技術(shù)的運(yùn)用必將進(jìn)一步推動(dòng)可計(jì)算社會(huì)科學(xué)研究的發(fā)展。一般來(lái)說(shuō),大數(shù)據(jù)的相關(guān)關(guān)系分析方法更適合于規(guī)范研究,提高預(yù)測(cè)的準(zhǔn)確性,為政府和企業(yè)提供政策建議和支持;而大數(shù)據(jù)輔助的因果關(guān)系分析則是實(shí)證研究未來(lái)的發(fā)展方向。人工智能在真正進(jìn)入計(jì)算機(jī)算法自我迭代更新和進(jìn)步之前,還是高技術(shù)勞動(dòng)力密集型的。然而隨著進(jìn)一步的發(fā)展,面臨文理融合時(shí)代的到來(lái),社會(huì)科學(xué)研究者與數(shù)據(jù)工程師和軟件工程師的跨學(xué)科合作也是社會(huì)科學(xué)研究的必然趨勢(shì)。這個(gè)跨學(xué)科融合的基礎(chǔ)學(xué)科,無(wú)疑是統(tǒng)計(jì)學(xué)和數(shù)據(jù)處理相關(guān)的計(jì)算機(jī)語(yǔ)言。一些發(fā)達(dá)國(guó)家,比如日本,已從小學(xué)即開(kāi)始進(jìn)行統(tǒng)計(jì)學(xué)的普及教育,在大學(xué)本科文科類(lèi)專(zhuān)業(yè)中開(kāi)設(shè)“數(shù)據(jù)科學(xué)”專(zhuān)業(yè)課,同時(shí)也大力推廣計(jì)算社會(huì)科學(xué)相關(guān)開(kāi)發(fā)軟件的學(xué)習(xí),如R語(yǔ)言、java語(yǔ)言以及人工智能核心語(yǔ)言Python等??梢越梃b其做法,盡早開(kāi)展相關(guān)的交叉學(xué)科設(shè)置,以及提供利用網(wǎng)絡(luò)相關(guān)知識(shí)的普及等公共品,為迎接第四科學(xué)時(shí)代的到來(lái),打好基礎(chǔ),做好準(zhǔn)備。
(上海社會(huì)科學(xué)院世界中國(guó)學(xué)研究所謝一青博士對(duì)本文亦有貢獻(xiàn))
注釋
[1]人工智能的概念早在1956年的達(dá)特茅斯(Dartmouth)會(huì)議上就被正式提出了。自那以后,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人工智能的理論和實(shí)踐也不斷被刷新,其定義的內(nèi)涵和外延也不斷被拓展?,F(xiàn)今取得共識(shí)的概念大多沿用“人工智能之父”約翰·麥卡錫(John McCarthy)的定義和解釋?zhuān)凑J(rèn)為機(jī)器無(wú)需像人類(lèi)般思考才算獲得智能,人工智能的關(guān)鍵在于讓機(jī)器能夠解決人腦所能解決的問(wèn)題。因此,現(xiàn)在大多數(shù)研究者探討的人工智能,是以大數(shù)據(jù)為基礎(chǔ),利用計(jì)算機(jī)的運(yùn)算能力,使用迭代更新的算法來(lái)實(shí)現(xiàn)對(duì)現(xiàn)實(shí)情況的分析和決策(張洪忠等,2018;陸汝鈐,1989)。
[2]在國(guó)際經(jīng)濟(jì)學(xué)領(lǐng)域,一國(guó)相對(duì)要素稟賦豐裕的定義是該要素的世界占比大于該國(guó)GDP的世界占比,一旦一國(guó)的某種要素相對(duì)要素稟賦豐裕,該國(guó)在密集型使用這一豐裕要素的產(chǎn)品和服務(wù)上就具備了比較優(yōu)勢(shì)。
[3]羅晨和沈浩(2018)利用社會(huì)網(wǎng)絡(luò)分析法,把各個(gè)利用了人工智能進(jìn)行研究的社會(huì)科學(xué)子學(xué)科作為社會(huì)網(wǎng)絡(luò)中的行為者,通過(guò)分析不同子學(xué)科在論文發(fā)表領(lǐng)域的共現(xiàn)次數(shù),獲得每個(gè)子學(xué)科的度數(shù)中心度。度數(shù)中心度越高的社會(huì)科學(xué)子學(xué)科與其他子學(xué)科的聯(lián)系更為廣泛。
[4]在純理論模型定性分析的時(shí)候,通過(guò)對(duì)模型的嚴(yán)格假設(shè),微觀分析和宏觀分析在早期的社會(huì)科學(xué)研究中也可以實(shí)現(xiàn)統(tǒng)一。
[5]廣義人工智能是目前人工智能的目標(biāo),它是否能穩(wěn)定存在目前還未被數(shù)學(xué)證明。Yampolskiy(2015)深入探討了一種廣義人工智能算法存在的boot-strap悖論。
參考文獻(xiàn)
張洪忠、石韋穎、劉力銘,2018,《如何從技術(shù)邏輯認(rèn)識(shí)人工智能對(duì)傳媒業(yè)的影響》,《新聞界》,第2期。
陸汝鈐,1989,《人工智能(上)》,北京:科學(xué)出版社。
清華大學(xué)中國(guó)科技政策研究中心,2018,《中國(guó)人工智能發(fā)展報(bào)告2018》,北京:清華大學(xué)公共管理學(xué)院。
羅晨、沈浩,2018,《社會(huì)科學(xué)領(lǐng)域的人工智能研究:基于SSCI文獻(xiàn)的探索》,《全球傳媒學(xué)刊》,第5卷第4期。
米加寧、章昌平、李大宇、林濤,2018,《第四研究范式:大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究轉(zhuǎn)型》,《學(xué)海》,第2期。
王天思,2016,《大數(shù)據(jù)中的因果關(guān)系及其哲學(xué)內(nèi)涵》,《中國(guó)社會(huì)科學(xué)》,第5期。
Einav, L., Hendry, D. F., 2013, "The Data Revolution and Economic Analysis", http://www.nber.org/papers/w19035.pdf.
Yampolskiy, R. V., 2015, From Seed AI to Technological Singularity via Recursively Self-Improving Software.
"Amazon Doesn't Consider the Race of Its Customers. Should It?", Bloomberg.com.
劉林平、蔣和超、李瀟曉,2016,《規(guī)律與因果:大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究沖擊之反思——以社會(huì)學(xué)為例》,《社會(huì)科學(xué)》,第9期。
馬費(fèi)成,2018,《推進(jìn)大數(shù)據(jù)、人工智能等信息技術(shù)與人文社會(huì)科學(xué)研究深度融合》,《評(píng)價(jià)與管理》,第2期。
劉濤雄,尹德才,2017,《大數(shù)據(jù)時(shí)代與社會(huì)科學(xué)研究范式變革》,《理論探索》,第6期。
Barocas, S., Selbst, A. D., 2016, Big Data's Disparate Impact, California Law Review, 104, pp. 671-732.
袁堂軍,復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)院教授、博導(dǎo),復(fù)旦大學(xué)亞洲經(jīng)濟(jì)研究中心主任,全球投資與貿(mào)易研究中心主任,日本研究中心常務(wù)理事,日本一橋大學(xué)經(jīng)濟(jì)研究所客座教授。研究方向?yàn)槭澜缃?jīng)濟(jì)、發(fā)展經(jīng)濟(jì)學(xué)和數(shù)量經(jīng)濟(jì)史。主要著作有《中國(guó)的經(jīng)濟(jì)發(fā)展與資源配置》《亞洲的智慧:多元文明的統(tǒng)一與發(fā)展》等。
責(zé) 編∕趙鑫洋
The Present Situation and Future of Computational Social Science Research in China
Yuan Tangjun
Abstract: The development of artificial intelligence (AI) and big data analysis technology has provided new technical methods and ideas for social science research, but it has also brought new challenges. Based on the current situation on the application of AI technology in social science research in China, this paper analyzes the trend of the diversified social science research paradigms and the integration of arts and sciences under the background of AI technology in the future. It emphasizes several misunderstandings that should be avoided when promoting the development of computational social science research in China, such as focusing on the research of correlation while ignoring the exploration of causality, having the problem of "statistical nonsense" due to the deviation of sample data, and causing magnified deviation of results due to the over-reliance on algorithms. With the coming of the era of integration of arts and sciences, the interdisciplinary popularization of computer network technology related to statistics and data processing is of vital importance. It is necessary to establish the related interdisciplinary subjects as soon as possible and actively provide public goods for popularization of related knowledge such as network education.
Keywords: artificial intelligence, big data, social science, statistics, computer language