【摘要】人工智能浪潮已經(jīng)席卷全球,不僅改變了人類的生活方式和傳播行為,也改變了人類觀察和認(rèn)識(shí)世界的方式。人工智能與大數(shù)據(jù)驅(qū)動(dòng)的計(jì)算范式延伸至社會(huì)科學(xué)領(lǐng)域,受傳統(tǒng)傳播學(xué)定量研究范式、數(shù)據(jù)科學(xué)和網(wǎng)絡(luò)科學(xué)的影響和啟發(fā),計(jì)算傳播學(xué)方興未艾,已經(jīng)成為計(jì)算社會(huì)科學(xué)的重要分支學(xué)科之一。從數(shù)據(jù)挖掘到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí),人工智能算法和技術(shù)極大提高了計(jì)算方法處理大數(shù)據(jù)的精度和效率。目前,與無監(jiān)督和監(jiān)督學(xué)習(xí)方法相結(jié)合,自動(dòng)化內(nèi)容分析、情感分析和社會(huì)網(wǎng)絡(luò)分析等方法為計(jì)算傳播學(xué)研究提供了數(shù)據(jù)處理、整合和分析的研究策略和經(jīng)驗(yàn)。在未來,通過開發(fā)和建立可擴(kuò)展的自動(dòng)化內(nèi)容分析框架和系統(tǒng),引入更豐富的深度學(xué)習(xí)策略,以及推動(dòng)跨學(xué)科研究的方法創(chuàng)新等,將有助于人工智能與計(jì)算傳播學(xué)在更廣泛的交叉領(lǐng)域?qū)崿F(xiàn)深度融合。
【關(guān)鍵詞】計(jì)算傳播學(xué) 人工智能 機(jī)器學(xué)習(xí) 深度學(xué)習(xí)
【中圖分類號(hào)】G20 【文獻(xiàn)標(biāo)識(shí)碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.003
當(dāng)前,越來越多的社會(huì)科學(xué)研究者在大數(shù)據(jù)的驅(qū)動(dòng)下,使用統(tǒng)計(jì)學(xué)、數(shù)學(xué)模型和機(jī)器學(xué)習(xí)等方法,探索社會(huì)科學(xué)知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的新方向,開啟了規(guī)模更廣、參與度更深的社會(huì)科學(xué)新紀(jì)元。2009年,拉澤爾等[1]提出了“計(jì)算社會(huì)科學(xué)”(Computational Social Science)的概念,他們認(rèn)為以“計(jì)算”作為研究的基礎(chǔ)手段的社會(huì)科學(xué)業(yè)已形成,展現(xiàn)出人類在前所未有的廣度、深度和規(guī)模上收集和分析數(shù)據(jù)的能力。人文社會(huì)科學(xué)的學(xué)者開始關(guān)注大數(shù)據(jù)、人工智能等信息技術(shù)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展以及科學(xué)研究等方面帶來的影響和價(jià)值。尤其是社會(huì)科學(xué)研究者效法自然科學(xué),以計(jì)算機(jī)作為研究社會(huì)復(fù)雜性的基本工具,創(chuàng)新地運(yùn)用多種計(jì)算方法(computational methods)研究社會(huì)科學(xué)問題,并影響了諸如社會(huì)學(xué)、語言學(xué)、傳播學(xué)等學(xué)科研究范式的轉(zhuǎn)型。在傳播學(xué)領(lǐng)域,這一轉(zhuǎn)型中的研究范式被稱為:計(jì)算傳播學(xué)(Computational Communication Research)。
人工智能與大數(shù)據(jù)之間的關(guān)系非常緊密,人工智能的深度學(xué)習(xí)進(jìn)化依賴于大數(shù)據(jù)平臺(tái)和技術(shù)基礎(chǔ),同時(shí)后者的改進(jìn)也需要人工智能算法的支撐。計(jì)算傳播學(xué)何以可能?可以說,它的出現(xiàn)正是得益于大數(shù)據(jù)和人工智能的協(xié)同發(fā)展,主要體現(xiàn)在三個(gè)方面的因素:第一,海量的數(shù)字化數(shù)據(jù),從社交媒體信息、其他“數(shù)字痕跡”(digital trace)到在線檔案、數(shù)字化的報(bào)紙以及其他歷史檔案;第二,用于分析數(shù)據(jù)的工具的進(jìn)步,包括網(wǎng)絡(luò)分析、自動(dòng)化文本分析、主題模型、詞嵌入等統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法;第三,強(qiáng)大而廉價(jià)的處理能力以及計(jì)算工具的易用性,包括科研目的和商業(yè)用途的云計(jì)算、共享和編程平臺(tái)的涌現(xiàn)和發(fā)展。[2]可見,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)為社會(huì)科學(xué)提供了可資研究的大規(guī)模數(shù)據(jù),其中以半結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)為主(包括文本、語音、視覺圖像等),而人工智能成為了這類數(shù)據(jù)處理的關(guān)鍵性技術(shù),[3]對(duì)計(jì)算傳播學(xué)的發(fā)展起到至關(guān)重要的支撐和催化作用。
本文將從計(jì)算傳播學(xué)的概念、起源出發(fā),探尋計(jì)算傳播學(xué)與傳播研究定量傳統(tǒng)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)的學(xué)科淵源;并在簡述人工智能熱潮下機(jī)器學(xué)習(xí)、深度學(xué)習(xí)概況的基礎(chǔ)上,對(duì)人工智能在計(jì)算傳播學(xué)研究方法(包括內(nèi)容分析、情感分析和社會(huì)網(wǎng)絡(luò)分析)中的應(yīng)用現(xiàn)狀和前景進(jìn)行綜述和探討;最后,討論和展望推動(dòng)人工智能與計(jì)算傳播學(xué)深度融合的發(fā)展方向和未來趨勢(shì)。
計(jì)算傳播學(xué)的概念及淵源
計(jì)算傳播學(xué)的概念。作為計(jì)算社會(huì)科學(xué)的重要分支,計(jì)算傳播學(xué)藉由海量的互聯(lián)網(wǎng)數(shù)據(jù)和先進(jìn)的計(jì)算技術(shù)對(duì)人類傳播現(xiàn)象和行為進(jìn)行跨學(xué)科研究。所謂“計(jì)算傳播學(xué)”,可以被理解為是一種正在興起的數(shù)據(jù)驅(qū)動(dòng)的研究取向,是基于人類傳播行為的數(shù)字足跡,采用文本挖掘、情感分析、社會(huì)網(wǎng)絡(luò)分析等帶有顯著計(jì)算特征的數(shù)據(jù)分析方法進(jìn)行研究,來探究人類傳播行為的表現(xiàn)模式和內(nèi)在邏輯;數(shù)據(jù)集、可計(jì)算、可建模成為計(jì)算傳播學(xué)有別于傳統(tǒng)傳播學(xué)的顯著特征。因此,計(jì)算傳播學(xué)帶有濃厚的方法和工具的屬性特征,所以計(jì)算傳播學(xué)也被研究者(在之前的一段時(shí)間中,乃至于有可能在以后的一段時(shí)間中)普遍認(rèn)為是研究方法的轉(zhuǎn)型,而非傳播學(xué)范式的轉(zhuǎn)型。然而隨著整個(gè)人類社會(huì)都在邁向數(shù)字化,(新生代)人類的傳播行為大多依賴于數(shù)字化平臺(tái)來實(shí)現(xiàn),即便是在現(xiàn)實(shí)空間的傳播與交流行為也因?yàn)楦鞣N技術(shù)的突破可以被數(shù)字化記錄和存儲(chǔ),于是,傳播學(xué)所探究的人類傳播行為自身顯現(xiàn)出顯著的數(shù)字式傾向。傳播學(xué)關(guān)注的對(duì)象在數(shù)字化,其研究范式不可避免也需要有數(shù)字化的轉(zhuǎn)型。因此,我們認(rèn)為計(jì)算傳播學(xué)并不僅僅是一系列研究方法和工具的集合,它更有可能是整個(gè)傳播學(xué)在數(shù)字化時(shí)代的學(xué)科范式的轉(zhuǎn)型。
借鑒沙哈等人[4]的標(biāo)準(zhǔn),計(jì)算傳播學(xué)的研究范式通常包括:(1)大而復(fù)雜的數(shù)據(jù)集;(2)由數(shù)字痕跡和其他“自然發(fā)生”的數(shù)據(jù)組成;(3)需要算法對(duì)此進(jìn)行分析;(4)允許運(yùn)用和檢驗(yàn)傳播理論來研究人類傳播行為。[5]換言之,一種方法是在計(jì)算機(jī)上執(zhí)行的,并不意味著它就是一種“計(jì)算方法”,因?yàn)閭鞑W(xué)者在過去半個(gè)多世紀(jì)里一直使用計(jì)算機(jī)來輔助他們進(jìn)行研究;另一方面,計(jì)算范式也不是由日益復(fù)雜的算法造就的“神話”,更不是社會(huì)科學(xué)和計(jì)算機(jī)科學(xué)的機(jī)械式拼湊,[6]而是跨學(xué)科乃至“超學(xué)科”[7]的知識(shí)體系和方法論的深度融合。
計(jì)算傳播學(xué)的學(xué)科淵源。從研究范式來看,計(jì)算傳播學(xué)起源至少受到三個(gè)學(xué)科發(fā)展的重要影響,即(實(shí)證)傳播學(xué)、數(shù)據(jù)科學(xué)以及網(wǎng)絡(luò)科學(xué)。傳播領(lǐng)域根源于社會(huì)科學(xué)和人文學(xué)科,傳統(tǒng)實(shí)證范式的傳播學(xué)研究主要以心理學(xué)實(shí)驗(yàn)、社會(huì)學(xué)調(diào)查、統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、社會(huì)網(wǎng)絡(luò)分析等方法為主。相比于其他社會(huì)科學(xué),傳播學(xué)對(duì)方法的重視程度歷來不足,缺乏研究傳播過程的方法和采用其他學(xué)科領(lǐng)域的方法,[8]長期以來一直被認(rèn)為是一個(gè)理解傳播學(xué)的特殊挑戰(zhàn)。傳播作為一門學(xué)科正處于數(shù)據(jù)革命的潮頭之上,因?yàn)榇蠖鄶?shù)公開的在線行為留下的數(shù)字足跡都源自某種形式的傳播,所以在線用戶行為的觀察性研究成為計(jì)算傳播學(xué)的重要領(lǐng)域。[9]
從歷史淵源來說,用戶行為挖掘是傳播學(xué)電視收視率數(shù)據(jù)挖掘與分析在網(wǎng)絡(luò)時(shí)代的延續(xù)和發(fā)展,[10]用戶分析的基本概念和測(cè)量指標(biāo)由收視率調(diào)查發(fā)展而來。[11]雖然收視率調(diào)查是針對(duì)有限樣本的隨機(jī)抽樣研究,但回溯至20世紀(jì)30年代,通過日記卡或測(cè)量儀等多種數(shù)據(jù)采集手段獲得的數(shù)據(jù)規(guī)模已然十分龐大,可以說傳播學(xué)是較早使用大數(shù)據(jù)開展調(diào)查分析的社會(huì)科學(xué)之一。進(jìn)入大數(shù)據(jù)時(shí)代,人們通過互聯(lián)網(wǎng)及其相關(guān)應(yīng)用的“中介”(mediated)傳播行為成為社會(huì)科學(xué)研究的重心,在線的人際和社會(huì)交流直接產(chǎn)生的海量數(shù)字記錄正在對(duì)許多傳統(tǒng)研究方法帶來巨大的挑戰(zhàn)。
受數(shù)據(jù)科學(xué)的影響,傳播學(xué)正在經(jīng)歷一個(gè)從定性研究到定量研究,再到計(jì)算研究,從簡單分析到復(fù)雜處理,從屬性數(shù)據(jù)到關(guān)系數(shù)據(jù)的研究范式和方法論思考的過程。[12]傳播研究的定量范式主要基于統(tǒng)計(jì)學(xué),而真正意義上的現(xiàn)代統(tǒng)計(jì)學(xué)是從處理小數(shù)據(jù)、不完美的實(shí)驗(yàn)等這類現(xiàn)實(shí)問題發(fā)展起來的。[13]格雷(Jim Gray)早在20世紀(jì)90年代中期就提出了科學(xué)研究的“第四范式”(the fourth paradigm),即數(shù)據(jù)密集型科學(xué),預(yù)示著科學(xué)研究由傳統(tǒng)的假設(shè)驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)的探索性方法的轉(zhuǎn)變,其中一個(gè)重要的特征就是“從用少量數(shù)據(jù)集的輔助研究,轉(zhuǎn)向?qū)?shù)量不斷擴(kuò)大的各種高信息含量數(shù)據(jù)進(jìn)行研究”,這將促使“大部分人文社會(huì)科學(xué)走向具有自然科學(xué)的特征”。[14]
目前,傳統(tǒng)分析工具對(duì)大數(shù)據(jù)很難發(fā)揮作用,也就是說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計(jì)分析技術(shù)很難在有限時(shí)間范圍內(nèi)完成數(shù)據(jù)存儲(chǔ)、預(yù)處理、計(jì)算和管理等一系列過程。為了有效地處理這類數(shù)據(jù),數(shù)據(jù)科學(xué)(Data Science)的新范式應(yīng)運(yùn)而生,從而構(gòu)成了計(jì)算傳播研究的數(shù)據(jù)和方法基礎(chǔ)。不僅是數(shù)量級(jí)上的差異,計(jì)算傳播學(xué)所處理的大數(shù)據(jù)與傳統(tǒng)小數(shù)據(jù)相比也已發(fā)生了質(zhì)的變化,前者以半/非結(jié)構(gòu)型數(shù)據(jù)為主,處理難度和挑戰(zhàn)遠(yuǎn)超于后者(結(jié)構(gòu)型數(shù)據(jù)為主)。由于數(shù)據(jù)的規(guī)模之大、結(jié)構(gòu)之復(fù)雜,計(jì)算傳播研究需要借助人工智能和并行處理等現(xiàn)代計(jì)算技術(shù)才能實(shí)現(xiàn)。
計(jì)算傳播學(xué)的另一個(gè)重要學(xué)科來源是網(wǎng)絡(luò)科學(xué)(Network Science)——“專門研究復(fù)雜網(wǎng)絡(luò)系統(tǒng)的定性和定量規(guī)律的一門嶄新的交叉科學(xué)”。[15]網(wǎng)絡(luò)科學(xué)的出現(xiàn)開啟了21世紀(jì)社會(huì)科學(xué)的新的研究方向,基于互聯(lián)網(wǎng)傳播產(chǎn)生的數(shù)據(jù)和互動(dòng)性將會(huì)變革我們對(duì)于人類集體行為的認(rèn)識(shí),[16]利用社會(huì)計(jì)算的方法深入分析每一個(gè)個(gè)體的關(guān)系和連接,有可能預(yù)知社會(huì)發(fā)展的趨勢(shì)。[17]網(wǎng)絡(luò)科學(xué)以復(fù)雜網(wǎng)絡(luò)為研究對(duì)象,關(guān)注不同拓?fù)浣Y(jié)構(gòu)特征、功能及其相互關(guān)系,進(jìn)而為在線傳播網(wǎng)絡(luò)中的各種動(dòng)力學(xué)行為和信息流過程的計(jì)算、預(yù)測(cè)和控制提供了原理和方法基礎(chǔ)。
毫無疑問,復(fù)雜性和非線性是物質(zhì)、生命和人類社會(huì)進(jìn)化中的顯著特征。為此,傳統(tǒng)的定量研究采用非線性問題線性化的方法,在對(duì)社會(huì)結(jié)構(gòu)進(jìn)行劃分的基礎(chǔ)上,用函數(shù)關(guān)系組成的反饋回路、流等來模擬社會(huì)結(jié)果,實(shí)現(xiàn)社會(huì)作用機(jī)理的宏觀模擬。[18]與傳統(tǒng)路徑不同,計(jì)算傳播研究強(qiáng)調(diào)探究人類傳播動(dòng)因和機(jī)制并不取決于個(gè)體的想法或意圖,而是著眼于從個(gè)體所嵌入的復(fù)雜的社會(huì)結(jié)構(gòu)中去發(fā)現(xiàn)傳播規(guī)律。因此,計(jì)算傳播學(xué)研究本質(zhì)上依托于對(duì)復(fù)雜網(wǎng)絡(luò)的挖掘和分析,旨在探索傳統(tǒng)定量研究所忽視的及受技術(shù)方法制約無法完成的大量網(wǎng)絡(luò)特征及相關(guān)性,以解決回歸或線性方案無法應(yīng)對(duì)的網(wǎng)絡(luò)依賴性和復(fù)雜性問題。
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)
人工智能。人工智能(Artificial Intelligence)是“智能主體”(intelligent agents)如何最優(yōu)化決策過程的統(tǒng)稱,通過訓(xùn)練計(jì)算機(jī)模擬人類以完成自主學(xué)習(xí)、判斷、決策等智能行為,主要涵蓋視覺處理、語音識(shí)別、自然語言處理和智能機(jī)器人等應(yīng)用領(lǐng)域。
人工智能同時(shí)也是計(jì)算機(jī)科學(xué)的一個(gè)分支。其作為一門獨(dú)立的新型學(xué)科,是以1956年麥肯錫(McCarthy)在美國達(dá)特茅斯(Dartmouth)研討會(huì)上首次提出“人工智能”概念為標(biāo)志的。近年來,國際人工智能相關(guān)的研究和應(yīng)用領(lǐng)域取得突破性進(jìn)展,在國家發(fā)展戰(zhàn)略、科學(xué)研發(fā)、應(yīng)用創(chuàng)新等方面形成“井噴式”發(fā)展的態(tài)勢(shì),同時(shí)人工智能的發(fā)展也為相關(guān)學(xué)科帶來了新機(jī)遇。[19]人工智能領(lǐng)域的發(fā)展具有跨學(xué)科的特性,總體上以計(jì)算機(jī)科學(xué)(Computer Science)、工程電氣類(Engineering,Electrical & Electronic)、醫(yī)學(xué)及成像類、數(shù)學(xué)類等理工學(xué)科為核心學(xué)科,由于對(duì)語音識(shí)別和自然語言處理的關(guān)注,其中還包括語言學(xué)(Linguistics),對(duì)于人工智能領(lǐng)域的跨學(xué)科發(fā)展具有關(guān)鍵性的作用;以神經(jīng)科學(xué)(Neurosciences)、心理學(xué)(Psychology)為代表的潛在學(xué)科也憑借其迅猛的增長率而在其中扮演著重要的角色。[20]
人工智能一般被分為弱人工智能(Artificial Narrow Intelligence, ANI)、強(qiáng)人工智能(Artificial General Intelligence, AGI)、超人工智能(Artificial Superintelligence,ASI)三種分類和發(fā)展階段。[21]我們今天討論的人工智能基本上還處于弱人工智能階段,例如,引發(fā)廣泛關(guān)注的谷歌AlphaGo和AlphaGoZero就屬于ANI的范疇。目前的人工智能還難以在認(rèn)識(shí)、學(xué)習(xí)和決策等綜合智能上與人類比肩,甚至超越人類智能。尤其在社會(huì)科學(xué)研究領(lǐng)域,弱人工智能主要是以完成特定的任務(wù)而存在的,例如語音識(shí)別、圖像識(shí)別和語言翻譯等。在實(shí)現(xiàn)方法上,弱人工智能采取的是基于統(tǒng)計(jì)和概率的方法,在特定的算法規(guī)則下基于大規(guī)模優(yōu)質(zhì)或混雜的語料庫,從數(shù)據(jù)中歸納出模型以發(fā)現(xiàn)普遍規(guī)律或最優(yōu)方案。[22]
機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)(machine learning)是人工智能的重要領(lǐng)域和主要發(fā)展方向之一。機(jī)器學(xué)習(xí)的核心是學(xué)習(xí),也就是讓計(jì)算機(jī)通過識(shí)別和利用現(xiàn)有數(shù)據(jù),模擬人的學(xué)習(xí)過程以獲得對(duì)研究者有意義的知識(shí)。互聯(lián)網(wǎng)上的傳播活動(dòng)產(chǎn)生大量的圖像與文本數(shù)據(jù)——結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此必須根據(jù)先驗(yàn)的或已有知識(shí)對(duì)這類數(shù)據(jù)進(jìn)行特征抽取,并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以建立模型,而機(jī)器學(xué)習(xí)正是解決這類問題的重要手段。[23]
就目前的計(jì)算傳播學(xué)研究實(shí)踐而言,機(jī)器學(xué)習(xí)更多被運(yùn)用于自動(dòng)化的文本分析,[24]例如用于關(guān)鍵詞提取和共現(xiàn)分析的自然語言處理技術(shù),[25]有監(jiān)督的文本分類方法[26]、情感分析[27]以及語義網(wǎng)絡(luò)等。雖然自動(dòng)化的文本分析技術(shù)極大地簡化了研究者繁瑣的文本編碼,并且能夠有效減少因主觀偏見帶來的誤差,但現(xiàn)有的文本分析技術(shù)還有很大的局限性,尤其大數(shù)據(jù)(包括各種媒體數(shù)據(jù)、時(shí)序數(shù)據(jù))具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復(fù)雜等特點(diǎn),傳統(tǒng)的機(jī)器學(xué)習(xí)算法也已難以有效處理和分析大數(shù)據(jù),必須借助分布式處理和并行計(jì)算或改進(jìn)數(shù)據(jù)挖掘算法。[28]
深度學(xué)習(xí)。深度學(xué)習(xí)(deep learning)源于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)的研究,是新興的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。在諸多機(jī)器學(xué)習(xí)理論中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)是借鑒人腦結(jié)構(gòu)及功能的一種抽象數(shù)學(xué)模型,通過由大量神經(jīng)元節(jié)點(diǎn)連接而組成的網(wǎng)絡(luò),模擬大腦信息處理、知識(shí)表征和學(xué)習(xí)的過程,因此也被稱為“連接主義”。從20世紀(jì)80年代末期以來,機(jī)器學(xué)習(xí)的發(fā)展大致經(jīng)歷了淺層學(xué)習(xí)(shallow learning)和深度學(xué)習(xí)兩個(gè)階段,[29]前者以反向傳播算法(back propagation, BP)為代表掀起了基于統(tǒng)計(jì)學(xué)方法的機(jī)器學(xué)習(xí)浪潮,隨后不同的淺層機(jī)器學(xué)習(xí)模型相繼出現(xiàn),比如傳統(tǒng)隱馬爾可夫模型(HMM)、條件隨機(jī)場(CRFs)、支持向量機(jī)(SVM)在模型結(jié)構(gòu)有一層隱含層(hidden layer)——單個(gè)將輸入信號(hào)轉(zhuǎn)換到特定問題空間特征的結(jié)構(gòu),而最大熵方法(比如,邏輯回歸,LR)則沒有隱含層。以2006年為界,自Hinton等人提出了深度置信網(wǎng)絡(luò)(DBN)和多層自動(dòng)編碼器等解決深層結(jié)構(gòu)優(yōu)化問題的算法,成為之后深度學(xué)習(xí)算法的主要框架,對(duì)機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生了極其重要的影響。
其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是第一個(gè)真正訓(xùn)練成功的多次結(jié)構(gòu)算法,[30]其網(wǎng)絡(luò)結(jié)構(gòu)受生物視覺模型的啟發(fā),通過用已知模式訓(xùn)練卷積網(wǎng)絡(luò),使得卷積網(wǎng)絡(luò)獲得輸入與輸出之間的非線性映射關(guān)系,而不追求它們之間精確的數(shù)學(xué)關(guān)系。目前,CNNs在圖像處理和視覺目標(biāo)識(shí)別方面已經(jīng)獲得了較高的精確度[31]。在傳播領(lǐng)域,計(jì)算機(jī)除了需要理解文本、語言所傳遞的人類語義信息的任務(wù)之外,非語言交流和圖像在人際溝通中無所不在也是人工智能亟待克服的問題,因?yàn)閷?duì)圖形數(shù)據(jù)的學(xué)習(xí)有助于增進(jìn)對(duì)人類傳播行為的理解,比如,對(duì)政治運(yùn)動(dòng)的理解以及網(wǎng)絡(luò)抗議和圖片的動(dòng)員作用。[32]
人工智能在計(jì)算傳播研究中的應(yīng)用
不同于專門學(xué)科對(duì)人工智能技術(shù)和應(yīng)用的開發(fā)和推進(jìn)研究,國內(nèi)人文社會(huì)科學(xué)對(duì)人工智能研究的著力點(diǎn)主要側(cè)重于探討人工智能的邏輯和基礎(chǔ)認(rèn)識(shí)、挖掘人工智能的應(yīng)用空間、預(yù)判人工智能的社會(huì)性影響和后果等方面。[33]近年來,隨著計(jì)算科學(xué)的出現(xiàn),機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等人工智能的算法和技術(shù)不斷擴(kuò)散、滲透進(jìn)入社會(huì)科學(xué)領(lǐng)域,在傳播研究中已經(jīng)出現(xiàn)和積累了不少以自動(dòng)內(nèi)容分析、情感分析和網(wǎng)絡(luò)分析等為計(jì)算方法的研究經(jīng)驗(yàn)。
自動(dòng)化內(nèi)容分析。在傳播學(xué)研究中,內(nèi)容分析(content analysis)通過強(qiáng)調(diào)信息處理和意義建構(gòu)而成為核心的研究方法之一,[34]它是一種“從文本(或其他有意義的事物)中對(duì)語義進(jìn)可復(fù)現(xiàn)的、有效的推理研究技術(shù)”。[35]但是傳統(tǒng)的內(nèi)容分析依靠大量的時(shí)間、人力和資金才能保證研究的可靠性,因此早期的傳播學(xué)研究就已經(jīng)引入計(jì)算機(jī)輔助的自動(dòng)化內(nèi)容分析技術(shù)(Automated Content Analysis,ACA)。近年來,有監(jiān)督的機(jī)器學(xué)習(xí)(Supervised Machine Learning, SML)和語義網(wǎng)絡(luò)分析(Semantic Network Analysis, SNA)為自動(dòng)化內(nèi)容分析提供了更加有效的算法實(shí)現(xiàn)和技術(shù)支持。機(jī)器學(xué)習(xí)將正確標(biāo)注的數(shù)據(jù)作為輸入以訓(xùn)練算法模型,訓(xùn)練的過程要求機(jī)器分類器(classifier)與人類編碼者在樣本數(shù)據(jù)集的編碼結(jié)果上達(dá)到高度一致,盡管計(jì)算機(jī)并不具備語言和語義理解的能力。通過對(duì)人工編碼材料的學(xué)習(xí),有監(jiān)督的分類方法能夠有效彌合傳統(tǒng)內(nèi)容分析和自動(dòng)內(nèi)容分析之間的鴻溝。例如,研究者通過一項(xiàng)實(shí)驗(yàn)性的研究中評(píng)估了有監(jiān)督機(jī)器學(xué)習(xí)對(duì)大量語料數(shù)據(jù)進(jìn)行自動(dòng)化分類的潛力,通過對(duì)德國在線新聞的既定主題類別進(jìn)行分類測(cè)試,發(fā)現(xiàn)自動(dòng)化分類的可靠程度一般比人類編碼效度低15%,尤其當(dāng)分類被明確定義和有效標(biāo)注時(shí),機(jī)器學(xué)習(xí)對(duì)于某些類別來說通常是穩(wěn)健和可靠的。[36]
另外,有研究者(Pilny, McAninch, SloneA, etal.)[37]以“關(guān)系不確定性”(relational uncertainty)研究為案例,提出了一套結(jié)合SML算法的ACA方法在傳播學(xué)研究中的簡易操作程序和效度檢驗(yàn)方法,主要分為以下三個(gè)步驟。步驟1:從傳統(tǒng)內(nèi)容分析程序開始,包括確定分析單位(如論壇發(fā)帖)、編碼方案(如關(guān)系確定與否)和抽樣方法(如分層抽樣)等。步驟2:在計(jì)算評(píng)價(jià)者間的一致性信度的基礎(chǔ)上確立編碼的基準(zhǔn),然后將文本轉(zhuǎn)為供計(jì)算機(jī)處理的數(shù)據(jù),包括詞袋(bag of word)、字典(dictionary)、主體模型(topic modelling)等自然語言處理方法,并選擇最合適的SML算法類型,常用的學(xué)習(xí)方法有支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest, RF)和樸素貝葉斯(Naïve Bayes, NB)等算法;接著進(jìn)行特征選擇(feature selection),包括過濾法(filter)、封裝法(wrapper)、嵌入法(embedded)等方法。最后,將上述模型算法用于文檔編碼與人工編碼(hold-out)進(jìn)行一致性檢驗(yàn),并與獨(dú)立的人工編碼標(biāo)準(zhǔn)做比較以評(píng)估模型的精度、召回率和F1值等指標(biāo)。步驟3:在獨(dú)立測(cè)試集的文本上測(cè)試算法的信度和效度,目的在于防止訓(xùn)練集的內(nèi)在聯(lián)系性而導(dǎo)致模型的過擬合(over fitting)現(xiàn)象,并通過補(bǔ)充調(diào)查建立機(jī)器分類方法的相關(guān)效度,主要包括聚合效度和區(qū)分效度兩個(gè)維度效度檢驗(yàn)。
除了有監(jiān)督的機(jī)器學(xué)習(xí),無監(jiān)督(unsupervised)自動(dòng)化內(nèi)容分析方法也被廣泛運(yùn)用于諸如風(fēng)險(xiǎn)溝通研究中。[38]無監(jiān)督方法可以歸納地識(shí)別文本中的詞簇,其目的不在于搜索預(yù)定義的類別,而是為研究人員提供關(guān)于文本中可以找到哪些類別的信息,通過共現(xiàn)的關(guān)鍵詞可以確定意義的結(jié)構(gòu)和更抽象的文本結(jié)構(gòu),比如新聞或議題框架(frame)的識(shí)別。例如,在荷蘭公眾對(duì)機(jī)場風(fēng)險(xiǎn)討論的研究[39]和組織風(fēng)險(xiǎn)研究[40]中均使用了非監(jiān)督學(xué)習(xí)方法。
情感分析/意見挖掘。情感分析(Sentiment Analysis)或意見挖掘(Opinion Mining)通常被定義為尋找主體對(duì)特定實(shí)體的觀點(diǎn)、態(tài)度或情緒的任務(wù)。情感分析是計(jì)算機(jī)科學(xué)中最熱門的研究領(lǐng)域之一,已經(jīng)有超過7000篇關(guān)于這個(gè)主題的文章。[41]在新聞傳播領(lǐng)域,如政治傳播、公共傳播和品牌傳播相關(guān)的研究中,主要用于判斷相關(guān)文本所包含的態(tài)度是積極、正面的還是消極、負(fù)面的。[42]
文本的情感分析主要分為有監(jiān)督和無監(jiān)督學(xué)習(xí)兩類方法:(1)有監(jiān)督方法將文檔分類到有限的情感類別中,如正向、負(fù)向、中性等,或者表示為一些離散的數(shù)值范圍;給定訓(xùn)練數(shù)據(jù)后,系統(tǒng)將利用支持向量機(jī)、樸素貝葉斯、邏輯回歸、KNN等常用分類算法學(xué)習(xí)進(jìn)行情感分類;(2)無監(jiān)督方法則基于確定文檔中特定短語的語義指向(Semantic Orientation, SO),如果這些短語的平均SO超過某個(gè)預(yù)定的閾值,則文檔將被分類為正,否則將被視為負(fù),短語的選擇通常依據(jù)詞類模式或情感詞典。由于自然語言的復(fù)雜特點(diǎn),已有的機(jī)器學(xué)習(xí)方法一般很難取得較好的文本分類效果。然而,在特定的領(lǐng)域,使用機(jī)器學(xué)習(xí)算法根據(jù)文本的情感取向?qū)ξ谋具M(jìn)行分類的效果很好。
在政治傳播領(lǐng)域,有研究者[43]將有監(jiān)督的情感分析技術(shù)應(yīng)用于檢測(cè)推文對(duì)美國總統(tǒng)候選人的態(tài)度,采用基于詞典的(lexicon-based)方法——詞典通常來源于被分析的文本之外,經(jīng)由人工所注釋和驗(yàn)證——收集給定用戶關(guān)于候選人的所有推文,測(cè)量并確定該用戶對(duì)特定候選人的平均情緒得分;他們?cè)赟enti Strength情感分析軟件的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)和t檢驗(yàn)的方法檢查了詞典在分析語料上的有效性并補(bǔ)充了情感詞匯,經(jīng)過抽樣測(cè)試,機(jī)器編碼得分與人工編碼的一致性達(dá)到82.8%。在中文語境下,基于SVM的監(jiān)督學(xué)習(xí)法還被有效地運(yùn)用于對(duì)微博文本的態(tài)度分類任務(wù)中,以研究關(guān)于中國“改革開放”的網(wǎng)絡(luò)論爭的態(tài)度傾向和變化,并使用查準(zhǔn)率(0.80)、查全率(0.80)、F1值(0.79)等指標(biāo)對(duì)模型進(jìn)行評(píng)估。[44]
也有研究者(Ortigosa, Martín, Carro)[45]基于字典和機(jī)器學(xué)習(xí)算法,提出了一種新的情緒分析混合方法,開發(fā)Facebook的應(yīng)用程序以檢索面向?qū)W生的情感極性(積極、中性和消極)狀況和情緒變化,通過將基于詞匯的預(yù)處理技術(shù)與SVM相結(jié)合得到的分類精度最高可達(dá)到83.27%,證明了從用戶在Facebook上所寫的信息中提取其準(zhǔn)確的情感信息是可行的。
相比于有監(jiān)督方法,無監(jiān)督學(xué)習(xí)方法依賴于語料所涉及的不同領(lǐng)域特征,對(duì)基準(zhǔn)情感詞的準(zhǔn)確度要求較高,廣泛應(yīng)用的難度和挑戰(zhàn)性也較大。然而,互聯(lián)網(wǎng)應(yīng)用場景和社交媒體容易產(chǎn)生并積累大量未標(biāo)記的數(shù)據(jù),而且獲得情緒標(biāo)簽的成本相對(duì)較高,因此無監(jiān)督方法有其施展拳腳的現(xiàn)實(shí)需求。例如,研究者Turney[46]在對(duì)汽車、銀行、電影及旅游等評(píng)論的情感分析中運(yùn)用了無監(jiān)督方法。他們將評(píng)論分成推薦和不推薦兩類,評(píng)論的分類是由評(píng)論短語中的形容詞或副詞的平均語義取向來進(jìn)行預(yù)測(cè),使用互信息算法(PMI)分別計(jì)算文本短語與基本正向/負(fù)向情感詞的關(guān)聯(lián)度,以正向關(guān)聯(lián)度減去負(fù)向關(guān)聯(lián)度的差值來確定該文本的情感極性,如果其短語的平均語義取向?yàn)檎瑒t將其分類為推薦。該算法在410條不同的評(píng)論分類中的準(zhǔn)確率為74%,介于汽車評(píng)論的84%和電影評(píng)論的66%之間。除此之外,無監(jiān)督的學(xué)習(xí)方法還被探索性地應(yīng)用于解決社交媒體的非正式文本交流[47]、表情符號(hào)[48]以及中文評(píng)論[49]等情感分類問題。
社會(huì)網(wǎng)絡(luò)分析。自20世紀(jì)70年代以來,傳播學(xué)研究者利用社會(huì)網(wǎng)絡(luò)分析來理解大眾傳播、健康傳播、組織傳播和人際傳播。社交網(wǎng)絡(luò)由一組節(jié)點(diǎn)和節(jié)點(diǎn)之間的一個(gè)或多個(gè)關(guān)系組成,節(jié)點(diǎn)是特定的實(shí)體,包括個(gè)人、媒體、組織、群體、機(jī)構(gòu)等,或者是詞語、事件、議題等抽象概念。隨著互聯(lián)網(wǎng)和社交媒體的發(fā)展,出現(xiàn)了很多社會(huì)網(wǎng)絡(luò)數(shù)據(jù),包括電郵交換網(wǎng)絡(luò)、博客網(wǎng)絡(luò)、在線社交網(wǎng)絡(luò)、在線文獻(xiàn)引文庫等。這些關(guān)系型數(shù)據(jù)的規(guī)模較大,且結(jié)構(gòu)復(fù)雜多變,已經(jīng)成為影響社會(huì)個(gè)體行為改變和傳播關(guān)系形成的結(jié)構(gòu)性變量和因素。社會(huì)網(wǎng)絡(luò)又屬于復(fù)雜網(wǎng)絡(luò)(Complex Network)的一種,后者以網(wǎng)絡(luò)的幾何性質(zhì)、結(jié)構(gòu)穩(wěn)定性、形成機(jī)制、網(wǎng)絡(luò)演化的統(tǒng)計(jì)規(guī)律和動(dòng)力學(xué)機(jī)制等為主要研究問題,成為推動(dòng)網(wǎng)絡(luò)科學(xué)和復(fù)雜性科學(xué)的發(fā)展的前沿領(lǐng)域。在計(jì)算機(jī)科學(xué)中,社會(huì)網(wǎng)絡(luò)分析是一個(gè)非常新的研究領(lǐng)域,可以看成網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)或網(wǎng)絡(luò)挖掘的一個(gè)分支,涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息抽取與檢索等不同領(lǐng)域。
傳統(tǒng)機(jī)器學(xué)習(xí)的處理的數(shù)據(jù)往往由多個(gè)屬性值的向量來表示,而且屬性之間具有獨(dú)立性;而社會(huì)網(wǎng)絡(luò)數(shù)據(jù)中的節(jié)點(diǎn)并非統(tǒng)計(jì)上獨(dú)立的采樣點(diǎn),而是相互之間存在依賴性。因此,使用機(jī)器學(xué)習(xí)技術(shù),需要考慮數(shù)據(jù)實(shí)例之間的關(guān)系,由此產(chǎn)生了一個(gè)新興的研究方向——鏈接挖掘[50]。常見的鏈路挖掘任務(wù)包括對(duì)象排序(object ranking)、群體發(fā)現(xiàn)(group detection)、集群分類(collective classification)、鏈路預(yù)測(cè)(link prediction)和子圖發(fā)掘(subgraph discovery)等。
以鏈路預(yù)測(cè)為例,它既是社會(huì)網(wǎng)絡(luò)分析的重要研究領(lǐng)域,也是數(shù)據(jù)挖掘領(lǐng)域的研究方向之一,旨在通過節(jié)點(diǎn)屬性和已觀察到的鏈接來預(yù)測(cè)未知或未來鏈接的存在,研究的思路和方法主要基于馬爾科夫鏈和機(jī)器學(xué)習(xí)。[51]例如,研究者將鏈接預(yù)測(cè)作為一種監(jiān)督學(xué)習(xí)任務(wù)來研究,在確定一系列重要的網(wǎng)絡(luò)特征的基礎(chǔ)上,使用不同的性能指標(biāo),如準(zhǔn)確性,精確度-召回率,F(xiàn)值,平方誤差等,比較不同類別的監(jiān)督學(xué)習(xí)算法的預(yù)測(cè)性能,其中包括決策樹(decision-tree)、支持向量機(jī)、K近鄰(K-NN)、多層感知器、RBF網(wǎng)絡(luò)等算法,以發(fā)現(xiàn)支持向量機(jī)在所有性能指標(biāo)上均略優(yōu)于其他算法。
隨著信息網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模越來越大,單個(gè)網(wǎng)絡(luò)可能包含數(shù)十億個(gè)節(jié)點(diǎn)和關(guān)系,傳統(tǒng)的社會(huì)網(wǎng)絡(luò)分析方法和技術(shù)難以處理如此龐大而復(fù)雜的網(wǎng)絡(luò)推理過程。因此,必須解決網(wǎng)絡(luò)表示學(xué)習(xí)(Network Representation Learning)的問題,其中網(wǎng)絡(luò)嵌入(network embedding)是學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)低維表示的一種重要方法,其中心思想就是找到一種映射函數(shù),使得網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)轉(zhuǎn)換為低維度的潛在表示。目前流行的方法為無監(jiān)督的深度學(xué)習(xí)算法,主要包括Deep Walk、LINE、PTE和Node2vec等。[52]Deep Walk(即深度游走)是第一個(gè)被提出來使用表示學(xué)習(xí)方法,本質(zhì)上是隨機(jī)游走(Random Walk)和神經(jīng)語言模型中的skip-gram的算法組合;Node2vec則是Deep Walk的擴(kuò)展,它引入了一個(gè)偏向的隨機(jī)游走程序,是結(jié)合廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)的領(lǐng)域搜索算法。[53]
最近,在健康傳播研究領(lǐng)域,Node2vec這種先進(jìn)的深度學(xué)習(xí)方法已經(jīng)被用于研究在線論壇關(guān)于艾滋病交流的社會(huì)支持現(xiàn)象,研究者利用網(wǎng)絡(luò)嵌入(即Node2vec)算法將論壇的每個(gè)成員表示為一個(gè)密集的向量,并結(jié)合聚類方法識(shí)別樣本中不同的子種群和模式。另外,一項(xiàng)討論社交媒體中疫苗接種與人類價(jià)值觀關(guān)系的研究[54]也采用了網(wǎng)絡(luò)嵌入的學(xué)習(xí)方法,基于對(duì)人們?cè)贔acebook“喜好”頁面上的共現(xiàn)關(guān)系,利用Node2vec算法實(shí)現(xiàn)完全無監(jiān)督學(xué)習(xí),而不需要任何個(gè)體的先驗(yàn)信息,使同一鄰域的節(jié)點(diǎn)保持“結(jié)構(gòu)”等價(jià)性或同質(zhì)性,從而探索反對(duì)疫苗接種者的共同興趣。在基于嵌入模型的弱監(jiān)督學(xué)習(xí)過程中,研究者Raisi &Huang[55]借助Word2vec和Node2vec模型分別將語言和用戶表示為實(shí)數(shù)向量,用于實(shí)現(xiàn)對(duì)社交媒體網(wǎng)絡(luò)欺凌的檢測(cè)。
未來與展望
人工智能的迅猛發(fā)展已經(jīng)影響到社會(huì)經(jīng)濟(jì)發(fā)展的方方面面,促進(jìn)了科學(xué)與行業(yè)應(yīng)用的深度結(jié)合,不僅推動(dòng)了智能生活和智慧社會(huì)的構(gòu)建,也深刻地改變了科學(xué)研究的深度和廣度。在新聞業(yè),人工智能已經(jīng)滲透到新聞編輯室及新聞生產(chǎn)過程中,自動(dòng)化新聞寫作(Automated Writing)已然成為世界新聞業(yè)的新浪潮。但從社會(huì)科學(xué)研究的角度來說,我們更關(guān)注人工智能技術(shù)的發(fā)展為社會(huì)科學(xué)研究思維和研究方法所帶來的挑戰(zhàn)和機(jī)遇。在人工智能的引擎驅(qū)動(dòng)下,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等領(lǐng)域的知識(shí)創(chuàng)新和技術(shù)研發(fā),為大數(shù)據(jù)時(shí)代新聞傳播學(xué)的新研究范式——計(jì)算傳播學(xué)的興起和成長插上了想象的翅膀,提高了計(jì)算機(jī)輔助的研究手段在智能時(shí)代的功能和效率,突破了人類研究者在認(rèn)識(shí)和理解復(fù)雜社會(huì)問題上所需體力、感官和智力的限制和禁錮。從研究方法、工具和策略創(chuàng)新的角度出發(fā),人工智能視域下的計(jì)算傳播學(xué)研究還存在進(jìn)一步發(fā)展的空間。
建立可擴(kuò)展的、廣泛的自動(dòng)化內(nèi)容分析框架。隨著計(jì)算方法的日益普及,不同的研究者在不同的研究課題上進(jìn)行獨(dú)立的研究工作,研究人員可能會(huì)使用特定的程序或付費(fèi)服務(wù)采集數(shù)據(jù),并使用不同的程序處理、計(jì)算和展示數(shù)據(jù)。這并不利于科學(xué)研究的持續(xù)性和可復(fù)現(xiàn)性。因此,我們迫切需要建立人工智能環(huán)境下使用和實(shí)現(xiàn)自動(dòng)化內(nèi)容分析的技術(shù)和操作標(biāo)準(zhǔn)。我們可以借鑒已有研究者(Trilling & Jonkman)[56]提出了擴(kuò)展自動(dòng)化內(nèi)容分析框架的四個(gè)基本標(biāo)準(zhǔn)和思路,即可擴(kuò)展性(scalability)、開源(open source)、適用性(adaptability)以及多界面(multiple interfaces)。
(1)可擴(kuò)展性:當(dāng)研究數(shù)據(jù)的規(guī)模較大時(shí),研究者用于存儲(chǔ)和計(jì)算的軟件和算法必須具有可延展性,既要提高算法的效率(如對(duì)小數(shù)據(jù)采用稀疏矩陣),同時(shí)也要合理布局?jǐn)?shù)據(jù)存儲(chǔ)和處理的模塊結(jié)構(gòu),例如,將非關(guān)系型的數(shù)據(jù)庫(NoSQL)作為數(shù)據(jù)綜合處理的后臺(tái)。(2)開源:軟件開源和代碼共享有助于科學(xué)研究的重復(fù)檢驗(yàn)和錯(cuò)誤發(fā)現(xiàn),而不是讓算法和操作過程成為“黑箱”,由于文本分析和機(jī)器學(xué)習(xí)的包或組件(如NLTK、scikit-learn、gensim等)的廣泛可用性,因此用Python編程語言實(shí)現(xiàn)開源可能是一個(gè)不錯(cuò)的選擇。(3)適用性:與前兩個(gè)標(biāo)準(zhǔn)緊密相關(guān),適用性要求框架應(yīng)該足夠靈活、彈性,使不同能力的研究者能夠通過合理的努力調(diào)整和擴(kuò)展框架,不應(yīng)該存在任何阻止分析來自不同語言和腳本的上下文的障礙,例如傳播學(xué)者常常會(huì)面臨的來自社交網(wǎng)絡(luò)的表情符號(hào)、標(biāo)簽和混合語言等字符編碼問題;同時(shí),對(duì)研究項(xiàng)目的集成能力要求也將有助于提升框架的適應(yīng)性。(4)多界面:雖然很多機(jī)器學(xué)習(xí)的自動(dòng)化內(nèi)容分析技術(shù)已經(jīng)為人所知,特別是在計(jì)算機(jī)科學(xué)等領(lǐng)域,但是能夠應(yīng)用這些方法的傳播學(xué)者卻相對(duì)較少。同時(shí),考慮技術(shù)的易用性不能以犧牲強(qiáng)化內(nèi)容分析框架的可擴(kuò)展性和適用性為代價(jià),所以應(yīng)該提供對(duì)框架的多種訪問方法(如web界面、命令行界面、API等),以讓具有不同需求和技術(shù)水平的研究小組都可以輕松駕馭。
為計(jì)算傳播研究領(lǐng)域引入更豐富的深度學(xué)習(xí)策略。傳播學(xué)研究的計(jì)算范式方興未艾,雖然許多包括自動(dòng)化文本分類、主題模型、情感分析、網(wǎng)絡(luò)嵌入等機(jī)器學(xué)習(xí)算法已經(jīng)被部分研究者引入傳播研究中,但其應(yīng)用范圍依然十分有限;而且,傳播學(xué)者整體上對(duì)機(jī)器學(xué)習(xí)的理解和運(yùn)用程度還不及其他社會(huì)科學(xué),如管理學(xué)、經(jīng)濟(jì)學(xué)和社會(huì)學(xué)等,更不用說計(jì)算機(jī)科學(xué)、網(wǎng)絡(luò)科學(xué)等學(xué)科的研究者。從現(xiàn)有研究的成果來看,傳播學(xué)者對(duì)文本或其他數(shù)據(jù)的處理主要采用傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法,比如最大熵、支持向量機(jī)等淺層次學(xué)習(xí),而鮮有對(duì)深度學(xué)習(xí)算法(如RNN、CNN、DNN等神經(jīng)網(wǎng)絡(luò)等)的涉獵,雖然深層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法在自然語言處理、語音識(shí)別和圖像識(shí)別方面已經(jīng)取得很好的應(yīng)用效果。如果這些學(xué)習(xí)方法被有效地引入計(jì)算傳播學(xué)的研究當(dāng)中,將有助于將數(shù)據(jù)處理從傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù)擴(kuò)展至非正式文本、語音、圖像等非結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)。
由于社交媒體中人們的情感、態(tài)度和觀點(diǎn)很可能以表情、標(biāo)簽、圖片和視頻等形式存在,一般的自動(dòng)化文本分類方法難以應(yīng)付這類數(shù)據(jù)。比如,針對(duì)短文本的文本分類任務(wù),由于缺少上下文,短文本(如推文、微博等)在表示時(shí)通常會(huì)遇到數(shù)據(jù)稀疏性和模糊性問題。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)算法,如基于詞嵌入的深度學(xué)習(xí)模型,[57]無論是結(jié)合語義聚類信息的有監(jiān)督學(xué)習(xí)模型,[58]還是無監(jiān)督神經(jīng)語言模型[59]都能夠準(zhǔn)確地完成情感分類學(xué)習(xí)。
對(duì)社會(huì)媒體中大規(guī)模的視覺內(nèi)容進(jìn)行情感分析,可以更好地提取用戶對(duì)特定事件或話題的情感。一項(xiàng)深度學(xué)習(xí)的研究[60]采用基線情緒算法來標(biāo)記網(wǎng)絡(luò)相冊(cè)的圖片,提出了一種漸進(jìn)的策略來微調(diào)深層卷積神經(jīng)網(wǎng)絡(luò)用于圖像的情感分析;還有研究借助網(wǎng)絡(luò)相片的標(biāo)簽作為統(tǒng)計(jì)線索來檢測(cè)圖像中描述的情緒,利用卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)大型可視化數(shù)據(jù)庫(ImageNet)進(jìn)行了有效的情感分類[61]。
對(duì)視覺內(nèi)容的情感預(yù)測(cè)是對(duì)文本情感分析的極其重要的補(bǔ)充。因此,與單獨(dú)對(duì)文本和圖像進(jìn)行情感分析相比,文本和圖像的結(jié)合可以更充分地揭示用戶情感。鑒于此,有研究者開始關(guān)注多媒體(multimedia,即文本、圖像)情緒分析深度學(xué)習(xí)方法[62],以及基于多核學(xué)習(xí)算法(multiple kernellearning, MKL)的多模態(tài)(multimodal)情感分析[63]。
不同于文本分類學(xué)習(xí)的火熱,口頭語言的情感識(shí)別(emotion recognition)至今仍然是研究較少的課題,曾有研究者(Nicholson, Takahashi & Nakatsu)[64]提出了一種基于神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別系統(tǒng),利用大型音素詞數(shù)據(jù)庫,實(shí)現(xiàn)了說話者與上下文的獨(dú)立,該系統(tǒng)對(duì)八種情緒的測(cè)試識(shí)別率達(dá)到了50%左右。然而,值得我們注意的是,人工神經(jīng)網(wǎng)絡(luò)的缺陷就是其典型的“黑箱”效應(yīng),即通過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)所學(xué)到的知識(shí)及其背后的機(jī)制難以為人們所理解,深層神經(jīng)網(wǎng)絡(luò)的集成化又加劇了這一問題解決的難度。所以,這是計(jì)算傳播學(xué)者在使用深度學(xué)習(xí)策略并解讀機(jī)器學(xué)習(xí)結(jié)果時(shí)應(yīng)該深刻認(rèn)知的前提和基礎(chǔ)。
跨學(xué)科合作推動(dòng)人工智能與計(jì)算傳播研究的深度融合。大數(shù)據(jù)和人工智能時(shí)代的計(jì)算傳播學(xué),在方法層面的創(chuàng)新是具有跨學(xué)科意義的。傳播學(xué)在社會(huì)科學(xué)中一直是“領(lǐng)域?qū)W科”,具有“十字路口”的特征,尤其是新媒體和社交媒體的出現(xiàn),傳播學(xué)研究的問題和對(duì)象更是諸多學(xué)科紛紛涉足的領(lǐng)域,與此相反的是,當(dāng)前傳播學(xué)對(duì)其他學(xué)科方法的運(yùn)用和貢獻(xiàn)依然表現(xiàn)乏力。因而,傳播領(lǐng)域向計(jì)算科學(xué)的演變,將帶來促進(jìn)該領(lǐng)域內(nèi)部進(jìn)行方法創(chuàng)新和發(fā)展的希望。
計(jì)算傳播學(xué)以互聯(lián)網(wǎng)環(huán)境下人類傳播行為為研究客體,有著深厚傳播學(xué)傳統(tǒng)和大數(shù)據(jù)研究的基因,借助數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)的理論和方法發(fā)展起來的計(jì)算范式,正在成長為計(jì)算社會(huì)科學(xué)中的一股蓬勃向上的新生力量。人工智能同樣也是跨學(xué)科的新興領(lǐng)域,自然科學(xué)與人文社會(huì)科學(xué)的交叉協(xié)作促進(jìn)了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)走向更廣闊、更深邃的科研疆域。對(duì)于計(jì)算傳播學(xué)而言,一方面,我們欣喜地看到越來越多具有理工科訓(xùn)練背景(如物理學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、數(shù)學(xué)等)的學(xué)者進(jìn)入這個(gè)領(lǐng)域并扮演重要的角色;另一方面,目前機(jī)器學(xué)習(xí)的方法和策略框架尚未為更多計(jì)算傳播學(xué)者所熟悉和使用,尤其是基于深度學(xué)習(xí)的社會(huì)網(wǎng)絡(luò)和復(fù)雜網(wǎng)絡(luò)理論和方法,在鏈接挖掘、網(wǎng)絡(luò)表示學(xué)習(xí)、網(wǎng)絡(luò)嵌入等方面的學(xué)習(xí)算法和應(yīng)用技術(shù),亟待更多的研究者去學(xué)習(xí)、挖掘和擴(kuò)展。
當(dāng)然,未來可期,當(dāng)更多前沿的計(jì)算方法和機(jī)器學(xué)習(xí)技術(shù)進(jìn)入這個(gè)領(lǐng)域時(shí),傳播學(xué)者將處于獨(dú)特的戰(zhàn)略地位,參與甚至領(lǐng)導(dǎo)計(jì)算方法的發(fā)展,這些方法有望為整個(gè)社會(huì)科學(xué)的提供關(guān)于人類互動(dòng)本質(zhì)和傳播效果的新穎的、令人興奮的見解,[65]從而使計(jì)算傳播學(xué)超越學(xué)科的界限而成為真正的“超學(xué)科”社會(huì)科學(xué)研究,也就是以人類交流傳播為基礎(chǔ)性問題,以多學(xué)科(主要是傳播學(xué)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)等)方法融合為統(tǒng)一的方法框架、以“現(xiàn)象學(xué)”意義上的大數(shù)據(jù)為經(jīng)驗(yàn)基礎(chǔ),實(shí)現(xiàn)人工智能與計(jì)算傳播學(xué)的深度融合和跨越式發(fā)展。
(深圳大學(xué)傳播學(xué)院副研究員黃文森對(duì)本文亦有貢獻(xiàn))
注釋
[1]Lazer, D.; Pentland, A. & Adamic, L. et al., "Computational Social Science", Science, 2009, 323(5915), pp. 721-723.
[2][5]Van Atteveldt, W. and Peng, T. Q., "When Communication Meets Computation: Opportunities, Challenges, and Pitfalls in Computational Communication Science", Communication Methods and Measures, 2018, 12(2-3), pp. 81-92.
[3][22]羅?。骸队?jì)算社會(huì)科學(xué)與人工智能》,《貴州師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》, 2016年第6期,第40~42頁。
[4]Shah, D. V.; Cappella, J. N. & Neuman, W. R., "Big Data, Digital Media, and Computational Social Science: Possibilities and Perils", The ANNALS of the American Academy of Political and Social Science, 2015, 659(1), pp. 6-13.
[6]Peng, T. Q.; Liang, H. & Zhu, J. H., "Introducing Computational Social Science for Asia-Pacific Communication Research", Asian Journal of Communication, 2019, 29(3), pp. 205–216.
[7]羅衛(wèi)東:《跨學(xué)科社會(huì)科學(xué)研究:理論創(chuàng)新的新路徑》,《浙江社會(huì)科學(xué)》,2007年第2期,第35~41頁。
[8]Poole, M. S., "Generalization in Process Theories of Communication", Communication Methods & Measures, 2007, 1(3), pp. 181-190.
[9][24][65]Hilbert, M.; Barnett, G. & Blumenstock, J. et al., "Computational Communication Science: A Methodological Catalyzer for a Maturing Discipline", International Journal of Communication, 2019, 13, p. 23.
[10]Zhu, J. H.; Zhou, Y. & Guan, L. et al., "Applying User Analytics to Uses and Effects of Social Media in China", Asian Journal of Communication, 2019, 29(3), pp. 291-306.
[11]Webster, J. G.; Phalen, P. F. and Lichty, L. W., Ratings Analysis: Audience Measurement and Analytics, 4th Edition, UK: Routledge, 2014.
[12][17]沈浩、黃曉蘭:《大數(shù)據(jù)助力社會(huì)科學(xué)研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào))》,2013年第35卷第8期,第13~18頁。
[13]Zumel, N. and Mount, J., Practical Data Science with R, Manning Publications Co., 2014.
[14]Tony; Stewart & Kristin, "The Fouth Paradigm: Data-Intensive Scientific Discover", Microsoft Research, 2009.
[15]方錦清、汪小帆、鄭志剛等:《一門嶄新的交叉科學(xué):網(wǎng)絡(luò)科學(xué)(上)》,《物理學(xué)進(jìn)展》, 2007年 27卷第3期,第239~343頁。
[16]Watts, D. J., "A Twenty-first Century Science", Nature, 2007, 445(7127), p. 489.
[18]米加寧、章昌平、李大宇、林濤:《第四研究范式:大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究轉(zhuǎn)型》,《社會(huì)科學(xué)文摘》,2018年第4期,第20~22頁。
[19]王延飛、劉記、趙柯然、陳美華:《智能信息技術(shù)發(fā)展現(xiàn)狀、趨勢(shì)與影響透視》,《情報(bào)學(xué)進(jìn)展》,2018年第12卷,第117~153頁。
[20]姚艷玲、開濱:《近五十年國際上人工智能領(lǐng)域跨學(xué)科演變研究》,《計(jì)算機(jī)工程與應(yīng)用》,2017年第53卷第19期,第8~16頁。
[21]Spiegeleire, S.; Maas, M. & Sweijs, T., Artificial Intelligence and the Future of Defense: Strategic Implications for Small and Medium Sized Force Providers, The Hague Centre for Strategic Studies, 2017.
[23]王玨、石純一:《機(jī)器學(xué)習(xí)研究》,《廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》,2003年第2期,第1~15頁。
[25]Arendt, F. and Karadas, N., "Content Analysis of Mediated Associations: An Automated Text-analytic Approach", Communication Methods and Measures, 2017, 11(2), pp. 105-120.
[26]Scharkow, M., "The Maticcontent Analysis Using Supervised Machine Learning: An Empirical Evaluation Using German Online News", Quality & Quantity, 2013, 47(2), pp. 761-773.
[27]Ceron, A.; Curini, L. & Iacus, S., "To What Extent Sentiment Analysis of Twitter is Able to Forecast Electoral Results? Evidence from France, Italy and the United States", ECPR General Conference, 2013, pp. 5-8.
[28]何清、李寧、羅文娟、史忠植:《大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述》,《模式識(shí)別與人工智能》,2014年第27卷第4期,第327~336頁。
[29]余凱、賈磊、陳雨強(qiáng)、徐偉:《深度學(xué)習(xí)的昨天、今天和明天》,《計(jì)算機(jī)研究與發(fā)展》,2013年第50卷第9期,第1799~1804頁。
[30]Le Cun, Y.; Boser, B. & Denker, J. S. et al., "Back Propagation Applied to Hand Written Zip Code Recognition", Neural Computation, 1989, 1(4), pp. 541-551.
[31]Krizhevsky, A; Sutskever, I. & Hinton, G. E., "Image Net Classification with Deep Convolutional Neural Networks", Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
[32]Casas, A. and Williams, N. W., "Images that Matter: Online Protests and the Mobilizing Role of Pictures", Political Research Quarterly, 2019, 72(2), pp. 360-375.
[33]梅立潤:《國內(nèi)社會(huì)科學(xué)范疇中人工智能研究的學(xué)術(shù)版圖》,《內(nèi)蒙古社會(huì)科學(xué)(漢文版)》,2019年第40卷第3期,第203~212頁。
[34]Lacy, S.; Watson, B. R., & Riffe, D. et al., "Issues and Best Practices in Content Analysis", Journalism & Mass Communication Quarterly, 2015, 92(4), pp. 791-811.
[35]Krippendorff, K., Content analysis: An introduction to Its Methodology, Sage Publications, 2018.
[36]Mahrt, M. and Scharkow, M., "The Value of Big Data in Digital Media Research", Journal of Broadcasting & Electronic Media, 2013, 57, pp. 20-33.
[37]Pilny, A.; McAninch, K. & Slone, A., et al., "Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty", Communication Methods and Measures, 2019, pp. 1-18.
[38][40]Vander Meer and Toni GLA, "Automated Content Analysis and Crisis Communication Research", Public Relations Review 42.5, 2016, pp. 952-961.
[39]Jonkman and Jeroen, "Verhoeven, Piet, From Risk to Safety: Implicit Frames of Third-party Airport Risk in Dutch Quality Newspapers between 1992 and 2009", Safety Science, 2013, 58, pp. 1-10
[41]Feldman, R., "Techniques and Applications for Sentiment Analysis", Communications of the ACM, 2013, 56(4), pp. 82-89.
[42]鐘智錦、王童辰:《大數(shù)據(jù)文本挖掘技術(shù)在新聞傳播學(xué)科的應(yīng)用》,《當(dāng)代傳播》, 2018年第202卷第5期,第14~20頁。
[43]Vargo, C. J; Guo, L. & McCombs, M. et al., "Network Issue Agendas on Twitter During the 2012 US Presidential Election", Journal of Communication, 2014, 64(2), pp. 296-316.
[44]鄭雯、桂勇、黃榮貴:《論爭與演進(jìn):作為一種網(wǎng)絡(luò)社會(huì)思潮的改革開放——以2013~2018年2.75億條微博為分析樣本》,《新聞?dòng)浾摺罚?019年第1期,第51~62頁。
[45]Ortigosa, A.; Martín, J. M. & Carro, R. M., "Sentiment Analysis in Facebook and Its Application to E-learning", Computers in Human Behavior, 2014, 31, pp. 527-541.
[46]Turney, P. D., "Thumb Support Humbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 417-424.
[47]Paltoglou, G. and Thelwall, M., "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media", ACM Trans Intell Syst Technol (TIST), 2012, 3(4), p. 66.
[48]Hu, X.; Tang, J. & Gao, H. et al., "Unsupervised Sentiment Analysis with Emotional Signals", Proceedings of the 22nd International Conference on WorldWideWeb. ACM, 2013, pp. 607-618.
[49]Zhai, Z.; Xu, H. & Jia, P., "An Empirical Study of Unsupervised Semantic Classification of Chinese Reviews", Tsinghua Science and Technology, 2010, 15(2), pp. 133-137.
[50]Getoor, L. and Diehl, C. P , "Link Mining: A Survey", Acm Sigkdd Explorations Newsletter, 2005, 7(2), pp. 3-12.
[51]呂琳媛:《復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)》,《電子科技大學(xué)學(xué)報(bào)》,2010年第5期,第651~661頁。
[52]Qiu, J.; Dong, Y., & Ma, H. et al., "Network Embedding A Smatrix Factorization: Unifying Deep Walk, Line, Pte, and Node2vec", Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018, pp. 459-467.
[53]Grover, A. and Leskovec, J., "Node2vec: Scalable Feature Learning for Networks", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, August 2016, 13-17, pp. 855-864.
[54]Kalimeri, K.; GBeiró, M. & Urbinati, A., et al., "Human Values and Attitudes towards Vaccination in Social Media", Companion Proceedings of The 2019 WorldWideWeb Conference. ACM, 2019, pp. 248-254.
[55]Raisi, E. and Huang, B., "Co-trained Ensemble Models for Weakly Supervised Cyberbullying Detection", NIPS Workshop on
Learning with Limited Labeled Data, 2017.
[56]Trilling; Damian; Jonkman & Jeroen, G. F., "Scaling up Content Analysis", Communication Methods and Measures, 2018, 12(2/3), pp. 158-174.
[57]Mikolov, T.; Sutskever, I. & Chen, K. et al., "Distributed Representations of Words and Phrases and the Incompositionality", Advances in Neural Information Processing Systems, 2013, pp. 3111-3119.
[58]Wang, P.; Xu, J. & Xu, B. et al., "Semantic Clustering and Convolutional Neural Network for Short Text Categorization", Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Volume 2, Short Papers, 2015, pp. 352-357.
[59]Severyn, A. and Moschitti, A., "Twitter Sentiment Analysis with Deep Convolutional Neural Networks", Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015, pp. 959-962.
[60]You, Q.; Luo, J. & Jin, H. et al., "Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks", Twenty-ninth AAAI Conference on Artificial Intelligence, 2015.
[61]Chen, T.; Borth, D. & Darrell, T. et al., "Deep Sentibank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks", arXiv preprint arXiv: 1410. 8586, 2014.
[62]Cai, G. and Xia, B., "Convolutional Neural Networks for Multimedia Sentiment Analysis", Natural Language Processing and Chinese Computing, Springer, Cham, 2015, pp. 159-167.
[63]Poria, S.; Peng, H. & Hussain, A. et al., "Ensemble Application of Convolutional Neural Networks and Multiple Kernel Learning for Multimodal Sentiment Analysis", Neuro Computing, 2017, 261, pp. 217-230.
[64]Nicholson, J.; Takahashi, K. & Nakatsu, R., "Emotion Recognition in Speech Using Neural Networks", Neural Computing & Applications, 2000, 9(4), pp. 290-296.
責(zé) 編/周于琬
Artificial Intelligence and Computational Communication
Chao Naipeng
Abstract: Artificial intelligence (AI) has swept the world, not only changing the way of human life and communicative behaviors, but also changing the way people observe and understand the world. The computational paradigm driven by AI and big data has extended to the field of social science. Influenced and inspired by the traditional quantitative research paradigm of communications, data science and network science, computational communication is developing rapidly and has become one of the most important branches of computational social science. From data mining to machine learning, and to deep learning, AI algorithm and technology has greatly improved the accuracy and efficiency of big data processing. At present, by combining with the unsupervised and supervised learning methods, automatic content analysis, emotional analysis and social network analysis can provide computational communication with research strategies and experience in terms of data processing, integration and analysis. In the future, by developing and establishing an extensible automatic content analysis framework and system, introducing more in-depth learning strategies and innovating interdisciplinary research methods, it will help AI and computational communication to achieve deeper integration in a broader interdisciplinary field.
Keywords: Computational communication, artificial intelligence, machine learning, deep learning
巢乃鵬,深圳大學(xué)傳播學(xué)院院長、教授、博導(dǎo)。研究方向?yàn)榫W(wǎng)絡(luò)傳播與新媒體研究、計(jì)算傳播學(xué)。主要著作有《網(wǎng)絡(luò)受眾心理行為研究:一種信息查尋的研究范式》《網(wǎng)絡(luò)廣告原理與實(shí)務(wù)》《網(wǎng)絡(luò)媒體經(jīng)營與管理》等。