【摘要】在這個(gè)信息高度膨脹并具有極高共享度的大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源在學(xué)術(shù)研究中發(fā)揮著越來(lái)越重要的作用。新中國(guó)誕生之后,數(shù)據(jù)資源助力中國(guó)文史研究取得了豐碩的成果。但應(yīng)該注意的是,數(shù)據(jù)資源帶來(lái)機(jī)遇的同時(shí)也帶來(lái)了挑戰(zhàn),面對(duì)結(jié)構(gòu)化的數(shù)據(jù)庫(kù)或知識(shí)庫(kù),學(xué)界的思維方式與治學(xué)方法需要轉(zhuǎn)變。
【關(guān)鍵詞】大數(shù)據(jù)時(shí)代 文史研究 治學(xué)方法
【中圖分類(lèi)號(hào)】G256 【文獻(xiàn)標(biāo)識(shí)碼】A
在印刷術(shù)發(fā)明以前,書(shū)籍文獻(xiàn)彌足珍貴,人們獲取知識(shí)及其他信息的路徑除了人與人之間的口耳相傳,便只有閱讀文字。相比于人與人之間的傳授,閱讀已經(jīng)足以突破時(shí)間和空間的限制,讓人的學(xué)習(xí)方式更加自主便捷,獲取的知識(shí)也更加真實(shí)可信。然而,無(wú)論是天災(zāi)還是人禍,都可能對(duì)書(shū)籍的保存和流通造成巨大損害,知識(shí)載體的損毀甚至可能直接帶來(lái)知識(shí)本身的消亡,有感于此,先賢常通過(guò)對(duì)古書(shū)的編輯來(lái)將大量的信息與知識(shí)整合在一起,這可以視作古人“數(shù)據(jù)庫(kù)”建設(shè)的初步嘗試。
劉向《別錄》敘述左氏學(xué)傳承云:“左丘明授曾申,申授吳起,起授其子期,期授楚人鐸椒,鐸椒作《抄撮》八卷,授虞卿作《抄撮》九卷;授荀卿;荀卿授張倉(cāng)。”由此可見(jiàn),“抄撮之學(xué)的立意,是為了在較短的時(shí)間間內(nèi),花費(fèi)較少的精力,而得以對(duì)一部著作進(jìn)行整體的簡(jiǎn)要性把握。這一時(shí)期的此類(lèi)著作采取何種體制,是完全忠實(shí)于原文還是有所發(fā)揮,今已無(wú)法考知,但這種刪繁節(jié)要,便于觀覽的編纂出發(fā)點(diǎn),是非常值得重視的。”吳坰《五總志》:“唐李商隱為文,多檢閱書(shū)史,鱗次堆集左右,時(shí)謂為獺祭魚(yú)。”辛文房在《唐才子傳》也記載:“商隱工詩(shī),為文瑰邁奇古,辭隱事難。及從楚學(xué),儷偶長(zhǎng)短,而繁縟過(guò)之。每屬綴,多檢閱書(shū)冊(cè),左右鱗次,號(hào)‘獺祭魚(yú)’。”李商隱為詩(shī)為文,都以用典綿密著稱,而支撐他的如此不厭其煩的隱詞比事的獺祭行為,難免成了人們津津樂(lè)道的話題,從中我們不難覺(jué)察出一種取向,即對(duì)知識(shí)的占有量和剪裁程度是人們作詩(shī)作文內(nèi)容豐富與否的必要條件。秦觀也提到了自己在成年記憶力衰退之后,感慨檢索文獻(xiàn)之費(fèi)時(shí),故而不免依樣畫(huà)葫蘆。觀古可知,古人在建構(gòu)自己的知識(shí)體系的同時(shí),就已經(jīng)有意識(shí)地對(duì)既有知識(shí)做減法(所謂“抄撮”之學(xué)),以便于記憶和檢索,又對(duì)其做加法(所謂“雜學(xué)”著述),借雜糅所學(xué)所見(jiàn)以屬詞比事??梢?jiàn),早在電子數(shù)據(jù)庫(kù)誕生以前,中國(guó)古代學(xué)者已經(jīng)有了類(lèi)似的活動(dòng),其目的和功用,與現(xiàn)在并無(wú)二致。
數(shù)據(jù)資源助力新中國(guó)文史研究取得巨大成就
隨著信息時(shí)代的到來(lái),文史研究可以利用的技術(shù)手段拓寬,材料獲取途徑的多樣性增強(qiáng)。數(shù)字網(wǎng)絡(luò)以及移動(dòng)通信技術(shù)的不斷進(jìn)步,使得學(xué)界得以應(yīng)用計(jì)算機(jī)和互聯(lián)網(wǎng)對(duì)徽州文書(shū)以及甲骨文等原始文史研究材料進(jìn)行更有效且有深度的辨析。20世紀(jì)50年代,語(yǔ)言學(xué)家邁克爾·文特里斯(Michael Ventis)成功地破譯了線形文字B。麻省理工學(xué)院和谷歌人工智能實(shí)驗(yàn)室的研究人員提出的神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)了古希臘邁錫尼文明時(shí)期線形文字B的自動(dòng)翻譯,把67.3%的線形文字B同源詞翻譯成了希臘語(yǔ)。人工智能、核技術(shù)和物理化學(xué)技術(shù)等前沿技術(shù)的應(yīng)用,使得原始材料被更有效地甄別和解釋,從而拓寬了材料廣度,也促進(jìn)了新材料的發(fā)現(xiàn)。除此之外,信息時(shí)代帶來(lái)的材料的重組、學(xué)科的交叉、信息文化的興起,也促進(jìn)了新材料的發(fā)掘、分析及更新。隨著計(jì)算機(jī)硬件能力的不斷提升,加之?dāng)?shù)據(jù)資源的持續(xù)累積,以大數(shù)據(jù)為核心邏輯的智能應(yīng)用革命開(kāi)始逐步影響人類(lèi)的日常生活。在大數(shù)據(jù)技術(shù)的幫助下,人們可以利用嶄新的視角來(lái)實(shí)時(shí)、多角度、全方位地掌握事物的發(fā)展規(guī)律,并更好地預(yù)測(cè)未來(lái),進(jìn)而為生產(chǎn)和社會(huì)活動(dòng)提供海量而優(yōu)質(zhì)的決策。所以,信息文化的快速發(fā)展,使得整體文化環(huán)境發(fā)生轉(zhuǎn)變,新材料不斷出現(xiàn)、新材料整合速度不斷提高,客觀上促進(jìn)了數(shù)據(jù)資源的累積,文史研究方法也因此發(fā)生變化。
黨的十一屆三中全會(huì)后,在解放思想、實(shí)事求是路線的引領(lǐng)下,文史學(xué)界不斷開(kāi)拓創(chuàng)新,中國(guó)古代文史研究煥發(fā)出嶄新的生命力。隨著我國(guó)對(duì)外開(kāi)放的深化,國(guó)家經(jīng)濟(jì)實(shí)力日益增強(qiáng),中國(guó)古代文史研究取得了豐碩的成果,具體表現(xiàn)在學(xué)科構(gòu)建、人才培養(yǎng)、成果出版、國(guó)際交流等方面。中國(guó)古代文史研究不斷向全方位、多角度、深層次發(fā)展,我國(guó)文史工作者在科學(xué)系統(tǒng)地借鑒并融合古今中外優(yōu)秀研究理論和方法的基礎(chǔ)上,不斷整合完善現(xiàn)有資料,積極探索新的文獻(xiàn)和考古材料,許多海內(nèi)外罕見(jiàn)文獻(xiàn)因此得以整理并出版。以敦煌吐魯番文書(shū)、甲骨文、徽州文書(shū)、懸泉置簡(jiǎn)帛以及眾多民間文書(shū)為代表的新出文獻(xiàn),夯實(shí)了我國(guó)古代文史領(lǐng)域的研究基礎(chǔ),豐富了研究?jī)?nèi)容,拓寬了研究的深度和廣度。與此同時(shí),文獻(xiàn)古籍的數(shù)字化也被提上日程,科研單位和各大高校紛紛上線數(shù)據(jù)庫(kù)項(xiàng)目,催生交叉學(xué)科研究方法,文史領(lǐng)域治學(xué)與數(shù)字化時(shí)代同步推進(jìn)的趨勢(shì)日益明顯。
進(jìn)入21世紀(jì)以來(lái),我國(guó)文史研究者乘科學(xué)技術(shù)之東風(fēng),借助各類(lèi)互聯(lián)網(wǎng)信息技術(shù)手段,植根于中國(guó)歷史實(shí)際,發(fā)現(xiàn)、整理和搶救了大量的文獻(xiàn)古籍資料,文獻(xiàn)和古籍的保護(hù)進(jìn)程得以顯著加快,古籍利用和保護(hù)之間的矛盾也得到了妥善的解決。近年來(lái),以敦煌文獻(xiàn)數(shù)字化和國(guó)際敦煌學(xué)、海外中華古籍合作保護(hù)以及“一帶一路”鄰國(guó)語(yǔ)言文字中漢字音的數(shù)字化整理等為代表的一批重點(diǎn)研究項(xiàng)目不斷推進(jìn),通過(guò)目錄匯編、圖像/音頻掃描、4D數(shù)據(jù)庫(kù)建設(shè)等工具手段,在全面保護(hù)存檔既有資料的同時(shí),有效地提高了文獻(xiàn)內(nèi)容和考古內(nèi)容的質(zhì)量,為未來(lái)文史研究領(lǐng)域的廣度和深度提供了可靠的保障。這些成就,與新中國(guó)成立以來(lái)在文獻(xiàn)數(shù)據(jù)資料領(lǐng)域持續(xù)不懈的探索整理,以及信息技術(shù)和數(shù)字化手段的有效助力,是分不開(kāi)的。
大數(shù)據(jù)時(shí)代為文史研究帶來(lái)的機(jī)遇與挑戰(zhàn)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)在我們的日常生活與學(xué)術(shù)研究領(lǐng)域發(fā)揮著越來(lái)越重要的作用,傳統(tǒng)紙質(zhì)文獻(xiàn)越來(lái)越多地被數(shù)字化,各種形式的數(shù)據(jù)庫(kù)層出不窮。數(shù)據(jù)作為研究成果的同時(shí),其研究基礎(chǔ)的地位也在不斷被強(qiáng)調(diào)。具體到人文學(xué)科的研究,數(shù)字文獻(xiàn)大致可以分成傳統(tǒng)文獻(xiàn)的數(shù)字影像和結(jié)構(gòu)化的數(shù)據(jù)庫(kù)。與數(shù)字文獻(xiàn)相比,傳統(tǒng)文獻(xiàn)具有天然的劣勢(shì),除了傳播方式單一、傳播時(shí)間較長(zhǎng)、保存?zhèn)鞑コ杀据^高等眾所周知的原因以外,我們必須注意到:“舊媒體將知識(shí)分割于不同的物理載體之中,比如說(shuō)這本書(shū)的知識(shí)很難與另一本書(shū)的同類(lèi)知識(shí)關(guān)聯(lián),這種檢索工具很難跟另一種檢索工具互通,而學(xué)術(shù)研究則要求盡可能地聯(lián)系各方知識(shí),便于重新組合和運(yùn)算。學(xué)者重組知識(shí)的能力越強(qiáng),創(chuàng)造力也就越強(qiáng)。”大數(shù)據(jù)時(shí)代在減少文史研究所耗費(fèi)的時(shí)間和物質(zhì)成本的同時(shí),使得學(xué)者可以高效選取材料進(jìn)行組合和分析,材料獲取效率增加。以往,學(xué)者為了查閱某一文獻(xiàn)資料可能需要跨越大半個(gè)中國(guó),準(zhǔn)備許多證明材料,而現(xiàn)在足不出戶便能查詢到自己需要的材料。前人遍檢群書(shū)而不得的內(nèi)容,我們可能只需用幾秒鐘就可以得到答案,不會(huì)利用電子文獻(xiàn)檢索的學(xué)者則成了名副其實(shí)的“今之古人”。這使得文史研究從側(cè)重獲取新材料轉(zhuǎn)變?yōu)閭?cè)重提出新問(wèn)題,學(xué)術(shù)研究更具有效率性,為學(xué)科的深入探究提供了便利。
數(shù)據(jù)庫(kù)的廣泛使用,打破了學(xué)科之間的界線,拓寬了專門(mén)知識(shí)領(lǐng)域的邊界??鐚W(xué)科的知識(shí)鏈接,為新知識(shí)體系的出現(xiàn)架起橋梁,“國(guó)際數(shù)字人文機(jī)構(gòu)聯(lián)盟”和“數(shù)字人文中心網(wǎng)絡(luò)”這兩大人文研究數(shù)字聯(lián)盟的出現(xiàn),使人文科學(xué)和數(shù)字科學(xué)加深融合,例如促進(jìn)了歷史學(xué)科從解釋性學(xué)科向求是性學(xué)科的轉(zhuǎn)變,實(shí)現(xiàn)了學(xué)科價(jià)值的擴(kuò)展。進(jìn)而可以說(shuō),數(shù)據(jù)庫(kù)的出現(xiàn)在不斷拓寬文史研究角度的同時(shí)也能影響其研究?jī)r(jià)值的擴(kuò)展。同時(shí)“人文計(jì)算”、復(fù)雜網(wǎng)絡(luò)分析、大規(guī)模數(shù)據(jù)分析等研究方法的使用,雖然在一定程度上弱化了文史研究中的批判性與人文關(guān)懷,但卻在某種程度上革新了文史研究的方式,從而使研究更具科學(xué)性。
數(shù)字文獻(xiàn)的不足也是顯而易見(jiàn)的,從文獻(xiàn)的保存、閱讀和檢索來(lái)說(shuō),不同的數(shù)據(jù)庫(kù)必然會(huì)展示出不同文字的準(zhǔn)確率和檢索的查全率、查準(zhǔn)率,即使數(shù)據(jù)庫(kù)的制作者精益求精并不斷改進(jìn)檢索技術(shù),其文本的準(zhǔn)確率已經(jīng)做到了與紙本文獻(xiàn)不相上下,我們依然無(wú)法避免在檢索“吳梅”時(shí)發(fā)現(xiàn)眾多“吳梅村”相關(guān)詞條的情況,簡(jiǎn)而言之,數(shù)據(jù)庫(kù)在無(wú)意識(shí)檢索的層面可以速度驚人,卻依然無(wú)法代替人類(lèi)進(jìn)行有意識(shí)的搜索。
從這個(gè)角度看來(lái),大數(shù)據(jù)時(shí)代,我們更要警惕的是“方法論”的錯(cuò)位。前面已經(jīng)提到,前人也構(gòu)建過(guò)自己的“數(shù)據(jù)庫(kù)”,雖然和如今的數(shù)字文獻(xiàn)相比,它的規(guī)模無(wú)法同日而語(yǔ),可恰恰是因?yàn)楸蝗擞幸庾R(shí)地編纂,它的優(yōu)勢(shì)在于其內(nèi)在的系統(tǒng)性和相互之間的關(guān)聯(lián)性,“比如敦煌卷子中發(fā)現(xiàn)的很多小類(lèi)書(shū),像《孔子備問(wèn)書(shū)》《隨身寶》《太公家教》及《兔園冊(cè)》等,它的包羅萬(wàn)象和排列秩序,其實(shí)可以反映當(dāng)時(shí)知識(shí)的定型和簡(jiǎn)化”,這種系統(tǒng)性和關(guān)聯(lián)性交織在一起,構(gòu)成的內(nèi)在的自足性正是這一時(shí)期圖書(shū)的編纂者和閱讀者“共識(shí)性”知識(shí)體系的反映,在這種“共識(shí)性”的知識(shí)、思想背景之下,同時(shí)代或之后的學(xué)者分享、傳承彼此的知識(shí)與經(jīng)驗(yàn),他們對(duì)未知知識(shí)的檢索的出發(fā)點(diǎn)源自于對(duì)既有知識(shí)的理解和掌握。如果我們不具備對(duì)“已知”的熟悉,而卻偏偏執(zhí)著于“未知”的汪洋,所面對(duì)的,將是極其危險(xiǎn)的處境。
即使我們盡最大所能規(guī)避以“未知”檢索“未知”的情況,卻依然無(wú)法忽視數(shù)據(jù)(數(shù)據(jù)庫(kù))本身并不會(huì)說(shuō)話的事實(shí),面對(duì)同樣的數(shù)據(jù),對(duì)文獻(xiàn)的分析和使用也是因人而異的,這種“橫看成嶺側(cè)成峰”極有可能導(dǎo)致截然相反的結(jié)論。1980年,美國(guó)威斯康辛大學(xué)陳炳藻先生在《紅樓夢(mèng)》討論會(huì)上發(fā)表《從詞匯統(tǒng)計(jì)論證紅樓夢(mèng)的作者》一文,通過(guò)統(tǒng)計(jì)《紅樓夢(mèng)》的詞頻,認(rèn)定后四十回也出自曹氏,一時(shí)引起巨大反響,是繼高本漢之后首次全方位運(yùn)用電子檢索和統(tǒng)計(jì)的手段對(duì)《紅樓夢(mèng)》進(jìn)行研究,然而不久之后,中國(guó)學(xué)者陳大康先生同樣用精密的統(tǒng)計(jì)方法得出與之相左的結(jié)論:《紅樓夢(mèng)》后四十回含有曹雪芹少量殘稿,但并非是作者原作。由此可以看出,數(shù)據(jù)本身并不會(huì)說(shuō)話,即使在大數(shù)據(jù)時(shí)代,單單靠先進(jìn)的統(tǒng)計(jì)方法,并不是解決人文學(xué)科相關(guān)問(wèn)題的“萬(wàn)能鑰匙”。
大數(shù)據(jù)時(shí)代下文史研究的新路徑
飛速發(fā)展的互聯(lián)網(wǎng)信息技術(shù),讓我國(guó)的文史研究呈現(xiàn)出若干新趨勢(shì)、新特點(diǎn)。國(guó)家的戰(zhàn)略性規(guī)劃,各級(jí)政府和相關(guān)單位的持續(xù)投入,以及優(yōu)秀學(xué)術(shù)人才的積極參與,都為我國(guó)文史文獻(xiàn)資源研究與建設(shè)的系統(tǒng)化、數(shù)字化、科學(xué)化打下了堅(jiān)實(shí)的基礎(chǔ)。利用大數(shù)據(jù)技術(shù)研究中國(guó)古代文史,對(duì)其本身與相關(guān)領(lǐng)域的學(xué)科建設(shè)和學(xué)術(shù)發(fā)展,具有極其顯著的意義,這種意義尤其體現(xiàn)在研究范式與方法論的革新上?;谶@樣的理解,筆者認(rèn)為,大數(shù)據(jù)時(shí)代下的文史研究方法,可以在以下三個(gè)方面有所創(chuàng)新:
一是解決單憑人力難以徹底解決的疑難問(wèn)題。如中國(guó)古代文學(xué)中的周邊國(guó)家意象與天朝朝貢體系以及中國(guó)古代對(duì)外交流關(guān)系的演化之間,是否存在聯(lián)系?對(duì)此類(lèi)問(wèn)題來(lái)說(shuō),數(shù)據(jù)庫(kù)是基礎(chǔ),文本分析技術(shù)是核心,需要通過(guò)定量統(tǒng)計(jì)分析,進(jìn)行作品的辨?zhèn)?、異文?duì)照,解決修辭特色及風(fēng)格題材的變遷等懸疑難決的問(wèn)題。二是重新驗(yàn)證已有成說(shuō)的史論。例如明代以李夢(mèng)陽(yáng)、何景明為代表的前七子,其詩(shī)文創(chuàng)作中是否落實(shí)了“文必秦漢,詩(shī)必盛唐”的主張?在大數(shù)據(jù)技術(shù)的幫助下,我們可以利用共詞及語(yǔ)義分析、人物事件交雜等思路,嘗試全新分析和檢驗(yàn)諸如社團(tuán)流派、人物關(guān)系、情節(jié)演進(jìn)、階段特征、歷史影響等已有成說(shuō)的問(wèn)題。三是超越印象和定量分析層面,科學(xué)梳理文史中存在的特征、規(guī)律、關(guān)聯(lián)性問(wèn)題。例如白居易有詩(shī)近四千首,陸游有詩(shī)詞近萬(wàn)首,它們的格局、題材、修辭、風(fēng)格在不同歷史時(shí)期發(fā)生過(guò)哪些變化?通過(guò)對(duì)某作家或某一類(lèi)作品的深度學(xué)習(xí),發(fā)揮其關(guān)聯(lián)分析、文本比對(duì)等技術(shù)優(yōu)勢(shì),挖掘到以往不曾注意到的跡象或線索,以期提高文學(xué)經(jīng)典研究的科學(xué)性和可靠性。
現(xiàn)階段的中國(guó)古代文史研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但多局限于文獻(xiàn)數(shù)字化階段。主要用于數(shù)據(jù)內(nèi)容存放和管理的數(shù)據(jù)庫(kù)仍然占據(jù)主流,而能夠?qū)崿F(xiàn)分析統(tǒng)計(jì)的關(guān)系型文史數(shù)據(jù)庫(kù)仍然稀少。近些年,隨著《中華經(jīng)典古籍庫(kù)》等數(shù)字化文獻(xiàn)資源庫(kù)的推出,數(shù)據(jù)庫(kù)在文獻(xiàn)檢索功能方面已有較大的進(jìn)步,但結(jié)構(gòu)化的實(shí)現(xiàn)統(tǒng)計(jì)分析和知識(shí)再生、運(yùn)用數(shù)字人文的分析工具和技術(shù)方法來(lái)研究古代文史等功能,仍處在嘗試性階段,未成規(guī)模,影響也不大。如何建設(shè)更為豐富、完善的數(shù)據(jù)庫(kù),如何使數(shù)據(jù)庫(kù)功能更加人性化與科學(xué)化,如何讓數(shù)據(jù)庫(kù)在文史研究中發(fā)揮更加重要的作用,仍是有待解決的問(wèn)題。未來(lái),文史研究學(xué)界只要與時(shí)俱進(jìn),解放思想,將文史資源的發(fā)掘、考證、研究置于科學(xué)技術(shù)進(jìn)步和文化繁榮的背景之下,充分調(diào)動(dòng)各方面資源,就能更好地保護(hù)、開(kāi)發(fā)和利用我國(guó)的文史資源,使文史研究始終與國(guó)家同發(fā)展,同時(shí)代共進(jìn)步。
(作者分別為上海師范大學(xué)人文學(xué)院博士研究生;南京大學(xué)文學(xué)院博士研究生)
【參考文獻(xiàn)】
①郭醒:《〈藝文類(lèi)聚〉研究》,沈陽(yáng):遼海出版社,2010年。
②史睿:《數(shù)字人文研究的發(fā)展趨勢(shì)》,《文匯報(bào)》,2017年8月25日。
③葛兆光:《思想史的寫(xiě)法——中國(guó)思想史導(dǎo)論》,上海:復(fù)旦大學(xué)出版社,2004年。
責(zé)編/周小梨 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)本微信號(hào)獲得授權(quán),轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來(lái)源及作者,否則追究法律責(zé)任。