“數智時代的世界中國學:機遇與挑戰”分論壇 數智時代,文獻原典如何“活起來”

分論壇“數智時代的世界中國學:機遇與挑戰”會議現場。 文匯報記者 王竟成攝
數字人文發展不能局限于‘文字的數字化’,而要構建本土化的高質量文化語料庫底座,讓多模態資源‘活起來’,還要形成跨學科的人才與生態體系,讓AI工程師懂人文,也讓文史學者懂AI
數字化和智能化,正在重塑學術。14日下午,第二屆世界中國學大會舉行“數智時代的世界中國學:機遇與挑戰”分論壇,專家學者們就新技術對中國學研究的影響發表了真知灼見。
中國人民大學校長林尚立表示,回望人類的發展歷程,思想傳播載體的每一次革新都會帶來思想的飛躍、學術的突飛猛進。“如今我們進入數智時代,技術帶來的沖擊更是空前深刻。學者們站在新的平臺上,用數字技術重新解讀文獻文本,重新發現靠傳統手段無法破譯的經典密碼,并由此汲取5000年中華文明中孕育的東方智慧,以新的知識、新的理論推動世界發展、文明進步?!?/p>
數字人文知識體系,應有“主權意識”
數智時代的中國學研究,是“數字人文”這門廣闊交叉學科的一個分支。中國人民大學數字人文研究院院長、教授馮惠玲介紹,雖然數字人文在國內發展僅10年左右,但勢頭非??捎^,已然成為數據時代中國學研究不可或缺的組成部分。
數字人文領域的高速發展,得益于三大國家級戰略的牽引:數字中國戰略、國家文化數字化戰略和新文科戰略。目前,數字人文已經實現以學術共同體為支撐,科研、教育、實踐三位一體的協同發展。來自這三個“方面軍”的多學科人員,在數字人文領域交匯聚合。截至2023年,全國已經有66個數字人文研究機構與28個性質類似的“泛數字人文”研究機構,2025年總數“破百”已成定局。
上海社會科學院信息研究所所長劉煒則從自主知識體系的角度展望中國數字人文前景。建設中國數字人文自主知識體系,要以中國文化資源為基礎,用數字化與智能化手段重建知識結構,并闡釋體系和語義邏輯。換句話說,建設自主知識體系,不僅僅是將古籍、文物、非遺數字化,更是再造知識主權,是讓中華民族的歷史、思想與美學在數字世界中,以中國自己的方式被理解與傳播。
在文化主體性日益重要的大背景下,“主權AI”的概念被反復提及。劉煒指出,主權AI強調的不僅是技術主權,更是文化主權。人工智能必須理解本國的語言邏輯、文化常識與社會價值,與本國特有的意識形態相對齊,使技術的發展服務于文明的自我敘事。數字人文已經成為連接傳統文化和人工智能的橋梁,但這座橋梁建立在什么樣的技術基礎上,將決定我們是否能夠以自己的方式講述自己的故事。
他進一步分析稱,主權AI和數字人文之間,好比基礎設施與上層建筑的關系。沒有獨立自主的算法與語義底層,自主知識體系就可能淪為空談。反過來講,如果不具備獨特文化內涵的數字人文知識體系,那么主權AI也不可能存在。為此,他呼吁,數字人文發展不能局限于“文字的數字化”,而要構建本土化的高質量文化語料庫底座,讓多模態資源“活起來”,研發面向文化場景的專用模型,打造國家級的數字人文智能平臺,還要形成跨學科的人才與生態體系,讓AI工程師懂人文,也讓文史學者懂AI。
古籍數字化整理,技術和模式皆需創新
數字人文,如何才能不局限于“文字數字化”?論壇上,中華書局全資子公司古聯(北京)數字傳媒科技有限公司總經理洪濤與中國人民大學文學院教授徐建委,分別從業界和學界的角度,分享了數字人文的前沿進展,也透露了當前面臨的一些難題。
據洪濤介紹,我國現存古籍共20萬種、50萬版本。版刻古籍的數字化進展方面,目前市場上大型古籍數據庫產品涵蓋6到8萬種古籍,總計80到100億字。然而,盡管數字技術的發展令古籍數據量激增,但高質量數據仍然嚴重不足,加上學術研究對于古籍數據的需求持續旺盛,供需差的存在對出版單位和相關技術公司提出了緊迫要求。
與劉煒觀點相仿,洪濤指出,“文字數字化”只是最基礎的數字人文應用。他將古籍語料庫的質量層次進行了金字塔式劃分,古籍原典數字化處于底層,而頂層則是對領域知識的結構化。為了實現進階目標,在對古籍原文進行OCR識別、校對??钡幕A上,還要對其加注標點、結構化,對專名、主題加以標注,最后翻譯注釋,形成較為完整的知識體系。他列出了從??钡椒g的古籍整理全流程技術需求,并提到,人工智能的發展已經讓越來越多基礎性的整理工作得到高效替代。大型古籍的整理工作,也從過去的個人獨挑大梁,轉型為“一個作者、一個平臺、一眾參與者、一套智能技術、一條流水線、一組規范標準”的新模式。
徐建委介紹了經學數字化實踐中遇到的難題。經學宛如中國文化的“軟件”,其知識體系與中國政治文化深度結合,并在公元前2世紀以后逐漸內化為中國讀書人的認知、思考和表達方式。徐建委表示,研究中國文化和思想不能不以儒學為中心,研究儒學又不能不以經學為對象,研究經學則必須要以經學文獻為基礎。
但是要對經學原典進行數字化整理,面臨至少三方面的困難。首先,原典內容其實是口語文化向書寫文化過渡的產物,這就可能導致,同一個文本經由不同聽者記錄時,會采用不同的字符來“記音”,最終出現文本不統一的情況。其次,經典成書周期漫長,從孔子與其學生對談到《論語》整理成書,大約經歷了450年,這個過程中會出現很多變化。最后,原典的成書宛如許多人蓋同一棟房,不同時期、不同階段的語言文字信息被保存在了同一個文本中,凸顯出數據同質化的問題。從這個意義上講,對于數字經學從業者來說,要克服這些難題,就必須讀懂文獻。而要讀懂文獻,還不能僅僅掌握其知識結構,更要深入細致地了解其同質化特點及版本流變情況。


