10分鐘校對40萬字,《大辭海》AI審校還有哪些強項?
AI在各領域嶄露頭角之時,《大辭海》也加入其中,推出AI審校系統。3月25日,上海辭書出版社與百度、鯨湯(上海)智能科技有限公司在滬正式發布最新產品“辭文智能知識審校系統”。該產品是《大辭海》權威知識庫與百度文心大模型深度融合的創新成果,標志著出版行業智能化轉型邁入新階段。
上海世紀出版集團副總裁、上海辭書出版社社長秦志華介紹,“辭文智能知識審校系統”系統目前可以在10分鐘之內完成40萬字文本量的審校,錯誤識別準確率達到80%,審校工作效率成倍提升,有效解決傳統文本審校在知識性、邏輯性方面的痛點。
國內首個融合權威工具書資源的智能審校解決方案
作為國內首個融合權威工具書資源的智能審校解決方案,“辭文”實現了四大技術突破:一是精準的知識溯源能力,當發現錯誤時,系統不僅能指出問題所在,更能通過Agent技術精準定位到《大辭海》中的相關條目,展示完整的知識鏈條,讓用戶不僅知道“錯在哪里”,更明白“正確的應該是什么”;二是強大的多輪推理能力,可深入驗證文本多維度合理性,找出隱藏的邏輯謬誤,比如當審核一篇關于歷史人物的文章時,系統不僅是簡單地核對年代,而是會通過多重推理,驗證人物關系、歷史背景、事件順序等多個維度的合理性;三是動態的知識更新機制,確保核查結果緊跟學術發展前沿,當《大辭海》數據庫有更新時,系統能自動完成知識的同步;四是智能的交互式審校流程,通過有效控制大模型的發散、幻覺問題,提供個性化的審校建議,這種人機協作的方式既保留人工審校的專業判斷,又發揮AI的效率優勢。
與市面上現存智能審校系統相比,“辭文智能知識審校系統”的優勢在于其依托的《大辭海》數據庫。
《大辭海》共收詞近30萬條,5000多萬字,涵蓋目前所有的一級和二級學科,是自然科學、人文社會科學、語言文字等學科名詞、術語、概念等各方面知識的集大成者。
“《大辭海》猶如為 AI配備了‘權威知識的放大鏡、顯微鏡’。”秦志華表示,在人工智能在知識審校領域,內容數據的準確性決定整個建筑的穩固程度。依托《大辭海》,“辭文”智能知識審校系統能夠快速、準確地識別各類文本中的細微知識謬誤,精確考證歷史年代、嚴格遵循術語規范、確保人物事實準確。
實現從“文字糾錯”到“知識審校”的能力跨越
近幾年,文本審校工具如雨后春筍不斷涌現,從早期的黑馬校對、方正審校,到i校對、鳳凰智能校對系統、蜜度校對通、果麥AI校對王等產品各擅勝場。
“辭文”系統依托《大辭海》,將定位瞄準“知識審校”。“2023年8月起執行的《圖書編校質量差錯判定和計算方法》中規定,一般性錯字、別字,每處計1個差錯;知識性、邏輯性差錯,每處計2個差錯,由此可見知識性、邏輯性差錯對編校質量管理而言極為重要。然而,隨著知識專業化分工的日益精細,單個審校人員難以完全掌握跨學科知識,市場迫切需要一套智能、高效、準確的知識審校系統。這不僅是新聞出版機構、內容發布平臺的把關利器,也將是整個內容創作行業的前置工具。”秦志華表示。
在這樣的背景下,上海辭書出版社很早就關注到了“智能審校”。“‘辭文智能知識審校系統’并不是我們一時興起趕潮流的數字產品。最初產生開發智能審校系統的想法,可能要追溯到2019年。”秦志華介紹,當時上海辭書出版社正圍繞《辭海》數字出版云平臺的建設,開發工具書協同編纂的子系統,其中就包括歷史紀年、古今地名、規范漢字、引文和譯名統一等自動核查功能。當時,他們就將智能審校這一知識服務方向放在了出版融合的“代辦清單”中。
2023年6月,上海辭書出版社與百度文心一言合作,正式立項“辭文”智能審校項目,后來,鯨湯(上海)智能科技有限公司加入,在數據、算法、算力方面密切配合,推動大辭典與大模型深度融合。經過3輪外部測試,“辭文智能知識審校系統”正式推出,實現從“文字糾錯”到“知識審校”的能力跨越。
“AI的質量與差異主要來自于數據,站在《大辭海》權威基礎上做出的這個智能審校產品,基礎非常好。”百度 AI 技術生態副總經理周奇表示,大模型時代,軟件產品是“火的”,可以根據數據、用戶反饋和大模型本身成長不斷迭代,依托文心+飛槳的核心技術,百度致力于希望和硬件伙伴、技術伙伴、數據伙伴等共建生態,架起技術和行業專業知識的橋梁,打通大模型垂直領域應用的工程化“最后一公里”。
守護知識傳播的準確性與嚴肅性
發布會上,秦志華展示了部分“辭文”應用的案例。上海辭書出版社針對該社一部50多萬字的關于上海歷史主題的付型稿件,采用“辭文”進行深度檢測,系統共標記471處潛在錯誤,經專業編輯團隊逐條復核,最終確認采納87處知識性差錯(含歷史事件誤記、人物關系錯位、地理沿革錯誤等),錯誤類型覆蓋上海開埠史、租界制度、地方文獻等專業領域。橫向對比測試數據顯示,“辭文”系統檢出471處,確認采納87處;市場上另一審校產品檢出262處,確認采納0處。
《咬文嚼字》編輯部也體驗了這一產品。上海咬文嚼字文化傳播有限公司總經理王敏介紹試用情況,通過對一些已知錯誤的文本進行測試,“辭文”系統的修訂值得參考。例如一段文本中錯將“多情總被無情惱”這句蘇軾的詞作寫成是“出自元好問之手”,“辭文”系統第一次將其改成“并非出自元好問之手”,第二次則直接糾錯為“出自蘇軾之手”。
“智能校改兩次內容不一樣,第二次修訂內容還有進步。”王敏認為,在大模型助力下,通過人機協同,這一產品有很大潛力。
“我做新聞20多年,最怕白紙黑字印出去的知識出錯。” 經濟日報社上海記者站站長 李治國感慨,在做新聞報道時,記者編輯面對海量信息難免有疏漏,比如歷史事件的日期、科技概念的界定等都是跨領域的內容,“‘辭文’系統既具備AI的高效,又扎根于《大辭海》權威知識體系,能在幾秒內完成交叉驗證,幫助我們守住事實底線。媒體的價值在于權威性和準確性,通過前沿的技術,我們能提高工作效率,專注于更有創造性的工作。”
秦志華表示,“辭文”突破以往各類文本審校工具的局限,實現了從“文字糾錯”到“知識審校”的能力跨越,但其價值更在于守護知識傳播的準確性與嚴肅性。據悉,目前該產品已成功應用于人文社科、科學技術等出版領域的文本審校,未來還將拓展至新聞傳媒、教育科研等場景,致力于成為內容生產領域的“數字質檢員”。