大語言模型在民間文獻數(shù)據(jù)分析中的應用
日期:2024-09-09 來源:中國社會科學網
習近平總書記在文化傳承發(fā)展座談會上強調:“只有全面深入了解中華文明的歷史,才能更有效地推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化、創(chuàng)新性發(fā)展,更有力地推進中國特色社會主義文化建設,建設中華民族現(xiàn)代文明。”優(yōu)秀傳統(tǒng)文化的文獻載體主要有傳世官方文獻和歷代民間文獻兩種,其中民間文獻是目前人文社會科學研究的熱點領域。在數(shù)字人文高度發(fā)展的時代背景下,將人工智能技術應用于民間文獻的整理與研究,是人文社科與計算機科學交叉融合的必然趨勢,必將促進兩個領域的協(xié)同發(fā)展,也為破解民間文獻研究中的“同質化”難題提供新的技術手段。
民間文獻數(shù)據(jù)分析的瓶頸
民間文獻的特點在于分布范圍廣、類型多樣、數(shù)量龐大,主要集中在敦煌吐魯番、徽州、福建、清水江、山西等地。其中,敦煌吐魯番文書群中能夠看到大量唐宋時期的契約文書;徽州文書最大的特點在于數(shù)量多、跨越年代久遠、延續(xù)性好、歸戶性強,徽州文書的數(shù)量據(jù)安徽大學劉伯山教授估計當在55萬—80萬件左右;福建文書的整理與研究開始于傅衣凌先生的專著與論述,并成為我國學者研究民間契約文書的學術前導,近些年也有井噴式的新發(fā)現(xiàn);清水江文書以錦屏林業(yè)契約為主要內容和主要特色,是反映當?shù)亓謽I(yè)與苗族、侗族人民生存、發(fā)展等社會關系的原始記載,總數(shù)也在30萬件以上。
面對動輒幾十萬件的民間文獻,傳統(tǒng)的研究方法已顯不足,難以高效處理這些十萬、百萬計的數(shù)據(jù),使研究陷入了瓶頸期。隨著數(shù)字人文的興起,學術界普遍認為引入人工智能、大數(shù)據(jù)技術是解決此類問題的有效途徑。近年來,迅速崛起的大語言模型應用技術為海量民間文本數(shù)據(jù)的分析提供了新的可能性。這些技術的應用能夠極大增強民間文獻如契約文書、賬簿、書信及僑批等材料的自動化處理能力。通過對文獻類型進行精確分析和命名,能夠更有效地分類和索引文獻材料。同時,通過文獻要素的提取和數(shù)據(jù)的量化分析,不僅能夠提升研究效率,還能深化對文獻材料復雜性的理解。在優(yōu)化文獻保存和整理流程的同時,大語言模型還能夠高效地進行數(shù)據(jù)處理和內容分析,為民間文獻研究提供強有力的技術支持。
大語言模型的應用技術與場景
2022年OpenAI公司發(fā)布ChatGPT產品,為生成式人工智能技術的跨越式發(fā)展揭開序幕。2023年發(fā)布的GPT-4進一步提升了GPT系列模型在語言理解和語言生成方面的能力,該系列產品目前已廣泛應用于文本理解和生成、編程輔助、教育和研究輔助等領域。在開源大模型方面,Meta公司發(fā)布的Llama系列模型具有良好的開源生態(tài),支持本地化部署,應用可擴展性強,適用場景靈活多樣,因此被廣泛應用于涉及文本等數(shù)據(jù)處理的研究領域,開源社區(qū)中產生了大量以Llama系列模型為基座、以特定任務數(shù)據(jù)微調的衍生模型、垂直領域模型。同期國內大語言模型研發(fā)也取得了顯著進展,在中文處理方面具有較大優(yōu)勢,目前較為常用的中文開源模型包括Qwen系列模型、Baichuan系列模型、GLM系列模型等。
大語言模型常見的應用技術包括提示詞工程、檢索增強生成(RAG)和模型微調等。提示詞工程是與大語言模型有效溝通的技巧和策略,通過合理設計提示詞引導模型生成符合期望的輸出,常用提示詞策略包括明確任務目標、設定角色身份、列出任務步驟、提供參考示例等,可根據(jù)不同場景組合使用。檢索增強生成技術將檢索技術加入生成過程中,使用向量數(shù)據(jù)庫引入外部知識信息,提升生成結果的準確性和豐富性,減少大語言模型“幻覺”的產生,適用于知識庫相關文本生成等場景。模型微調技術是指使用特定任務相關的數(shù)據(jù)集基于預訓練模型進行再訓練,以增強模型處理特定任務的能力。模型微調技術廣泛應用于各類文本處理任務,可將任務相關的顯性知識和隱性知識灌注到模型當中,打造符合特定場景需求的垂直領域模型。這些技術各具優(yōu)勢,可適用于不同場景,通過組合使用能夠為文獻數(shù)據(jù)分析工作提供新工具和新方法。
大語言模型在文獻處理方面的應用,目前主要包括詞法分析、自動句讀、信息抽取、摘要生成等。詞法分析指自動分詞、詞性標注等任務,是文本分析的基礎工作。大語言模型通過其內化的語言理解能力和豐富的語言知識,為詞法分析提供強大支持。自動句讀是指將連續(xù)的文本根據(jù)古漢語語法特點和文本語義進行自動切割,經過大量古代語料訓練的大語言模型能夠有效提升古文自動句讀的準確性。信息抽取是指自動提取文本中的關鍵信息,如時間、地點、人物等實體信息抽取,實體間關系抽取,以及基于實體和關系的事件信息抽取等。經過特定數(shù)據(jù)集訓練的大語言模型可理解任務規(guī)則和文本語義,實現(xiàn)信息自動抽取。對文獻進行自動摘要就是進行主題概括、篇幅壓縮及可讀性提升,有助于讀者快速了解古籍的主題內容框架并生成簡潔準確的摘要。
大語言模型助力民間文獻處理
在民間文獻研究中,可通過查閱方言文獻、實地走訪相關當事人等方式,把握所獲得的民間文獻的真實含義及語素特性,深入了解文本背后的文化和社會背景,有助于揭示單個文本的核心內涵和文化特征。在此基礎上,可以運用大語言模型應用技術,實現(xiàn)民間文獻如契約文書、賬簿、書信及僑批等材料的自動化批量處理、深層次數(shù)據(jù)挖掘及關系網絡建構等。具體而言,大語言模型可輔助民間文獻處理完成以下四類任務。
一是文獻類型分析。利用民間文獻文本數(shù)據(jù)建立針對分類任務的訓練數(shù)據(jù)集,對選定的基座模型進行微調,并根據(jù)微調結果評估進行參數(shù)優(yōu)化和迭代,訓練出能夠自動識別和分類文獻的語言模型,依據(jù)各類民間文獻的特定屬性和內涵,提高分類的系統(tǒng)性和科學性。針對民間文獻的數(shù)據(jù)集建立規(guī)則可進行多級分類,一級分類將民間文獻分為契約文書、賬簿、書信及僑批等;在此基礎上,二級分類則進一步細化,將契約文書按照交易性質、交易時間、交易內容等進行分類。這種分級分類方法不僅有助于系統(tǒng)整理和分析文獻材料,還為后續(xù)的深入研究提供了明確的框架和依據(jù)。
二是文獻要素提取。針對已經分析好的類型文書,可進一步建立有針對性的要素提取任務數(shù)據(jù)集,并進一步微調模型使之具有要素識別能力。通過要素識別模型從文獻中提取核心要素,是提高文獻研究效率和準確性的關鍵步驟。以契約文書為例,可以提取出立契人、標的物、地點、租數(shù)、相對人、價款、中禮錢、立契時間、中見人、利率等核心信息。要素提取為后續(xù)的量化分析和深入研究奠定了基礎,使得研究者能夠準確、高效地處理大量材料,并獲取所需關鍵信息。
三是文獻自動命名。為確保民間文獻研究的標準化和一致性,有必要根據(jù)文獻的結構和內容特點制定統(tǒng)一的命名規(guī)則。在文獻類型分析和要素提取工作的基礎上,可利用大語言模型,依據(jù)規(guī)則示例批量為每一件民間文獻生成便于檢索、具有高區(qū)分度和涵蓋度的名稱和摘要。民間文獻的統(tǒng)一命名不僅提高了文獻管理和檢索的效率,也為相關研究者之間的交流與合作提供了便利。
四是數(shù)據(jù)量化分析。除利用大語言模型的基礎文本處理能力外,可進一步利用其數(shù)據(jù)分析能力和編程輔助能力等其他擴展能力,對提取出的文獻信息進行量化處理和統(tǒng)計分析,揭示文獻材料的分布規(guī)律、發(fā)展趨勢及其可能的社會影響。例如,建立歸戶民間文獻中核心人物的關系網絡,分析身份關系對交易主體選擇、交易頻率、標的物價值、借貸利率等的影響。應用大語言模型對數(shù)以十萬、百萬計的民間文獻進行量化分析,不僅能夠揭示文獻背后的社會經濟規(guī)律,還可以全面地展現(xiàn)歷史事件、社會現(xiàn)象的復雜性和多樣性,并為史學研究提供新的視角和方法。
(作者系中共天津市委黨校網信辦工程師)