亚洲女人性视频_亚洲精品久久久久午夜_国产1区2区三区不卡_久久免费高清视频

探求真理 發展學術 服務社會
歡迎訪問深圳市社會科學網 今天是

理論前沿

理論前沿

大語言模型在民間文獻數據分析中的應用

 日期:2024-09-09   來源:中國社會科學網

  習近平總書記在文化傳承發展座談會上強調:“只有全面深入了解中華文明的歷史,才能更有效地推動中華優秀傳統文化創造性轉化、創新性發展,更有力地推進中國特色社會主義文化建設,建設中華民族現代文明。”優秀傳統文化的文獻載體主要有傳世官方文獻和歷代民間文獻兩種,其中民間文獻是目前人文社會科學研究的熱點領域。在數字人文高度發展的時代背景下,將人工智能技術應用于民間文獻的整理與研究,是人文社科與計算機科學交叉融合的必然趨勢,必將促進兩個領域的協同發展,也為破解民間文獻研究中的“同質化”難題提供新的技術手段。

  民間文獻數據分析的瓶頸

  民間文獻的特點在于分布范圍廣、類型多樣、數量龐大,主要集中在敦煌吐魯番、徽州、福建、清水江、山西等地。其中,敦煌吐魯番文書群中能夠看到大量唐宋時期的契約文書;徽州文書最大的特點在于數量多、跨越年代久遠、延續性好、歸戶性強,徽州文書的數量據安徽大學劉伯山教授估計當在55萬—80萬件左右;福建文書的整理與研究開始于傅衣凌先生的專著與論述,并成為我國學者研究民間契約文書的學術前導,近些年也有井噴式的新發現;清水江文書以錦屏林業契約為主要內容和主要特色,是反映當地林業與苗族、侗族人民生存、發展等社會關系的原始記載,總數也在30萬件以上。

  面對動輒幾十萬件的民間文獻,傳統的研究方法已顯不足,難以高效處理這些十萬、百萬計的數據,使研究陷入了瓶頸期。隨著數字人文的興起,學術界普遍認為引入人工智能、大數據技術是解決此類問題的有效途徑。近年來,迅速崛起的大語言模型應用技術為海量民間文本數據的分析提供了新的可能性。這些技術的應用能夠極大增強民間文獻如契約文書、賬簿、書信及僑批等材料的自動化處理能力。通過對文獻類型進行精確分析和命名,能夠更有效地分類和索引文獻材料。同時,通過文獻要素的提取和數據的量化分析,不僅能夠提升研究效率,還能深化對文獻材料復雜性的理解。在優化文獻保存和整理流程的同時,大語言模型還能夠高效地進行數據處理和內容分析,為民間文獻研究提供強有力的技術支持。

  大語言模型的應用技術與場景

  2022年OpenAI公司發布ChatGPT產品,為生成式人工智能技術的跨越式發展揭開序幕。2023年發布的GPT-4進一步提升了GPT系列模型在語言理解和語言生成方面的能力,該系列產品目前已廣泛應用于文本理解和生成、編程輔助、教育和研究輔助等領域。在開源大模型方面,Meta公司發布的Llama系列模型具有良好的開源生態,支持本地化部署,應用可擴展性強,適用場景靈活多樣,因此被廣泛應用于涉及文本等數據處理的研究領域,開源社區中產生了大量以Llama系列模型為基座、以特定任務數據微調的衍生模型、垂直領域模型。同期國內大語言模型研發也取得了顯著進展,在中文處理方面具有較大優勢,目前較為常用的中文開源模型包括Qwen系列模型、Baichuan系列模型、GLM系列模型等。

  大語言模型常見的應用技術包括提示詞工程、檢索增強生成(RAG)和模型微調等。提示詞工程是與大語言模型有效溝通的技巧和策略,通過合理設計提示詞引導模型生成符合期望的輸出,常用提示詞策略包括明確任務目標、設定角色身份、列出任務步驟、提供參考示例等,可根據不同場景組合使用。檢索增強生成技術將檢索技術加入生成過程中,使用向量數據庫引入外部知識信息,提升生成結果的準確性和豐富性,減少大語言模型“幻覺”的產生,適用于知識庫相關文本生成等場景。模型微調技術是指使用特定任務相關的數據集基于預訓練模型進行再訓練,以增強模型處理特定任務的能力。模型微調技術廣泛應用于各類文本處理任務,可將任務相關的顯性知識和隱性知識灌注到模型當中,打造符合特定場景需求的垂直領域模型。這些技術各具優勢,可適用于不同場景,通過組合使用能夠為文獻數據分析工作提供新工具和新方法。

  大語言模型在文獻處理方面的應用,目前主要包括詞法分析、自動句讀、信息抽取、摘要生成等。詞法分析指自動分詞、詞性標注等任務,是文本分析的基礎工作。大語言模型通過其內化的語言理解能力和豐富的語言知識,為詞法分析提供強大支持。自動句讀是指將連續的文本根據古漢語語法特點和文本語義進行自動切割,經過大量古代語料訓練的大語言模型能夠有效提升古文自動句讀的準確性。信息抽取是指自動提取文本中的關鍵信息,如時間、地點、人物等實體信息抽取,實體間關系抽取,以及基于實體和關系的事件信息抽取等。經過特定數據集訓練的大語言模型可理解任務規則和文本語義,實現信息自動抽取。對文獻進行自動摘要就是進行主題概括、篇幅壓縮及可讀性提升,有助于讀者快速了解古籍的主題內容框架并生成簡潔準確的摘要。

  大語言模型助力民間文獻處理

  在民間文獻研究中,可通過查閱方言文獻、實地走訪相關當事人等方式,把握所獲得的民間文獻的真實含義及語素特性,深入了解文本背后的文化和社會背景,有助于揭示單個文本的核心內涵和文化特征。在此基礎上,可以運用大語言模型應用技術,實現民間文獻如契約文書、賬簿、書信及僑批等材料的自動化批量處理、深層次數據挖掘及關系網絡建構等。具體而言,大語言模型可輔助民間文獻處理完成以下四類任務。

  一是文獻類型分析。利用民間文獻文本數據建立針對分類任務的訓練數據集,對選定的基座模型進行微調,并根據微調結果評估進行參數優化和迭代,訓練出能夠自動識別和分類文獻的語言模型,依據各類民間文獻的特定屬性和內涵,提高分類的系統性和科學性。針對民間文獻的數據集建立規則可進行多級分類,一級分類將民間文獻分為契約文書、賬簿、書信及僑批等;在此基礎上,二級分類則進一步細化,將契約文書按照交易性質、交易時間、交易內容等進行分類。這種分級分類方法不僅有助于系統整理和分析文獻材料,還為后續的深入研究提供了明確的框架和依據。

  二是文獻要素提取。針對已經分析好的類型文書,可進一步建立有針對性的要素提取任務數據集,并進一步微調模型使之具有要素識別能力。通過要素識別模型從文獻中提取核心要素,是提高文獻研究效率和準確性的關鍵步驟。以契約文書為例,可以提取出立契人、標的物、地點、租數、相對人、價款、中禮錢、立契時間、中見人、利率等核心信息。要素提取為后續的量化分析和深入研究奠定了基礎,使得研究者能夠準確、高效地處理大量材料,并獲取所需關鍵信息。

  三是文獻自動命名。為確保民間文獻研究的標準化和一致性,有必要根據文獻的結構和內容特點制定統一的命名規則。在文獻類型分析和要素提取工作的基礎上,可利用大語言模型,依據規則示例批量為每一件民間文獻生成便于檢索、具有高區分度和涵蓋度的名稱和摘要。民間文獻的統一命名不僅提高了文獻管理和檢索的效率,也為相關研究者之間的交流與合作提供了便利。

  四是數據量化分析。除利用大語言模型的基礎文本處理能力外,可進一步利用其數據分析能力和編程輔助能力等其他擴展能力,對提取出的文獻信息進行量化處理和統計分析,揭示文獻材料的分布規律、發展趨勢及其可能的社會影響。例如,建立歸戶民間文獻中核心人物的關系網絡,分析身份關系對交易主體選擇、交易頻率、標的物價值、借貸利率等的影響。應用大語言模型對數以十萬、百萬計的民間文獻進行量化分析,不僅能夠揭示文獻背后的社會經濟規律,還可以全面地展現歷史事件、社會現象的復雜性和多樣性,并為史學研究提供新的視角和方法。

  (作者系中共天津市委黨校網信辦工程師)

亚洲女人性视频_亚洲精品久久久久午夜_国产1区2区三区不卡_久久免费高清视频

        日本中文字幕在线不卡| 国产乱女淫av麻豆国产| 99草草国产熟女视频在线| 蜜臀av.com| 日本一二三区在线| 自拍偷拍21p| 午夜精品在线免费观看| 波多野结衣家庭教师在线| 欧美黑人在线观看| 妞干网这里只有精品| 91免费网站视频| 一区二区久久精品| 天堂一区在线观看| 午夜久久久精品| 中文字幕亚洲乱码| www.com黄色片| 三级视频中文字幕| 玖玖爱视频在线| 97人人爽人人| 在线免费观看av网| 日韩av福利在线观看| 日韩精品在线播放视频| 国产又粗又猛大又黄又爽| 一级黄色大片儿| www.亚洲一区二区| 国产尤物av一区二区三区| 日本成人在线不卡| 成年人看的毛片| 成人毛片一区二区| 奇米影视亚洲色图| 99蜜桃臀久久久欧美精品网站| 18岁网站在线观看| 女性隐私黄www网站视频| 玩弄japan白嫩少妇hd| 天天影视综合色| 天堂av手机在线| 青青草视频国产| 欧美大片在线播放| 九色porny91| 一级淫片在线观看| 美女av免费观看| 日韩欧美视频网站| 国产成人手机视频| 久久6免费视频| www.国产亚洲| 99久久久无码国产精品6| 三级a三级三级三级a十八发禁止| 中文字幕日韩久久| 欧美日韩不卡在线视频| 91免费视频网站在线观看| 欧美午夜aaaaaa免费视频| 欧美精品一区二区性色a+v| 成人免费在线网| 91淫黄看大片| 免费看黄色a级片| 久久久久久久久久久福利| 亚洲欧美日韩综合网| 天天想你在线观看完整版电影免费 | 免费看国产曰批40分钟| 亚洲狼人综合干| 欧美少妇一区二区三区| 欧美色图另类小说| 三日本三级少妇三级99| 欧美精品一区二区三区三州| 成人黄色一区二区| 91视频成人免费| 亚洲精品中文字幕无码蜜桃| 日日夜夜精品视频免费观看| 日韩欧美精品在线观看视频| 三年中文在线观看免费大全中国| 被灌满精子的波多野结衣| 欧美成人三级在线播放| 日本一本中文字幕| 国模私拍视频在线观看| 黄页网站在线观看视频| 亚洲综合伊人久久| 男女曰b免费视频| 成人免费在线视频播放| 色噜噜狠狠一区二区| 免费国产黄色网址| eeuss中文| 色婷婷成人在线| 国产亚洲精品网站| 日韩久久久久久久久久久久| wwwwwxxxx日本| 国产真实乱子伦| 人妻少妇精品久久| 五月天六月丁香| 91制片厂毛片| 成人毛片视频网站| 乱子伦一区二区| 九九热精品在线播放| 男女av免费观看| 97视频在线免费| 色呦呦网站入口| 在线观看国产中文字幕| 男人的天堂99| a级黄色一级片| 男人天堂新网址| 在线免费黄色小视频| 国产aaaaa毛片| 久久精品免费一区二区| www.av片| 青青青青在线视频| 国产高清免费在线| 国产欧美精品一二三| 国产 porn| 欧美少妇性生活视频| 日韩中文字幕在线视频观看| 91香蕉视频在线观看视频| 午夜肉伦伦影院| 91社在线播放| 日韩欧美国产片| 三级在线视频观看| 91av俱乐部| 毛片av免费在线观看| 国产主播在线看| 日本免费不卡一区二区| 亚洲熟妇无码一区二区三区导航| 久久久久福利视频| 特级黄色录像片| 精品一区二区成人免费视频| 国产一级片中文字幕| 91网址在线观看精品| 99中文字幕在线| 黄瓜视频免费观看在线观看www| 97人人模人人爽人人澡| 国产精品探花在线播放| 亚洲妇熟xx妇色黄蜜桃| 波多野结衣在线免费观看| 青娱乐国产精品视频| 六月婷婷激情网| 日韩国产成人无码av毛片| 亚洲国产精品无码观看久久| 五十路熟女丰满大屁股| 国产极品粉嫩福利姬萌白酱| 日本精品久久久久中文字幕| 九九热免费精品视频| 久久6免费视频| 男人天堂成人网| 人妻av无码专区| 国产91在线免费| 天天插天天操天天射| 欧美性猛交xxxx乱大交91| 日韩不卡视频一区二区| 亚洲熟妇无码一区二区三区| 女性隐私黄www网站视频| 国产免费又粗又猛又爽| 黄频视频在线观看| 日韩亚洲欧美视频| 欧美综合在线观看视频| 99国产精品久久久久久| 青青草视频国产| 国产肥臀一区二区福利视频| 黄色三级视频片| 天天操天天干天天玩| 麻豆tv在线播放| 人人干人人干人人| 喜爱夜蒲2在线| 欧美日韩在线不卡视频| 亚洲日本黄色片| 久久久久久久久久网| 邪恶网站在线观看| 成人小视频在线观看免费| 色诱视频在线观看| 老汉色影院首页| 国产一区二区三区精彩视频| 91精品999| 亚洲熟妇无码一区二区三区| 91人人澡人人爽人人精品| 可以免费看的黄色网址| 美女av免费在线观看| 一区二区久久精品| 国产黄视频在线| 亚洲美女性囗交| 青青青免费在线| √天堂资源在线| 国产精品丝袜久久久久久消防器材| 99re精彩视频| 日本福利视频一区| 向日葵污视频在线观看| 日韩精品在线观看av| 成 人 黄 色 小说网站 s色| 日本a视频在线观看| caoporm在线视频| 国产男女无遮挡| 97超碰在线视| www.99r| 日韩精品视频一区二区在线观看| 国产精品美女在线播放| 精品久久久噜噜噜噜久久图片| 亚洲精品天堂成人片av在线播放| 美女网站免费观看视频| 东北少妇不带套对白| 在线观看视频在线观看| 狠狠操精品视频| 男女猛烈激情xx00免费视频| 国产四区在线观看| 91欧美视频在线| www.国产区|