探求真理 發展學術 服務社會
        歡迎訪問深圳市社會科學網 今天是

        理論熱點

        官國宇 胡漢云 | 21世紀以來我國經濟學研究主題的發展與演變——基于經濟學期刊摘要的主題挖掘

         日期:2021-05-27   來源:深圳社會科學

          圖片

          
          

        圖片

        21世紀以來我國經濟學研究主題的發展與演變——基于經濟學期刊摘要的主題挖掘

        作者 | 官國宇 胡漢云

        官國宇,東北師范大學經濟與管理學院副教授,博士

        胡漢云,東北師范大學經濟與管理學院碩士研究生

        本文原載《深圳社會科學》2021年第3期

        [摘要] 近年來,中國經濟快速穩定發展,為經濟學研究提供了豐沃的土壤。然而,面對海量文獻,讀者難以把握經濟學的研究熱點和發展規律。科學文獻的文本挖掘可以為學者們更好地把握學科前沿和研究現狀提供參考。經濟學類CSSCI來源期刊代表了國內經濟學研究的最高水平,其研究主題圍繞當代社會經濟熱點。本文對2000—2018年經濟學科CSSCI來源期刊摘要文本數據進行主題挖掘,旨在發現21世紀以來中國經濟學研究的主要領域及其發展趨勢。首先,利用LDA主題模型計算主題一致性得分,確定最佳主題數;第二,通過計算JS散度得到主題距離矩陣,進而度量各主題間的相關關系;第三,由“文檔-主題”的概率分布得出各期刊研究主題的偏好與主題的年度分布規律。研究發現:中國經濟學研究大致涵蓋20個主題;各研究主題之間呈現出一定的親疏關系;各期刊對研究主題有所偏好;中國經濟學研究熱點具有時代特征,反映了中國經濟發展不同歷史階段。根據研究結果,經濟學科CSSCI來源期刊摘要數據的主題挖掘見證了中國21世紀以來經濟學研究的發展歷程,可以為青年學者的經濟學研究選題和期刊投稿提供參考建議。學者們可以根據“年代-主題”分布審視研究選題的時代意義;根據“期刊-主題”分布選擇恰當的投稿期刊,提高研究成果接受發表的概率。

        [關鍵詞] 經濟學研究;研究熱點;文獻計量;主題挖掘

        一、引言

        圖片

        改革開放四十多年來,中國特色社會主義事業取得了舉世矚目的成就,這為中國特色社會主義經濟理論的發展和繁榮提供了豐沃的土壤。2019年3月4日,習近平總書記在第十三屆中國政治協商會議文化藝術界、社會科學委員會的演講中強調了有意義的學術研究都應該反映現實、關照現實。學術研究應該植根于中國土地、立足于中國現實,展示現代中國的發展和進步,詮釋中國精神、中國價值和中國力量。而提高實用性和創造力是當前學術研究面臨的主要問題。2018年中國國內生產總值(GDP)增長6.6%,2019年中國GDP增長6.1%,增速比上年下降0.5個百分點,而2020年新冠疫情的全球蔓延無疑對中國經濟產生巨大影響,面對國內經濟下行壓力,經濟學研究任重道遠。中國的經濟學研究工作者正在為之不懈努力,結合中國國情,汲取并借鑒世界經典和前沿的經濟學思想和方法,取得了豐碩的研究成果。

        CSSCI(中國社會科學引文索引)是南京大學中國社會科學研究評估中心開發的引文數據庫,用于檢索中文人文社會科學領域高質量且高影響力的學術文獻,很多高等院校和科研院所將其作為衡量學術水平的重要參考標準。經濟學類CSSCI來源期刊代表了國內經濟學研究的最高水平,圍繞當代熱點和前沿經濟問題展開,其研究主題與當時社會經濟情形緊密相關,是經濟發展階段性特征的重要體現。本文對2000—2018年經濟學科的CSSCI來源期刊摘要漢語文本數據進行主題挖掘,借助前沿的文本挖掘與自然語言處理方法,旨在探尋21世紀以來我國經濟學研究主題的發展與演變路徑,以期為經濟學研究學者們選題和期刊投稿提供數據參考支撐和建議。

        二、文獻綜述

        圖片

        主題建模是挖掘文本數據潛在信息的重要工具,而潛在狄利克雷(LDA)模型是主題建模的核心技術之一。LDA模型是Blei等在2003年提出的用來描述“文檔、主題、關鍵詞”三者關系的概率生成模型。該模型假設每個文檔是由多個主題組合而成,而每個主題又是由多個詞組成,基于“主題-關鍵詞”分布識別大規模文檔或者語料庫中隱藏的主題信息。詞袋(Bag of Words)模型是建立LDA模型的基礎,它將每個文檔表示為一個詞頻向量,從而將文檔信息轉化為易于建模的數值型矩陣。LDA模型可生成兩個概率分布矩陣,一個是“文檔-主題”概率分布矩陣,另一個是“主題-關鍵詞”的概率分布矩陣。其中主題是對文檔內容的提煉,該模型可從大規模語料庫中提取主題。

        圖片

        LDA模型作為重要的文本主題挖掘技術,在國內早期主要應用于計算機領域。陳江峰、于建軍(2008)結合LDA生成概率模型的特點與Web服務的結構化特性,有效地提高了Web服務發現的效率和精確率。隨著Web2.0的發展,在線評論資源日益普及,各大互聯網平臺積累了數量龐大的UGC用戶,一些具有主觀情感的網絡評論、網絡文章蘊含著巨大的潛在商業價值,受到了工業界和商業界的關注。此時LDA主題模型在文本數據的意見挖掘和情感分析中凸顯優勢。呂韶華(2010)提出了一種依據評論內容對餐館進行排序的算法,利用LDA模型對評論文本進行服務、環境、價格、口味等方面進行主題抽取和計算得分,最終使此模型可以根據評論對餐館進行排序。LDA主題模型在臨床醫學研究領域同樣有著重要的作用。張小平(2011)首次將LDA主題模型應用于中醫臨床診療規律的研究中,為中醫臨床研究提供一種新穎的理論方法。楊星等(2012)證實了利用LDA模型研究科學文獻的研究熱點及趨勢的有效性,開啟了科學文獻主題挖掘熱潮。隨后,越來越多的學者運用LDA主題模型來研究文本分類技術。胡吉明、陳果(2014)從LDA模型的主題挖掘原理入手,針對當前網絡環境下的文本內容特點,構建適合于動態內容文本主題挖掘的LDA模型,并通過改進的Gibbs抽樣估計提高主題挖掘的準確性,進而從主題相似度來研究內容主題隨時間的演化問題。王鵬等(2015)提出了一種基于LDA模型通過Gibbs算法估計文本的主題概率分布,利用Jensen-Shannon(JS)距離作為文本的相似性度量,采用層次聚類進行聚類,說明了LDA-Gibbs模型的文本聚類方法是合理且有效的。互聯網的普及與音樂資源的電子化使人們可以方便地獲得音樂資源。但是在音樂如此豐富的時代如何找到自己喜歡的音樂越來越難。李博等(2016)結合LDA主題挖掘模型和音樂試聽數據,提出了音樂推薦算法,可以更加高效地為用戶推薦感興趣的音樂。在如今信息爆炸的時代,各種真真假假的信息層出不窮,網絡謠言的肆虐對人們生活和社會穩定都產生了巨大的負面影響。曾子明、王婧(2019)基于LDA主題模型并采用隨機森林算法有效提高了謠言識別的準確率。

        三、數據采集和預處理

        圖片

        (一)數據采集

        本文從中國知網(https://www.cnki.net/)上收集了2000—2018年的經濟學科CSSCI來源期刊數據。期刊范圍為《CSSCI來源期刊(2019—2020)目錄》中經濟學科的70個CSSCI來源期刊,該范圍共包含228415篇文章。全部字段包括發表年份、標題、作者、期刊、摘要和關鍵詞,不包括全文。本文的數據分析僅使用發表年份、期刊、摘要以及關鍵詞四個字段。

        (二)數據預處理

        首先是對經濟學期刊數據進行去噪。原始數據中含有一些非學術性文章,如征稿啟事、會議紀要、新書推介、新年寄語等等。由于這些非學術型文章的存在會影響主題模型的訓練,因此對其進行人工去噪。其次,刪除了字段不完整的文獻數據,如沒有關鍵詞、摘要、作者和單位信息的數據,最終保留203748條有效數據。

        由于經濟類文章所使用的專有名詞較多,和各大文本數據詞庫相差較大,故將期刊的關鍵詞作為此次文本數據挖掘的基礎詞庫。同時,為了提高主題模型的訓練效率,剔除摘要數據中的停用詞和低頻詞,得到主題模型的實驗語料庫。最后將語料庫進行向量化處理,形成主題模型的輸入文本文檔集。

        圖片

        四、經濟學期刊摘要的主題分析

        圖片

        (一)最優主題數的求解

        LDA主題模型訓練前,需事先確定主題數。本文將Roder等(2015)提出的主題一致性得分(Coherence Score)作為確定主題數的標準,該指標越大說明主題的一致性越好。不同主題個數下的主題一致性得分如圖1所示。可以看出,主題數為20時,主題一致性得分最高,故將LDA模型的主題數確定為20。

        圖片

        圖1 主題一致性得分隨主題數變化圖

        (二)經濟學研究主題及其概率分布

        根據LDA模型假設,每個主題是由多個關鍵詞構成的一個概率分布,即“主題-詞”,故可以通過歸納每個主題下關鍵詞的共性特征總結出主題。首先,對LDA模型計算出的主題進行可視化(如圖2所示),將所有主題以氣泡圖的形式展示。運用Jensen-Shannon(JS)散度計算主題之間的距離,進而得到主題間距離矩陣,然后在該矩陣上實施多維縮放(multidimensional scaling)算法,將主題按距離遠近排列在二維坐標系上,每個氣泡代表一個主題,氣泡的大小代表在語料庫中該主題所占的比例。

        圖3列出語料庫中與主題10最相關的前30個關鍵詞,每個關鍵詞對應的條形圖總長度代表該關鍵詞在語料庫中出現的總頻次,而深顏色部分代表該關鍵詞在該主題下出現的頻次。可以看出,該主題與國際貿易相關,代表該主題的主要關鍵詞有貿易、競爭、出口、產品、中國、市場、競爭力、制造業、比較、工業、產業等。

        圖片

        圖2 主題分布氣泡圖

        圖片

        圖3 主題10中排名前30的關鍵詞分布

        根據“主題-詞”概率分布(表1展示了每個主題下概率最大的前10個詞)總結出20個主題分別為(按概率大小排序,主題概率見圖4):宏觀經濟計量學、農業經濟學、金融市場、企業管理、世界經濟學、產業經濟學、改革開放、微觀計量經濟學、馬克思主義政治經濟學、國際貿易、中國特色社會主義、財政學、金融風險管理、上市公司與資本市場、數理經濟學、可持續發展與知識經濟、公司金融學、區域經濟學、收入分配、環境經濟學。

        表1 每個研究主題的前10個關鍵詞及其概率

        圖片

        2001年11月中國加入世界貿易組織,這是順應經濟全球化具有里程碑意義的重大舉措,標志著中國對外開放進入了新階段。在加入WTO過程中,學者們認為這會對國家宏觀經濟產生沖擊,涉及金融業、商業、農業、信息業等諸多產業。因此,經濟學研究主題也聚焦在宏觀經濟、全要素生產率、金融市場與企業管理等方面(見圖4)。此外,中國經濟在經歷了三十多年的高速增長后,正在發生階段性轉變。黨的十九大報告指出,中國經濟已由高速增長階段轉向高質量發展階段。高質量發展在經濟學意義上,也可從不同的視角去探討和解讀。在宏觀層面,主要指國民經濟的整體質量和效率,通常用全要素生產率來衡量;在中觀層面,主要指產業和區域發展的質量;在微觀層面,主要指企業產品和服務的質量。要推動中國高質量發展,關鍵在于深化改革,不斷探索找出符合國情的經濟發展模式,這更彰顯出宏觀經濟研究的重要性。

        圖片

        圖4 20個主題的概率分布

        (三)經濟學研究主題的層次聚類

        在確定了每個主題下關鍵詞的概率分布后,運用JS散度計算出主題間的距離矩陣。JS散度越小則表示概率分布越相似,說明主題越相關。采取凝聚式的層次聚類方法(一種自下而上逐漸匯集的聚類方法),基于主題間的距離矩陣,通過不斷將距離最小的對象合并為同一簇,最后構建出聚類二叉樹,其中樹葉為20個經濟學研究主題。該二叉樹刻畫了20個經濟學研究主題之間的相關關系(見圖5)。

        圖片

        圖5 20個經濟學研究主題的層次聚類圖

        圖5展示了21世紀以來經濟學科CSSCI期刊中熱點關注的研究主題及其相關關系。可見,20個經濟學研究主題可以概括為4大類:中國特色社會主義政治經濟學、世界經濟與產業發展、計量經濟學、金融市場與企業管理。中國特色社會主義政治經濟學主要探討中國特色社會主義、馬克思主義政治經濟學、改革開放等主題。以習近平同志為核心的黨中央全面推進中國特色社會主義政治經濟學建設,習近平總書記首次提出了中國特色社會主義政治經濟學的范疇,強調要立足我國國情和我國發展實踐,學習、研究、運用馬克思主義政治經濟學,發展當代中國馬克思主義政治經濟學,并概括說明了黨的十一屆三中全會以來形成的當代馬克思主義政治經濟學的諸多重要理論成果。他還多次從不同的角度提出了發展中國特色社會主義政治經濟學的必要性和路徑,將黨中央對建設中國特色社會主義政治經濟學的重視與指導提升到前所未有的高度。從主題的層次聚類圖也可以看出經濟學期刊正在積極地承擔起推動中國特色社會主義政治經濟學發展的職責。

        圖片

        (四)期刊的主題分布

        根據LDA主題模型得出的“文檔-主題”概率分布,可以計算出“期刊-主題”的概率分布,進一步歸一化處理后得到70個期刊在各個主題下的概率分布。如圖6所示,用顏色深淺代表期刊中各研究主題的概率大小,即期刊對研究主題的偏好程度。

        橫向來看,期刊的發文偏好呈現以下特點:一是有些期刊的主題分布較集中,如《農村經濟》的主要研究主題是農業經濟學,《政治經濟學評論》的主要研究主題是馬克思主義政治經濟學,《國際貿易》的主要研究主題是世界經濟學,《稅務研究》的主要研究主題是財政學。這類期刊屬于某一具體研究領域的經濟類期刊;二是有些期刊的主題分布較分散,如《經濟研究》涵蓋了幾乎所有研究主題,屬于綜合性經濟類期刊。

        從縱向來看,各研究主題在各期刊中的分布不均衡:一是有的研究主題主要集中發表于一種期刊,如馬克思主義政治經濟學主題主要發表于《政治經濟學評論》中,收入分配主題主要發表于《勞動經濟研究》中;二是有的研究主題分散發表于多個期刊,如世界經濟學主題,在《國際貿易》、《世界經濟與政治論壇》、《國際經濟評論》、《亞太經濟》等期刊中均有較大占比。

        由中國人民大學主辦的《政治經濟學評論》的發刊宗旨和方針是以馬克思主義為指導,高舉中國特色社會主義的偉大旗幟,推進馬克思政治經濟學的中國化和時代化。在政治經濟學研究中,注重理論和現實問題的結合,鼓勵創新與學術自由,積極推動國內外經濟學界的交流合作。圖6中《政治經濟學評論》的研究主題主要圍繞中國特色社會主義以及馬克思主義政治經濟學,而這與其發刊宗旨是一致的。同樣由上海財經大學主辦的《財經研究》期刊的研究主題主要是宏觀經濟計量學、微觀計量經濟學以及數理經濟學,該期刊主要致力于用量化工具探索經濟市場發展運行規律的文獻。綜上所述,各期刊對研究主題的偏好也正反映了期刊的創辦宗旨和研究重點。

        圖片

        圖6 各經濟學期刊的研究主題分布

        (五)經濟學研究主題的時間演變

        根據LDA主題模型輸出的“文檔-主題”概率分布,再結合各文章(即文檔)的發表時間,計算出“年代-主題”分布。圖7展示了各經濟學研究主題占比的逐年變化規律,其中每一種顏色代表一個研究主題。

        圖片

        圖7 各經濟學研究主題占比的逐年變化圖
        (圖例與縱坐標順序一致)

        橫向來看,從2000年至2018年,各研究主題的發展趨勢差別迥異:一是有些研究主題逐年占比相對穩定,如農業經濟學、中國特色社會主義在各時間段占比變化不大,而且一直是比較重要的研究主題;二是有些主題呈現出快速增長的勢頭,如微觀計量經濟學和宏觀經濟計量學主題占比逐年增加;三是有些主題則呈現衰退趨勢,如馬克思主義政治經濟學研究主題,然而這并不意味著該主題的研究成果減少了,而是該主題的部分研究成果在哲學類期刊中發表。

        圖片

        縱向來看,不同時段對各經濟學研究主題有所側重。經濟學研究與國家的重大社會經濟問題密切相關,與中央政治決策高度統一。具體而言,將經濟學研究主題的變化趨勢大致劃分為三個階段。

        第一個階段是2000年至2005年,即第九個五年計劃的最后一年和第十個五年計劃期間。隨著中國加入世界貿易組織,經濟全球化為中國進一步融入世界經濟體系,深化改革開放提供了難得的機遇。WTO所推行的市場經濟運行體制有利于我國加快市場化改革進程,全球性的資源配置有利于國內經濟結構的調整和優化,促進產業升級。隨著中國經濟與國際逐步接軌,中國經濟越來越面臨多方面的嚴峻挑戰。例如,如何控制擴大開放所可能帶來的經濟風險,尤其是1997年亞洲金融危機所引發的對金融安全的關注。這一時期對外經濟迅猛發展,對外開放水平不斷提高。從經濟學研究主題的年度分布也不難看出,國內學者在此時期也將研究重心轉向世界經濟學和改革開放。在完善社會主義市場經濟體制的同時,重視對馬克思主義政治經濟學的研究,探索中國道路。

        第二個階段是2006年至2010年,即第十一個五年規劃期間。“十一五”規劃時期復雜多變的國內外經濟環境和日趨激烈的市場競爭,對我國經濟社會發展和安全也提出了諸多新的挑戰。我國正處于并長期處于社會主義初級階段,生產力還不發達,城鄉區域發展不平衡,經濟結構不夠合理,使經濟社會發展與資源、環境之間的矛盾凸顯;技術儲備不足、自主創新能力不強,直接影響了我國經濟國際競爭能力的提高和可持續發展;解決“三農”問題的任務相當艱巨,就業壓力依然較大;公平與效率、經濟與社會發展之間不協調的矛盾日益顯現。在這一時期農業經濟學和產業經濟學逐漸成為經濟學的研究熱點,符合當時的經濟現狀。

        第三個階段是2011年至2018年,即第十二個五年規劃期間和第十三個五年規劃的前三年。“十二五”規劃期間,我國經濟發展中不平衡、不協調、不可持續問題依然突出,主要是經濟增長的資源環境約束強化,投資和消費關系失衡,收入分配差距較大,產業結構不合理,城鄉區域發展不平衡,就業總量壓力大和結構化矛盾并存,物價上漲壓力大。在這一時期宏觀經濟計量學蓬勃發展,對宏觀經濟數據進行計量分析,探索影響宏觀經濟發展的關鍵因素,挖掘其中蘊含的潛在規律,解決宏觀經濟發展所面臨的問題與矛盾。“十三五”規劃期間,國際競爭日益激烈,貿易保護主義抬頭,中美貿易摩擦持續升溫,對國內企業的發展環境產生巨大影響。在這種嚴峻的國際形勢下,學者們則是更多地從微觀計量經濟學角度尋找解決問題的出路。

        五、結論與啟示

        圖片

        本文運用LDA主題模型對2000—2018年的經濟學科CSSCI來源期刊摘要漢語文本數據進行主題挖掘,通過概率估計和可視化分析,總結出我國經濟學研究的熱點以及發展演變趨勢。主要結論有:一是根據經濟學期刊摘要文本數據挖掘出20個研究主題,分別為:宏觀經濟計量學、農業經濟學、金融市場、企業管理、世界經濟學、產業經濟學、改革開放、微觀計量經濟學、馬克思主義政治經濟學、國際貿易、中國特色社會主義、財政學、金融風險管理、上市公司與資本市場、數理經濟學、可持續發展與知識經濟、公司金融學、區域經濟學、收入分配、環境經濟學;二是根據主題的相似性進行層次聚類,主題間呈現出一定的親疏關系。20個經濟學研究主題可概括為4大類,同一類的各主題之間相關性較強,而不同類的主題之間相關性較弱;三是各經濟學期刊對研究主題有所偏好,有些期刊側重于某個研究主題,而有些期刊涵蓋多個研究主題;四是根據研究主題的年代分布發現,經濟學研究主題緊緊圍繞當時的社會經濟現實,隨著經濟社會的發展逐漸變化。“十五”計劃期間中國剛剛加入世界貿易組織,世界經濟學、改革開放成為了當時經濟學研究的熱點。“十一五”規劃期間生產力發展不平衡促使經濟學研究重點轉向農業經濟學和產業經濟學。“十二五”和“十三五”規劃期間,國際形勢嚴峻,宏觀和微觀經濟環境都在發生巨變,以計量方法研究經濟發展規律成為經濟學研究的又一主流趨勢。

        圖片

        經濟學期刊摘要數據的主題挖掘還能夠為青年學者選擇研究題目和投稿期刊提供參考建議。“年代-主題”分布展示了不同的歷史階段各經濟學研究主題的占比情況及演化規律,學者可以據此審視研究選題的時代意義;“期刊-主題”分布展示了各期刊對研究主題的偏好,學者可以據此選擇恰當的投稿期刊,使文章投稿能夠有的放矢,進而提高接受發表的可能性。