講座報道丨劉政:新經濟與大數據
日期:2019-09-17 來源:深圳市民文化大講堂
新經濟與大數據
編者按:2019年9月8日,深圳市委宣傳部、深圳市社科聯聯合邀請劉政老師作客深圳市民文化大講堂,為市民朋友們做了一場題為“新經濟與大數據”的講座。
精彩演講內容回顧:
世界上的任何事物、過程演變都可以用數據記載下來。這些數據中隱含了事物的內在規律。挖掘事物的內部真相,就是數據分析的過程。這些分析的結果能夠幫助人們認識真相,做出決策。
大數據對人們的影響是全方位的,涵蓋了各行各業,包括科學研究、社會形態、政府管理、新興行業等。用大數據解決經濟和社會問題,改變了經濟學在大眾心中的印象、乃至改變經濟學教育本身的意義,它把經濟學作為工具,將這些工具應用于城市、教育、住房、醫療等具體問題的展示,這就是新經濟。例如淘寶,就是互聯網所帶來的新經濟。
大數據能夠推動實現巨大經濟效益,全球大數據直接和間接拉動信息技術支出將達1200億美元,同時大數據能夠推動和增強社會管理水平。
一、經濟學與數據分析技術
哈佛大學經濟學教育對全世界經濟學的教育有舉足輕重的影響。哈佛的經濟學教授曼昆的《經濟學原理》一書更是經濟學界的經典著作,享譽全球。
但最近,曼昆教授,在教了14年“經濟學原理”之后,不再教授此課程。
與此同時,經濟學界的后起之秀哈吉·柴提教授在哈佛開設了一門經濟學課程,課程代號Economics 1153,名為“用大數據解決經濟和社會問題”。開設第一學期,該課程就吸引到374名學生(包括363名本科生),受歡迎程度直逼曼昆的“經濟學原理”課程。
大數據是當代流行詞,經濟和社會問題的日益突出亦是不言而喻,但是把兩者結合起來、并作為入門級課程教給學生可謂絕非易事。柴提做的正是這樣一件事,具有改變經濟學在學生和大眾心中的印象、乃至改變經濟學教育本身的意義。
從歷史上看,有一門學科叫計量經濟學,它是以一定的經濟理論和統計資料為基礎,運用數學、統計學方法與電腦技術,以建立經濟計量模型為主要手段,定量分析研究具有隨機性特性的經濟變量關系的一門經濟學學科。甚至1969年時的諾貝爾經濟獎就頒給了計量經濟學的兩位創始人,因此大數據與經濟學之間在很早之前便有了聯系。
還有一個是時間序列(或稱動態數列),是指將同一統計指標的數值按其發生的時間先后順序排列而成的數列。時間序列分析的主要目的是根據已有的歷史數據對未來進行預測。
比如一國經濟GDP的變化,每一年或每一個季度GDP的變化,可以通過對舊的數據分析,建立出一個數學模型,紅線是實際真正發生的歷史數據,通過歷史數據推導出一個數學模型,這樣便可推測出將來要發生的事情,藍線部分就是根據紅線的模型預測出來的,所以通過時間序列的方法可以對將來發生的事情進行推測、進行預測。2003年的諾貝爾經濟學獎頒給了時間序列經濟學的奠基人。
最后還有運籌學,華羅庚的優選法便屬于運籌學內容,把二者相結合,能解決生產中出現的許多問題。例如如何使得生產效益最大化,生產成本最小化。運籌學就是優化過程,類似于求曲線的最大、最小值,但是,實際生活中的最大、最小值則受到很多因素影響,因而運籌學相對較復雜。在運籌學領域中甚至有12人獲得了諾貝爾經濟學獎。
二、數據分析技術的產生和發展
第二次世界大戰中,美英兩國使用運籌學的方法解決當時迫切需要把各種稀少的資源以最有效的方式分配給各個戰場和軍事單位的問題。
1962年, John W. Tukey發表了《數據分析的將來》,系統化地總結了數據分析,隨后,數據分析正式成為一個行業。
上個世紀60年代,計算機被用來輔助決策支持。統計分析的算法開始逐漸被程序化,計算效率極大地提高,使得對數據的復雜計算成為了可能,比如,當時美國農業部要分析大量的農業數據以提高糧食產量、健康研究所分析醫學數據、和政府分析人口普查的數據等。
隨后,統計分析的軟件逐漸被人們所接受,并出現了一部分以數據分析為主的公司,而計量經濟學、時間序列的系列軟件也慢慢出現。當時,整個的計算機硬件和軟件都在快速變化,新的操作系統出現,同時要求相應的軟件。開始支持IBM的操作系統DOS。
隨著更多的操作系統的出現,要求軟件的兼容性,開始有適合于小型機的軟件。 80年代中出現了個人機 PC。后來又建立了PC與大型機的連接,使得運行程序的PC可以使用存儲在大型機上的數據。
當互聯網出現以后,要求支持互聯網的軟件,使得這種軟件在商業領域更具競爭性。世界和市場需求驅動公司的軟件發展。歐洲的巴塞爾協議和美國愛國者法案的出現,使得商業世界要求軟件能夠幫助金融機構管理風險,反洗錢,和反欺詐。這種專用的解決方案在金融領域獲得了廣泛的應用。
幾十年來,由于計算機和互聯網的發展,人們的生活發生了巨大的改變,日益與數據聯系在一起,并隨之進入了大數據時代。
大數據有著容量大、種類多、增速快的特點。隨著數據量呈爆炸式的增長,傳統的數據處理技術已經無法滿足需要。高性能分析架構形成了今后數據分析的骨干架構,內存分析,庫內分析和網格計算。這種架構可以根據需要加以擴展。
這些技術可以解決數據量大的問題。我們通常講的數據分析技術主要處理結構化的數據,對于非結構化的數據,比如,文本、圖片、語音和視頻數據,還需要使用機器學習和深度學習的算法。
前段時間很火的阿爾法狗就使用的機器學習方法。機器學習指通過算法,機器從大量的歷史數據中學習規律,從而對新的情況做出判別和決策。比如阿爾法狗首先學習圍棋的規則、棋譜以及運行規律,之后便能根據情況進行對弈。
文本分析,指從文章中抽取相關信息,挖掘和分類信息以揭示文本中詞語之間的模式,情感和關系。比如新華社想要了解國外媒體對于一個事件的態度、看法,通過機器學習方法對各種報道進行文本分析,即可很快得出結論;另外政府可對社交媒體上的數據,對民眾的觀點進行分析,了解民眾的政治傾向。
深度學習則是指模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來分析數據,例如文本、聲頻和視頻等,用于人臉識別、語音識別、視頻分析以及自然語言處理等。
深度學習在圖像處理、文本分析和語音識別等多個領域產生了較大的影響。但仍有其局限性:一是缺少理論支持,深度學習方法常常被視為黑盒,大多數的結論確認都由經驗而非理論來確定;二是缺乏推理能力;三是缺乏短時記憶能力;四是缺乏執行無監督學習的能力。
因此,深度學習的未來方向為無監督學習;深度學習在機器視覺和自然語言理解上的突破;深度學習與復雜推理的結合。
既然對數據進行了分析,那么分析的結果就需要展示。傳統的統計圖表只能呈現數據的基本信息,條形圖、餅狀圖、柱狀圖、散布圖、曲線圖,以及用不同顏色對不同省份進行標注的地圖等等。面對復雜或大規模異型數據集,比如商業分析、財務報表、人口狀況分布、媒體效果反饋、用戶行為數據等,則需要數據可視化進行展示。
可視化分析技術自動化程度較高,對使用者的要求不高,就像是用“傻瓜相機”,只要會按按鈕就行了,使得數據分析更加地平民化。
大數據、物聯網、人工智能以及云計算,它們之間如何結合在一起呢?
新一代的數據分析平臺可以將這幾項技術糅合在一起。數據保存在云端,數據分析軟件也在云端進行;處理的數據有結構化的、非結構化的、甚至包括數據流,而數據流則來自于物聯網的傳感器;各種人工智能的算法都包括在數據分析的算法中,某些算法也可以對物聯網數據、大數據進行分析。真正做到了把四種技術統一到一起的平臺。
那么上文所提到的計算機技術、大數據以及互聯網又是怎樣的聯系呢?計算機技術最先出現,對各行各業產生了很大影響。后來互聯網出現,帶來了很多的新型經濟,讓大家可以逛淘寶,在網絡中看小說、社交等等。由此產生了很多的數據,大數據也就相應而生。這三項技術都具有普適性,對各行各業有著廣泛的影響。
物聯網、人工智能、金融科技等都是以這三項技術為基礎。我們可以說現在處在互聯網時代,可以說處在計算機時代,也可以說處在大數據時代。
三、大數據時代
大數據時代特點鮮明。首先,數據可創造價值、可進行買賣,是生產資料;過去做決策都是定性的,有了數據分析,人們的決策就成為了定性+定量,可以提高準確性;人工智能、智慧城市,物聯網,會幫助我們進入到智能化社會;科學研究有三大范式:理論推導、科學實驗、模擬。模擬的方法就是對于無法實現的環境可通過模擬、虛擬現實的方式進行科學研究,比如超高溫,有違倫理的藥物實驗等;有了大數據以后,人們進行科學研究就有了第四范式,那就是數據分析的方法;在社會治理方面,數據分析的方法可以為反恐、防止犯罪帶來高效率和準確性。
大數據時代的十個發展趨勢則是:數據分析技術和方法快速發展;數據分析使得物聯網、機器智能化成為可能;數據資產的出現需要新的法律條款;出現社會治理新手段;大數據會改變人們的思維方式;數據分析平民化、普遍化;形成新的生活模式;新的商業機會和就業形式;軍隊變革以及政治、軍事手段的延伸。
1975年時第四屆人大會議上,周總理提出2000年的時候實現四個現代化,即農業現代化、工業現代化、科學技術現代化、國防現代化。第五個現代化則是社會治理現代化,通過大數據分析,改進決策體制,提高科學決策水平;增強國家治理能力-公共安全;提高政府服務效能(數字政府)。
大數據時代是互聯網之后又一次IT革命,云計算將徹底改變網絡架構模式,軟件無需再單機安裝,云端的軟件將是瀏覽器化的,各種軟件要重寫,開源軟件將對傳統的商業軟件造成沖擊,這是中國軟件趕超的好機會。中國要抓住大數據+云計算時代,爭取在基礎軟件和大數據分析方面出現幾個世界級的公司,帶動全國的經濟發展。數據分析將是智能機器實用的基礎,智能機器將是下一波的經濟增長點。
但這對于中國來說是機遇也是挑戰。在數據分析軟件方面,中國公司仍然沒有優質產品,目前仍是國外跨國公司居多;欠缺有豐富經驗的相關人才;國家安全方面,如美國的棱鏡計劃和社交媒體分析;數據安全方面,中國公司還是要將數據放在可靠的云產品上;公共安全方面,當代社會,有預謀的犯罪越來越高科技,安全部門相應的挑戰越來越高等等。
數據人才十分短缺,中國目前的人才缺口也在百萬級別。同時,也缺少經驗豐富的人員,還有很多計算機人員需要增加數據分析能力。
數據分析職業是一個有較高難度的職業,要求有很好的數學和統計分析的知識,計算機技能,業務知識和多年的經驗積累。對數據的敏感度和感知是優秀分析師必須要具備的素質。要培養高質量的數據分析人才,還要從大學教育開始。我國很多大學都設定了相關專業,開設了相應的課程。
四、大數據帶來的新經濟
大數據對經濟活動的影響是多方面的,但是主要有這么幾點:對現有產業的改進、促進作用,提高效益;帶來新興的產業;產生新的經濟模式;增加就業。
大數據分析的并不是單單指一種簡單的方法,其分析水平可分為八個級別。
這是數據分析在各個領域使用的比例,其中應用度最高的是銀行。
上圖則是各種實際應用,其中38%與客戶有關,隨后才是銀行業、反欺詐、金融業等。
數據驅動營銷在過去十多年里快速地發展演進。所列為數據驅動營銷的能力,但并非后者取代前者,可依業務目標操作不同的營銷方式,或搭配使用。現在應延續過去分析線索,挖掘模型或各類型營銷活動產生,在業務面與技術應用層面支撐營銷閉環自動化與優化之外,未來更應豐富多樣數據,發展實時客戶交互聯系, 實現全渠道的客戶體驗, 以及整合性營銷。
巴塞爾協議中提到了市場風險、信用風險和操作風險等。
其中,大數據在信貸領域發揮著重要作用,其覆蓋信貸領域各個流程,重點是獲客、身份驗證和授信環節。
大數據還應用于反欺詐,反欺詐是全球性的,包括社保欺詐、保險欺詐,故意制造事端后索賠,還有社會救助欺詐。
要應對新的欺詐手段,反欺詐系統就要把政府部門的數據集成到大型中央數據倉庫,同時要包括外部數據和購買的數據,因為欺詐者經常傾向于提供不精確,不完整和不一致的數據,以防止分析人員在不相干系統做匹配,發現他們的勾當。同時,反欺詐系統要有混合分析能力找出欺詐模式,為調查人員提供有意義的信息和分析報告。
包括大數據分析在反洗錢中的應用。有一個人的孩子在美國上學,他想寄一些錢過去,但是寄超過一萬元美元的話,美國銀行會對其進行監控,為了防止監控,他每次寄不到一萬,分多次寄,而這就是一個洗錢的場景,后來被軟件發現并被控告。反洗錢的軟件內設有多種特定場景,若符合特定場景,它就會對這個賬戶進行監控。
上圖是美國做的關于大數據在醫療保健方面的應用。通過獲取了十幾個州的數據進行分析,分析到5%的公民卻用掉到60%的社保;21%-47%的醫保都是浪費掉的;10個病逝的人有7個是由于慢性病。
另外,大數據在通信內的應用最關鍵在于如何找到客戶,找到后如何留住客戶。
上文也提到過大數據還支持著金融科技、人工智能、物聯網、以及生物工程等等。金融發展與科技是密切相關的,回顧其發展歷程,金融機構一直是信息技術最積極的應用者。從這個意義上來說,科技驅動金融,并非始于當今,而是早已有之。總體來看,科技驅動金融經歷了金融電子化和信息化、金融網絡化和移動化、金融自動化和智能化三個階段。目前,我們正處于金融自動化和智能化階段。
人工智能中的人臉識別,語音識別,文本分析,機器翻譯等等都需要通過對數據的分析使用來支持與應用。
可疑性交易其實也是物聯網應用的一部分,指人員在進行交易的時候可發現他的違規和不違規,如有一個人是基金經理,通過賣他手中的股票,讓股價下來以后,再用自己的錢把股票買回來,又通過大量收購股票,使得股票價格上漲,他又把股票賣掉,這是違規的,可以監控的。
大數據也可應用于故障預測。在墨西哥灣的深海鉆探中,檢測電子潛水器泵的有效性和油井表現。
大數據還可預測財產保養,通過每輛卡車60多個傳感器發出的數據,預測故障發生前的保養期,在恰當的時間提前保養卡車,提供新的服務。
還有區塊鏈的應用,區塊鏈是實現網絡-現實社會系統平行社會的基礎架構之一,其主要貢獻是為分布式社會系統和分布式人工智能研究提供了一套行之有效的去中心化的數據結構、交互機制和計算模式,并為實現平行社會奠定了堅實的數據基礎和信用基礎。區塊鏈技術具有高度透明、去中心化、無須信任系統、去中介化、不可篡改(全節點維護)、加密安全等性質。其中最大的應用便是比特幣。
智慧城市不單單要考慮網絡、人工智能等硬件條件,還需要考慮文化、生態等。
關于重大事故調查與災害保障系統。英國在這個系統上就做的很好。
接下來是刑事司法數據集成與分析,可以將來自整個刑事司法系統內外的各種來源的數據組合成一個準確、一致、完整的罪犯視圖。然后,地方法官、辦事員、執法人員和懲教人員就可以以一種廣泛、易于理解的視角獲取這些信息。
在醫療領域,大數據將各種資源集中在一起,為公眾提供統一的健康醫療服務。
還有應用于產業融合、制造業的發展等等。
大數據分析可以幫助人們做很多事, 但是,大數據分析也是有欺騙性的。如Google(GFT)預測的流感樣病例門診超過了美國國家疾病和控制預防中心基于全美各實驗室檢測報告得出的預測結果兩倍多。還有辛普森悖論和安斯庫姆四重奏等等。
大數據和計算機技術一樣,具有普適性和通用性,各行各業都需要,傳統行業需要,而且是新興行業的依托。目前,機器學習和深度學習算法在不斷地豐富數據分析方法,是解決非結構化數據分析、人工智能的主要方法。大數據改變了社會形態,促進經濟發展。而對于大數據分析,數據、軟件、平臺要協調一致。在對大數據進行分析的過程中,需要確保數據的真實性,分析方法的正確性以及分析結果的適用性。
有些圖示來自于網絡,在此表示感謝!