行業(yè)資訊
了解最新行業(yè)資訊
人工智能概念的提出已有60多年時間,但直到1997年IBM的深藍計算機戰(zhàn)勝國際象棋大師才為大眾所知,不過基于專家系統(tǒng)經(jīng)驗的智能有限。2016年,AlphaGo戰(zhàn)勝世界圍棋高手初顯大數(shù)據(jù)實力,但也只是在規(guī)則下的算法熟能生巧,類似的方法推動了自然語言識別與人臉識別技術(shù)的發(fā)展。
2022年底,ChatGPT的問世標志著人工智能從判別式發(fā)展到生成式的跨越,雖然目前的大模型只是針對特定任務(wù)和指定模態(tài),離通用人工智能還有不少距離,但語言大模型讓機器初步具有常識,懂得推理,學(xué)會創(chuàng)作,讓人和機器能以較自然的方式互動,通過與周邊工具的結(jié)合,表現(xiàn)出擬人的智能。與AlphaGo將數(shù)據(jù)作為查詢和判別的依據(jù)不同,ChatGPT可以說讀透與消化了數(shù)據(jù),融會貫通計上心來,得出源于數(shù)據(jù)高于數(shù)據(jù)的結(jié)論。
生成式大模型賦予數(shù)據(jù)以新的生命力,AI時代大數(shù)據(jù)蘊含的價值將進一步涌現(xiàn)。數(shù)據(jù)因AI而變得越來越重要,數(shù)據(jù)要素是新型生產(chǎn)力的代表,數(shù)據(jù)挖掘能力成為新時代的國家重要競爭力。
數(shù)據(jù)是生產(chǎn)和生活過程的記錄及對自然觀察的結(jié)果。2022年中國人口占全球18%,網(wǎng)民占全球21.5%,GDP占全球18.06%。據(jù)國家網(wǎng)信辦《數(shù)字中國發(fā)展報告(2022年)》數(shù)據(jù)顯示,2022年我國數(shù)據(jù)產(chǎn)量達8.1ZB,同比增長22.7%,全球占比為10.5%,位居全球第二;我國數(shù)據(jù)存儲量達724.5EB,同比增長21.1%,全球占比為14.4%。中國產(chǎn)生和存儲的數(shù)據(jù)在全球的占比均低于中國的人口、網(wǎng)民和經(jīng)濟規(guī)模在全球的比例。據(jù)Synergy Research Group截至2021年Q3季度統(tǒng)計,美國大規(guī)模數(shù)據(jù)中心在全球占比高達49%,其次是中國占比為15%??梢娢覈鴶?shù)據(jù)存儲量與美國相比差距還比較大,這反映了我國在社會信息化和產(chǎn)業(yè)數(shù)字化程度上仍落后于美國,加快數(shù)字中國的建設(shè)將有望盡快改變這一狀況。
政府與研究機構(gòu)及企業(yè)都會存儲大量數(shù)據(jù),其中政府掌握全社會數(shù)據(jù)約80%,而且是高質(zhì)量數(shù)據(jù),但主要卻僅供內(nèi)部使用甚至是本部門內(nèi)小單位各自存儲和使用而非共享,數(shù)據(jù)利用率不高。需要從制度上明確共享內(nèi)容、權(quán)限和責(zé)任,促進政府部門間數(shù)據(jù)共享,更精準地把握社會和經(jīng)濟運行全局,提升政府部門間工作的協(xié)同性。與共享相比,數(shù)據(jù)開放更是社會數(shù)字化的標志之一,政府及企事業(yè)單位掌握的公共數(shù)據(jù)具有很強的社會性,政府開放數(shù)據(jù)對提升政府公信力、降低社會成本,帶動數(shù)字經(jīng)濟發(fā)展有重要作用。
國際上將政府數(shù)據(jù)開放作為數(shù)字政府的重要衡量指標,據(jù)《聯(lián)合國電子政務(wù)調(diào)查報告2022》數(shù)據(jù)顯示,從2012年到2022年的十年間,中國在線服務(wù)指數(shù)從0.5294上升到0.8876,在193個國家中排名從第62位上升到第15位,愛沙尼亞、芬蘭、韓國位居前三,美國第8,日本第9。我國還存在政務(wù)數(shù)據(jù)標準規(guī)范體系待健全、政務(wù)數(shù)據(jù)統(tǒng)籌管理機制待完善,政務(wù)數(shù)據(jù)安全保障能力待加強的問題,需要從建設(shè)數(shù)據(jù)流通基礎(chǔ)制度體系入手,加快數(shù)據(jù)立法,完善制度規(guī)范,統(tǒng)籌協(xié)調(diào)推進,編制數(shù)據(jù)目錄,分類分級管理,夯實共享開放機制,提升安全保障。
除了政府開放數(shù)據(jù)以外,社會公共數(shù)據(jù)的開源開放也表征數(shù)據(jù)流通的水平。人工智能生成內(nèi)容(AIGC)大模型都是利用語料庫訓(xùn)練的,一些互聯(lián)網(wǎng)大廠利用電商、社交、搜索等業(yè)務(wù)收集和標注了海量的語料供自身訓(xùn)練大模型使用,沒有語料積累的企業(yè)和研究機構(gòu)雖然可以從網(wǎng)絡(luò)獲得語料,但自媒體內(nèi)容質(zhì)量良莠不分,未經(jīng)清洗與標注就用作大模型的訓(xùn)練語料其效果堪憂。ChatGPT大模型訓(xùn)練時使用了開源語料庫,但中文詞元(Token)占比不到0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數(shù)量少和規(guī)模小有關(guān)。國內(nèi)高校也有數(shù)億到數(shù)十億字的語料庫但尚未開源。國內(nèi)一些語言大模型直接采用國外開源語料庫訓(xùn)練,在價值觀的把控上存在潛在風(fēng)險,建議對面向公眾開放應(yīng)用的對話類大模型需要做語料來源的評估。面向重要應(yīng)用場景的大模型不宜強調(diào)訓(xùn)練用數(shù)據(jù)免標注和無監(jiān)督學(xué)習(xí),還是要采用經(jīng)過清洗標注的數(shù)據(jù)集和保留人工微調(diào),即有監(jiān)督學(xué)習(xí)環(huán)節(jié)。
行業(yè)大模型的訓(xùn)練也面臨挑戰(zhàn),專業(yè)數(shù)據(jù)沒有通用數(shù)據(jù)容易獲得,行業(yè)內(nèi)的企業(yè)間往往不愿共享專業(yè)數(shù)據(jù)。為此有必要建立高質(zhì)量國家級重要行業(yè)領(lǐng)域基礎(chǔ)知識庫、數(shù)據(jù)庫、資源庫等。此外要鼓勵社會數(shù)據(jù)要素的合理流動和利用。中共中央、國務(wù)院《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出,依法規(guī)范、共同參與、各取所需、共享紅利的發(fā)展模式,將合理降低市場主體獲取數(shù)據(jù)的門檻,增強數(shù)據(jù)要素共享性、普惠性,激勵創(chuàng)新創(chuàng)業(yè)創(chuàng)造。
二、大模型驅(qū)動數(shù)據(jù)范式創(chuàng)新
三、數(shù)據(jù)助力社會治理信息化
大模型的數(shù)據(jù)訓(xùn)練與推理都需要算力支撐,中國2022年算力總規(guī)模為180Eflops,低于2021年美國的200Eflops,其中智能算力2022年中國為41Eflops,不及2021年美國的65Eflpos,這反映了我國在大模型的數(shù)據(jù)訓(xùn)練和推理算力上的差距。算力的建設(shè)是市場行為,但國家統(tǒng)籌推進將優(yōu)化資源的利用和產(chǎn)業(yè)的合理布局。“東數(shù)西算”作為國家戰(zhàn)略部署具有中國特色,反映我國區(qū)域經(jīng)濟、地理氣候特點和能源分布的格局,政府之手的作用在東西部數(shù)據(jù)資源配置與有效應(yīng)用上不是可有可無的。西部不足之處是數(shù)據(jù)中心產(chǎn)業(yè)配套能力薄弱和人才短缺,需要同步規(guī)劃布局數(shù)據(jù)清洗標注、數(shù)據(jù)機房產(chǎn)品及服務(wù)業(yè)的培育發(fā)展,延伸產(chǎn)業(yè)鏈上下游,在做好承接?xùn)|部的溫冷數(shù)據(jù)的存算的同時,還要帶動起當?shù)責(zé)釘?shù)據(jù)的上云服務(wù),使西部的數(shù)據(jù)集群發(fā)展形成良性循環(huán)。
算力的布局需要處理好幾方面的關(guān)系,一是通用算力與智能算力的合理比例,通用算力以CPU為主,適合處理政務(wù)、智慧城市和智能客服等數(shù)據(jù)/計算密集的事務(wù)性任務(wù);智能算力以GPU為主,適合做大模型的訓(xùn)練,注意到在數(shù)據(jù)訓(xùn)練過程中還需要算法工程師介入和微調(diào),智算中心適于在數(shù)據(jù)源集中和算法工程師聚集地建設(shè),不宜全面開花,動用財政資金支持的大型智算中心的建設(shè)應(yīng)慎重規(guī)劃。二是自建算力與云原生算力,很多單位有自建算力的積極性,但麥肯錫報告顯示,商用和企業(yè)數(shù)據(jù)中心的服務(wù)器很少超過6%的利用率,通常高達30%的服務(wù)器帶電閑置。需要鼓勵中小企業(yè)從自購AI服務(wù)器搭建數(shù)據(jù)中心向采購云服務(wù)轉(zhuǎn)變,既降低成本又提高利用率,增強抗DDoS的能力及減碳;需要引導(dǎo)縣級地方政府使用省地集中建設(shè)的政務(wù)云代替獨立采購IT基礎(chǔ)設(shè)施。三是存算比例,存力與算力需配合,內(nèi)存與算力合理比例是GB/Gflops為1,避免因存力短缺造成算力等待而影響處理效率,據(jù)華為/羅蘭貝格報告,2020年美國為1:0.9,中國為1:2.4。四是災(zāi)備容量與主用數(shù)據(jù)中心存儲容量之比,數(shù)據(jù)中心需異地雙容災(zāi)備份,關(guān)鍵數(shù)據(jù)實現(xiàn)本地雙活,2020年當年數(shù)據(jù)災(zāi)備保護占數(shù)據(jù)中心存儲投資的比例全球平均為27.4%,而我國只有7.8%,需重視改進。
數(shù)據(jù)作為生產(chǎn)要素是經(jīng)濟理論與實踐的創(chuàng)新。數(shù)據(jù)與土地、勞動力、資本等傳統(tǒng)生產(chǎn)要素不同,數(shù)據(jù)要素的開發(fā)與治理有很多需要深入研究的問題,例如數(shù)據(jù)的可復(fù)制性、使用無損性等導(dǎo)致數(shù)據(jù)產(chǎn)權(quán)和安全管理邊界難以界定。黨中央決策部署組建國家數(shù)據(jù)局,負責(zé)協(xié)調(diào)推進數(shù)據(jù)基礎(chǔ)制度建設(shè),統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,統(tǒng)籌推進數(shù)字中國、數(shù)字經(jīng)濟、數(shù)字社會規(guī)劃和建設(shè)等,將有力促進數(shù)據(jù)要素技術(shù)創(chuàng)新、開發(fā)利用和有效治理,以數(shù)據(jù)強國支撐數(shù)字中國的建設(shè)。
關(guān)注微信公眾號
Copyright ? 2015-2021 biopond.cn All Rights Reserved. 魯ICP備2023002201號-1