中文字幕高潮喷水av在线_人妻少妇影音一区_亚洲性爱激情视频_国产精品反差婊在线观看。_成年女人天堂香蕉网视频_毛片a精品**国产_久热这里只有精品视频21_青青草原app黄色_亚洲永久无码永久在线观看_亚洲无码自拍中文

行業(yè)資訊

了解最新行業(yè)資訊

人工智能的創(chuàng)新基石:合成數(shù)據(jù)
時(shí)間:2024-10-28   訪問量:60

近期,合成數(shù)據(jù)在大模型中應(yīng)用的話題引起廣泛關(guān)注。6月,英偉達(dá)發(fā)布新一代開源大模型Nemotron-4 340B,其指令模型訓(xùn)練是在98%合成數(shù)據(jù)基礎(chǔ)上完成,此前英偉達(dá)還推出了合成數(shù)據(jù)生成工具Omniverse Replicator,能夠生成物理模擬的合成數(shù)據(jù),用于自動(dòng)駕駛汽車和機(jī)器人的訓(xùn)練。7月,蘋果也發(fā)布了其自研的人工智能系統(tǒng)Apple Intelligence,在預(yù)訓(xùn)練階段也大量使用了合成數(shù)據(jù)。圍繞合成數(shù)據(jù)的價(jià)值、應(yīng)用、風(fēng)險(xiǎn)等,值得我們深入思考,基于此,本文從合成數(shù)據(jù)的概念入手,分析如何生成合成數(shù)據(jù)、其主要應(yīng)用領(lǐng)域、使用合成數(shù)據(jù)的風(fēng)險(xiǎn)挑戰(zhàn),并探索未來發(fā)展前景。2024-10-282024-10-282024-10-28

合成數(shù)據(jù)概念及興起緣由

合成數(shù)據(jù)并不是一個(gè)全新的概念,早在1993年,著名統(tǒng)計(jì)學(xué)家Donald Rubin在論文中提出合成數(shù)據(jù)的概念。近年來,隨著ChatGPT的火爆和生成式人工智能技術(shù)的發(fā)展,合成數(shù)據(jù)概念受到越來越多的關(guān)注。

眾所周知,大模型訓(xùn)練和開發(fā)對(duì)數(shù)據(jù)尤其是高質(zhì)量數(shù)據(jù)的需求量日益增長(zhǎng)。然而,現(xiàn)實(shí)世界中大模型訓(xùn)練所需數(shù)據(jù)量卻日漸緊張,面臨“不夠用、不好用、不能用”等諸多問題。

 1.不夠用 

當(dāng)前大模型訓(xùn)練對(duì)數(shù)據(jù)的需求量遠(yuǎn)超數(shù)據(jù)的增長(zhǎng)量,知名研究機(jī)構(gòu)Epoch AI在一篇論文中指出,到2026年,大模型將消耗盡所有高質(zhì)量數(shù)據(jù),低質(zhì)量數(shù)據(jù)將在2030年~2050消耗殆盡,而所有圖像訓(xùn)練數(shù)據(jù)在2030年~2060年被消耗完。2024年6月,《麻省理工技術(shù)評(píng)論》刊出一篇論文也指出,高質(zhì)量數(shù)據(jù)將在2028年前后被消耗完(見圖1)。另外,由于成本問題,也會(huì)導(dǎo)致某些數(shù)據(jù)難以獲取。

 2.不好用 

現(xiàn)實(shí)世界中存在數(shù)據(jù)質(zhì)量參差不齊的問題,數(shù)據(jù)中存在錯(cuò)誤、缺失、異常、格式不一致等情況,例如打了馬賽克的圖片,都會(huì)使得模型分析結(jié)果產(chǎn)生偏差。

 3.不能用 

隨著數(shù)據(jù)使用監(jiān)管加強(qiáng),數(shù)據(jù)隱私保護(hù)法律法規(guī)日益完善,對(duì)涉及個(gè)人隱私權(quán)、肖像權(quán)、個(gè)人真實(shí)信息等數(shù)據(jù)的保護(hù)力度加大,要求企業(yè)在大模型開發(fā)和應(yīng)用中,不得隨意使用上述數(shù)據(jù)。

這些問題一定程度上制約了人工智能發(fā)展,合成數(shù)據(jù)應(yīng)運(yùn)而生。合成數(shù)據(jù)(Synthetic Data)是指通過計(jì)算機(jī)算法生成的模擬數(shù)據(jù),它模擬真實(shí)世界的數(shù)據(jù)分布和特征,通過數(shù)學(xué)模型和生成技術(shù),來構(gòu)建新的數(shù)據(jù)集,而不是直接來自現(xiàn)實(shí)世界的觀測(cè)或記錄。合成數(shù)據(jù)可以通過針對(duì)性的數(shù)據(jù)補(bǔ)充和強(qiáng)化,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量不足等問題;可以規(guī)避數(shù)據(jù)隱私、安全、保密等風(fēng)險(xiǎn),在醫(yī)療、金融等領(lǐng)域意義重大;還可以模擬和生成現(xiàn)實(shí)世界中難以采集到的邊緣場(chǎng)景,保持?jǐn)?shù)據(jù)的多樣性。

總之,合成數(shù)據(jù)為解決上述問題提供更多方向和思路,極大拓展了AI應(yīng)用的可能性。Gartner、Accenture等著名咨詢公司都看好合成數(shù)據(jù)的發(fā)展前景,認(rèn)為合成數(shù)據(jù)有望解決人工智能未來發(fā)展的“數(shù)據(jù)瓶頸”,成為推動(dòng)AI技術(shù)更廣泛應(yīng)用的核心要素。

合成數(shù)據(jù)如何生成

合成數(shù)據(jù)技術(shù)路線眾多,常用的有以下三種:基于LLMs生成的合成數(shù)據(jù)、基于GANs或者Diffusion Models生成的合成數(shù)據(jù)、基于統(tǒng)計(jì)和模擬生成的合成數(shù)據(jù),在實(shí)際應(yīng)用中多種方式往往相互協(xié)同和補(bǔ)充,以提升數(shù)據(jù)合成質(zhì)量。

 1.由LLMs生成的合成數(shù)據(jù)。

LLMs擁有卓越的語(yǔ)言理解和表達(dá)能力,以及強(qiáng)大的指令遵循能力,能夠?yàn)樘囟▓?chǎng)景和領(lǐng)域創(chuàng)建定制的數(shù)據(jù)集。使用LLMs生成合成數(shù)據(jù)的常見做法,可分為提示工程和多步驟生成。首先,基于高性能模型的提示工程生成合成數(shù)據(jù),用于補(bǔ)充特定領(lǐng)域的數(shù)據(jù),幫助輕量級(jí)或下一代模型進(jìn)行監(jiān)督學(xué)習(xí)。如Meta Llama 3的后訓(xùn)練完全依靠從Llama 2獲得的合成數(shù)據(jù);又如OpenAI計(jì)劃使用o1模型生成合成數(shù)據(jù)來訓(xùn)練即將推出的Orion模型。其次,基于模型生成多步驟的合成數(shù)據(jù),可用來補(bǔ)充思維鏈(CoT)的中間推理過程,促進(jìn)模型的對(duì)齊與進(jìn)化。如浙大、中科院等機(jī)構(gòu)利用GPT-4-Turbo生成代碼繪制圖像,并逐步提示模型生成解釋答案的原理,從而組成多模態(tài)合成數(shù)據(jù)集,使用該數(shù)據(jù)集對(duì)Vanilla Llava-1.5-7B微調(diào)能顯著提升其視覺推理能力,在推理難度最高的路線圖場(chǎng)景中,準(zhǔn)確率提升67.4%。

 2.由GANs或者Diffusion Models等算法生成的合成數(shù)據(jù)。

通過對(duì)抗訓(xùn)練和逐步去噪的過程,模型能夠生成與真實(shí)數(shù)據(jù)高度相似的合成圖像樣本,廣泛應(yīng)用于數(shù)據(jù)增強(qiáng)、醫(yī)療隱私等領(lǐng)域。

 3.基于傳統(tǒng)的統(tǒng)計(jì)和模擬等方法生成的合成數(shù)據(jù)。

一方面通過觀察真實(shí)的統(tǒng)計(jì)分布,利用算法生成符合特定統(tǒng)計(jì)分布的數(shù)據(jù)。另一方面,可以通過模擬器等方法創(chuàng)建數(shù)據(jù),如Sora文生視頻模型用到Unity、Unreal Engine等游戲引擎合成的視頻數(shù)據(jù)作為訓(xùn)練集。

目前,市面上有許多工具可生成合成數(shù)據(jù),如英偉達(dá)發(fā)布3D仿真數(shù)據(jù)生成引擎Omniverse Replicator、微軟開源合成數(shù)據(jù)工具Synthetic Data Showcase等。6月14日,英偉達(dá)發(fā)布開源大模型Nemotron-4 340B,包含基礎(chǔ)模型Base、指令模型Instruct和獎(jiǎng)勵(lì)模型Reward,也可用于生成高質(zhì)量合成數(shù)據(jù)(流程見圖2),其中Instruct模型用于生成基于文本的合成輸出,Reward模型對(duì)生成的文本進(jìn)行評(píng)估并提供反饋,指導(dǎo)迭代改進(jìn)并確保合成數(shù)據(jù)的準(zhǔn)確性。

合成數(shù)據(jù)的應(yīng)用實(shí)踐

近年來合成數(shù)據(jù)在具身智能、自動(dòng)駕駛等領(lǐng)域得到重點(diǎn)關(guān)注及廣泛應(yīng)用,如成立于2023年初的光輪智能公司,專注于在自動(dòng)駕駛、具身智能等領(lǐng)域提供合成數(shù)據(jù)解決方案,在2023年完成種子輪、天使輪、天使+三輪融資,累計(jì)融資金額達(dá)數(shù)千萬(wàn)元人民幣,并于2024年5月底完成Pre-A輪融資。

 1.合成數(shù)據(jù)為具身智能帶來了豐富、可控且經(jīng)濟(jì)的訓(xùn)練與學(xué)習(xí)材料,提升具身智能系統(tǒng)在各種復(fù)雜環(huán)境和任務(wù)中的適應(yīng)性和表現(xiàn)能力。

人類遠(yuǎn)程操控機(jī)器人完成任務(wù)并生成高質(zhì)量數(shù)據(jù),其收集成本高昂且耗時(shí),合成數(shù)據(jù)成為“擴(kuò)大機(jī)器人學(xué)習(xí)的強(qiáng)大且經(jīng)濟(jì)”的有效途徑,通過數(shù)字孿生技術(shù),讓機(jī)器人在虛擬世界學(xué)習(xí)如何操作和感知環(huán)境。如英偉達(dá)與UT提出MimicGen數(shù)據(jù)生成系統(tǒng),通過對(duì)人類演示進(jìn)行處理,自動(dòng)生成不同場(chǎng)景下的大規(guī)模合成數(shù)據(jù)集,用于機(jī)器人的模仿學(xué)習(xí)。在Square、Coffee Preparation等18個(gè)任務(wù)中,只用175個(gè)人類示例就生成超過5萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)集,并且在Square任務(wù)中,只用10個(gè)人類示例就生成了1000個(gè)訓(xùn)練數(shù)據(jù)集,覆蓋不同場(chǎng)景配置,并將成功率從人類示例數(shù)據(jù)集的11.3%提升至90.7%,在復(fù)雜的Coffee Preparation任務(wù)中,成功率從12.7%提升到97.3%。

 2.合成數(shù)據(jù)為自動(dòng)駕駛領(lǐng)域帶來豐富的訓(xùn)練資源,提升自動(dòng)駕駛系統(tǒng)的性能和安全性。

在自動(dòng)駕駛車輛的開發(fā)過程中,邊緣場(chǎng)景(如復(fù)雜交通、惡劣天氣等)的數(shù)據(jù)采集尤為困難,國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)仿真平臺(tái)公司51Sim利用先進(jìn)的仿真技術(shù)構(gòu)建各類低概率、高風(fēng)險(xiǎn)的邊緣場(chǎng)景,增加訓(xùn)練樣本和多樣性,提升感知算法泛化能力,幫助主機(jī)廠加速模型訓(xùn)練。同時(shí),51Sim參與北京大學(xué)牽頭的“面向自動(dòng)駕駛場(chǎng)景的高真實(shí)感數(shù)據(jù)合成”研究課題,通過將自動(dòng)駕駛示范園區(qū)典型的真實(shí)場(chǎng)景與擬真度極高的渲染算法進(jìn)行集成,生成帶有多模態(tài)數(shù)據(jù)標(biāo)注的高逼真合成場(chǎng)景數(shù)據(jù)集,大幅推動(dòng)視覺大模型和高速脈沖視覺模型算法研究評(píng)測(cè)在自動(dòng)駕駛場(chǎng)景中的落地應(yīng)用。

合成數(shù)據(jù)的挑戰(zhàn)及應(yīng)對(duì)

由于合成數(shù)據(jù)的生成機(jī)制和技術(shù)特性限制,其應(yīng)用存在一定隱憂。今年7月,Nature一篇最新論文顯示,運(yùn)用合成數(shù)據(jù)迭代訓(xùn)練9次,導(dǎo)致大模型不可避免走向崩塌。同樣,杜克大學(xué)助理教授Emily Wenger發(fā)表在Nature上的一篇社論文章也指出,基于合成數(shù)據(jù)訓(xùn)練的大模型生成的圖像會(huì)扭曲狗的圖片。其本質(zhì)原因是由于使用合成數(shù)據(jù)進(jìn)行模型訓(xùn)練會(huì)忽視異常值和偏差值,從而導(dǎo)致原始數(shù)據(jù)分布的長(zhǎng)尾消失,而經(jīng)常出現(xiàn)的內(nèi)容被無限放大,模型越來越偏離原始數(shù)據(jù)分布。

這正是合成數(shù)據(jù)應(yīng)用存在的挑戰(zhàn)之一,即數(shù)據(jù)保真度問題,合成數(shù)據(jù)無法完全模擬真實(shí)世界的復(fù)雜性和多樣性,這會(huì)影響模型的訓(xùn)練效果和推理能力。挑戰(zhàn)之二,即數(shù)據(jù)偏差問題,如果合成數(shù)據(jù)的生成過程本身存在偏差,例如人工惡意植入錯(cuò)誤信息或誤導(dǎo)信息,合成數(shù)據(jù)會(huì)繼承甚至不斷放大這種偏差。挑戰(zhàn)之三,即可信度問題,合成數(shù)據(jù)的產(chǎn)生過程通常是“黑盒”的,難以解釋生成數(shù)據(jù)的具體原理和過程,可能導(dǎo)致對(duì)合成數(shù)據(jù)的來源和質(zhì)量產(chǎn)生質(zhì)疑。挑戰(zhàn)之四,即法律和監(jiān)管問題,目前合成數(shù)據(jù)的監(jiān)管體系尚不完善,如何確保合成數(shù)據(jù)的合規(guī)使用,如何解決帶來的新的安全問題,這都是需要進(jìn)一步考慮和研究的問題。

在技術(shù)方面,應(yīng)對(duì)挑戰(zhàn)的有效方法之一是采取“混合數(shù)據(jù)”策略,即在大模型訓(xùn)練中輸入多樣化的數(shù)據(jù),保持真實(shí)數(shù)據(jù)的一定比例。如在大模型預(yù)訓(xùn)練階段仍以真實(shí)數(shù)據(jù)為主導(dǎo),合成數(shù)據(jù)作為針對(duì)性補(bǔ)充和拓展則保持較低占比(如5-10%);而在對(duì)齊階段,提升合成數(shù)據(jù)占比,使其與真實(shí)數(shù)據(jù)規(guī)模相當(dāng),甚至可以更高。其他應(yīng)對(duì)方案還包括調(diào)整生成參數(shù)、提供多樣的提示等。

在監(jiān)管方面,應(yīng)注重合成數(shù)據(jù)的隱私保護(hù)和數(shù)據(jù)安全、合規(guī)使用、法律和倫理考量、持續(xù)監(jiān)督與評(píng)估等多方面的規(guī)范和引導(dǎo)。2024年7月15日,新加坡個(gè)人數(shù)據(jù)保護(hù)委員會(huì)(PDPC)發(fā)布了《合成數(shù)據(jù)生成指南》,對(duì)合成數(shù)據(jù)的生成技術(shù)、典型應(yīng)用、生成步驟等進(jìn)行詳細(xì)說明,提供了合成數(shù)據(jù)生成技術(shù)和方法指導(dǎo),并強(qiáng)調(diào)了隱私保護(hù)與數(shù)據(jù)質(zhì)量控制的重要性。歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》(GDPR)對(duì)合成數(shù)據(jù)的生成和使用提出了監(jiān)管要求;今年6月,歐盟數(shù)據(jù)保護(hù)監(jiān)管機(jī)構(gòu)(EDPS)發(fā)布的關(guān)于生成式人工智能數(shù)據(jù)合規(guī)指南,為合成數(shù)據(jù)的合規(guī)使用也提供了一定參考。我國(guó)于2022年11月發(fā)布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,對(duì)深度合成技術(shù)使用進(jìn)行系統(tǒng)性規(guī)定,促進(jìn)深度合成服務(wù)規(guī)范發(fā)展。

合成數(shù)據(jù)的未來發(fā)展展望

合成數(shù)據(jù)領(lǐng)域正迎來快速發(fā)展,其應(yīng)用前景廣闊,據(jù)Gartner預(yù)測(cè),2024年AI訓(xùn)練中用到的數(shù)據(jù)有60%是合成數(shù)據(jù),到2030年絕大部分訓(xùn)練數(shù)據(jù)將是合成數(shù)據(jù)。據(jù)著名市場(chǎng)調(diào)研機(jī)構(gòu)Nester預(yù)測(cè),全球合成數(shù)據(jù)的市場(chǎng)呈現(xiàn)蓬勃發(fā)展趨勢(shì),年復(fù)合增長(zhǎng)率達(dá)35%,預(yù)計(jì)到2035年底,合成數(shù)據(jù)市場(chǎng)規(guī)模將達(dá)124.5億美元(見圖3)。可見,合成數(shù)據(jù)作為數(shù)字經(jīng)濟(jì)時(shí)代的“新型石油”,將為推動(dòng)人工智能產(chǎn)業(yè)乃至經(jīng)濟(jì)社會(huì)快速發(fā)展提供新動(dòng)能。

總之,合成數(shù)據(jù)或成為推動(dòng)大模型能力躍遷的重要突破口,帶來廣闊市場(chǎng)前景和全新商業(yè)機(jī)會(huì),但其本身也存在數(shù)據(jù)質(zhì)量、技術(shù)突破、法律監(jiān)管等挑戰(zhàn),應(yīng)從技術(shù)、產(chǎn)業(yè)、監(jiān)管等多方面持續(xù)研究和探索,共同推動(dòng)合成數(shù)據(jù)走向“科技向善”。



本文轉(zhuǎn)自網(wǎng)絡(luò),本站僅提供展示與交流,不為其版權(quán)負(fù)責(zé)。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)作者持權(quán)屬證明與本站聯(lián)系,我們將及時(shí)更正、刪除,謝謝。


關(guān)注微信公眾號(hào)

北京地址:北京市通州區(qū)磚廠北里141號(hào) 聯(lián)系電話:18501370537 郵箱:[email protected]
濟(jì)寧地址:山東省濟(jì)寧市高新區(qū)金宇路康城麗景13號(hào)沿街商務(wù)樓5層 聯(lián)系電話:0537-3150537

Copyright ? 2015-2021 biopond.cn All Rights Reserved. 魯ICP備2023002201號(hào)-1