大模型搭建少不了這塊“基石”?上海數(shù)據(jù)要素建設(shè)又有“新動(dòng)作”
東方網(wǎng)記者王佳妮7月8日?qǐng)?bào)道:2022年全市數(shù)據(jù)核心企業(yè)突破1200家,核心產(chǎn)業(yè)規(guī)模近3400億元;建設(shè)上海數(shù)據(jù)交易所,累計(jì)掛牌數(shù)據(jù)產(chǎn)品超1300個(gè),率先提出數(shù)商體系,全國首個(gè)數(shù)據(jù)要素產(chǎn)業(yè)集聚區(qū)在張江啟動(dòng)建設(shè)……作為國家大數(shù)據(jù)綜合示范區(qū),上海始終致力于推動(dòng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展、數(shù)據(jù)要素市場(chǎng)培育,數(shù)字經(jīng)濟(jì)紅利充分釋放。
數(shù)據(jù)是人工智能的基石,其質(zhì)量和數(shù)量最終決定人工智能水平高低,并影響其安全性、可信性。如何使數(shù)據(jù)要素更有效流通?在今天上午舉行的“大模型時(shí)代下的數(shù)據(jù)要素流通”主題論壇,業(yè)內(nèi)大咖上演了一場(chǎng)精彩的“頭腦風(fēng)暴”。
上海數(shù)據(jù)要素建設(shè)有“新動(dòng)作”
(資料圖片僅供參考)
“大模型時(shí)代下的語料庫建設(shè)存在語料庫供給不足、語料庫質(zhì)量不高、語料庫多樣性匱乏、語料庫標(biāo)準(zhǔn)欠缺等問題?!?/strong>上海數(shù)交所總經(jīng)理湯奇峰在作題為“大模型時(shí)代下的語料庫”的主旨演講中指出,語料庫建設(shè)不是單一企業(yè)的責(zé)任,需要多方共同推進(jìn),“如果每個(gè)企業(yè)都單獨(dú)建設(shè)維護(hù)語料庫,會(huì)拉低效率,也會(huì)增加企業(yè)成本,數(shù)交所希望通過自己的努力加強(qiáng)數(shù)據(jù)要素建設(shè)提升語料庫建設(shè)效率”。
上海數(shù)交所總經(jīng)理湯奇峰
東方網(wǎng)記者了解到,上海數(shù)交所官網(wǎng)已于7月7日正式上線語料庫,累計(jì)掛牌近30個(gè)語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域。為更好打造高質(zhì)量語料庫、圍繞語料數(shù)據(jù)共建數(shù)商生態(tài),上海數(shù)交所牽頭發(fā)起語料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計(jì)劃,攜手首批合作伙伴上海人工智能實(shí)驗(yàn)室、商湯科技、中國知網(wǎng)、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動(dòng)該計(jì)劃,積極引導(dǎo)不同行業(yè)、不同領(lǐng)域、具有一定規(guī)模的高質(zhì)量語料數(shù)據(jù)產(chǎn)品掛牌交易,推動(dòng)人工智能大模型技術(shù)創(chuàng)新與應(yīng)用落地,進(jìn)一步豐富語料庫多樣性,助力數(shù)據(jù)要素市場(chǎng)建設(shè)。
湯奇峰指出,目前,語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場(chǎng)配置的方式組織數(shù)據(jù)要素推動(dòng)語料庫建設(shè)?!吧虾?shù)交所建設(shè)語料庫,主要考慮兩個(gè)維度:一是語料庫的質(zhì)量,另一個(gè)是語料庫的開放程度?!睖娣迮e例稱,比如有的企業(yè)具有海量高質(zhì)量數(shù)據(jù)資源,開放意愿度也很高,但需要組織大量社會(huì)第三方企業(yè)幫助組織相關(guān)的大模型訓(xùn)練,上海數(shù)交所針對(duì)四類數(shù)據(jù)產(chǎn)品開發(fā)情況不同、實(shí)際需求不同的供方企業(yè)制定了差異化工作策略,著力打造語料數(shù)據(jù)生態(tài)。
數(shù)據(jù)合規(guī)確權(quán)等問題亟待破解
數(shù)據(jù)要素在人工智能大模型的發(fā)展中具有關(guān)鍵性的作用,決定了模型的訓(xùn)練質(zhì)量、性能表現(xiàn)和應(yīng)用領(lǐng)域的廣度與深度。
論壇現(xiàn)場(chǎng)圖
中國電子副總經(jīng)理陸志鵬圍繞“數(shù)據(jù)要素驅(qū)動(dòng)的大模型體系”做主旨演講,他認(rèn)為,大模型技術(shù)實(shí)現(xiàn)高質(zhì)量發(fā)展,數(shù)據(jù)有效供給是關(guān)鍵,亟需建設(shè)安全可信的數(shù)據(jù)底座。當(dāng)前數(shù)據(jù)合規(guī)確權(quán)、計(jì)量估價(jià)、協(xié)調(diào)分配、安全隱私保護(hù)等核心難題需要破解。
大數(shù)據(jù)流通與交易技術(shù)國家工程實(shí)驗(yàn)室常務(wù)副主任黃麗華則表示,數(shù)據(jù)驅(qū)動(dòng)三大變革,包括經(jīng)濟(jì)結(jié)構(gòu)、創(chuàng)新范式、企業(yè)模式。面向大模型,數(shù)據(jù)要素市場(chǎng)大有可為,多層次數(shù)據(jù)要素市場(chǎng)的建設(shè)將提供重要助力。多層次數(shù)據(jù)要素市場(chǎng)的建設(shè)需要有明確的數(shù)據(jù)需求應(yīng)用場(chǎng)景,數(shù)據(jù)要素產(chǎn)權(quán)制度可以提供重要支撐,合規(guī)安全機(jī)制提供保障,基于這樣的一個(gè)市場(chǎng),數(shù)據(jù)產(chǎn)品低成本、大規(guī)模可得才有可能實(shí)現(xiàn),才能更好地賦能商業(yè)高效應(yīng)用,促進(jìn)數(shù)字化轉(zhuǎn)型。未來,顛覆性創(chuàng)新一定是基于“數(shù)據(jù)+人工智能+行業(yè)專業(yè)知識(shí)”發(fā)生的。
標(biāo)簽: