大模型還在“亂戰(zhàn)”,數(shù)據(jù)商先賺一波 | 創(chuàng)新者Innovator
聲明:本文來(lái)自于微信公眾號(hào) 全天候科技(ID:iawtmt),作者:胡描,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
算法、算力、數(shù)據(jù),是AI技術(shù)發(fā)展的三大要素。
其中算力、數(shù)據(jù)提供商們,被看作為AI時(shí)代中的“賣水人”。
【資料圖】
在算力賽道上,生產(chǎn)了A100、H100GPU的英偉達(dá),一度擠入了與亞馬遜、蘋果、微軟等同列的萬(wàn)億美金市值梯隊(duì)。
而數(shù)據(jù)服務(wù)商們也成為了“既得利益者”。即便國(guó)內(nèi)大模型還處在“亂戰(zhàn)”之中,資本已經(jīng)給予了數(shù)據(jù)服務(wù)商們足夠的“熱情”。
成立于2005年的海天瑞聲,是國(guó)內(nèi)最早從事AI訓(xùn)練數(shù)據(jù)的研發(fā)設(shè)計(jì)、生產(chǎn)及銷售業(yè)務(wù)的企業(yè)之一。今年以來(lái),海天瑞聲的市值從年初最低的17.5億左右,漲到了截至6月12日收盤的66.4億元,漲幅超過(guò)了270%。半年之中,其市值最高時(shí)一度飆升超過(guò)了110億元。
在一級(jí)市場(chǎng)上,據(jù)36氪報(bào)道,今年以來(lái)B輪及以前的十余家數(shù)據(jù)標(biāo)注平臺(tái),集體迎來(lái)了接近100%增幅的高估值。
對(duì)于海天瑞聲做的是一門什么樣生意的問(wèn)題,海天瑞聲CEO王曉東做了這樣一個(gè)比喻:
“現(xiàn)在叫數(shù)據(jù)時(shí)代新基建,我們公司是賣水泥的,提供的是高質(zhì)量水泥。無(wú)論你蓋什么樓,砌墻、打樓板、打地基,你都得需要水泥?!?/p>
作為一種剛需,AI大模型時(shí)代的到來(lái),對(duì)整個(gè)數(shù)據(jù)行業(yè)而言,意味著更多的機(jī)會(huì),更大的市場(chǎng),從業(yè)者們均不愿意錯(cuò)過(guò)。
在近期,海天瑞聲進(jìn)行了一場(chǎng)企業(yè)品牌煥新,英文名稱從“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞聲”不變。
王曉東表示:“此次品牌升級(jí)不僅是一個(gè)簡(jiǎn)單的改名,還代表著海天瑞聲將在數(shù)據(jù)科技和人工智能領(lǐng)域的進(jìn)一步發(fā)展和探索?!?/p>
但另一方面,行業(yè)也迎來(lái)了全新挑戰(zhàn)。
在技術(shù)上,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)成為了一項(xiàng)可能讓機(jī)器像人一樣思考的重要技術(shù)。其原理是將人類的反饋納入訓(xùn)練過(guò)程,為機(jī)器提供了一種自然的、人性化的互動(dòng)學(xué)習(xí)過(guò)程。眾所周知,RLHF 也是ChatGPT 成功的秘密武器。
而傳統(tǒng)的數(shù)據(jù)標(biāo)注停留在更加基礎(chǔ)的階段,難以滿足AI大模型的需求。
海天瑞聲CTO黃宇凱也用了一個(gè)比喻形容傳統(tǒng)數(shù)據(jù)標(biāo)注與RLHF的區(qū)別:“以前教起來(lái)簡(jiǎn)單,這個(gè)學(xué)生是小學(xué)生或者幼兒園,現(xiàn)在學(xué)生成長(zhǎng)為初中生、高中生了,教他會(huì)更難一些?!?/p>
這不僅意味著數(shù)據(jù)企業(yè)需要對(duì)RLHF相關(guān)技術(shù)進(jìn)行更多的投入,還意味著對(duì)數(shù)據(jù)訓(xùn)練師的專業(yè)要求也在提高。
不能忽略的是,入局大模型之爭(zhēng)的互聯(lián)網(wǎng)企業(yè)、科技公司出于對(duì)自身核心數(shù)據(jù)的重視,也在加快布局?jǐn)?shù)據(jù)標(biāo)注團(tuán)隊(duì)。以百度為例,其擁有行業(yè)內(nèi)最大的自建標(biāo)注團(tuán)隊(duì),在山東濟(jì)南、山西臨汾、重慶奉節(jié)等10個(gè)地區(qū)有自建標(biāo)注基地。
相關(guān)數(shù)據(jù)標(biāo)注頁(yè)面 圖片來(lái)源:曼孚科技
這也讓第三方數(shù)據(jù)服務(wù)商的處境更加尷尬。
行業(yè)的洗牌已經(jīng)來(lái)臨,沒(méi)有資源積累、技術(shù)壁壘、人才儲(chǔ)備的數(shù)據(jù)企業(yè),將很難在這一輪洗牌中留下。而對(duì)于數(shù)據(jù)行業(yè)的頭部企業(yè)來(lái)說(shuō),“越洗越大”的機(jī)會(huì)也在來(lái)臨。
對(duì)于數(shù)據(jù)行業(yè)的發(fā)展、AI大模型時(shí)代給數(shù)據(jù)行業(yè)帶來(lái)的挑戰(zhàn)和機(jī)會(huì)、企業(yè)如何保持核心競(jìng)爭(zhēng)力等話題,全天候科技與黃宇凱進(jìn)行了一次對(duì)話。
以下為全天候科技與海天瑞聲CTO黃宇凱對(duì)話內(nèi)容,經(jīng)全天候科技整理:
1
數(shù)據(jù)是門怎樣的生意
全天候科技:從業(yè)這么多年中,你感受到AI行業(yè)或者是下游科技企業(yè),對(duì)數(shù)據(jù)的需求有哪些變化?順應(yīng)需求,你們?cè)谧瞿男I(yè)務(wù)調(diào)整和拓展?
黃宇凱:變化挺大的,2005年左右還是以語(yǔ)音數(shù)據(jù)為主,我們當(dāng)時(shí)做語(yǔ)音合成,后來(lái)做語(yǔ)音識(shí)別相關(guān)的數(shù)據(jù)服務(wù)。也會(huì)做一些NLP,比如說(shuō)與搜索相關(guān)的數(shù)據(jù)服務(wù),在2010年左右,搜索還是很熱的。然后是圖像圖片,有一陣子圖像識(shí)別很火,我們就去做圖像識(shí)別的數(shù)據(jù)。
我們永遠(yuǎn)是跟著AI下游的客戶的技術(shù)發(fā)展做各種突破,他們的數(shù)據(jù)需求我們都可以去提供服務(wù)。
2012年前后,深度學(xué)習(xí)突飛猛進(jìn)。數(shù)據(jù)集的需求不斷變化,從一開始的找貓找狗,識(shí)別率比較低,到后來(lái)學(xué)深度學(xué)習(xí)發(fā)展起來(lái),立馬提升了一個(gè)大臺(tái)階,原因是背后的范式發(fā)生了變化。深度神經(jīng)網(wǎng)絡(luò)復(fù)雜度越來(lái)越高以后,它的數(shù)據(jù)需求量就有了一個(gè)飛速增長(zhǎng)的過(guò)程。
我們可以說(shuō)半被動(dòng)地去接受,響應(yīng)技術(shù)的變化。以前可能幾十小時(shí),后來(lái)幾百小時(shí),以前可能一兩百人,后來(lái)要上千人,大規(guī)模的這種數(shù)據(jù)集業(yè)務(wù),對(duì)我們來(lái)說(shuō)都是很好的業(yè)務(wù)機(jī)會(huì)。
到這兩年,AI大模型起來(lái)了,我們看到(客戶)對(duì)數(shù)據(jù)的需求有新的變化,對(duì)我們來(lái)說(shuō)也有大量的新機(jī)會(huì)。我們要有一定的敏感度,要挖掘到大模型對(duì)數(shù)據(jù)的要求和傳統(tǒng)深度學(xué)習(xí)對(duì)數(shù)據(jù)要求有什么相同的地方,我們?cè)趺慈W(xué)習(xí)掌握它一樣的地方,利用好我們?cè)瓉?lái)的一些優(yōu)勢(shì)。
全天候科技:數(shù)據(jù)量的需求上去了,就需要企業(yè)在數(shù)據(jù)量上多去布局,多去搜集,現(xiàn)在還是誰(shuí)擁有的數(shù)據(jù)最多,誰(shuí)就有更多優(yōu)勢(shì)的階段嗎?
黃宇凱:這里有一個(gè)關(guān)鍵的點(diǎn)——數(shù)據(jù)量上去以后,設(shè)計(jì)其實(shí)很重要。
比如山東人說(shuō)普通話,你要做這樣一個(gè)語(yǔ)音識(shí)別的數(shù)據(jù)集,讓1000個(gè)山東人來(lái)說(shuō)普通話,你怎么選這1000個(gè)人?讓這1000個(gè)人說(shuō)什么樣的話?這里面是有很高的技術(shù)壁壘的。又比如某些語(yǔ)言里平翹舌音不分,我們要提供數(shù)據(jù)集,就要在平翹舌音的覆蓋面上盡量多放一些這種句子。
這些都需要語(yǔ)言學(xué)家去理解語(yǔ)言或者方言的特點(diǎn),要去設(shè)計(jì)數(shù)據(jù)集的結(jié)構(gòu)。
再舉一個(gè)圖像方面的例子,比如找貓找狗,不是說(shuō)有1000張、10000張貓的圖片,就是一個(gè)很好的數(shù)據(jù)集。要去判斷貓的種品種、顏色,又比如貓的姿態(tài)、體態(tài),在什么光線下拍的照片,在這張圖片里的占比、位置,要做出這么一張數(shù)據(jù)集,最好包含了多樣性,才是一個(gè)比較好的數(shù)據(jù)集,這背后是有一套的設(shè)計(jì)方案和邏輯的 。
我們的團(tuán)隊(duì)有很多的經(jīng)驗(yàn),大概知道客戶要做什么,對(duì)數(shù)據(jù)集的要求是什么,能設(shè)計(jì)出一個(gè)好的數(shù)據(jù)集。把數(shù)據(jù)集給到客戶后,他的算法團(tuán)隊(duì)拿這個(gè)數(shù)據(jù)去訓(xùn)練,讓他的訓(xùn)練效果很好,這樣客戶才愿意第二次、第三次來(lái)找我們。
全天候科技:如何設(shè)計(jì)數(shù)據(jù)集的結(jié)構(gòu)呢?怎樣的數(shù)據(jù)集才能算是好的數(shù)據(jù)集呢?
黃宇凱:數(shù)據(jù)集方案我們需要和客戶溝通不止一輪,客戶的算法團(tuán)隊(duì)從算法、訓(xùn)練模型的角度,我們從數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注處理的角度,兩者放在一起,才能變成一個(gè)更好的模型。
這個(gè)過(guò)程我們要來(lái)回碰,雙方的技術(shù)人員要去討論方案。第一版方案做出來(lái),我們還要去推導(dǎo)、精細(xì)調(diào)優(yōu)它,一版一版做。微軟、亞馬遜,國(guó)內(nèi)的BAT都是我們的頭部大客戶,我們和這些頭部大客戶的算法團(tuán)隊(duì)一起成長(zhǎng)。
像一些自動(dòng)駕駛領(lǐng)域的客戶,有些客戶對(duì)于什么樣的數(shù)據(jù)集能夠幫助他的算法做得更好,他一開始也不明確,因?yàn)樾袠I(yè)內(nèi)沒(méi)有標(biāo)準(zhǔn)。我們做的時(shí)候可以告訴他應(yīng)該如何調(diào)整,有的地方標(biāo)注精度99%就夠了,有的就需要99.9%,有些類型以靜態(tài)物為主,標(biāo)的時(shí)候可以粗一些,有些類型就需要標(biāo)的細(xì)一些……這些方案都是需要和客戶之間來(lái)回磨合,客戶慢慢就知道了。
他在成長(zhǎng),其實(shí)我們也在成長(zhǎng),所以我們和很多大客戶有很強(qiáng)的綁定關(guān)系。這個(gè)行業(yè)很多大客戶一般和一家數(shù)據(jù)公司合作以后,他不會(huì)輕易更換。因?yàn)閿?shù)據(jù)很關(guān)鍵,對(duì)核心數(shù)據(jù)供應(yīng)商的頻繁調(diào)整,對(duì)他其實(shí)是一個(gè)消耗。
而對(duì)我們來(lái)說(shuō),這些knowhow也可以服務(wù)一些其他的客戶。
2
做技術(shù)投入,太早太晚都不行
全天候科技:數(shù)據(jù)行業(yè)是否也是一個(gè)有先發(fā)優(yōu)勢(shì)的行業(yè),比如早期積累的數(shù)據(jù)集越多,服務(wù)了越多的客戶,做了足夠多的方案,你們的邊際成本也會(huì)下降?
黃宇凱:邊際成本肯定是有的。
最簡(jiǎn)單的一個(gè)例子,節(jié)省了磨合時(shí)間。我們的項(xiàng)目管理團(tuán)隊(duì)、供應(yīng)商,以及我們自建的標(biāo)注基地、標(biāo)注員之間,是有一個(gè)已經(jīng)磨合好的信任關(guān)系的。初期磨合可能難一些,順了以后形成了穩(wěn)定團(tuán)隊(duì),項(xiàng)目的輸出能力就是很強(qiáng)的,數(shù)據(jù)質(zhì)量也是有保證的,這是一個(gè)邊際效應(yīng)。
我們還有一類邊際效應(yīng)是我們的數(shù)據(jù)集產(chǎn)品,我們的業(yè)務(wù)形態(tài)里,接近一半是通過(guò)數(shù)據(jù)集的形式去賣的。
比如A客戶找我們一起來(lái)去打造一個(gè)算法,我們做出了一個(gè)很好的數(shù)據(jù)集,對(duì)他算法提升很不錯(cuò)。這里有一個(gè)商業(yè)邏輯,數(shù)據(jù)的擁有權(quán)是屬于客戶還是屬于我們,這是可以協(xié)商的事情。
知識(shí)產(chǎn)權(quán)完全歸他,我們的項(xiàng)目團(tuán)隊(duì)也能繼續(xù)服務(wù)其他客戶。很多客戶他不需要知識(shí)產(chǎn)權(quán),而我們擁有知識(shí)產(chǎn)權(quán),我們就可以對(duì)它做復(fù)賣。
我們管這些叫成品庫(kù),如果B客戶也想做相關(guān)的業(yè)務(wù),我就可以直接把庫(kù)賣給他。他拿到這個(gè)庫(kù)以后,可以用更短的時(shí)間迅速的做出一個(gè)好的產(chǎn)品。
我們目前在語(yǔ)音方面有近1000多個(gè)成品庫(kù),并且整個(gè)庫(kù)的質(zhì)量是很高的。基本上第二次復(fù)賣的時(shí)候,就除了銷售成本沒(méi)有其他成本,幾乎是100%毛利。
全天候科技:但現(xiàn)在大模型起來(lái)了,它對(duì)數(shù)據(jù)的需求也在發(fā)生變化,比如它用到的RLHF和傳統(tǒng)的數(shù)據(jù)標(biāo)注就不一樣,你們?cè)瓉?lái)的優(yōu)勢(shì)還會(huì)在嗎?
黃宇凱:RLHF就是我們經(jīng)常說(shuō)的強(qiáng)化學(xué)習(xí),它和傳統(tǒng)的數(shù)據(jù)標(biāo)注形式上不一樣,但本質(zhì)是一樣的。
舉個(gè)例子,讓AI寫一個(gè)摘要,以前做NLP的標(biāo)注你給個(gè)文章寫出來(lái)就行了。所謂摘要,就是給長(zhǎng)段的文本用三四句話歸納一下。標(biāo)注場(chǎng)景其實(shí)相對(duì)簡(jiǎn)單,比較直接。
而大模型時(shí)代里,同樣去訓(xùn)練大模型學(xué)會(huì)寫摘要的能力,就要用RLHF這種方式,數(shù)據(jù)標(biāo)注員做標(biāo)注就不是那么簡(jiǎn)單了。不僅要準(zhǔn)確,還要考慮到各方面的代表性,甚至語(yǔ)氣、長(zhǎng)度、篇幅,要求會(huì)很高。
但本質(zhì)都是一樣的,還是把人的知識(shí)通過(guò)那幾條、幾十條或者幾百條的數(shù)據(jù),教會(huì)這個(gè)模型。只是以前教起來(lái)簡(jiǎn)單,這個(gè)學(xué)生是小學(xué)生或者幼兒園,現(xiàn)在學(xué)生成長(zhǎng)為初中生、高中生了,教他會(huì)更難一些。以前可能普通老師就行,現(xiàn)在就得是碩士、博士畢業(yè)的老師才能做這個(gè)工作。
圖片來(lái)源:人人都是產(chǎn)品經(jīng)理
全天候科技:這是不是也對(duì)數(shù)據(jù)標(biāo)注員的專業(yè)素養(yǎng)提出一個(gè)更高的要求?
黃宇凱:是的,比方說(shuō)985、211畢業(yè)的學(xué)生,我不是開玩笑,是真的能招到這樣的一些人才來(lái)做數(shù)據(jù)學(xué)習(xí)。或者說(shuō)有一些技術(shù)點(diǎn)的人才,我們最近比較關(guān)注人才的工程化能力,特別是大模型訓(xùn)練的工程化能力這一塊。
以前我們這塊是不需要做太多的積累和投入的,所以這塊人員比較少,現(xiàn)在到大模型時(shí)代,我們需要有這樣的人,我們也會(huì)去定向招聘這樣的人才。
全天候科技:海天瑞聲對(duì)于大模型的關(guān)注可能更早,你們有在提前布局跟大模型相關(guān)的業(yè)務(wù)嗎?
黃宇凱:我們關(guān)注比較早,GPT2的時(shí)候我們就開始關(guān)注。今年大模型起來(lái)了,我們判斷后再去做的投入,我們還是相對(duì)謹(jǐn)慎的。因?yàn)榧夹g(shù)投入有一定的風(fēng)險(xiǎn),要去判斷、預(yù)測(cè)未來(lái)技術(shù)方向到底在哪,因?yàn)榧夹g(shù)方向有可能會(huì)變。
去年大家都不知道今年大模型會(huì)火成這個(gè)樣子,國(guó)內(nèi)現(xiàn)在學(xué)術(shù)界也開始關(guān)注這些事情。在這些基礎(chǔ)上,我們從上到下也會(huì)去投入做學(xué)習(xí)理解。另一面也是看客戶,我們有非常高水平的客戶群,他們會(huì)有很多的反饋給到我們。
Q:現(xiàn)在會(huì)不會(huì)晚了?今年需求肯定急速增長(zhǎng),如果沒(méi)有提前布局,會(huì)抓不住這些機(jī)會(huì)嗎?
黃宇凱:我覺(jué)得早、晚都是有可能的,就像中國(guó)在大模型上,肯定已經(jīng)晚了。只是晚多久的判斷,有些人說(shuō)幾個(gè)月,悲觀的人認(rèn)為晚兩年。國(guó)外也是,Google它也晚了。
對(duì)我們數(shù)據(jù)公司來(lái)說(shuō),現(xiàn)在我們會(huì)做一些投入,就像幾年前我們做自動(dòng)駕駛,要去判斷什么時(shí)候切入自動(dòng)駕駛。
一開始我們做自動(dòng)駕駛也是有一些零散的項(xiàng)目找過(guò)來(lái),我們自己會(huì)去研究一些技術(shù)和論文,看看自動(dòng)駕駛到底在一個(gè)怎樣的水平,然后做一些有限的投入。隨著商業(yè)的節(jié)奏,我們的技術(shù)節(jié)奏也起來(lái)了。
如果你永遠(yuǎn)擔(dān)心晚了,永遠(yuǎn)是早投,你會(huì)面臨浪費(fèi)的問(wèn)題,這個(gè)度它也沒(méi)有什么標(biāo)準(zhǔn)答案。
至少我們現(xiàn)在和中國(guó)行業(yè)里做大模型的節(jié)奏差不多。我們做了一些投入研究,一些原來(lái)我們不擅長(zhǎng)的再補(bǔ)補(bǔ)課,原來(lái)擅長(zhǎng)的再加深一下。在業(yè)務(wù)側(cè),像RLHF有些項(xiàng)目在持續(xù)推進(jìn),這也不是說(shuō)一兩周、一兩個(gè)月的事情,已經(jīng)比較長(zhǎng)時(shí)間了。
3
大模型時(shí)代的數(shù)據(jù)行業(yè)洗牌
全天候科技:今年以來(lái),AI大模型的熱度超過(guò)了所有行業(yè),許多投資人也在試圖找數(shù)據(jù)標(biāo)注企業(yè)進(jìn)行投資。對(duì)于AI的“數(shù)據(jù)商”們來(lái)說(shuō),這是一個(gè)怎樣的階段?
黃宇凱:數(shù)據(jù)行業(yè)是一個(gè)非常好的賽道,(AI)技術(shù)越往后發(fā)展,它越是以數(shù)據(jù)為載體來(lái)做傳播,所以數(shù)據(jù)會(huì)越來(lái)越重要。
大模型發(fā)展起來(lái)以后,AI也開始平民化,以前AI也是無(wú)處不在,目前AI感覺(jué)更厲害,觸角伸到各行各業(yè),它背后或多或少都有數(shù)據(jù)的需求。對(duì)我們數(shù)據(jù)行業(yè)來(lái)說(shuō),這個(gè)市場(chǎng)就會(huì)非常大,就看你能不能抓住這個(gè)機(jī)會(huì)。
做好技術(shù)投入、資源管理、knowhow積累,把自己壁壘越建越高,那就行了。如果你不好好做這些事情,你可能就失去這個(gè)機(jī)會(huì)了。
全天候科技:很多互聯(lián)網(wǎng)、科技公司在做AI大模型的時(shí)候,也在搭建自己的數(shù)據(jù)團(tuán)隊(duì),也在搶奪人才,他們的加入,對(duì)數(shù)據(jù)行業(yè)會(huì)有怎樣的影響?
黃宇凱:我覺(jué)得這個(gè)行業(yè)會(huì)是一個(gè)長(zhǎng)期共存的狀態(tài),有三類企業(yè)會(huì)一直存在。一類就是算法公司自建團(tuán)隊(duì),一類是像我們這樣的專業(yè)數(shù)據(jù)服務(wù)提供商,第三類是我們的上游供應(yīng)商,會(huì)給我們提供人力外包。
這個(gè)行業(yè)這么多年來(lái),不管你是機(jī)器學(xué)習(xí)階段、深度學(xué)習(xí)時(shí)代,還是大模型時(shí)代,都有共存的關(guān)系。
客戶不自建團(tuán)隊(duì)了,全部找我們這家公司,我覺(jué)得也不可能。因?yàn)樗麄儍?nèi)部有一些最高級(jí)別的數(shù)據(jù)安全要求,或者內(nèi)部有其他數(shù)據(jù),大公司總是會(huì)保留一定的自建團(tuán)隊(duì)。
但我也不覺(jué)得他們會(huì)把我們的份額都拿走,因?yàn)榇_實(shí)存在一些競(jìng)爭(zhēng)的問(wèn)題,導(dǎo)致客戶互相之間是隔離的,特別是很重要的數(shù)據(jù),互相之間肯定會(huì)屏蔽。對(duì)于這些壁壘,海天有這么多的資源,全球的采集能力,說(shuō)實(shí)話也不是隨便一家公司能有的。
Q:作為一個(gè)中立的數(shù)據(jù)服務(wù)商,你們可以給大廠提供哪些方面的數(shù)據(jù)補(bǔ)充?如果只是第三方,是否意味著你們只能做一些邊緣業(yè)務(wù)?
黃宇凱:我覺(jué)得他們需要什么我們都可以做。很多人認(rèn)為大廠做什么都行,因?yàn)榇髲S有所謂的生態(tài)。國(guó)內(nèi)大廠經(jīng)常是什么都想做,但最終還是會(huì)有很多業(yè)務(wù)劃分出來(lái),形成一個(gè)生態(tài)上下游關(guān)系,這是正常的技術(shù)發(fā)展的趨勢(shì)。
我不覺(jué)得我們是邊緣業(yè)務(wù),他們有數(shù)據(jù),但要用起來(lái)那才叫有用。而從那么多數(shù)據(jù)里面,把有用的挑選出來(lái),這個(gè)過(guò)程相當(dāng)于把數(shù)據(jù)做蒸餾,這個(gè)才是核心技術(shù)。
這部分技術(shù)就是我們的knowhow。就像銀行的某個(gè)數(shù)據(jù),這是他有的,但是我知道怎么把這類數(shù)據(jù)用最高效的方式、最節(jié)約成本,最快的速度變成他的算法。
Q:AI大模型它對(duì)數(shù)據(jù)的需求變化,會(huì)讓數(shù)據(jù)提供商行業(yè)有一個(gè)洗牌嗎?什么樣的企業(yè)更能夠適應(yīng)這個(gè)時(shí)代,而什么樣的企業(yè)可能被這個(gè)時(shí)代拋下了?
黃宇凱:更關(guān)注技術(shù)、對(duì)商業(yè)敏感的企業(yè),更關(guān)注資源、有資源積累的企業(yè),更關(guān)注安全合規(guī)的企業(yè),在這三類上關(guān)注度比較高的企業(yè)更容易活下來(lái)。
技術(shù)的投入是需要代價(jià)的,但如果有些企業(yè)在技術(shù)投資上長(zhǎng)期處于謹(jǐn)慎狀態(tài),投入比較少,長(zhǎng)期來(lái)說(shuō)它的護(hù)城河就不夠,那就慢慢會(huì)有風(fēng)險(xiǎn)。像我們這種頭部企業(yè),我們一直非常注重技術(shù)的投入、資源的培養(yǎng),以及合規(guī)這三塊,也有持續(xù)的投入,在洗牌的過(guò)程中也會(huì)越洗越大。
相對(duì)來(lái)說(shuō),市場(chǎng)占比小的企業(yè)更可能被洗掉。特別是剛才提到的第三類,提供人力外包的這些公司,說(shuō)實(shí)話他們可能真的要想清楚他們的壁壘在哪,不然他們有可能會(huì)被替換掉。
標(biāo)簽: