
作者 | 柴旭晨
編輯 | 張曉玲
面對如今科技圈言必稱“AINative”的熱潮,阿里云資深副總裁、數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛卻顯得頗為冷靜,甚至主動給這股熱潮“降了降溫”。
阿里云數(shù)據(jù)庫產(chǎn)品技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)在1月20日向華爾街見聞直言,現(xiàn)在很多廠商喊出的“AI原生”口號其實有些“大躍進(jìn)”了。相比于急著貼上“原生”的標(biāo)簽,阿里云PolarDB選擇了一個更務(wù)實的目標(biāo)——先做到“AI Ready(AI就緒)”。
為了讓大家聽懂什么是“AI就緒”,李飛飛用了一個直觀的“4+1”公式。
想象一下,以前的數(shù)據(jù)庫像是一個整齊劃一的檔案柜,只存文字和表格。但AI時代的數(shù)據(jù)五花八門,有圖片、有視頻、有日志。所以,“AI就緒”的第一步就是讓數(shù)據(jù)庫變成一個“大湖”,既能存表格,也能存這些雜亂的數(shù)據(jù),這叫做“Lakebase(湖庫一體)”。緊接著,數(shù)據(jù)庫得學(xué)會像圖書管理員一樣,通過統(tǒng)一的元數(shù)據(jù)管理,把這些海量且碎片化的信息梳理清楚。
更有趣的改變在于讓數(shù)據(jù)庫“長出腦子”。
李飛飛解釋說,大模型雖然聰明,但它學(xué)到的都是過去的數(shù)據(jù)。如果你問它“今天PolarDB大會來了多少人”,它肯定答不上來,因為它不知道此時此刻正在發(fā)生的事。這就是數(shù)據(jù)庫的價值所在——它掌握著最新的“熱數(shù)據(jù)”。通過在數(shù)據(jù)庫里直接運行AI模型(模型算子化),讓大模型能實時讀取最新的熱數(shù)據(jù),這樣AI就不會“產(chǎn)生幻覺”,能回答當(dāng)下的問題。
至于那個“+1”,指的就是要跟上硬件漲價的步伐。最近內(nèi)存價格瘋漲,阿里云通過技術(shù)手段把硬件資源“池化”,就像共享單車一樣,讓大家共享昂貴的內(nèi)存和算力,從而把成本打下來。
既然現(xiàn)在只是“就緒”,那什么樣的數(shù)據(jù)庫才配叫“AI原生”呢?李飛飛給出一個非常犀利的判斷標(biāo)準(zhǔn),他把這比作運動員的體格檢查。
他說,這就好比一個人自稱是國家級運動員,光看外表不行,得測體脂率。如果體脂率還在20%以上那就別吹牛了;只有降到5%以下,才具備世界級運動員的身體素質(zhì)。
對應(yīng)到數(shù)據(jù)庫上,李飛飛認(rèn)為真正的“AI原生”必須達(dá)到兩個硬指標(biāo):第一,你的數(shù)據(jù)庫用戶里,至少有一半不是人類,而是AIAgent(智能體);第二,數(shù)據(jù)庫輸出的內(nèi)容里,有一半不是傳統(tǒng)的表格數(shù)據(jù),而是AI能讀懂的Token(語義單位)。只要沒達(dá)到這兩個標(biāo)準(zhǔn),現(xiàn)在喊“AI原生”大多是在講故事。
雖然李飛飛在概念定義上很克制,但在實際應(yīng)用上,企業(yè)們的動作卻很快。
以造車新勢力理想汽車為例,他們就沒有把PolarDB僅僅當(dāng)成一個存數(shù)據(jù)的倉庫,而是把它變成了一個智能處理中心。理想汽車?yán)肞olarDB的一站式能力,不僅完成了數(shù)據(jù)的清洗和打標(biāo),還在數(shù)據(jù)庫內(nèi)部直接進(jìn)行特征提取和推理。
這意味著,從車輛產(chǎn)生的數(shù)據(jù)到最終的智能決策,數(shù)據(jù)不需要搬來搬去,在數(shù)據(jù)庫內(nèi)部就完成了“化學(xué)反應(yīng)”。這種用法,正是李飛飛口中“AI就緒”的最佳樣本。
除了技術(shù),王遠(yuǎn)還特別提到了一筆經(jīng)濟(jì)賬。在AI時代,不僅算力貴,連存數(shù)據(jù)的內(nèi)存都在漲價,未來可能還要翻好幾倍。這時候,云數(shù)據(jù)庫的優(yōu)勢就體現(xiàn)出來了。
如果不使用云技術(shù),企業(yè)自己買服務(wù)器,成本會越來越高。而PolarDB通過“Serverless(無服務(wù)器化)”技術(shù),可以做到極致的彈性——沒任務(wù)的時候甚至可以不占用計算節(jié)點,來了任務(wù)秒級啟動。這種“用多少付多少”的模式,是在硬件漲價周期里幫企業(yè)省錢的關(guān)鍵。
可以說,阿里云這次傳遞的信號很明確:在通往未來的路上少玩概念多練內(nèi)功。畢竟,只有當(dāng)AI智能體真正接管了數(shù)據(jù)庫的讀寫,那個傳說中的“AI原生時代”才算真正到來。
以下是與阿里云資深副總裁兼數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人李飛飛、阿里云數(shù)據(jù)庫產(chǎn)品事業(yè)部產(chǎn)品管理與技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)的對話實錄:
問:從云原生數(shù)據(jù)庫到AI就緒的怎樣理解“AI就緒”?
李飛飛:從原生到AI就緒,我和王遠(yuǎn)分享里面再三講到這個點我認(rèn)為“4+1”4個點加1個底座。一是存儲層走向lakebase,數(shù)據(jù)庫原來面向結(jié)構(gòu)化的數(shù)據(jù)存儲和湖的面向semanticshortcut,甚至answershortcutdata的存儲結(jié)合起來,是第一個lakebase。這在AI時代,AIready非常重要,因為AI時代,能處理的數(shù)據(jù)類型極大豐富了,因為我可以做embedding,可以做特征提取,多模態(tài)檢索,這是必要的第一步,走向AIready,所以是lakebase。
第二是源數(shù)據(jù)的統(tǒng)一管理,AI時代的特點是數(shù)據(jù)源特別多,有日志、有交易產(chǎn)生的數(shù)據(jù),甚至圖片、文本、音視頻,并且每一類數(shù)據(jù)類型、數(shù)據(jù)量特別大,同一類型的數(shù)據(jù)量和數(shù)據(jù)源特別多,所以元數(shù)據(jù)的統(tǒng)一關(guān)系變得很重要。以前的元數(shù)據(jù)幾百G、1T、2T,元數(shù)據(jù)可能就幾兆,現(xiàn)在元數(shù)據(jù)就上T,所以元數(shù)據(jù)的統(tǒng)一管理這里面變成很關(guān)鍵的抓手了,而且元數(shù)據(jù)要實時更新,我們把以前做的ZEroETL技術(shù)在是數(shù)據(jù)面的是dataplan技術(shù),集成到元數(shù)據(jù)的管理上。數(shù)據(jù)源發(fā)生變化,matterdata信息發(fā)生變化,我們可以實時同步到元數(shù)據(jù)管理這層,總結(jié)來講是matterformetters(音),元數(shù)據(jù)的統(tǒng)一管理。這是第二個關(guān)鍵能力。
第三個關(guān)鍵能力是多模態(tài)的檢索和處理,從結(jié)構(gòu)化走向半結(jié)構(gòu)化、非結(jié)構(gòu)化融合,結(jié)合embedding能力,向量、全文檢索等多模態(tài),這是第三。
第四個里面有兩個小點:模型算子化+AgentAI的支持,這兩個是有機(jī)在一起的。要在數(shù)據(jù)庫里面做模型推理服務(wù),在一年多前我們提出模型算子化,很多人不是很理解為什么干這個事兒?現(xiàn)在看非常自然,因為模型會吞噬所有數(shù)據(jù),冷數(shù)據(jù)、溫的數(shù)據(jù)全部會被模型吞噬掉,冷數(shù)據(jù)意義不大了,是模型參數(shù)的一部分。甚至溫數(shù)據(jù)今天通過lora微調(diào)技術(shù),也可以做到半實時地更新到模型里。
唯一目前看,不能被模型實時吞噬掉的數(shù)據(jù)就是熱數(shù)據(jù)。因為模型今天不具備實時增刪改查的能力,熱數(shù)據(jù)一定是持久的、長期的有非常大的價值,那模型如果沒有熱數(shù)據(jù)的加持,會產(chǎn)生幻覺,對事實不能理解。
熱數(shù)據(jù)和模型在線推理的時候產(chǎn)生化學(xué)反應(yīng),這是為什么我們在數(shù)據(jù)庫里做模型算子化。未來一定是token的世界,未來在接下來一年token可能漲100倍甚至1000倍,全世界的token量。這些token怎么被消耗?對大多數(shù)企業(yè)和個人,直接totoken,不知道怎么用的。像人一樣,直接給他鐵、銅、金不知道怎么用,但是你給他金項鏈、金手鐲,他知道怎么用。所以一定要場景化使用token,模型算子化和熱數(shù)據(jù)的結(jié)合就這個價值。
場景化還有一個邏輯,模型算子化了,熱數(shù)據(jù)實時轉(zhuǎn)成token,怎么場景化使用?要有各種各樣的Agent,面向AgentAI,開發(fā)Agent、部署Agent、verticaAgent跑在數(shù)據(jù)庫上,這也是非常重要的能力。這是第四個方向,模型算子化+AgentAI的支持,這是數(shù)據(jù)庫走向AIready的四個關(guān)鍵要素,lakebase、元數(shù)據(jù)統(tǒng)一技術(shù)、多模態(tài)檢索和處理、模型算子化及AgentAI的支持。
“+1”是什么呢?一定要跟上硬件的發(fā)展步伐,所有的系統(tǒng),數(shù)據(jù)庫、database、只不過硬件隨著時間不斷變化。我們小時候一臺386、486,當(dāng)時內(nèi)存64K、32K,今天內(nèi)存我們PolarDB結(jié)合,公共云上現(xiàn)在已經(jīng)開通正式對外商業(yè)化服務(wù),單實力可以做到100多T內(nèi)存池化,可以掛載CPU+GPU推理節(jié)點的GPU,訪問同一個內(nèi)存池,底下存儲池化,所以硬件的優(yōu)化,包括像serialold的內(nèi)存池化、PD分離、KVcache這些結(jié)合硬件的能力。KVcache一定要結(jié)合硬件做,單從軟件層面做KVcache沒有意義,一定要結(jié)合硬件特點,GPU機(jī)頭里的DRAM,CPU機(jī)頭的DRAM,遠(yuǎn)端的DRAM,HBM,這些怎樣池化掉,還有和SSD這層。
所以結(jié)合硬件特點的持續(xù)迭代,內(nèi)存強(qiáng),剛才講數(shù)據(jù)庫最早發(fā)展的時候,關(guān)鍵挑戰(zhàn)就是內(nèi)存強(qiáng),到今天內(nèi)存強(qiáng)這個“幽靈”又回來了。剛才演講說,內(nèi)存在過去幾個月漲了30%—40%,接下來我們認(rèn)為內(nèi)存可能還要漲2到3倍。結(jié)合硬件的創(chuàng)新突破,這是“4+1”,AIready要干這么幾件事情。
問:各位談到數(shù)據(jù)庫使用成本進(jìn)一步降低,在降成本過程中,架構(gòu)優(yōu)化主要做了哪些內(nèi)容?
王遠(yuǎn):關(guān)于成本,為什么有這么大的性價比和成本優(yōu)勢,總結(jié)起來三個點:一是資源的池化,二是多租共享,三是彈性伸縮。首先時至今日,從云計算時代到AI時代,有一個邏輯是沒有變,只有規(guī)?;揭欢ǔ潭?才能夠有一定的成本優(yōu)勢或者成本紅利,才能把這些東西釋放給用戶,讓他享受到。所以PolarDB首先擁有云上最大規(guī)模的數(shù)據(jù)庫用戶,這是我們很高的護(hù)城河,所以決定了我們可以做這件事兒。
二是多租共享。技術(shù)層面,可以分存儲層做了什么,內(nèi)存做了什么,算力做了什么,存儲層這邊,剛才像李飛飛說了有冷、熱、溫三層數(shù)據(jù),如果所有數(shù)據(jù)都是熱數(shù)據(jù),那成本肯定是居高不下的。而對于一個企業(yè)和組織來講,大部分?jǐn)?shù)據(jù)有一定的溫屬性、冷屬性,需要的時候再翻出來,這時候PolarDB需要把自己進(jìn)入更多的高性價比的存儲介質(zhì),然后能對企業(yè)當(dāng)中的數(shù)據(jù)做分類存儲,但分類存儲不是把管理負(fù)擔(dān)轉(zhuǎn)嫁給用戶,需要數(shù)據(jù)庫內(nèi)部做智能化的冷熱分層,智能化的數(shù)據(jù)調(diào)度、跨界流轉(zhuǎn)和遷移,這是PolarDB存儲層做的第一件事,降成本。
內(nèi)存層,剛才說了CXL是我們大力推的技術(shù),CXL直觀地感受是有一個超大規(guī)模的遠(yuǎn)端內(nèi)存池,帶來的效果是遠(yuǎn)端內(nèi)存池可以復(fù)用的,多租共享復(fù)用的,它除了能夠做內(nèi)存高消耗的查詢分析加速以外,也可以做到租戶之間的共享。如果能夠把內(nèi)存利用率提高進(jìn)而帶動CPU的利用率提高這部分成本也是非??捎^的,結(jié)合目前內(nèi)存在瘋狂的漲價趨勢,未來會有更大的紅利,通過這種技術(shù)手段,釋放給用戶。
因為PolarDB選擇了一體化的架構(gòu),我們會把TP、AP,加IP一體化處理,它帶來技術(shù)上我們可以做的事情就是異構(gòu)算力的混合調(diào)度。我可以把GPU和CPU的算力可以混合調(diào)度起來,比如我們在PolarDB內(nèi)部做的,可以把spark框架和ray框架混部,這樣CPU和GPU可以綜合利用,同時CPU處理的東西,比如打標(biāo)操作、ETL操作用CPU處理完,可以根據(jù)CPU吞吐決定拉起多少GPU,處理下一步的embedding操作,這些方面在提效同時,也會帶來很可觀的降本操作。
產(chǎn)品形態(tài)上,我們也做了設(shè)計,我們主推的serverless,就是極致彈性的產(chǎn)品形態(tài)。未來我們認(rèn)為Agent是數(shù)據(jù)庫的主力用戶,有一個調(diào)研報告說,新建的數(shù)據(jù)庫可能有80-90%都是Agent自主創(chuàng)建的,那Agent是7×24小時的運行程序,它所帶來的工作負(fù)載是完全不一樣的,它有可能是高查詢、高并發(fā)或者大查詢的,也可能它一段時間內(nèi)就是不工作的。這時候彈性的能力,極端情況下可以零計算節(jié)點,只有數(shù)據(jù)存儲,沒有算力,但一旦有算力來,可以秒級拉起對應(yīng)計算節(jié)點,處理Agent或者用戶提交的任務(wù),通過產(chǎn)品形態(tài),我們也能夠保證在場競爭中有相應(yīng)的價格優(yōu)勢。
我們通過一系列的技術(shù)手段,加產(chǎn)品形態(tài)設(shè)計,保證產(chǎn)品在市場上的價格競爭力。
李飛飛:隨著存儲成本上漲,是周期性的事情,我們回頭看歷史,過一段時間存儲上漲,廠商提升產(chǎn)量,價格下來,但這次周期我個人認(rèn)為非常長,因為它是時代的變革。
所以短期可能三到五年,存儲的價格DRAM也好,整個HBM上漲,我個人認(rèn)為,過去這么多年我們沉淀的云原生技術(shù)和產(chǎn)品能力,會越來越有價值。之前有些客戶自建搞服務(wù)器,反正服務(wù)器不值錢,成本很低,這個時代一去不復(fù)返了,不做內(nèi)存池化、不做存儲池化,不做serverless,不做彈性調(diào)度,成本會越來越高。這是我對未來的判斷。
問:為了打造AI原生數(shù)據(jù)庫,阿里內(nèi)部不同產(chǎn)品能力打通上做了哪些努力?現(xiàn)在各家數(shù)據(jù)庫廠商都在打造智能化數(shù)據(jù)庫底座,PolarDB給開發(fā)者帶來的差異化體驗是什么?
李飛飛:阿里云所有產(chǎn)品最早和百煉打通的,一年多前我們在political開發(fā)者大會上,我們調(diào)模型跟百煉打通,還是有一些質(zhì)疑的聲音,你們?yōu)槭裁锤蛇@個事?,F(xiàn)在回頭看,絕對是輕舟已過萬重山,是絕對應(yīng)該干的事情。
可以給大家講,PolarDB以及整個瑤池數(shù)據(jù)庫的token量增長,在過去短短幾個月的增長超過100倍。就是通過瑤池數(shù)據(jù)庫的產(chǎn)品,PolarDB靈洞、RDS、ADB調(diào)百煉也好,調(diào)模型算子化的服務(wù)也好,調(diào)pai,我們token消耗量增加了100倍,短短幾個月內(nèi),爆發(fā)式的增長。
二集成了哪些產(chǎn)品?百煉、pai,pai提供了定制化的模型推理服務(wù)能力和微調(diào)能力。
三我們自己做了模型算子化的服務(wù),這樣我們在SLA彈性瞬間爆發(fā)上,自己也可以做overflow提供模型推理的能力,這是模型算子化。而且所有這些通過SQL語句或API。接下來我們重點做的事情,當(dāng)然我們已經(jīng)具備了這個能力,但不完美,除了SQLAPI,開放的SDK,我們接下來要支持自然語言。自然語言用大模型自然語言方式來無縫調(diào)用所有這些,從TP到HP、IP全部打通。這是我們目前的情況。
這是和AI直接相關(guān)的,AI和存儲團(tuán)隊、計算團(tuán)隊,阿里的存儲計算都是深度集成的?;貞?yīng)您剛才的問題,AI方向?qū)恿四男┊a(chǎn)品。
王遠(yuǎn):剛才分享的時候有一個觀點,未來數(shù)據(jù)庫用戶不僅僅是現(xiàn)在的開發(fā)者,還有更多的普通用戶,未來我們也認(rèn)為他是數(shù)據(jù)庫的直接用戶,因為大模型能力讓我們的數(shù)據(jù)庫未來真的很大概率具備直接服務(wù)普通用戶的能力,基于這個假設(shè),開發(fā)者的體驗,首先傳統(tǒng)數(shù)據(jù)類開發(fā)者我們做了哪些體驗化的提升?到今天為止,PolarDB選擇的就是一體化的路,在AI時代一體化的路,就是選擇了lakebase的技術(shù)路徑。它從傳統(tǒng)的云原生關(guān)系型的數(shù)據(jù)庫處理結(jié)構(gòu)化數(shù)據(jù),到現(xiàn)在對非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),所有多模態(tài)數(shù)據(jù)的全力處理能力的支持。
具體到面向開發(fā)者提供的能力,最基礎(chǔ)的向量。向量能力一定會提供給開發(fā)者的,對AI時代來講,向量一定是最通用的一類數(shù)據(jù)表征,我們認(rèn)為AI時代如果數(shù)據(jù)庫不支持向量,基本上不能說這是AI時代的數(shù)據(jù)庫,除了向量還不夠,因為向量只是其中一種表征,對于一個企業(yè)或組織應(yīng)用來講,多模態(tài)的數(shù)據(jù)管理是關(guān)鍵,特別是一些企業(yè)的經(jīng)驗和知識。
比如持續(xù)施工的數(shù)據(jù)、graph數(shù)據(jù)、全文數(shù)據(jù),大量業(yè)務(wù)標(biāo)簽都是全文數(shù)據(jù),這些東西都要提供一體化的多模管理能力。再往上我們需要對于開發(fā)者更好地體驗來講就是數(shù)據(jù)庫和應(yīng)用走得越來越近,這個基礎(chǔ)上,提供一些一體化rag能力。還有circle里引入模型算子,能夠讓我們開發(fā)者至少在circle里方便集成大模型能力,不管大模型部署在數(shù)據(jù)庫內(nèi)部還是以MaaS方式提供的遠(yuǎn)程調(diào)用服務(wù),都能夠給開發(fā)者提供一體化的透明的服務(wù)方式。這是我們定義面向開發(fā)者的體驗?zāi)芰ι墶?/p>
面向普通用戶,我們認(rèn)為未來更大的增長空間是在這,或者說數(shù)據(jù)庫要能夠出圈,比如超出數(shù)據(jù)圈,進(jìn)入AI圈,或者跟AI走得近的時候,下一步的體驗更關(guān)鍵。比如自然語言交互和多模態(tài)交互,這個能力是我們現(xiàn)在PolarDB已經(jīng)給用戶提供了,未來這個可能會是主流,我們認(rèn)為未來一定基于命令行的交互,基于工具的交互會存在,會存在于Agent和數(shù)據(jù)庫之間的交互,通過命令行和腳本交互,而用戶和數(shù)據(jù)庫的交互一定是通過自然語言、多模態(tài)更直覺的交互方式提升我們的用戶體現(xiàn)。
第二我們希望數(shù)據(jù)庫對數(shù)據(jù)的管理更貼近人的思維方式。具體表達(dá)是什么呢?除了我在管理數(shù)據(jù),管理schema(音)的時候,我們需要對知識、對記憶做管理,包括我的知識怎么組織,我的記憶,工作記憶、事實性的記憶,經(jīng)驗性的記憶,怎么管理流轉(zhuǎn),這些東西我們希望PolarDB能夠提供對應(yīng)的記憶管理能力或知識管理能力。
第三對于智能體開發(fā)應(yīng)用的支持。未來我們希望PolarDB作為datacentric的AIinfrastructure,我們對PolarDB是抱有厚望的。
問:AIready階段,從2022年到2025年,四年的時間,剛才分享了四大能力,包括模型算子、多模態(tài)處理能力,我們到了2026年年初階段,具備了四大能力以后,真正完成了AIready階段了嗎?
李飛飛:今天開發(fā)者大會講的能力是AIready的connected data base,今天有些數(shù)據(jù)庫廠商已經(jīng)喊出AInative,我們還是實事求是,不想那么喊,因為AI賽道本身還在快速演進(jìn),一天一個樣。中國卷14個小時睡覺,美國人白天開始接著卷,全球接力卷,而且兩邊還不是完全接力,overlap,我們干14小時,人家也干14小時,我們還沒睡覺的時候人家已經(jīng)起來干活了,我們準(zhǔn)備睡覺的時候,他們接著干。
AI賽道,現(xiàn)在喊AInative過早,因為AI本身還在快速變革,這是為什么我們堅定喊AIready,不要喊AInative,現(xiàn)在喊AInative我覺得是大躍進(jìn),誰喊AI native data base誰就是大躍進(jìn)。因為AI本身在快速變革,就是AIready,回應(yīng)什么時候是AInative呢?以及AInative數(shù)據(jù)庫長什么樣子呢?我們可以暢想未來,沒有問題,對未來有判斷。我不認(rèn)為現(xiàn)在任何人做到了所謂的AInative,喊這個都是講故事,而我們講AIready是實時,一步一個腳印做到了。
第二AInative未來長什么樣?兩句話:(1)未來的世界一定是海量Agent使用數(shù)據(jù)庫的世界。(2)未來世界一定是tokendominant的事件。從這兩個標(biāo)準(zhǔn)衡量,數(shù)據(jù)庫是不是AInative了,比如這個數(shù)據(jù)庫上兩個關(guān)鍵標(biāo)準(zhǔn),比如你衡量一個運動員是不是國家級的運動員,我也可以說我是國家級運動員,但你不信。關(guān)鍵指標(biāo)體脂率,如果體脂率在20-25%,你說是國家級運動員扯了,起碼在5%以下了,世界級運動員,或者至少7%以下。你的基本運動素養(yǎng)要達(dá)到一定標(biāo)準(zhǔn)。
海量Agent使用數(shù)據(jù)庫,二是海量的token。如果一個數(shù)據(jù)庫進(jìn)入AInative時代衡量標(biāo)準(zhǔn)是它有多少實力是Agent在使用,數(shù)據(jù)庫至少一半的實力是Agent在使用,這是第一個標(biāo)準(zhǔn)。第二它的output,今天數(shù)據(jù)庫的output很多時候是表格,一行行。它的output,bytes來衡量,因為行和token沒法對比,沒關(guān)系我們cover到bytes,它的outputbytes的一半是token,做到這兩個就是AInative,還沒到的,拿照妖鏡照一下。
要做到哪些事情做到AI native data base呢?
以終為始,倒推,我要干到這兩件事,我需要干哪些東西?這是邏輯性地思考問題的框架,我要讓我實力的一半是Agent,突出bytes一半是token,我數(shù)據(jù)庫要做什么?就要堅定的剛才講的方向上持續(xù)迭代和演進(jìn),比如模型算子化、無縫集成模型調(diào)用能力,Agent,甚至不光是單Agent,多Agent編排、調(diào)用,marketAgent協(xié)同,數(shù)據(jù)庫里怎么支持,而且超級強(qiáng)的多租能力。SaaS場景是多Agent的雛形,未來多Agent一定比今天的SaaS還SaaS。所以多租隔離會變成剛性需求。
然后多版本迭代,AI推理的無縫集成,還有rag知識庫,這是我們剛才講的,rag就是多模態(tài)檢索,實時知識的更新embedding,這是未來AInative的關(guān)鍵特點。還有無縫自然語言查詢,甚至不是查詢,而是自然語言定義問題,從問題直接到查詢,到action。
為什么我講action?淘寶電商講,訂單系統(tǒng)下單,最終都是數(shù)據(jù)庫,所以數(shù)據(jù)庫是天然action發(fā)生的地方,只不過action以前是通過API的方式兌換它,以后AInative很有可能是Agent直接給數(shù)據(jù)庫下指令。數(shù)據(jù)庫就是action發(fā)生的地方。
千問APP打通了阿里所有的生態(tài),但萬變不離其宗,通過千問自然語言訂奶茶或者淘寶上下單,找這樣的衣服,它給你生成照片,你說要這樣的衣服淘寶里面下單,最終action發(fā)生在數(shù)據(jù)庫里面的,AInativedatabase一定是action發(fā)生的地方。
問:阿里系還有千問大模型以及現(xiàn)在很多原生Agent應(yīng)用前段時間千問APP算是國內(nèi)最早可以進(jìn)行在阿里系進(jìn)行跨應(yīng)用調(diào)用,PolarDB跟他們有沒有進(jìn)行探索性的合作,有沒有一些實踐性的經(jīng)驗?
李飛飛:有很多。剛才主論壇分享里面我們也請了百煉PD做分享,我們是深入?yún)f(xié)同。
王遠(yuǎn):現(xiàn)在這個時代,數(shù)據(jù)是燃料,數(shù)據(jù)庫是引擎,我們要更好給大模型輸動力,集團(tuán)肯定是我們很好的試驗田。千問前段時間和阿里整個打通,阿里云內(nèi)部是百煉不說最大的調(diào)用者,也是阿里云內(nèi)部最大調(diào)用者之一了,我們每天token消耗從年初到現(xiàn)在已經(jīng)翻了幾百倍,就是我們自己的消耗。
大家有沒有關(guān)注數(shù)據(jù)庫領(lǐng)域下半年除了大模型以外,還有一個比較火的概念,起源于一個開源項目superbase,它的理念是后端即服務(wù)。設(shè)計理念是以數(shù)據(jù)庫為核心,把企業(yè)級應(yīng)用所需要的后臺服務(wù),長在數(shù)據(jù)庫上。這個理念雖然很直接,但能想通的人非常了不起。
問:未來Agent可能存在很多跨應(yīng)用調(diào)用情況,上面是不是也要做很多智能體信任協(xié)議?
王遠(yuǎn):是的,像多人協(xié)同,MartinAgent系統(tǒng),atoa這套體系要支持的,Agent之間訪問肯定也需要互相健全的,剛才PolarDB在集成backendservice以后,并向支撐Astrategicapplication(音)這個方向做的時候,包括atoa,MCP這套東西,都需要納管進(jìn)來的。我剛才說的未來可能數(shù)據(jù)庫的終端用戶不太會使用命令行,但我說得未來比較長,短期內(nèi)肯定還是需要的。長期演進(jìn)我個人認(rèn)為,Agent是訪問數(shù)據(jù)庫的主力的話,那MCP、atoa甚至各種程序、腳本東西,都應(yīng)該是Agent自己寫、自己生成、自己調(diào)用,人就是給數(shù)據(jù)庫提問題。
問:現(xiàn)在阿里云的PolarDB還是AIready,不屬于AI原生,目前是誰在用?而一些客戶擔(dān)心所謂的AI原生有顧慮帶來更高成本。
李飛飛:今天有理想、度小滿等,當(dāng)然不是每個客戶實踐都用了AIready的產(chǎn)品能力,但理想絕對用了,我剛才分享也講了,它構(gòu)建一站式的數(shù)據(jù)平臺,從數(shù)據(jù)打標(biāo)清洗做embedding特征提取,再到和交易數(shù)據(jù)打通、熱數(shù)據(jù)打通,做在線推理,這些能力它全用了,本質(zhì)上lackbase+多模檢索+模型算子化和調(diào)用百煉,這幾個能力都用了。
另外我們有最佳實踐的書,后面也給了電子版的碼,大家可以掃一下,就是PolarDBAI實踐全景加速企業(yè)大模型應(yīng)用落地,里面有十幾個到二十個案例,都是頭部企業(yè)客戶,有各行各業(yè)。第一個問題舉了理想的例子,而最佳實踐PolarDB的AI能力,現(xiàn)在有哪些客戶在用,怎么用?已經(jīng)有超級無敵多的案例。這本書是總結(jié),大家可以看一下。待會兒二維碼大家掃一下。
AIready到AInative這些都是概念,今天我們不要做概念支撐,未來世界一定是AInative的世界,什么時候走到那個世界?我不知道,但它一定是加速實現(xiàn)的,但今天這個節(jié)點,我不認(rèn)為我們可以clam(音)到AInative。因為AI本身都在發(fā)生巨變,怎么定義什么叫AInative呢?這是我剛才講的邏輯。但我們每個人都在向AInative狂奔,包括PolarDB自己。這是剛才講的核心邏輯。
問:如果是傳統(tǒng)的組合,比如我用的搜索引擎+傳統(tǒng)數(shù)據(jù)庫或者說傳統(tǒng)數(shù)據(jù)庫+向量數(shù)據(jù)庫+內(nèi)存數(shù)據(jù)庫的組合,我遷到Agentic架構(gòu)下需要做什么改變,能得到什么收益?
王遠(yuǎn):面向AI oriented data infra要不要推倒重建及本質(zhì)是一個問題,你問我,不用。本身大家擁抱AI,特別是企業(yè)擁抱AI,應(yīng)該采用平滑遷移演進(jìn)的思想,但只是速度相比于傳統(tǒng)時代要加速,而不是被動地等著平滑升級,只是平滑升級的過程一定是加快的。
如果全盤推翻重建,不能說錯,但有一點過于激進(jìn)和冒險的選擇。所以PolarDB也是基于這個前提設(shè)計自己,怎樣支持用戶從傳統(tǒng)的IDC或傳統(tǒng)的架構(gòu),升級成云原生架構(gòu),進(jìn)一步升級成AIready的數(shù)據(jù)平臺,其實PolarDB有一整套的設(shè)計,具體說起來,可以說到三個點:
1.本身PolarDB是云原生關(guān)系型數(shù)據(jù)庫,這是基礎(chǔ)。引申到AI時代,PolarDB是我們熱數(shù)據(jù)的入口,所以PolarDB也一直會兼容PG和MySQL,和這兩個生態(tài)完整的兼容應(yīng)用,讓應(yīng)用遷過來不用改,我們還會提供積分一體的方案,平滑遷移的方案。這是要保證客戶在用PolarDB做datainfra或AIinfra升級的時候,現(xiàn)有應(yīng)用不中斷,更平穩(wěn)。因為要保證客戶業(yè)務(wù)正常運行,再做能力的升級,這是最直接最能夠讓人接受的方式,所以第一步PolarDB一定會做好熱數(shù)據(jù)的入口這關(guān),一定支持好所有TP在線類的業(yè)務(wù),并提供完整的平滑升級解決方案。
2.PolarDB自身關(guān)聯(lián)lakebase架構(gòu),因為熱數(shù)據(jù)進(jìn)來以后,會成功激活企業(yè)內(nèi)部的溫數(shù)據(jù)和冷數(shù)據(jù),所以PolarDB提供了溫數(shù)據(jù)、冷數(shù)據(jù)平滑入湖的方案,目前如果用傳統(tǒng)的架構(gòu),比如ES、MySQL、PG搞得在線庫,這些數(shù)據(jù)肯定都是割裂的,業(yè)務(wù)上一條數(shù)據(jù)發(fā)生變化,它在你的對象存儲、文件系統(tǒng)里,對應(yīng)的文件不可能發(fā)生變化的,所以PolarDB的lakebase架構(gòu),把所有的冷溫數(shù)據(jù)能夠做到一體化的集成納管,并能夠做到matedata之間的一致性和聯(lián)動。
就是說我增加一個業(yè)務(wù)標(biāo)簽,或者增加一條修改記錄,對應(yīng)到文件系統(tǒng)或?qū)ο蟠鎯ο到y(tǒng)上的rodata(音)會對應(yīng)的updata,這樣能夠真正做到多模數(shù)據(jù)的實時性、一致性的一體化更新。數(shù)據(jù)的一致性、正確性和實時性保證了之后,這是業(yè)務(wù)創(chuàng)新的基礎(chǔ),這是第二層,做到冷、熱、溫三層數(shù)據(jù)在保證一致性、正確性和實時性基礎(chǔ)上的聯(lián)動。
3.我們會提供一系列的讓客戶易于創(chuàng)新的支撐,包括我說的托管ray框架,為客戶處理數(shù)據(jù),更快托管superbase框架,能夠開發(fā)它的企業(yè)級應(yīng)用更快,跟MaaS集成、defend集成、coder集成全部都在做。你能想象的,任何開發(fā)方式的選擇,PolarDB都可以做很好地支持,因為選擇webcoding的企業(yè)有,但還有一部分企業(yè)為了保證業(yè)務(wù)流程平滑,會選擇workflow的方式,只不過workflow的過程中,每一個節(jié)點會引入Agent,保證效率更高,所以PolarDB作為數(shù)據(jù)平臺,需要支持各種各樣的AI轉(zhuǎn)型應(yīng)用,這方面我們會充分和生態(tài)兼容對接。
大概這三層:熱數(shù)據(jù)的入口、多模數(shù)據(jù)的管理和聯(lián)動,然后AI生態(tài)的兼容支持。這是我們給PolarDB提供的轉(zhuǎn)型升級方案的三個關(guān)鍵點。
問:過去幾年我們看到AI浪潮來臨以后,針對中小企業(yè)的價格普惠,曲線一直向下,尤其是阿里的公有云部分。另一方面又看到硬件一直在漲價。模型算子化和您說的AIready對過去的曲線有什么變化?另外對阿里云過去的收入模式或商業(yè)模式,有什么優(yōu)化提升的部分?
李飛飛:我們作為云計算本質(zhì)上,包括AI平臺化的公司,云計算和AI平臺化的公司,本質(zhì)上是規(guī)?;纳?生意的角度是規(guī)模。規(guī)模越大越能釋放規(guī)模成本下降的邏輯,邊際成本越低,越能給終端客戶釋放紅利,有越高的價值。
過去幾年我們持續(xù)做普惠的面向中小客戶的普惠降價,本質(zhì)是通過核心兩點:
1.技術(shù)創(chuàng)新,我們不斷做池化、多租、彈性,比單租的使用效率高,所以能釋放價格紅利,這是最核心的點。
2.規(guī)模,規(guī)模越大,越容易做彈性的調(diào)度。規(guī)模小怎么調(diào)?沒什么好調(diào)的。規(guī)模越大,騰挪空間越大,越能削峰填谷、彈性調(diào)度,釋放出規(guī)模效應(yīng)。
第一個點和第二個點有雙輪驅(qū)動的效果,所以我們能持續(xù)釋放紅利,讓大多數(shù)的企業(yè)客戶能吃到紅利,這是價格曲線的邏輯。
另外現(xiàn)在面對新一波內(nèi)存存儲周期性漲價,這波周期會相當(dāng)長,以前存儲價格跌到地板價了,存儲廠商不愿意生產(chǎn),它有產(chǎn)能,限制產(chǎn)能,所以價格上漲,價格一上漲總有一個人忍不住跳出來生產(chǎn),因為產(chǎn)能足夠的,價格馬上就打下來了。這一輪邏輯是產(chǎn)能根本不夠,不是他們故意踩剎車,需求爆發(fā)式增長,開足馬力,開足所有產(chǎn)能也滿足不了市場需求,所以這波存儲周期漲價是相當(dāng)長期的,底層邏輯是這個。
存儲漲價帶來整個鏈條上的價格上漲,通算服務(wù)器,智算,GPU今天大概率也會漲價,GPU里也有HBM、DRAM,底層一樣的。這波漲價是持續(xù)長周期的,但歷史角度看,最終它也有周期,當(dāng)AI變成非常成熟的產(chǎn)業(yè)的時候,變革沒有像今天這么快,每天發(fā)生變化的時候,就會回到周期性的周期,這是食物發(fā)展的客觀規(guī)律,而當(dāng)下這波周期會相對比較長。我的判斷。
怎么幫客戶創(chuàng)造價值呢?這個時代云計算廠商、AI平臺廠商能發(fā)揮更大的價值,能夠創(chuàng)造更大的客戶價值,比你自購資源、自己管理資源,越是在成本高的時候越能發(fā)揮更大價值,因為你有規(guī)模效應(yīng),任何單體客戶很難有這么大的,像云計算和AI廠商這么大的規(guī)模協(xié)同效應(yīng),邊際成本下降的邏輯。所以越是bombcost上漲的時候,平臺化的規(guī)模,運營的效率提升越有價值。
937
收藏




















