在1月5日的2026年國(guó)際消費(fèi)電子展(CES)上,英偉達(dá)首席執(zhí)行官黃仁勛發(fā)布了名為“推理上下文內(nèi)存平臺(tái)”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求。此舉標(biāo)志著AI硬件架構(gòu)的重心正從單純的算力堆疊向高效的上下文存儲(chǔ)轉(zhuǎn)移,NAND閃存和SSD有望接棒HBM,成為下一個(gè)關(guān)鍵的增長(zhǎng)引擎。
《韓國(guó)經(jīng)濟(jì)日?qǐng)?bào)》在1月24日的文章中介紹,黃仁勛在演講中展示了一個(gè)被稱為“推理上下文內(nèi)存平臺(tái)”(Inference Context Memory Platform,簡(jiǎn)稱ICMS)的神秘黑色機(jī)架。這并非普通的硬件更新,而是一個(gè)旨在解決人工智能推理階段數(shù)據(jù)瓶頸的關(guān)鍵創(chuàng)新。記者敏銳地捕捉到,這可能是繼HBM(高帶寬內(nèi)存)之后,存儲(chǔ)行業(yè)的下一個(gè)爆發(fā)點(diǎn)。
這一平臺(tái)的核心邏輯在于解決AI推理中的“KV緩存”(鍵值緩存)問題。隨著AI從單純的學(xué)習(xí)階段轉(zhuǎn)向大規(guī)模推理應(yīng)用,數(shù)據(jù)量呈爆炸式增長(zhǎng),現(xiàn)有的GPU顯存和服務(wù)器內(nèi)存架構(gòu)已難以滿足需求。英偉達(dá)通過引入全新的數(shù)據(jù)處理單元(DPU)和海量SSD(固態(tài)硬盤),構(gòu)建了一個(gè)龐大的緩存池,試圖打破這一物理限制。
這一技術(shù)變革對(duì)于韓國(guó)存儲(chǔ)巨頭三星電子和SK海力士來說,無疑是一個(gè)巨大的利好消息。報(bào)道認(rèn)為,隨著ICMS的推廣,NAND閃存將迎來類似HBM的“黃金時(shí)代”。這不僅意味著存儲(chǔ)容量需求的激增,更預(yù)示著存儲(chǔ)架構(gòu)的根本性變革——GPU將可能繞過CPU,直接與存儲(chǔ)設(shè)備進(jìn)行高速通信。
KV緩存爆炸式增長(zhǎng)引發(fā)存儲(chǔ)焦慮
韓媒文章指出,黃仁勛引入ICMS技術(shù)的核心動(dòng)因在于“KV緩存”的激增。在AI推理時(shí)代,KV緩存是AI理解對(duì)話上下文、進(jìn)行邏輯推理的關(guān)鍵。例如,當(dāng)用戶向AI詢問關(guān)于G-Dragon的復(fù)雜主觀問題時(shí),AI需要調(diào)用模型內(nèi)部數(shù)據(jù)和歷史對(duì)話上下文(即KV緩存)進(jìn)行權(quán)重分配和推理,以避免重復(fù)計(jì)算和幻覺。
隨著AI從單純的學(xué)習(xí)轉(zhuǎn)向推理,以及應(yīng)用場(chǎng)景向多模態(tài)擴(kuò)展,所需處理的數(shù)據(jù)量呈現(xiàn)不規(guī)則且爆炸式的增長(zhǎng)。英偉達(dá)發(fā)現(xiàn),僅靠昂貴的HBM或常規(guī)DRAM已無法容納海量的KV緩存,而現(xiàn)有的服務(wù)器內(nèi)部存儲(chǔ)架構(gòu)在應(yīng)對(duì)未來推理時(shí)代時(shí)顯得捉襟見肘。因此,一種能承載海量數(shù)據(jù)且保持高效訪問的專用存儲(chǔ)平臺(tái)成為剛需。
DPU驅(qū)動(dòng)的9600TB巨量空間
據(jù)韓媒文章,ICMS平臺(tái)的核心在于將DPU與超大容量SSD相結(jié)合。文章轉(zhuǎn)述英偉達(dá)介紹,該平臺(tái)采用了新的“BlueField-4”DPU,充當(dāng)數(shù)據(jù)傳輸?shù)摹靶姓笄诠佟?以減輕CPU負(fù)擔(dān)。一個(gè)標(biāo)準(zhǔn)的ICMS機(jī)架包含16個(gè)SSD托架,每個(gè)托架配備4個(gè)DPU并管理600TB的SSD,使得單個(gè)機(jī)架的總?cè)萘窟_(dá)到驚人的9600TB。
這一容量遠(yuǎn)超傳統(tǒng)GPU機(jī)架。相比之下,一套包含8個(gè)機(jī)架的VeraRubin GPU平臺(tái),其SSD總?cè)萘考s為4423.68TB。黃仁勛表示,通過ICMS平臺(tái),虛擬層面上將GPU的可用內(nèi)存容量從以前的1TB提升到了16TB。同時(shí),借助BlueField-4的性能提升,該平臺(tái)實(shí)現(xiàn)了每秒200GB的KV緩存?zhèn)鬏斔俣?有效解決了大容量SSD在網(wǎng)絡(luò)傳輸中的瓶頸問題。
開啟NAND閃存黃金時(shí)代
文章指出,ICMS平臺(tái)主要利用的是SSD,這直接利好NAND閃存制造商。過去幾年,雖然AI火熱,但鎂光燈主要集中在HBM上,NAND閃存和SSD并沒有受到同等程度的關(guān)注。
英偉達(dá)將該平臺(tái)定位為介于服務(wù)器內(nèi)部本地SSD和外部存儲(chǔ)之間的“第3.5層”存儲(chǔ)。與昂貴且耗電的DRAM相比,由高性能DPU管理的SSD具備大容量、速度快且斷電不丟失數(shù)據(jù)的優(yōu)勢(shì),成為存儲(chǔ)KV緩存的理想選擇。
這一架構(gòu)變革直接利好三星電子和SK海力士。由于ICMS對(duì)存儲(chǔ)密度的極高要求,市場(chǎng)對(duì)企業(yè)級(jí)SSD和NAND閃存的需求將大幅攀升。此外,英偉達(dá)正在推進(jìn)“Storage Next”(SCADA)計(jì)劃,旨在讓GPU繞過CPU直接訪問NAND閃存,進(jìn)一步消除數(shù)據(jù)傳輸瓶頸。
SK海力士已迅速響應(yīng)這一趨勢(shì)。據(jù)報(bào)道,SK海力士副總裁金天成透露,公司正與英偉達(dá)合作開發(fā)名為“AI-N P”的原型產(chǎn)品,計(jì)劃利用PCIe Gen 6接口,在今年年底推出支持2500萬(wàn)IOPS(每秒讀寫次數(shù))的存儲(chǔ)產(chǎn)品,并預(yù)計(jì)到2027年底將性能提升至1億IOPS。隨著各大廠商加速布局,NAND閃存和SSD有望在AI推理時(shí)代迎來量?jī)r(jià)齊升的新周期。
以下是韓媒文章全文,由AI翻譯:
英偉達(dá)首席執(zhí)行官黃仁勛在2026年國(guó)際消費(fèi)電子展(CES)上發(fā)布了一個(gè)神秘的內(nèi)存平臺(tái):“推理上下文內(nèi)存平臺(tái)”。今天,《科技與城市》欄目將深入探討它究竟是什么。
關(guān)鍵詞:KV緩存
在5日(當(dāng)?shù)貢r(shí)間)于拉斯維加斯舉行的NVIDIA Live大會(huì)上,NVIDIA首席執(zhí)行官黃仁勛在演講結(jié)尾談到了內(nèi)存平臺(tái)。我不禁豎起了耳朵。這會(huì)是下一個(gè)HBM嗎?
今日之星:黑色機(jī)架式 NVIDIA ICMS(推理上下文內(nèi)存存儲(chǔ))。圖片來源:NVIDIA首席執(zhí)行官黃仁勛指著的是VeraRubin人工智能計(jì)算平臺(tái)一角的一個(gè)黑色機(jī)架。這個(gè)機(jī)架,也就是我們今天故事的主角,里面存放著海量的存儲(chǔ)空間。
首先,讓我解釋一下黃仁勛引入這項(xiàng)技術(shù)的原因。我們應(yīng)該從“KV緩存”說起,黃仁勛CEO在官方場(chǎng)合經(jīng)常提到它。讀者朋友們,你們可能在最近關(guān)于GPU和AI硬件的文章中已經(jīng)多次聽到過KV緩存這個(gè)名字。
這個(gè)關(guān)鍵詞在AI推理時(shí)代至關(guān)重要。它關(guān)乎AI理解對(duì)話上下文和高效計(jì)算的能力。我們舉個(gè)簡(jiǎn)單的例子。假設(shè)你打開OpenAI的ChatGPT或Google Gemini,問一個(gè)關(guān)于韓國(guó)流行歌手G-Dragon的問題。
如果用戶問的是G-Dragon的音樂、時(shí)尚或事業(yè)等客觀信息,AI可以根據(jù)它學(xué)習(xí)到的信息回答。但是,聊了一會(huì)兒之后,用戶突然問:“那他為什么會(huì)成為他那個(gè)時(shí)代的‘偶像’呢?”這就好比問了一個(gè)沒有明確答案的論述題。這時(shí),AI就開始推理了。
這就是KV緩存的關(guān)鍵所在:鍵和值。首先是鍵。我們很容易理解,但人工智能使用鍵向量來清晰地識(shí)別對(duì)話上下文中問題中的“那個(gè)人”是誰(shuí),以及答案的主題和目標(biāo)(鍵)。然后,它會(huì)利用模型內(nèi)部關(guān)于G-Dragon以及在與用戶對(duì)話過程中收集到的各種數(shù)據(jù)(值)的中間計(jì)算結(jié)果,進(jìn)行權(quán)重分配、推理,最終得出答案。
如果沒有KV緩存,如果每個(gè)問題都像第一次一樣重新計(jì)算,GPU將重復(fù)兩到三次工作,從而降低效率。這可能導(dǎo)致人工智能出現(xiàn)幻覺和錯(cuò)誤答案。然而,KV緩存可以提高效率?;凇白⒁饬τ?jì)算”的推理,會(huì)重用從與用戶的長(zhǎng)時(shí)間對(duì)話中獲得的各種數(shù)據(jù)并應(yīng)用權(quán)重,速度更快,對(duì)話也更加自然。
圖片由 NVIDIA 提供隨著人工智能行業(yè)從學(xué)習(xí)向推理轉(zhuǎn)型,這種鍵值緩存不再僅僅是輔助存儲(chǔ)器。此外,所需的容量也在不斷增加。
首先,隨著越來越多的人將生成式人工智能融入日常生活,數(shù)據(jù)量的不規(guī)則激增不可避免。隨著圖像和視頻服務(wù)的加入,對(duì)人工智能高級(jí)推理和想象力的需求將進(jìn)一步增長(zhǎng),數(shù)據(jù)量還將呈爆炸式增長(zhǎng)。
隨著人工智能發(fā)現(xiàn)新信息的能力不斷提升,它會(huì)在與用戶的互動(dòng)過程中,在各種場(chǎng)景下創(chuàng)建大量有用的鍵值緩存(KV緩存)。
面對(duì)鍵值緩存的爆炸式增長(zhǎng),NVIDIA 也對(duì) GPU 流量進(jìn)行了管理。他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。然而,存儲(chǔ)空間不足以存儲(chǔ)所有這些緩存。
當(dāng)然,服務(wù)器內(nèi)部的內(nèi)存容量很大。GPU旁邊是HBM內(nèi)存→如果不夠用,就用DRAM模塊→如果實(shí)在不行,甚至?xí)诜?wù)器內(nèi)部使用SSD固態(tài)硬盤。然而,CEO黃仁勛似乎已經(jīng)意識(shí)到,這種架構(gòu)在未來的推理時(shí)代將難以駕馭。因此,他在CES上發(fā)布了這款黑盒子。
NVIDIA CEO 黃仁勛在 CES 2026 上推出 ICMS。圖片由 NVIDIA YouTube 提供。DPU + 超大容量 SSD = KV 緩存存儲(chǔ)專用團(tuán)隊(duì)
這臺(tái)黑色服務(wù)器是“推理上下文內(nèi)存平臺(tái)”,簡(jiǎn)稱ICMS。讓我們仔細(xì)看看它的規(guī)格。首先,驅(qū)動(dòng)ICMS的設(shè)備是DPU,即數(shù)據(jù)處理單元。讀者可能對(duì)GPU和CPU比較熟悉,但服務(wù)器的隱藏動(dòng)力源——DPU也值得一看。
NVIDIA首席執(zhí)行官黃仁勛發(fā)布了BlueField-4 DPU。圖片由NVIDIA提供。DPU(數(shù)據(jù)處理單元)就像軍隊(duì)中的行政后勤官。如果說CPU是連長(zhǎng),那么GPU就是計(jì)算突擊隊(duì)員。DPU負(fù)責(zé)彈藥和食物的運(yùn)送,甚至處理通信和移動(dòng),使CPU能夠做出適當(dāng)?shù)臎Q策,而GPU則專注于攻擊。NVIDIA的新型DPU“Bluefield-4”被賦予了一項(xiàng)新任務(wù):ICMS?,F(xiàn)在,讓我們仔細(xì)看看ICMS平臺(tái)。這個(gè)機(jī)架總共包含16個(gè)SSD托架。
圖片來源:NVIDIA每個(gè)托架配備四個(gè) DPU,每個(gè) DPU 管理 150TB 的 SSD。這意味著一個(gè)托架總共有 600TB 的緩存 SSD。
這是一個(gè)相當(dāng)大的存儲(chǔ)容量。我們來比較一下。假設(shè)在 Blackwell GPU 服務(wù)器中,為了最大化 KV 緩存,我們?cè)?SSD 放置區(qū)域安裝了八個(gè) 3.84TB 的通用緩存 SSD。這樣每臺(tái)服務(wù)器就有 30.72TB 的 SSD,這意味著一個(gè)包含 18 臺(tái)服務(wù)器的 GPU 機(jī)架的總 SSD 容量為 552.96TB。
也就是說,單個(gè) ICMS 托架的緩存 SSD 容量可以超過一個(gè) GPU“機(jī)架”所能容納的容量。一個(gè)機(jī)架中的 SSD 總數(shù)為 600TB x 16,即 9600TB。這比一套完整的 VeraRubin 8 個(gè) GPU 機(jī)架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。
圖片由 NVIDIA 提供黃仁勛在CES演講中表示:“以前GPU的內(nèi)存容量為1TB,但通過這個(gè)平臺(tái),我們獲得了16TB的存儲(chǔ)容量。”
仔細(xì)想想,他的話似乎相當(dāng)準(zhǔn)確。一個(gè)完整的VeraRubin平臺(tái)由八個(gè)GPU機(jī)架組成。每個(gè)機(jī)架有72個(gè)GPU,共計(jì)576張存儲(chǔ)卡。將ICMS的總?cè)萘?600TB除以576張存儲(chǔ)卡,得出約16.7TB。
雖然人們?nèi)匀粨?dān)心服務(wù)器的物理距離和SSD的傳輸速度,但BlueField 4性能的提升緩解了這些問題。黃仁勛解釋說:“我們實(shí)現(xiàn)了與之前相同的每秒200GB的KV緩存?zhèn)鬏斔俣?。?/p>
此外,現(xiàn)有的GPU服務(wù)器存在網(wǎng)絡(luò)瓶頸,限制了7.68TB和15.36TB等大容量SSD的充分利用。這項(xiàng)基于DPU的網(wǎng)絡(luò)改進(jìn)似乎正是為了解決這些問題。
被視為“零”的NAND閃存的黃金時(shí)代即將到來嗎?
圖片由 NVIDIA 提供NVIDIA 將此平臺(tái)劃分為 3.5 個(gè)內(nèi)存組。第一組是 HBM,第二組是 DRAM 模塊,第三組是服務(wù)器內(nèi)部的本地 SSD,第四組是服務(wù)器外部的存儲(chǔ)。ICMS深入研究了介于第三組和第四組之間的神秘領(lǐng)域。與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會(huì)丟失數(shù)據(jù)(這得益于高性能 DPU),使其成為理想之選。
該平臺(tái)顯然為三星電子和 SK 海力士提供了巨大的商機(jī)。僅一個(gè)機(jī)架就能增加 9,600 TB 的容量,這意味著他們可以銷售比現(xiàn)有 NVIDIA 機(jī)架多數(shù)倍的 NAND 閃存,而且這僅僅是按位計(jì)算。此外,這款產(chǎn)品的開發(fā)商是 NVIDIA,一家全球所有人工智能公司都?jí)裘乱郧蟮墓?因此商機(jī)更加巨大。
三星電子的服務(wù)器固態(tài)硬盤。即使人工智能時(shí)代已經(jīng)到來,NAND閃存和固態(tài)硬盤的價(jià)格一直滯后,預(yù)計(jì)今年第一季度將出現(xiàn)大幅上漲。圖片由三星電子提供。過去三年,盡管人工智能市場(chǎng)發(fā)展迅猛,但NAND閃存和固態(tài)硬盤(SSD)并未受到太多關(guān)注。這主要是因?yàn)榕c在NAND閃存發(fā)展中發(fā)揮關(guān)鍵作用的HBM相比,它們的利用率較低。NVIDIA正從ICMS項(xiàng)目入手,籌備一個(gè)旨在進(jìn)一步提升SSD利用率的項(xiàng)目。該項(xiàng)目是“Storage Next”(也稱為SCADA,即Scaled Accelerated Data Access,規(guī)?;铀贁?shù)據(jù)訪問)計(jì)劃的一部分。目前,執(zhí)行AI計(jì)算的GPU將直接訪問NAND閃存(SSD)來獲取各種數(shù)據(jù),而無需經(jīng)過CPU等控制單元。這是一個(gè)旨在消除GPU和SSD之間瓶頸的大膽設(shè)想。SK海力士也已正式宣布正在開發(fā)AI-N P,以順應(yīng)這一趨勢(shì)。 SK海力士副總裁金天成表示:“SK海力士正與NVIDIA積極開展名為‘AI-N P’的初步實(shí)驗(yàn)(PoC)。”
他解釋說:“基于PCIe Gen 6、支持2500萬(wàn)IOPS(每秒輸入/輸出操作數(shù))的存儲(chǔ)原型產(chǎn)品有望在今年年底發(fā)布。”他還表示:“到2027年底,我們將能夠生產(chǎn)出支持高達(dá)1億IOPS的產(chǎn)品。”2500萬(wàn)IOPS是目前固態(tài)硬盤速度的10倍以上。
305
收藏


























