導(dǎo)讀:近年來,在半導(dǎo)體工藝持續(xù)突破與AI算力需求爆發(fā)的雙重推動下,存算一體技術(shù)迎來了新的發(fā)展機(jī)遇。
近年來,隨著信息時(shí)代的數(shù)據(jù)大爆炸以及人工智能浪潮的到來,尤其是大模型技術(shù)的廣泛應(yīng)用,其訓(xùn)練和推理所需處理的數(shù)據(jù)量呈指數(shù)級增長。而基于“存儲-計(jì)算分離”原理的馮·諾依曼架構(gòu)雖獨(dú)具優(yōu)勢,但在AI浪潮中已顯疲態(tài),存在著不容忽視的局限。
在傳統(tǒng)馮?諾依曼架構(gòu)中,數(shù)據(jù)需要在存儲單元與計(jì)算單元間頻繁搬運(yùn),導(dǎo)致大量的資源被浪費(fèi)在數(shù)據(jù)搬運(yùn)這一環(huán)節(jié)上。根據(jù)英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到7nm時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá)35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來越嚴(yán)重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問題。
此外,在馮·諾依曼架構(gòu)中,存儲器與處理器是兩個(gè)完全分離的單元,處理器根據(jù)指令從存儲器中讀取數(shù)據(jù)、完成運(yùn)算,并存回存儲器。但隨著人工智能、大數(shù)據(jù)等新興技術(shù)的迅猛發(fā)展,計(jì)算任務(wù)對數(shù)據(jù)處理的速度和規(guī)模提出了前所未有的高要求。而當(dāng)下的存儲器的數(shù)據(jù)訪問速度跟不上計(jì)算單元的數(shù)據(jù)處理速度,二者之間形成了巨大的性能差距,“內(nèi)存墻”問題日益凸顯。
面對大模型推理對算力需求的持續(xù)拉動,如何攻克“功耗墻”“內(nèi)存墻”等難題已然成為了工業(yè)界和學(xué)術(shù)界的焦點(diǎn)問題,一場旨在突破現(xiàn)有算力瓶頸的革命正蓄勢待發(fā)。
在此背景下,“存算一體”正試圖用一場顛覆式創(chuàng)新打破這一僵局。近年來,在半導(dǎo)體工藝持續(xù)突破與AI算力需求爆發(fā)的雙重推動下,存算一體技術(shù)迎來了新的發(fā)展機(jī)遇。
從原理上來看,存算一體的核心是將存儲功能與計(jì)算功能融合在同一個(gè)芯片上,直接利用存儲單元進(jìn)行數(shù)據(jù)處理——通過修改“讀”電路的存內(nèi)計(jì)算架構(gòu),可以在“讀”電路中獲取運(yùn)算結(jié)果,并將結(jié)果直接“寫”回存儲器的目的地址,不再需要在計(jì)算單元和存儲單元之間進(jìn)行頻繁的數(shù)據(jù)轉(zhuǎn)移,消除了數(shù)據(jù)搬移帶來的消耗,極大降低了功耗,大幅提升計(jì)算效率。
正是基于這樣的特性,存算一體有力地突破馮·諾依曼架構(gòu)所面臨的瓶頸限制。
存算一體屬于非馮諾伊曼架構(gòu),在特定領(lǐng)域可以提供更大算力(1000TOPS以上)和更高能效(超過10-100TOPS/W),明顯超越現(xiàn)有ASIC算力芯片。除了用于AI計(jì)算外,存算技術(shù)也可用于感存算一體芯片和類腦芯片,代表了未來主流的大數(shù)據(jù)計(jì)算芯片架構(gòu)。
近年來,大模型的蓬勃發(fā)展與廣泛應(yīng)用,其對強(qiáng)大算力和高存儲帶寬提出了迫切需求。而存算一體技術(shù)憑借其解決數(shù)據(jù)搬運(yùn)難題、顯著提升計(jì)算效率的優(yōu)勢,與大模型的發(fā)展需求完美契合。與此同時(shí),大模型計(jì)算的應(yīng)用場景正從云端逐步向端邊側(cè)拓展延伸,這一趨勢為存算一體技術(shù)帶來了更為廣闊的發(fā)展空間。
根據(jù)量子位智庫數(shù)據(jù),預(yù)計(jì)2025年存算一體市場規(guī)模將達(dá)125億元,隨著技術(shù)成熟度提高以及大規(guī)模商用落地,至2030年這一市場規(guī)模將達(dá)1136億元。
面對極具潛力且規(guī)模不斷擴(kuò)張的市場前景,存算一體芯片成為了科技領(lǐng)域備受矚目的焦點(diǎn)。越來越多的企業(yè)正競相投身存算一體芯片領(lǐng)域,并不斷加快布局進(jìn)程。國內(nèi)諸如恒爍股份、億鑄科技等企業(yè),均依托自身優(yōu)勢在不同技術(shù)路線上積極開展探索,力求在存算一體芯片市場中占據(jù)一席之地。
而在這股熱潮下,后摩智能作為國內(nèi)存算一體AI芯片的先行者和落地者,具有顯著的代表性,其探索歷程與實(shí)踐成果生動展現(xiàn)出了我國存算一體芯片技術(shù)的多元化發(fā)展圖景。
在大模型技術(shù)迅猛發(fā)展、應(yīng)用場景持續(xù)拓展的大背景下,市場對于適配大模型的高性能芯片需求日益迫切。基于這一趨勢洞察,后摩智能憑借在存算一體技術(shù)領(lǐng)域的前瞻性布局與深厚技術(shù)積累,于2023年年底果斷調(diào)整研發(fā)方向,將重點(diǎn)轉(zhuǎn)向基于大模型的應(yīng)用需求,全力投入存算一體AI芯片的研發(fā)工作。
經(jīng)過不懈努力與技術(shù)攻關(guān),后摩智能迎來了重要時(shí)刻。在WAIC 2025期間,后摩智能的后摩漫界?M50芯片正式對外亮相,并同步推出力擎?系列M.2卡、力謀?系列加速卡及計(jì)算盒子等硬件組合,形成覆蓋移動終端與邊緣場景的完整產(chǎn)品矩陣。
據(jù)了解,后摩漫界M50定位到了端邊大模型應(yīng)用場景。M50芯片采用存算一體計(jì)算架構(gòu),實(shí)現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內(nèi)存與153.6GB/s的超高帶寬,而典型功耗僅10W,相當(dāng)于手機(jī)快充的功率。這一性能指標(biāo)意味著,PC、智能語音設(shè)備、機(jī)器人等智能移動終端無需依賴云端,即可高效運(yùn)行1.5B到70B參數(shù)的本地大模型,真正實(shí)現(xiàn)了“高算力、低功耗、即插即用”的愿景。
后摩智能的M50芯片及其產(chǎn)品矩陣的發(fā)布,標(biāo)志著端邊智能新時(shí)代的正式開啟。通過存算一體技術(shù)的深度融合,后摩智能成功解決了端邊設(shè)備在算力、功耗與帶寬方面的痛點(diǎn),為消費(fèi)終端、智能辦公與智能工業(yè)等領(lǐng)域提供了高效、安全、低成本的AI解決方案。
值得一提的是,8月27日,在深圳國際會展中心(寶安)舉辦的“IOTE 2025深圳?邊緣計(jì)算產(chǎn)業(yè)生態(tài)大會”上,后摩智能產(chǎn)品市場負(fù)責(zé)人張偉超將發(fā)表“大模型時(shí)代的算力革命-‘存算一體’重塑端邊智能體驗(yàn)”主題演講,為我們帶來更多后摩智能關(guān)于存算一體技術(shù)在端邊算力提升路徑、應(yīng)用場景拓展以及與邊緣計(jì)算生態(tài)深度融合等方面的結(jié)合與思考。