服務(wù)熱線
0755-83044319
發(fā)布時(shí)間:2025-07-28作者來源:薩科微瀏覽:612
從端側(cè)AI芯片工程師的角度來看,面對帶寬、能耗與成本三重挑戰(zhàn),引入SRAM存算一體架構(gòu)(In-Memory Computing, IMC) 是應(yīng)對當(dāng)前大模型端側(cè)部署瓶頸的核心解決方案之一。
一、為什么DRAM主存+傳統(tǒng)計(jì)算架構(gòu)難以滿足端側(cè)大模型部署?
DRAM(如LPDDR5/DDR5)的總線帶寬在端側(cè)芯片上極為有限(10–50 GB/s),遠(yuǎn)低于大模型推理所需的數(shù)據(jù)吞吐量。
以一個(gè)70億參數(shù)的FP16模型為例,模型參數(shù)約占14GB,若每輪推理都需頻繁從DRAM中調(diào)入權(quán)重,將帶來巨大的訪問延遲與能耗開銷。
數(shù)據(jù)搬移的能耗遠(yuǎn)高于計(jì)算本身:
一次DRAM訪問:約100~200 pJ/bit
一次SRAM訪問:約1~10 pJ/bit
一次MAC操作:<1 pJ(單精度)
在Transformer這類大模型中,90%以上能耗和延遲都來源于內(nèi)存訪問。
傳統(tǒng)Von Neumann架構(gòu)中,計(jì)算單元(MAC陣列)等待內(nèi)存數(shù)據(jù)的時(shí)間極長,導(dǎo)致NPU/AI Core利用率遠(yuǎn)低于理想值(通常 <50%)。
將權(quán)重存入SRAM,并在SRAM中進(jìn)行局部計(jì)算,可顯著減少DRAM讀寫與片上總線流量,緩解帶寬瓶頸。
SRAM的高帶寬、低延遲特性,天然適合對參數(shù)讀取頻繁的模型結(jié)構(gòu)(如注意力機(jī)制中的QKV矩陣計(jì)算)。
將部分權(quán)重映射到SRAM bitcell結(jié)構(gòu)中,結(jié)合周邊MAC邏輯實(shí)現(xiàn)矩陣向量乘法(MVM)計(jì)算。
采用低位寬計(jì)算(如INT8甚至Binary),進(jìn)一步降低功耗。
典型結(jié)構(gòu)如:Processing-in-SRAM,或者更激進(jìn)的Analog IMC in SRAM(電壓、電流作為計(jì)算媒介)。
SRAM存算一體架構(gòu)是端側(cè)AI芯片實(shí)現(xiàn)“大模型部署”的關(guān)鍵方向。它本質(zhì)上通過“就地計(jì)算”打破傳統(tǒng)架構(gòu)的帶寬墻,顯著提高能效比和模型推理吞吐,降低功耗和散熱壓力,同時(shí)避免昂貴的DRAM訪問帶來的BOM成本上升,是應(yīng)對端側(cè)算力三大矛盾(帶寬、功耗、成本)最可行的架構(gòu)突破。
免責(zé)聲明:本文采摘自“老虎說芯”,本文僅代表作者個(gè)人觀點(diǎn),不代表薩科微及行業(yè)觀點(diǎn),只為轉(zhuǎn)載與分享,支持保護(hù)知識產(chǎn)權(quán),轉(zhuǎn)載請注明原出處及作者,如有侵權(quán)請聯(lián)系我們刪除。
友情鏈接:站點(diǎn)地圖 薩科微官方微博 立創(chuàng)商城-薩科微專賣 金航標(biāo)官網(wǎng) 金航標(biāo)英文站
Copyright ?2015-2025 深圳薩科微半導(dǎo)體有限公司 版權(quán)所有 粵ICP備20017602號 粵公網(wǎng)安備44030002007346號