• <u id="qkpp5"></u>

    1. <p id="qkpp5"><nav id="qkpp5"><option id="qkpp5"></option></nav></p>
      <p id="qkpp5"><var id="qkpp5"></var></p>
    2. 玖玖av,国产成人精品777777,日韩无,成人亚洲精品一区二区三区嫩花,人妻2,好吊AV,内射网站,国产九九在线视频
      正在閱讀:性能提升10倍,首Token時延降低72%丨新華三X20000存儲KV Cache方案助力AI推理效率提升

      性能提升10倍,首Token時延降低72%丨新華三X20000存儲KV Cache方案助力AI推理效率提升

      2026-03-04 13:55:09來源:新華三 關(guān)鍵詞:新華三存儲閱讀量:1081

      導(dǎo)讀:X20000存儲通過EPC私有客戶端,將每個6MB文件自動切分為1MB粒度進行分布式并發(fā)處理。這種細(xì)粒度切分機制,將單次KV訪問轉(zhuǎn)化為多通道并發(fā)讀寫,數(shù)據(jù)均勻分布至多個存儲節(jié)點與引擎,使訪問天然具備并行性,從而有效降低單路徑阻塞概率。
        據(jù)IDC預(yù)測,2026年中國智能算力規(guī)模將達(dá)2024年的兩倍,其中推理算力增速將遠(yuǎn)超過訓(xùn)練,到2027年中國智能算力中推理占比將提高到72.6%。隨著大模型推理進入規(guī)模化落地階段,KV Cache 通過“以存換算”的思路,節(jié)省了GPU算力、提高了推理效率,成為AI推理應(yīng)用落地的主流方案。
       
        但隨著8K、16K、32K乃至更大上下文長度逐漸普及,KV Cache的規(guī)模呈線性增長;在多并發(fā)場景下,KV數(shù)據(jù)讀寫壓力更是呈指數(shù)級放大。比如,在Llama-405B上運行一個具有64K上下文的單個用戶需要15.75GB KV緩存,當(dāng)擴展到32個用戶時,容量需求將飆升至504GB。如何高效承載KV Cache,已經(jīng)成為AI推理基礎(chǔ)設(shè)施架構(gòu)中的核心議題。
       
        此外,隨著AI推理走入我們的日常生活,衡量應(yīng)用體驗和系統(tǒng)效率的關(guān)鍵指標(biāo)——TTFT(Time To First Token,首次輸出Token時延)被越來越多用戶關(guān)注。TTFT不僅直接影響推理應(yīng)用的用戶交互體驗,更決定單位時間內(nèi)可承載的有效請求數(shù)。
       
        實現(xiàn)架構(gòu)級優(yōu)化
       
        目前,將KV Cache從GPU顯存中卸載已經(jīng)成為行業(yè)共識。相比本地SSD,外置分布式存儲具備更強的橫向擴展能力,能夠?qū)V訪問轉(zhuǎn)化為并行模型,且提供全局?jǐn)?shù)據(jù)共享,支持大規(guī)模PD分離部署。這意味著在模型規(guī)模持續(xù)擴大、上下文不斷拉長、并發(fā)請求持續(xù)增長的情況下,存儲系統(tǒng)仍然能夠保持可控的TTFT與穩(wěn)定的吞吐能力。
       
        基于這一趨勢,H3C UniStor X20000 AI原生存儲圍繞KV Cache場景進行了系統(tǒng)級協(xié)同調(diào)優(yōu),使“外置存儲承載KV Cache”從概念方案真正演進為生產(chǎn)級可用架構(gòu)。
       
        X20000存儲通過EPC私有客戶端,將每個6MB文件自動切分為1MB粒度進行分布式并發(fā)處理。這種細(xì)粒度切分機制,將單次KV訪問轉(zhuǎn)化為多通道并發(fā)讀寫,數(shù)據(jù)均勻分布至多個存儲節(jié)點與引擎,使訪問天然具備并行性,從而有效降低單路徑阻塞概率。
       
        同時,針對KV文件分布扁平、目錄與文件數(shù)量接近1:1的特點,X20000對目錄與文件分布進行均衡優(yōu)化,使數(shù)據(jù)在存儲引擎間實現(xiàn)更均勻分布,進一步降低訪問時延波動。這種優(yōu)化邏輯的核心在于:不是單純提升單盤性能,而是將KV Cache讀寫行為重構(gòu)為“分布式并發(fā)訪問模型”。這是一種架構(gòu)級優(yōu)化,而非參數(shù)級優(yōu)化。
       
        測試數(shù)據(jù):KV Cache卸載至X20000后TTFT最高降低72%
       
        圍繞KV Cache卸載場景,實測數(shù)據(jù)顯示,當(dāng)KV Cache命中率達(dá)到90%時,將KV數(shù)據(jù)卸載至X20000分布式存儲,TTFT得到大幅度優(yōu)化。
       
        ◆ 測試環(huán)境:
       
        ■ GPU:  A100 * 4
       
        ■ 推理引擎:vLLM 0.9.2
       
        ■ 模型:Qwen2.5-14B
       
        ◆ UCM:性能最大提升6倍
       
        ■ 在90% KV Cache命中條件下,將KV Cache卸載至X20000存儲,相比純GPU計算模式,TTFT平均優(yōu)化超過4倍,最大接近6倍。
       
        ■ 在相同條件下,X20000的TTFT僅為本地SSD的28%~44%,最高下降72%。
       
        ■ 系統(tǒng)可擴展能力提升4倍,在TTFT不超過2秒的約束下,采用X20000存儲承載KV Cache后,模型的上下文長度可由8K擴展至32K,實現(xiàn)4倍提升,并發(fā)能力可由4路提升至16路,同樣實現(xiàn)4倍擴展。
       
        ◆ LMCache:性能最大提升10倍
       
        ■ 在90% KV Cache命中條件下,將KV Cache卸載至X20000存儲,相比純GPU計算模式,TTFT最大優(yōu)化10倍。
       
        ■ 系統(tǒng)可擴展能力提升4倍,在TTFT不超過2秒的約束下,采用X20000存儲承載KV Cache后,模型的上下文長度可實現(xiàn)8倍擴展,并發(fā)能力同樣實現(xiàn)8倍提升。在16K上下文場景中,不同并發(fā)條件下普遍達(dá)到10倍以上性能提升。
       
        ◆ 并發(fā)與上下文持續(xù)拉升,時延曲線依然平滑
       
        同時,隨著并發(fā)數(shù)量或上下文長度持續(xù)增加,X20000的TTFT增長曲線保持相對平緩,而GPU純算模式與本地NVMe SSD方案則呈現(xiàn)明顯陡峭上升趨勢。也就是說,當(dāng)系統(tǒng)進入真實生產(chǎn)負(fù)載階段——多用戶并發(fā)、多輪長對話、持續(xù)高壓訪問——X20000所承載的KV Cache訪問路徑更具穩(wěn)定性與可預(yù)測性。
       
        X20000為AI應(yīng)用構(gòu)建可擴展的數(shù)據(jù)底座
       
        在大模型推理進入規(guī)模化生產(chǎn)階段后,KV Cache已成為影響系統(tǒng)承載能力與用戶體驗的關(guān)鍵因素。作為AI原生存儲,X20000通過重構(gòu)KV Cache訪問路徑,實現(xiàn)最大10倍性能提升,TTFT最大降低72%,并發(fā)能力提升4到8倍,幫助客戶實現(xiàn)更高推理效率、更大模型承載、更高并發(fā)能力,為AI應(yīng)用構(gòu)建可擴展的數(shù)據(jù)底座。
      我要評論
      文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

      所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。

      • 數(shù)據(jù)海嘯下的智慧燈塔:存儲風(fēng)波中的挑戰(zhàn)與企業(yè)應(yīng)對

        一場由人工智能驅(qū)動、席卷全球存儲產(chǎn)業(yè)鏈的“超級周期”,正將智慧城市等數(shù)據(jù)密集型行業(yè)推向變革的前沿。在此背景下,領(lǐng)軍企業(yè)依據(jù)自身基因,展開了一場精彩紛呈的戰(zhàn)略博弈,其推出的多元技術(shù)路徑不僅是對當(dāng)前挑戰(zhàn)的直接回應(yīng),更在重塑產(chǎn)業(yè)未來的競爭格局。
        存儲大模型
        2026-01-19 11:49:31
      • 南京市6G產(chǎn)業(yè)聯(lián)盟正式啟動,攜手新華三共建“6G之城”

        南京市作為全國信息通信產(chǎn)業(yè)高地,始終致力于打造以科技為核心、以場景為驅(qū)動、以生態(tài)為支撐的6G之城。
        南京6G產(chǎn)業(yè)聯(lián)盟新華三
        2026-01-06 17:24:46
      • 新華三發(fā)布高校管理決策AI一體機,以AI賦能教育數(shù)字化轉(zhuǎn)型

        活動中,新華三集團副總裁、教育科研事業(yè)部總經(jīng)理鄧偉在致辭中表示,當(dāng)前教育行業(yè)正全面推進全場景、全流程、全要素的數(shù)字化轉(zhuǎn)型。
        新華三AI
        2025-05-26 09:57:58
      • 江波龍2024年營收175億大增72%,凈利潤翻倍

        江波龍發(fā)布2024年年報,全年營收174.64億元,同比增長72.48%;凈利潤4.99億元,同比大增160.24%。公司高端存儲產(chǎn)品占比提升帶動毛利率顯著改善,企業(yè)級存儲和Lexar品牌業(yè)務(wù)成為增長新引擎。2025年將重點布局AI服務(wù)器存儲、UFS高端產(chǎn)品及海外市場拓展。
        2024年業(yè)績報告存儲
        2025-04-01 10:35:36
      • 公司重要動態(tài)速覽|新華三、科大訊飛、宇視科技......

        近日,紫光股份旗下新華三集團重磅推出多通道以太光方案,采用多通道技術(shù)與標(biāo)準(zhǔn)化協(xié)議設(shè)計,構(gòu)建統(tǒng)一開放的網(wǎng)絡(luò)架構(gòu);近日,南陽科大訊飛信息科技有限公司成立,法定代表人為孫亮,注冊資本2000萬元;3月18日,海亮教育科技服務(wù)集團同宇視科技正式簽署戰(zhàn)略合作框架協(xié)議......
        新華三科大訊飛宇視科技
        2025-03-21 08:43:20
      • 多元開放 持續(xù)進化 新華三重磅發(fā)布多款智算新品

        面向AGI時代,新華三將全面構(gòu)建可持續(xù)進化和可持續(xù)發(fā)展的算力底座,依托“內(nèi)生智能 成就智慧”理念,不斷探索AI技術(shù)與算力產(chǎn)品的深度融合,推進軟硬件平臺協(xié)同進化,打造多元、開放、高效、綠色的算力基礎(chǔ)設(shè)施,攜手廣大用戶與合作伙伴共啟新境,臻于智境。
        新華三AI數(shù)據(jù)存儲平臺
        2024-10-26 10:29:36
      版權(quán)與免責(zé)聲明:

      凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

      本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時,必須保留本站注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

      鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

      不想錯過行業(yè)資訊?

      訂閱 智能制造網(wǎng)APP

      一鍵篩選來訂閱

      信息更豐富

      推薦產(chǎn)品/PRODUCT 更多
      智造商城:

      PLC工控機嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機械包裝機械工程機械倉儲物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機器人3D打印設(shè)備生物識別傳感器電機電線電纜輸配電設(shè)備電子元器件更多

      我要投稿
      • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)1271141964.qq.com
      • 聯(lián)系電話0571-89719789
      工業(yè)4.0時代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺
      智能制造網(wǎng)APP

      功能豐富 實時交流

      智能制造網(wǎng)小程序

      訂閱獲取更多服務(wù)

      微信公眾號

      關(guān)注我們

      抖音

      智能制造網(wǎng)

      抖音號:gkzhan

      打開抖音 搜索頁掃一掃

      視頻號

      智能制造網(wǎng)

      公眾號:智能制造網(wǎng)

      打開微信掃碼關(guān)注視頻號

      快手

      智能制造網(wǎng)

      快手ID:gkzhan2006

      打開快手 掃一掃關(guān)注
      意見反饋
      我要投稿
      我知道了