Svmuu訊 智譜面向部分企業客戶推出 GLM-5.1 高速版 API,其模型輸出速度達到 400 tokens/s,刷新全球大模型官方介面端到端速度紀錄。
據了解,該高速版在保留原有旗艦模型能力基礎上,由智譜與 TileRT 團隊聯合研發的高性能推理引擎驅動。該引擎透過重構 GPU 運行排程機制,將模型靜態編排為常駐 GPU 的 persistent Engine Kernel,以降低傳統推理中的核心啟動與顯存讀寫延遲。
在多卡場景下,TileRT 進一步將 8 卡 NVL 拓撲中的 GPU 節點特化為不同功能 Worker,以提升注意力層計算與跨卡通訊效率。
目前,該高速版服務已向智譜 MaaS 平台部分企業客戶開放。未來將繼續優化 FP8 推理及超長上下文能力,面向 AI 程式設計、即時互動與即時語音等低延遲場景提供支援。
智谱發佈GLM-5.1高速版API,輸出速度達400 tokens/s
免責聲明:本內容僅代表作者個人觀點,不構成任何投資理財建議。如有發現違規內容點擊舉報
24小時熱榜
-
伊朗外交部:伊美達成協議文件
-
幣安將上線LRCX、KLAC等7個U本位永續合約
-
Gate合約股票專區上線ADSK(歐特克)、BKNG(繽客控股)等8個永續合約交易
-
深入瞭解ALTHEA代幣(ALTH)及其去中心化網絡
-
Morgan Stanley更新以太坊和Solana ETF文件,擬收取0.14%費用
-
10倍做多原油後浮虧133萬美元,某地址持有價值3777萬美元CL多單
-
OKX DEX xStocks交易賽進行中,總獎池300,000 USDC
-
亞洲槓桿AI押注創紀錄:韓國SK海力士2倍做多ETF資產管理規模達130億美元
-
某聰明錢購入32萬美元世界盃小組賽阿根廷戰勝奧地利
-
中國大陸狗狗幣交易平台現狀:監管政策與全球主流選擇
推薦閱讀





