Svmuu讯 智谱面向部分企业客户推出 GLM-5.1 高速版 API,其模型输出速度达到 400 tokens/s,刷新全球大模型官方接口端到端速度纪录。
据了解,该高速版在保留原有旗舰模型能力基础上,由智谱与 TileRT 团队联合研发的高性能推理引擎驱动。该引擎通过重构 GPU 运行调度机制,将模型静态编排为常驻 GPU 的 persistent Engine Kernel,以降低传统推理中的内核启动与显存读写延迟。
在多卡场景下,TileRT 进一步将 8 卡 NVL 拓扑中的 GPU 节点特化为不同功能 Worker,以提升注意力层计算与跨卡通信效率。
目前,该高速版服务已向智谱 MaaS 平台部分企业客户开放。未来将继续优化 FP8 推理及超长上下文能力,面向 AI 编程、实时交互与实时语音等低延迟场景提供支持。
智谱发布GLM-5.1高速版API,输出速度达400 tokens/s
免责声明:本内容仅代表作者个人观点,不构成任何投资理财建议。如有发现违规内容点击举报
24小时热榜
-
伊朗外交部:伊美达成协议文件
-
币安将上线LRCX、KLAC等7个U本位永续合约
-
Gate合约股票专区上线ADSK(欧特克)、BKNG(缤客控股)等8个永续合约交易
-
深入了解ALTHEA代币(ALTH)及其去中心化网络
-
Morgan Stanley更新以太坊和Solana ETF文件,拟收取0.14%费用
-
OKX DEX xStocks交易赛进行中,总奖池300,000 USDC
-
10倍做多原油后浮亏133万美元,某地址持有价值3777万美元CL多单
-
亚洲杠杆AI押注创纪录:韩国SK海力士2倍做多ETF资产管理规模达130亿美元
-
伊朗媒体称伊美谈判达成5项要点
-
某聪明钱购入32万美元世界杯小组赛阿根廷战胜奥地利
推荐阅读




