LLM
未读
vLLM/SGLang推理引擎部署大模型必加参数
根据在工作中部署模型踩的坑而总结的经验,整理部署模型时应该加的docker参数及vLLM/SGLang 推理引擎参数 环境变量 环境变量 说明 示例 CUDA_VISIBLE_DEVICES 指定模型运行在的卡号 CUDA_VISIBLE_DEVICES=3 或 CUDA_VISIBLE_DEVIC
LLM
未读
vLLM/SGLang 适配 GLM-4.6V 模型
随着 vLLM/SGLang 等推理引擎的更新,下面内容记录的方式可能已经不再适用,可以考虑尝试直接使用最新版本的 vLLM/SGLang 运行 记录使用 vLLM/SGLang 部署 GLM-4.6V 的适配过程 模型: HuggingFace: zai-org/GLM-4.6V ModelSco
LLM
未读
大模型启动命令备忘单
记录大模型启动命令,针对同一个模型不同量化精度及不同推理引擎分别记录 记录的显卡型号为测试模型时使用的环境,可以根据自己实际的显卡进行测试是否可以运行 Embedding Qwen/Qwen3-VL-Embedding-8B HuggingFace: Qwen/Qwen3-VL-Embedding-
LLM
未读
在华为910B GPU服务器上运行DeepSeek-R1-0528模型
记录在两台910B4服务器上运行 W8A8 量化的 DeepSeek-R1-0528 模型,并使用 EvalScope 做一个简单的推理性能测试,后面还有一些推理性能相关的参数介绍以及模型报错排查方法 一、环境信息 模型 DeepSeek-R1-0528-W8A8-MindIE 需要是W8A8量化过
LLM
未读
华为昇腾910B服务器上部署Qwen3-30B-A3B并使用EvalScope推理性能测试
使用 MindIE、vllm-ascend 推理引擎在华为昇腾910B显卡上运行 Qwen3-30B-A3B 模型,然后简单测试下推理性能 一、准备 1.1 环境信息 模型 Qwen3-30B-A3B MindIE 运行该模型需要至少2张卡,推荐4张 服务器型号 Atlas 800I A2 1台 显
华为昇腾910B GPU服务器初始化准备及安装k8s运行环境
介绍如何在华为昇腾 910B GPU 服务器上安装驱动、固件、CANN等基础工具,NPU卡相关配置以及配置可以让容器使用GPU资源的环境配置 说明: 这里将 GPU 与 NPU 两个名词混用了 下面的步骤是基于 Atlas 800I A2 推理服务器操作 一、驱动查找固件安装 需要先在服务器上安装驱