标签: LLM

LLM 未读

根据在工作中部署模型踩的坑而总结的经验，整理部署模型时应该加的docker参数及vLLM/SGLang 推理引擎参数环境变量环境变量说明示例 CUDA_VISIBLE_DEVICES 指定模型运行在的卡号 CUDA_VISIBLE_DEVICES=3 或 CUDA_VISIBLE_DEVIC

LLM 2026-05-19

LLM 未读

vLLM 适配 GLM-4.6V 模型

LLM 2026-01-16

LLM 未读

vLLM/SGLang 适配 GLM-4.6V 模型

随着 vLLM/SGLang 等推理引擎的更新，下面内容记录的方式可能已经不再适用，可以考虑尝试直接使用最新版本的 vLLM/SGLang 运行记录使用 vLLM/SGLang 部署 GLM-4.6V 的适配过程模型： HuggingFace: zai-org/GLM-4.6V ModelSco

LLM 2026-01-15

LLM 未读

大模型启动命令备忘单

记录大模型启动命令，针对同一个模型不同量化精度及不同推理引擎分别记录记录的显卡型号为测试模型时使用的环境，可以根据自己实际的显卡进行测试是否可以运行 Embedding Qwen/Qwen3-VL-Embedding-8B HuggingFace: Qwen/Qwen3-VL-Embedding-

LLM 2026-01-13

LLM 未读

记录在两台910B4服务器上运行 W8A8 量化的 DeepSeek-R1-0528 模型，并使用 EvalScope 做一个简单的推理性能测试，后面还有一些推理性能相关的参数介绍以及模型报错排查方法一、环境信息模型 DeepSeek-R1-0528-W8A8-MindIE 需要是W8A8量化过

LLM 2025-11-11

LLM 未读

使用 MindIE、vllm-ascend 推理引擎在华为昇腾910B显卡上运行 Qwen3-30B-A3B 模型，然后简单测试下推理性能一、准备 1.1 环境信息模型 Qwen3-30B-A3B MindIE 运行该模型需要至少2张卡，推荐4张服务器型号 Atlas 800I A2 1台显

LLM 2025-11-04

DevOpsLLM 未读

介绍如何在华为昇腾 910B GPU 服务器上安装驱动、固件、CANN等基础工具，NPU卡相关配置以及配置可以让容器使用GPU资源的环境配置说明：这里将 GPU 与 NPU 两个名词混用了下面的步骤是基于 Atlas 800I A2 推理服务器操作一、驱动查找固件安装需要先在服务器上安装驱

DevOps LLM 2025-10-28