开源大模型命名规范指南

在 Hugging Face 或 ModelScope 等模型托管平台上，开源大模型的命名通常遵循一定的结构。掌握这些命名规范，能帮助我们快速读懂这个模型的"自我介绍"，从而准确选择适合自己硬件和应用场景的模型版本。

一个典型的开源模型命名结构可能是这样的： Qwen/Qwen2.5-7B-Instruct-AWQ 或 meta-llama/Llama-3.1-8B-Instruct

我们可以将其拆解为以下几个主要部分进行解读：

1. 机构 / 组织名 (Organization)

斜杠 / 前面的通常是开发或发布该模型的组织账号名称。

代表这是哪个系列的模型，以及它的迭代版本号。有时还会带有特定领域的后缀。

在模型名称中最显眼的数字通常代表模型拥有多少个参数，这是衡量模型体量的重要指标。参数用 B (Billion，十亿) 或 M (Million，百万) 来表示。

7B、8B：约 70 到 80 亿参数，通常在消费级单张显卡（如 RTX 3090/4090）上或性能较强的 M 芯片 Mac 上即可流畅运行。
32B、70B、72B：中等及超大体量的预训练模型，能力非常强悍，但通常需要多张高端服务器显卡（如 A100/H100）组合才能完全加载。
8x7B：这代表了一个基于 MoE (Mixture of Experts, 混合专家) 架构的模型。它内部包含了 8 个 7B 规模的"专家网络"，但在每次推理时只有少数专家被激活（如激活 2 个），因此能在推理速度接近低参数模型的同时，达到极强的性能上限。
A3B、A2.7B：这属于 MoE 架构的专属参数标识术语（A 代表 Active，即激活参数）。例如有些模型会命名为 30B-A3B，它表示模型体内总共享有 300 亿 (30B) 参数的历史知识，但在生成每一个字的时候，只有 30 亿 (3B) 参数参与了激活运算。这让模型“既懂得多，算得又快”。

开源模型通常会包含基础版本和微调版本两种形态。

变体类型	常见标识 / 后缀	核心特点与说明	适用人群与场景
Base (基础模型)	无后缀、或显式标明 `-Base`	仅使用海量预训练语料进行无监督学习。它像一个单纯的"单词接龙机器"，回答问题时可能会继续续写你的问题而非给出答案。	供底层 AI 开发者进行二次微调 (Fine-tuning) 的原始底座，不适合直接对话。
Instruct / Chat (指令/对话)	`-Instruct`、`-Chat`、`-IT`	基于基础模型，经过指令微调 (SFT) 和强化学习 (RLHF)，学会了理解人类的提问并以对话的形式解答。	绝大多数普通用户和应用开发者下载测试、体验和落地的即用版本。

此外，越来越多的厂商和社区会在名称中使用一些特殊的定位修饰词，来标志模型的规模、速度和能力分级：

定位/规模修饰词	核心特点与说明	常见适用场景
Flash / Speed	极速版。针对极低的延迟响应、极高的实时吞吐量以及极低的计算成本做出大幅优化。	用于海量文本处理、多轮日常对话、响应时间极其敏感的 AI 客服场景（如 Gemini 1.5 Flash）。
Lite / Mini	轻量版。同系列中体积最小的模型，通常通过裁剪或蒸馏 (Distillation) 得来，牺牲了深层推理能力换取便携性。	适合部署在算力极其受限的环境，如智能手机端侧运行、IoT 物联网设备（如 Qwen2.5-1.5B-Lite）。
Pro / Max / Plus	旗舰版 / 满血版。汇集了公司所有算力和数据结晶的超大杯模型，在代码编写、复杂数学逻辑上傲视群雄。	挑战最复杂困难的任务集，尽管通常跑得很慢并且非常昂贵（如 Llama-3.1-405B-Pro）。

部分模型会在名字中显式标出其支持的最大上下文长度。

32K、128K：1K = 1024 tokens。这表示模型单次对话能吃进的最大 token 数量。128K 代表该模型被训练用于理解约十万字左右的超长文本，适合用来阅读财报、开发书籍或大型代码库。

大模型完整权重通常采用 16-bit (FP16/BF16) 存储。为了能让模型在显存较小的设备上运行，社区和官方普遍会将权重压缩（即"量化"）。如果名字后面附带了这些标识，说明它是一个降精度的缩小版。

常见量化格式	优化计算平台	常见配套引擎	优势与说明
GGUF	纯 CPU、苹果 M 芯片、GPU 显存不足时的混合计算	`llama.cpp` `Ollama`	本地个人电脑生态最好的格式。文件中通常会带有 `Q4_K_M` (4位)、`Q8_0` (8位) 的精度标识。能够在消费级设备上流畅运行。
AWQ / GPTQ	独立显卡 GPU 加速	`vLLM` `TGI`	商业部署首选。通过高度优化的算法将权重压缩至 4-bit 或 8-bit，在几乎不损失性能的前提下，成倍节省显存、提升推理吞吐量。
EXL2	独立显卡 GPU 加速	`ExLlamaV2`	支持非常细粒度的位宽（如从 2.2-bit 到 8-bit），在拥有优秀速度的同时受到许多想要压榨极限显存的极客玩家青睐。

结合你刚学到的知识，你能准确分析出 Qwen/Qwen2.5-Coder-7B-Instruct-GGUF 这个名称所代表的产品含义吗？

点击查看解析