返回》

本地一键安装部署阿里云通义千问QwQ-32B图文教程

还在羡慕大佬们动辄千亿参数的大模型?还在苦恼本地电脑跑不动那些“吞金兽”级别的 AI? 今天,搬主题就给你带来一个好消息! 阿里云 Qwen 团队最近放了个大招,发布了他们最新的研究成果 QwQ-32B 推理模型! 这款模型厉害在哪儿呢? 区区 320 亿参数,QwQ-32B性能竟然能硬刚 6710 亿参数的 DeepSeek-R1! 我的天,这简直就是 AI 界的“小钢炮”,性价比直接拉满!并且要求不高,直接在消费级显卡上就可以运行,比如本地显卡为3090,直接部署就可以使用了,这里搬主题介绍一下本地一键安装部署阿里云通义千问QwQ-32B图文教程。硬核实力派:32B 参数干翻千亿级大模型,强化学习功不可没!可别小看这 320 亿参数,阿里云 Qwen 团队为了 QwQ-32B 可谓是下了苦功夫。 他们采用了 大规模强化学习技术,就像给模型打了“鸡血”一样,直接把 QwQ-32B 的智能水平提升了一个档次! 用官方的话说,这叫 “技术突破性地提升了语言模型的智能水平”。有多牛呢? 数据说话! QwQ-32B 不仅 远超 同门师兄弟 DeepSeek-R1-Distill-Qwen32B(同样基于 QWen32B 训练出来的蒸馏模型),而且 直接叫板 DeepSeek-R1! 要知道 DeepSeek-R1 可是个参数巨兽,拥有 6710 亿参数 (激活参数也有 370 亿)! QwQ-32B 能以小博大,性能匹敌千亿级模型,这 强化学习 的威力,真是让人不得不服!更令人惊喜的是,QwQ-32B 在 数学推理、编程能力和通用智能 三大核心能力维度都表现出色:数学推理: 能像福尔摩斯一样,通过逻辑链分解复杂问题,轻松求解。编程能力: 代码生成、调试优化,双管齐下,程序员的好帮手!通用智能: 整合工具调用和环境反馈机制,学会 “看眼色行事”,动态调整推理策略,更像真人!基准测试更是亮瞎眼:GSM8K 数学数据集准确率高达 98.7%,HumanEval 编程测试斩获 89.3 分! 这数据,直接超越同规模模型一大截,简直是 “开挂” 了!嫌麻烦可以直接使用阿里云的在线体验链接:https://www.aliyun.com/product/tongyi其中QwQ32b模型每天免费100万token。本地部署 YYDS!告别高价 API,一块 24G 显卡就够了!重点来了! 阿里云 Qwen 团队这次真是把 “开源 & 轻量化” 的精神贯彻到底! QwQ-32B 不仅开源,还 极其友好地支持本地部署! 你没听错,不用动辄几张 A100,一块 24G 显存的显卡就能跑起来! 这门槛,简直低到尘埃里了!“不是 671 亿参数玩不起,而是 32B 更有性价比!” 这句话简直说出了广大 AI 爱好者的心声! 本地部署 QwQ-32B,告别高昂的 API 调用费用,数据安全和隐私也更有保障,简直不要太香!5 分钟极速体验! Ollama + Chatbox 一键部署教程,小白也能轻松上手!说了这么多,心动了吗? 别担心部署太复杂,搬主题这就手把手教你,5 分钟搞定 QwQ-32B 本地部署! 不敲代码、不买课、不买会员,只需简单几步,就能体验 320 亿参数大模型的强大魅力!测试环境:CPU: Intel 10900k内存: 128G DDR4 3600MHz显卡: Nvidia 3090 24G 显存操作系统: Windows 11部署方案: Ollama + Chatbox (简单粗暴,新手友好!)科普时间(老司机请跳过):Ollama: 一款 开源的大语言模型本地部署神器! 它最大的优点就是 “纯纯简单”! 安装超方便,一条命令就能启动和操作各种开源大模型! 简直是小白福音!本地部署超详细教程:第一步:安装 Ollama(比装原神还简单!)访问 Ollama 官网: www.ollama.com下载安装包: 根据你的操作系统选择对应的安装包(搬主题这里以 Windows 为例)。一键安装: 双击安装包,一路 “Next”,简直比安装 “原神” 还简单!详细过程如下下载好了后直接点击安装。 这个阶段不要做任何修改,一路默认设置就好。当安装结束后先验证一下是否装成功。打开 windows 的命令行 CMD, 输入 ollama -v,看到输出 ollama version is 0.5.13 那就证明 OK。第二步:拉取 QwQ-32B直接去 Ollama 网站下载即可。Ollama 的 QWQ 模型页面: https://ollama.com/library/qwq坑点预警:官网下载需要魔法,否则速度堪比蜗牛(推荐用国内镜像)提供了好几个不同模型版本,比如 32b, 32b-fp16,q4_K_M, q8_0,  fp16 这些指的是模型精度。这里的 q4 指的是 4bit 量化,q8 指的是 8bit 量化,fp16 就是原版模型。因为量化都是有损的,只要把握数字越小,模型体积越小,所以模型能力会更弱这个逻辑就行。所以 q4 就是 QwQ32b 家族中,体积最小,性能有可能是最弱的那个(不排除 8bit 量化也都差不多的效果)。我们部署就选用 32b-q4_K_M,选用它的原因很简单, 因为 3090 的 24G 显存只能装下这个模型。Ollama 的模型包本质上是一个 微服务镜像,类似云端的模型即服务(MaaS),但设计为本地离线运行。这样,你就完全不用考虑和底层硬件、python 依赖等等这些麻烦的问题。里面包括模型 checkpoint、配置文件、运行时的环境(依赖库、推理引擎)、其他组件等等,提供了运行模型的一切,都打包好了。这里你可以理解成这是大模型的 APP Store,和手机里下载应用是一样的简单。区别这里不是下载按钮,而是在命令行 CMD 中输入如下指令,开始下载模型。ollama pull qwq:32b-q4_K_M  如果一切顺利,就会开始正式下载模型。请做好心理准备,下载时间会比较长。等模型下载完成后,在 CMD 中输入下面的指令加载模型并运行,就可以开始和 Qwen QwQ 32B 模型对话。ollama run qwq:32b-q4_K_M  看下对话效果——可以看到,已经成功地提问对话了。虽然 Ollama 提供了交互页面,但是是程序员风格的,虽然在我眼里是最美的,但是追求美颜的小伙还需要下载一个页面美工——第三步:安装前端交互工具 Chatbox这种工具的选择有很多,有 Chatbox、Cherry Studio、 Open-WebUI 等等。我选用了 chatbox,页面长这个样——其中 Open-WebUI 于 QwQ 的官网页面最为接近,这是因为 QwQ 的官网也是拿 Open-WebUI 魔改的。(🤣)Chatbox 的网站: https://chatboxai.app/zh请大家自行安装,这里就不赘述了。安装完成后,需要进行如下设置:点击设置在上图 2 中的位置选择 OLLAMA API3 的位置会自动配置好上图中的内容。点击 4 确定。配置完成后,你的主界面就会和下图一样:点击红框处选择 qwq:32b-q4_K_M 模型,就可以在箭头处开始和属于你的 QwQ 模型对话了。到此,整个本地部署全部完成。看看部署效果如何上面已经问过「9.9 和 9.11 谁大」的问题,已经可以使用了。但为了不失严谨性,我们将会对 QwQ-32b_q4_K_M本地模型、QwQ-32b官网模型 进行简单对比,看看能复刻多少效果。直接上题:题目一:  银行金库里的小偷有一个小偷费劲力气进入到了银行的金库里。在金库里他找到了一百个箱子,每一个箱子里都装满了金币。不过,只有一个箱子里装的是真的金币,剩下的 99 个箱子里都是假的。真假金币的外形和质感完全一样,任何人都无法通过肉眼分辨出来。它们只有一个区别:真金币每一个重量为 101 克,而假金币的重量是 100 克。在金库里有一个电子秤,它可以准确地测量出任何物品的重量,精确到克。但很不幸的是,这个电子秤和银行的报警系统相连接,只要被使用一次就会立刻失效。请问,小偷怎么做才能只使用一次电子秤就找到装着真金币的箱子呢?这是一个小学奥数难度的题,我猜这他们应该都没问题,但没准也会阴沟里翻船呢,对吧 ?先看官网 QwQ-32B的答案:回答很准确,没什么可以挑剔的。然后是上面我本地的 QwQ-32b_q4_K_M:这个视频没有进行任何加速,可以看到,在发送的一瞬间,就立马开始输出。比官网爽太多了!第一题没有分出胜负, 加大难度!!题目二:  池塘取水假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。官网 QwQ-32B的答案:下面是本地的 QwQ-32b_q4_K_M:可以看到,本地版也成功的给出了两种不同的方法。题目三:  编程题本地部署大模型用来作为编程助手是一个比较大的需求。对于当前大模型的能力来说,Leetcode 这类普通的面试题应该可以秒杀。所以直接给他们上难度。编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须以逼真的方式从旋转的墙壁上弹回。官网 QwQ-32B:一把过。而且对物理规律的把握非常准确。很难让人相信这是一个只有 32B 参数的模型。我们再看看本地的 QwQ-32b_q4_K_M 的表现:这次非常遗憾,没有完全输出答案就中断了。吐了 3、4 分钟之后,就卡住了,之后也没再输出。应该是显存不足了,大模型推理的过程会慢慢吞噬显存,到一定长度后就爆了。尤其是长文本和复杂任务推理的时候。而且,QwQ32b 模型有一个特点就是会输出超长的思考过程,动不动几万字 token,官网使用卡住了就大概率就是爆了。上面这三道测试题,虽然不具备严谨的统计意义,但可以很直观的让大家感受到本地部署的 QwQ 32b 模型能力。一句话总结就是,对于普通难度的问题,与官网没有太大区别。对于某些超级难的问题,本地模型还是有些困难。但本地部署模型的那种让你随时都能用,不需要排队等待的那种爽感,可不是在线模型能够带给你的。最后总结还在羡慕大佬们玩转各种 AI 大模型? 还在为高昂的 API 费用和复杂的部署流程发愁? 现在,阿里云通义千问 QwQ-32B 给你一个 零门槛、低成本、高性能 的全新选择! 5 分钟本地轻松部署,一块 24G 显卡就能搞定! 快来下载 Ollama + Chatbox,亲自体验 320 亿参数 “性价比之王” 的魅力吧! AI 大模型,其实离我们每个人都很近!
THE END