3 月 6 日凌晨 3 点,阿里巴巴发布并开源全新的推理模型通义千问 QwQ-32B。阿里巴巴称,这是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。
据悉,QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力,并与 OpenAI 的 o1-mini 以及 DeepSeek 满血版及蒸馏版进行了比较。
在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型。
在由 Meta 首席科学家杨立昆领衔的“最难 LLMs 评测榜”LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,千问 QwQ-32B 的得分均超越了 DeepSeek-R1。
官方介绍称,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,阿里团队还在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
除了性能上的大幅提升,QwQ-32B 的另外一个亮点是大幅降低了部署使用成本,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。
资料显示,从 2023 年至今,阿里通义团队已开源 200 多款模型,包含大语言模型千问 Qwen 及视觉生成模型万相 Wan 等两大基模系列,覆盖从 0.5B 到 110B 等参数,实现了全模态、全尺寸大模型的开源。
开源社区 Hugging Face 此前的榜单显示,开源仅 6 天的阿里万相大模型已反超 DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相 2.1(Wan2.1)在 Hugging Face 及魔搭社区的总下载量已超百万,在 Github 的 Star 数超 6k。
在通义千问最新推理模型发布并开源后,阿里巴巴股价应声大涨。隔夜美股收盘涨 8.61%,报收 141.03 美元。截至发稿,阿里巴巴港股涨超 7%。今年以来,阿里巴巴股价累计涨幅已近 70%。
来源:界面新闻
今年国内AI百花齐放。