不是。。阿里股价涨停了？一口气发布8个模型，我却肠子都悔青了。。。

内容隐藏

1 摘要

2 1、Qwen3-Max：新一代旗舰语言模型

3 2、Qwen3-VL：视觉-语言模型的认知与行动力跃升

4 3、通义万相 Wan2.5：原生多模态与音画同步的视频生成

5 全模态与专用模型矩阵

5.1 4、Qwen3-Omni

5.2 5、Qwen3-LiveTranslate-Flash

5.3 6、Qwen3-Coder-plus

5.4 7、Qwen3Guard

5.5 8、Qwen3-Next

摘要

错过阿里股价上涨机会？本文详解阿里云栖大会发布的8大AI模型矩阵，包括Qwen3-Max、Qwen3-VL和通义万相Wan2.5，助你了解AI投资趋势与技术突破。

今天是阿里的云栖大会第一天，饼干哥哥在去的路上，看到这张图，我肠子都悔青了

因为我朋友已经三番四次提醒我要入了，但我充耳不闻，硬是捂住口袋不让钱进来

我猜这个行情，应该是跟这些天阿里一口气发布、开源了 N 个模型有关，真「源神」启动了。。

而且之前从多个渠道隐约知道他们在谋划这个，但愣是没往股价上想。。

当然云栖大会只是引子，更多是跟阿里在 AI 上的布局与战略相关。

注：本文不对投资做任何建议

AI 是大趋势，但说实话很卷，像我这样没什么实力的普通人，想吃上这波红利的最佳方式或许就是做 AI 的股东，让 AI 公司们去为我们挣钱。。

话说回来，今天主题还是要介绍一下阿里开源的这些模型。

阿里这次云栖大会开场就发布多个全新顶级 AI 模型，这势头，越来越有国际科技巨头谷歌的范儿。

此次发布不仅涵盖参数空前的旗舰模型 Qwen3-Max，更囊括视觉—语言、全模态、多语言安全、代码创作、端到端推理等细分赛道，辅以新一代 AI 应用 Wan2.5，实现视觉、语音、文本、视频、代码等多领域一体化升级。

接下来，饼干哥哥带你一口气看完！

Qwen 系列家族全景

1、Qwen3-Max：新一代旗舰语言模型

人话：万亿参数，AI 最强大脑，对标 GPT-5，专攻最复杂的科研与编程。

作为 Qwen 系列最新的旗舰产品，Qwen3-Max 模型总参数超过一万亿，使用了 36 万亿 tokens 进行预训练。

Qwen3-Max 分为 Instruct 与 Thinking 两个版本，以应对不同复杂度的任务需求。

Qwen3-Max-Instruct 版本，专注于提升代码和代理（Agent）能力。

在多个行业标准基准测试中，该模型表现突出。例如，在旨在评估真实世界编程难题解决能力的 SWE-Bench 上，其取得了 69.6 分；在衡量 AI 在动态环境中推理与工具使用能力的 τ²-Bench 上，得分达到 74.8，超过了同类模型；在 AIME25 数学竞赛基准测试中，得分 81.6。

图片

Qwen3-Max-Thinking 版本则为需要深度推理的任务设计。

在 AIME25 和 HMMT25 这两个高难度数学推理竞赛题集上，该版本均取得了 100 分的满分成绩。在知识问答基准 GPQA 上，其得分也达到了 85.4，展现了在复杂知识推理领域的强大性能。

2、Qwen3-VL：视觉-语言模型的认知与行动力跃升

人话：视觉推理高手，能直接操作界面。

Qwen3-VL 系列是 Qwen 家族中性能最强的视觉语言模型，旨在将模型能力从视觉感知提升至认知、推理与行动的层面。此次发布的旗舰开源模型为 Qwen3-VL-235B-A22B，同样提供 Instruct 和 Thinking 两个版本。

该模型在多个维度实现了技术突破：

视觉代理能力：模型能够理解并操作 PC 或手机的图形用户界面（GUI），识别按钮、调用工具并执行现实世界任务。在 OS World 基准测试上取得了 SOTA 性能。
视觉编程：支持将截图或设计草图直接转化为 HTML/CSS/JavaScript 代码，实现“所见即所得”的开发模式。
长上下文与多语言 OCR：原生支持 256K token 上下文，并可扩展至 100 万 token，能够处理长达两小时的视频或多页 PDF 文档。其 OCR 能力支持 32 种语言，并增强了对模糊、倾斜或罕见字符的识别鲁棒性。
高级空间推理：支持从二维相对坐标到三维定位的推理，能够处理物体遮挡关系和视角理解。

在性能评测中，Qwen3-VL-235B-A22B-Instruct 版本在多个关键视觉基准测试中超越了 Gemini 2.5 Pro。而 Thinking 版本则在数学和 STEM 等多模态推理任务中表现突出，树立了新的性能标杆。

图片

在 Thinking 模式下，Qwen3-VL 在 STEM、通用视觉问答、指令跟随、OCR 文档识别以及视频任务等多个方面均展现出全面领先的性能，尤其在需要深度逻辑推理的场景中优势明显。

图片

3、通义万相 Wan2.5：原生多模态与音画同步的视频生成

人话：AI 视频导演，一句话就能生成“音画同步”的电影级短片。

在视觉生成领域，阿里发布了通义万相 Wan2.5 Preview 系列模型，涵盖文生视频、图生视频、文生图和图像编辑等多个方向，剑指谷歌的 VEO3

其核心技术突破在于采用了原生多模态架构，在单一框架内实现了对文本、图像、视频、音频等多种模态的统一处理，从而首次实现了音画同步的视频生成能力。

与前代模型相比，Wan2.5 在技术和性能上均有显著升级。其视频生成时长提升至 10 秒，支持 24 帧每秒的 1080P 高清画质，满足了更完整的叙事需求。

模型对指令的理解能力也得到增强，能够处理如“运镜”等复杂的连续变化控制。

音画同步是其最关键的特性，用户不仅可以通过提示词描述生成与画面内容、人物口型精准匹配的人声、环境音效和背景音乐，还可以输入一段参考音频来驱动文本或图片生成音画协同的视频，极大地提升了生成内容的生动性和真实感。

Wan2.5 架构升级示意

此外，Wan2.5 的图像生成和编辑能力也得到全面升级。模型现已支持生成包含中英文文字和图表的复杂图像，如艺术海报、流程图及架构图等。同时，用户可通过自然语言指令对图像进行编辑，实现人物或风格的快速变换。这一系列能力的整合，标志着视觉生成模型正从单一的图像或无声视频生成，迈向能够进行多感官、富含叙事元素的综合性内容创作。

全模态与专用模型矩阵

除旗舰模型外，此次发布还包含一系列覆盖全模态、实时翻译、代码、安全及创新架构的专用模型。

4、Qwen3-Omni

人话：全模态通才，能无缝处理视频、语音、图片的混合对话。

这是昨天发布的。

作为一款原生的端到端全模态模型，Qwen3-Omni 支持文本、图像、音频和视频的统一输入处理。它支持 119 种文本语言交互和 19 种语音理解，能够实现低至 211 毫秒延迟的端到端语音对话。

与 GPT-4o 和 Gemini-2.5-Flash 相比，Qwen3-Omini-30B-A3B 在 36 个语音和语音多模态（Audio-Visual）上获得 22 个第一十分强悍！

5、Qwen3-LiveTranslate-Flash

人话：会“读唇语”的 AI 同传，结合视觉和听觉做更精准的实时翻译。

这是一款实时多模态口译模型，具备广泛的语言覆盖（理解 18 种语言和 6 种方言），并通过视觉增强技术（读取唇部动作、手势等）提升抗噪能力。

该模型实现了接近实时的翻译效果，延迟约 3 秒。在 FLEURS 基准测试中，其 BLEU 分数在中文相关翻译任务上表现出明显优势。

语音到文本翻译对比

6、Qwen3-Coder-plus

人话：推理速度更快，使用更少的 token 可达到更优的效果

新版 Qwen3-Coder 增强了终端任务执行能力和代码生成安全性。评测数据显示，模型在 TerminalBench (Claude Code) 和 SecCodeBench 上的性能提升显著，同时在 SWE-Bench 上保持了高达 69.6 的性能水平。

代码评测提升

7、Qwen3Guard

人话：AI 应用的“安全卫士”，负责过滤不良信息，确保 AI 内容安全。

这是一个专为 AI 安全设计的审查模型系列。该模型在有害输入（Prompt）和输出（Response）的分类任务上，尤其是在中文和多语言场景下，其识别准确率显著高于同类安全模型，中文性能几乎是竞品两倍。

安全基准对比

8、Qwen3-Next

人话： “降本增效”的典范，用极小计算成本实现旗舰级模型性能。

该模型代表了架构上的创新，其总参数为 80B，但在推理时仅激活 3B 参数，其性能可媲美 235B 的密集模型。

这种稀疏激活架构使得训练成本相较于同等性能的密集模型降低超过 90%，并将长文本推理的吞吐量提升 10 倍以上。

阿里这种密集发布完整 AI 模型矩阵、构筑全维生态壁垒的宏大叙事，越来越有谷歌等世界级科技巨头的风范。

在如今这场白热化的全球 AI 军备竞赛中，阿里正积蓄着足够的力量，成为那个能与谷歌等巨头正面抗衡、定义下一个时代规则的关键角色。

我们拭目以待！

👤 关于作者：饼干哥哥 & NGS

我是饼干哥哥，数据分析师、AI 博主，和出海业务专家朋友创立了公司 NGS NextGrowthSail，专注 AI 在出海营销场景下的落地。这让我想起 NGS 在服务海外品牌舆情监控时，正是利用类似的多模态AI技术提升了数据洞察效率。

🔗 访问 NextGrowthSail 官网 →

摘要