不是。。。DeepSeek你真会啊??那我刚充Claude的20美金算什么??

摘要

DeepSeek R1模型低调升级,代码能力直逼Claude 3.7和OpenAI o3,实测显示只需简单提示词即可生成高质量网站,大幅提升开发效率。

熟悉饼干哥哥公众号风格的同学都知道,我一般不实时追热点的:太着急下的判断很多时候是错的,误导读者。

今早起来,看到 AI 自媒体们又集体高潮了:DeepSeek 再一次改变历史?

无语了 😅

但我实测的时候发现被打脸了

不是。。。DeepSeek 你真会啊??那我刚充的 20 美金算什么??

deepseek-r1-upgrade-guide

太长不看版,直接划重点:

  • DeepSeek R1 模型在 5 月 28 日进行了“小版本试升级”(0528 版),官方异常低调,未公布具体更新日志!

  • API 接口和使用方式不变,开发者零成本升级!

  • 实测炸裂:代码生成能力大幅提升,部分测试直逼乃至超越 Claude 3.7,媲美 OpenAI o3 高版本!前端审美也和 Claude 4 打得有来有回!

  • 逻辑推理、长文本处理再进化! 语义理解更精准,复杂逻辑链更稳定,超长上下文回溯更准,甚至能像 o3 一样纠正思维链(CoT)!

  • **为什么网上测评说 DeepSeek 很强,但自己上手后效果就很差呢?**附:DeepSeek 的正确打开方式

实测下来,思考链真的好长好长,一句话完成复杂需求的新 AI 时代到了!!

昨天!AI 圈又被 DeepSeek 这匹黑马给搅动了!DeepSeek 官方在交流群中低调宣布,R1 模型已完成小版本试升级!用户可以通过官网、App 或小程序(需打开「深度思考」功能)进行测试。

deepseek-r1-upgrade-guide

图片

但诡异的是,官方这次竟然一个字儿都没提更新了啥!Docs 里的「Change Log」也还停留在 3 月份。这葫芦里到底卖的什么药?是小打小闹,还是憋了个大招?全球 AI 爱好者和开发者都在围观!

deepseek-r1-upgrade-guide

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

尽管官方三缄其口,但实测下来,这次升级,在语义理解、逻辑推理、长文本处理、尤其是编程能力上都有显著提升!虽然官方还没放 Benchmark,但用户口碑已经炸了!

代码能力杀疯了!直逼 OpenAI o3?

要说这次升级最让人“人已麻”的,绝对是代码能力!有网友在著名的代码测试平台 Live CodeBench 上测试,新版 R1 的性能竟然可以媲美 OpenAI 最新的 o3 模型高版本!这消息一出,整个圈子都沸腾了!

deepseek-r1-upgrade-guide

图片

知名 AI 评论人 Haider 直接高呼:“大师兄 DeepSeek 又回来了~” 他用一个单词评分系统构建的编程挑战测试新 R1,模型不仅给出了整洁代码,还附带了可运行的测试用 olc,第一次运行就完美通过!Haider 表示:“此前只有 o3 模型能做到这一点,但现在没有其他模型能做到了。”

deepseek-r1-upgrade-guide

图片

饼干哥哥来实测看看是怎么个事?

⚠️ 先说说:DeepSeek 的正确打开方式

在直播的时候,经常会遇到有同学反馈说:为什么网上测评说 DeepSeek 很强,但自己上手后效果就很差呢?

交流了才知道,原来大家用 DeepSeek 的方式错了:还停留在“上一代”的 AI 用法上。

首先,OpenAI 于 2022 年 12 月推出 ChatGPT 后,掀起了 AI 热。但由于 AI 理解能力的不足,就需要提示词。

接下来就是一大段时间的「提示词工程」的科普与发展,我们就习惯了用 AI 的时候给它一大段提示词:角色、人物、限制、输出格式、示例等等。

但到了今年春节前夕 DeepSeek 把「深度思考」的能力带出来后,直接引爆了 AI 的新一轮革命,这也是它之所以这么瞩目的原因。

深度思考是 DeepSeek 的优势:让你只需要简单的几句话,就能实现复杂的需求识别、意图理解与效果实现。

也就是说,用 DeepSeek 就只能用少量提示词,太多的话反而会限制它的发挥。

但用 Claude 的国外大模型,才需要大量提示词,因为它能很好的遵循规则(反过来说就是 DS 没法很好遵循规则)

我们分别用这两种方式来测一下效果。需求是开发一个股票行情的监控网站。

首先是**「结构化提示词」**

请设计一个AI股票监控的可交互数据可视化平台的前端页面,该平台需在大屏幕上展示实时股票行情、AI预测分析和交易辅助决策功能。要求:

1.  页面布局与设计:
    *   采用16:9的宽屏设计,适合在4K分辨率大屏上展示
    *   设计暗色背景的界面,确保长时间监控时不刺眼
    *   所有组件采用模块化设计,具有统一的视觉风格
    *   包含页眉(平台名称/Logo、时间、市场状态)、主内容区、数据汇总/AI洞察栏和操作区

2.  核心数据可视化模块:
    *   股票市场热力图,覆盖主要板块/行业或个股,使用渐变色标识涨跌幅或成交活跃度
    *   关键股票实时数据监控,包含股价、成交量、买卖盘深度、技术指标(如MA, MACD, RSI)
    *   市场重大事件/新闻资讯流,标记财报发布、经济数据公布、分析师评级变动、突发新闻等影响市场的事件
    *   投资组合表现可视化,展示资产配置、个股盈亏、整体收益率、风险指标(如Beta, VaR)
    *   自选股/关注列表仪表盘,展示所选股票的实时价格变动、关键财务指标、AI评级/预警
    *   股价/成交量趋势图(如分时图、K线图),包含实时数据、历史对比及常用技术指标叠加

3.  数据分析与AI预测模块:
    *   AI驱动的股价走势预测模型可视化,展示未来短期(如1小时、1日、1周)内关键股票或指数的潜在波动区域和概率
    *   多因素关联分析图表,展示宏观经济指标(如利率、通胀)、市场情绪、新闻事件与股价变动的关系
    *   AI驱动的股价异动/市场风险预警面板,采用不同颜色标识预警紧急程度(如价格急涨急跌、成交量异动、突发负面新闻)
    *   关键绩效指标(KPI)对比/变化图表,展示投资组合收益率、夏普比率、与基准对比的超额收益等表现

4.  技术要求:
    *   使用HTML5、CSS3和纯JavaScript实现(不使用任何外部库)
    *   手写所有图表和数据可视化组件,包括K线图、成交量柱状图、热力图、折线图、饼图等
    *   实现数据的定时刷新机制,支持1秒-1分钟不等的可配置刷新频率(根据数据源特性)
    *   添加交互功能,如点击图表查看详细数据、时间周期选择、股票代码搜索、技术指标参数调整等
    *   所有代码和样式需内联在HTML文件中

5.  示例数据:
    *   为每个可视化模块创建合理的模拟数据集
    *   数据应反映真实股票市场特征,包含牛市、熊市、震荡市以及不同板块/个股的波动特点
    *   添加若干异常数据点(如股价闪崩、业绩爆雷、重大利好),用于测试AI预警和分析功能

请提供完整的HTML代码实现,确保视觉效果专业、数据展示清晰、整体布局合理,适合在大屏环境下长时间监控使用。

得到两个效果网站,你们猜哪个是 DeepSeek,哪个是 Claude4:

deepseek-r1-upgrade-guide

deepseek-r1-upgrade-guide

揭晓答案:上面的是 DeepSeek,下面的是 Claude4

有一说一,这波 DeepSeek 赢了,审美上更好看、布局上能确保控制在一个屏幕内看完。

由于这个看板太复杂了,真实情况是,DeepSeek 和 Claude 我都各改了一遍才有这个效果,但也只是小改动:

deepseek-r1-upgrade-guide
deepseek-r1-upgrade-guide

但!DeepSeek 只需要改一遍就有这样的效果,赢麻了。。。

接着我们看**「一句话提示词」**

deepseek-r1-upgrade-guide

继续猜,哪个是 DeepSeek,哪个是 Claude4:

deepseek-r1-upgrade-guide

deepseek-r1-upgrade-guide

揭晓答案:上面的是 Claude4,下面的是 DeepSeek

一句话提示词出来的网站内容确实是会更简单一些,但 DeepSeek 给的颜值视觉效果上更胜一筹。

Claude4 属于中规中矩了。

看官老爷们,你们更喜欢哪个呢?

“悄悄升级”的背后:安全补丁还是战略调整?

这次 DeepSeek“小版本试升级”选择在英伟达发布财报前几小时,而且如此低调,背后深意引人遐想。 有分析认为,可能是针对今年 1 月《WIRED》报道的 R1 防护措施被绕过问题,进行安全补丁的增量迭代。 另一种可能是产品路线的统一和优化,为后续可能发布的 R2 铺路,减少双线维护成本。

毕竟,DeepSeek V3 才在 3 月强化了推理,现在将类似优化下放到 R1 也合情合理。 甚至有猜测,这是 DeepSeek 一贯的“降价 + 先灰度”打法,意在抢占 618 电商大促前的流量,并通过频繁微更新在与字节 Seed-Thinking v1.5、Claude 4 等竞品的角逐中保持热度。

deepseek-r1-upgrade-guide

图片

一些用户反馈新 R1 的思考时间变长了,Hyperbolic Labs 的 CEO 则表示新 R1“仍然是唯一能回答 9.9 和 9.11 哪个最大的模型”。这似乎暗示了模型在深度推理和思维链(CoT)纠正能力上的增强,能够像 Google 模型一样进行深度推理,并像 Claude 一样创造性地构建世界观。

国产 AI 的“超车”时刻?

当然,目前官方尚未发布正式的模型卡和 Benchmark,我们仍需“让子弹再飞一会儿”。后续可重点关注官方「Change Log」的更新、社区 Red-Team 对安全性的测试,以及 API 定价是否会有调整。

但无论如何,DeepSeek R1 这次“小版本试升级”所展现出的潜力,已经足以让整个 AI 行业为之侧目。

国产 AI,这次可能真的要行了!




👤 关于作者:饼干哥哥 & NGS
我是饼干哥哥,数据分析师、AI 博主,和出海业务专家朋友创立了公司 NGS NextGrowthSail,专注 AI 在出海营销场景下的落地。上周我们内部复盘 AI SEO / GEO 流量优化数据时,发现如果用上 DeepSeek 的深度思考功能,内容生成效率能提升30%以上。

发表评论