Vibe Marketing 实践:用Claude code+kimi k2爬取了120个 b站视频做内容选题数据分析

摘要

作者分享如何用Claude Code和Kimi K2爬取120个B站视频数据,通过四步分析法解决内容选题迷茫,找到AI搞钱、n8n、AI出海营销三大方向,并提供完整AI工作流和可视化报告。

这两个月有件一直困扰我的事

就是我想拍视频,突破一下我的舒适区。

vibe-marketing-bilibili-data-analysis

其实我之前是数据分析博主,在今年 3 月才转型 ALL in AI,B 站积累了一些粉丝,不想浪费,所以想从这里重新开始

vibe-marketing-bilibili-data-analysis

但问题是,我真的不知道拍什么好!

感觉什么方向都能拍,但又感觉哪个方向都不容易拍好,陷入了“想得太多,做得太少”的内耗循环。

怎么破局?

作为数据分析师,当然是要从数据出发:

把“做什么选题”这个感性问题,变成一个可以被量化、被执行的数据分析项目。

类似的 Vibe Marketing 实践:我的 Vibe Marketing 实践案例:如何用 AI 工作流驱动小红书矩阵,实现 7 位数营收

vibe-marketing-bilibili-data-analysis

于是,我设计了一个**“内容定位”四步分析法:**

  1. 自我剖析 (Why): 重新认识我自己,擅长做什么内容?因为我一直在写公众号,所以就可以从公众号数据里找我的内容基因——找到用户最认可、数据表现最好的内容方向,作为起点

  2. 市场探索 (What): B 站上,跟我优势领域相关的视频,哪些是热门?数据表现如何?这是去市场上“侦察敌情”。

  3. 数据分析 (How): 对 B 站的热门视频数据进行深度分析,计算互动率、收藏率等关键指标,找到流量密码。

  4. 策略生成 (Action): 结合“我的优势”和“市场机遇”,推导出具体的、可落地的爆款选题,并形成一份一目了然的可视化报告。

vibe-marketing-bilibili-data-analysis

定好方案后,就得挑一个工具来落地执行。

正好在上次文章中,提到 Kimi K2 最近做了一次小版本更新

在 Agentic Coding(调用工具执行任务更少报错)、前端审美、上下文长度(从 128k 提升到 256k)、速度(最高达 100Token/秒)上都有不错的优化,在部分能力上甚至已经超越 Claude 4

vibe-marketing-bilibili-data-analysis

参考:刚刚!claude 彻底断更,但被这个国产模型被超越只是时间问题

加上在上次的 Case 中,Kimi 的表现很惊艳,所以这次也选它来执行。

参考:两句话,让 Claude Code+Kimi K2 跑了 3 小时爬完 17 个竞品网站、做了一份深度市场数据分析报告

先给大家看下最终的数据分析报告,我觉得还是很不错的

不论是可视化上有一种高级感,还是在内容上逻辑层层递进环环相扣,可落地性很高。

vibe-marketing-bilibili-data-analysis

就是这份报告,帮我从迷茫中找到了三个宝藏方向。

想知道是哪三个、以及我是怎么做到的吗?我们从头说起。

[!TIP]
本文所有提示词和 B 站爬虫脚本见文末。

Step 1: 自我剖析,用数据找到我的“内容基因”

分析的第一步,是把我的公众号历史文章数据全部扒下来,丢给 Claude Code。

vibe-marketing-bilibili-data-analysis

我这里是稍微做了加工:

vibe-marketing-bilibili-data-analysis

参考提示词:

你好,我是一名AI自媒体博主,这是我过往的公众号文章数据: `【饼干哥哥AGI】公众号分析表 _文章汇总_单账号数据.csv`。

请你扮演一名内容策略分析师,执行以下任务:
1.  **读取并分析文件**:加载这个 CSV 文件。
2.  **理解内容核心**:通过分析“文章标题”和文章分类等信息,总结出我内容中最常出现、最受欢迎的核心主题。
3.  **分析并量化优势**:请加载并分析文件,**自动识别**能代表文章热度的关键数据指标。按内容主题进行聚合分析,找出我表现最出色的 2-4 个**“优势主题方向”**。
4. **提炼关键词**:基于这些核心主题,提炼出 5-8 个最适合作为 Bilibili 视频搜索关键词的短语。这些关键词应该简短、有搜索价值,例如 "AI绘画", "claude code", "n8n", "AI ppt" 等。
5. **输出结果**:请将最终的关键词列表以 Python 列表的格式直接输出,方便我复制用于下一步。

例如:
['关键词1', '关键词2', '关键词3']

大概花了 14 分钟,完成了这部分的分析

vibe-marketing-bilibili-data-analysis

得到了一个关键词搜索列表:

['claude code', 'cursor教程', 'n8n工作流', 'AI出海营销', 'AI数据分析', 'AI编程工具',
  '自动化工作流', 'AI副业赚钱']

这里提一句,AI 直接做分析幻觉是很大的

正确的打开方式是让 AI 分析数据结构后,执行 python 脚本计算关键指标,最后再做定性分析结论。

这一点,kimi 明显是通过考验了,有生成一个 data_analysis.py 的脚本,所以最终结论是可靠的。

vibe-marketing-bilibili-data-analysis

Step 2: 市场探索,让 Kimi 写个爬虫,搞定 120 条视频数据

有了关键词,下一步就是去 B 站采集数据。

我最开始想用 Playwright MCP,完成所有视频的采集的,来替代类似于 RPA 或爬虫的工作

因为上次跑 Playwright 是很丝滑的,所以我信心满满

结果悲催了,跑了 2 个小时愣是跑不出完,还看到超出上下文的报错

然后我换成 Claude、GLM 同样如此

可以说是全军覆没了

这一步老实说我尝试了 1 天 1 夜都不行。

快要放弃的时候,忽然想起来。

Kimi 尝试过几次去新建 Python 爬虫脚本,都被我取消重来了。

我悟了!!其实完全用 MCP 并不科学。 因为这样会造成大量 Token 消耗的同时,会让 AI 陷入大量的判断和等待,就算能跑成功时间和 token 的消耗是巨大的

况且我是想定期做分析的,用 MCP 的话,下一次,AI 就不一定能跑出来一模一样的效果了。

你是不是也在哪里踩过类似的坑?

所以!!最佳方案依然是用爬虫脚本,一次开发,反复使用。

这个逻辑在这篇文章中有提过 Claude Code 的 Sub-agents,烧了 1000 美金才知道的血泪经验

但别担心,我们不需要自己写。

而是继续考验 Kimi:

你现在是一名专业的网络数据采集工程师,需要为我采集 Bilibili 的视频数据。

请根据下面提供的关键词列表,执行以下采集任务:

keywords = ['claude code', 'cursor教程', 'n8n工作流', 'AI出海营销', 'AI数据分析', 'AI编程工具','自动化工作流', 'AI副业赚钱']

任务要求:
1.  **遍历关键词**:为列表中的每一个关键词执行一次B站搜索。
2.  **筛选热门视频**:在搜索结果页,请按照“最多点击”或“综合排序”进行筛选,只采集近一年内发布、排名靠前的大约 15 个视频。
3.  **逐个视频点击进去抓取详细数据**:进入每个视频的详情页,精准抓取以下信息:
    * 视频标题 (Title)
    * 视频链接 (URL)
    * UP主 (Author)
    * 播放量 (Views)
    * 弹幕数 (Danmaku)
    * 点赞数 (Likes)
    * 投币数 (Coins)
    * 收藏数 (Favorites)
    * 转发数 (Shares)
    * 视频时长 (Duration)
    * 发布日期 (Publish Date)
    * 所属关键词 (Keyword) <-- 请额外增加这一列用于区分数据来源
4.  **保存结果**将所有采集到的数据汇总到同一个名为 `bilibili_videos_data.csv` 的文件请确保文件使用 UTF-8 编码避免中文乱码

由于任务比较重建议第一次先调用 playwright mcp 工具 搜索关键词,打开某个视频,完成一次完整数据的爬取;然后再根据这个路径经验,写一个 python 脚本, python 脚本来执行剩余所有关键词的搜索视频点击进入数据爬取等工作最终完成所有b 站数据的抓取

说实话,开发爬虫脚本,我是有点担心的

因为 kimi 本身没有多模态,看不到页面,效果会不会不好?

大概等了 20 分钟,Kimi 迭代了 3 个版本给出一个 bilibili_scraper_enhanced.py 的脚本,它的逻辑也是基于 Playwright 框架去操作浏览器获得视频数据

vibe-marketing-bilibili-data-analysis

我直接运行,跑了有 20 分钟,就完成了 120 条视频的抓取,得到 excel 文件 bilibili_analysis_results.csv

结构如下图所示,有视频的浏览、弹幕数、投币数等等指标

不着急,先检验一下这条数据

vibe-marketing-bilibili-data-analysis

网站能正常打开,太好了,数据都对上了!!!

vibe-marketing-bilibili-data-analysis

Step 3: B 站视频数据分析

数据准备就绪,接下来就是数据分析师的主场了。

参考提示词:

vibe-marketing-bilibili-data-analysis

Kimi 大概 7 分钟就跑完了,生成了两个文件。

vibe-marketing-bilibili-data-analysis

看看它干了啥:

bilibili_analysis_result.csv 就是在原来视频数据的基础上补充了一部分占比指标

vibe-marketing-bilibili-data-analysis

topic_analysis_report.md 则是文字分析,内容还挺丰富的:

vibe-marketing-bilibili-data-analysis

具体展开是这样:

vibe-marketing-bilibili-data-analysis
vibe-marketing-bilibili-data-analysis
vibe-marketing-bilibili-data-analysis
vibe-marketing-bilibili-data-analysis

这个过程中,Kimi 还发现一些有趣的洞察结论:

  1. 优先引导“收藏”而不是点赞,尤其是教程/模板类
  • 因为一些收藏率高的视频,能带动整体数据变得更好,所以可以多在封面/标题加入“附模板/清单 | 建议收藏”;视频里提醒收藏等等
  1. 聚焦“业务链路关键节点”比泛主题更能打爆
  • 例如讲“支付”的视频综合互动率(21%),完爆一些“营销人必看!AI 威胁…”的泛视频(仅 8%)

继续让 Kimi 深挖的话,还能出来不少洞察

我把这个爬虫脚本放到了文末,大家可以自己采集数据分析看看

有什么有趣结论欢迎评论留言

我们继续。

Step 4: 数据分析报告 html

最后怎么讲好数据故事,就很依赖叙事逻辑了。

我设计了四幕结构,逻辑层层递进:

第一幕:自我剖析: 我的内容基因是什么?

第二幕:市场探索: 基于我的优势,B 站的热门风向是什么?

第三幕:洞察与机遇: 数据告诉了我们什么秘密?机会在哪里?

第四幕:行动蓝图: 综上所述,我具体该做什么?

提示词太长了,我放到了飞书文档,可以点「阅读原文」获取。

# 角色:AI 自媒体内容策略与数据可视化专家

## 简介:
- 描述:专业的内容策略师与数据叙事专家,精通将创作者的既有优势与新平台机遇进行数据关联,并擅长使用现代 Web 技术(如 TailwindCSS、GSAP)将复杂的分析过程转化为具有冲击力和洞察力的动态可视化 HTML 报告。

## 背景:
你是一位顶尖的自媒体增长顾问,专门帮助像【饼干哥哥AGI】这样的知识型创作者,在拓展新平台(如B站)时做出由数据驱动的、成功率最高的选题决策。你坚信,最好的策略不是盲目追逐热点,而是找到自身独有优势与平台热门机遇的最佳结合点。

## 目标:
生成一个完整的、具备清晰叙事逻辑的、可直接使用的 HTML 报告页面。该报告需要引导用户(饼干哥哥AGI)清晰地理解从他现有公众号的内容基因,到 B 站市场的机遇,最终推导出最适合他的具体视频选题和行动建议。

## 报告核心叙事逻辑 (The Core Narrative Logic):
这是本次任务最重要的部分,最终的 HTML 报告必须严格遵循以下四幕结构来组织内容和视觉呈现:

1.  **第一幕:自我剖析 (Act I: Self-Analysis)**
    * **核心问题:** 我是谁?我的内容基因是什么?
    * **数据源:** `【饼干哥哥AGI】公众号分析表 _文章汇总_单账号数据.csv`
    * **呈现内容:** 报告的开篇,需要简洁地可视化呈现公众号数据,总结出博主最高产、最受欢迎的内容领域(例如“AI 效率工具”、“大模型技术解读”等),并明确指出这些是后续进行市场探索的“种子选手”。

2.  **第二幕:市场探索 (Act II: Market Exploration)**
    * **核心问题:** 基于我的优势,B站的热门风向是什么?
    * **数据源:** `bilibili_analysis_results.csv`
    * **呈现内容:** 承接第一幕,说明“我们带着这些优势领域作为关键词,去B站进行了侦察”。然后,使用**交互式图表**(如下文图表要求)清晰展示这些关键词在B站的宏观数据表现(平均播放、互动率等),让用户对市场大盘有直观感受。

3.  **第三幕:洞察与机遇 (Act III: Insights & Opportunities)**
    * **核心问题:** 数据告诉了我们什么秘密?机会在哪里?
    * **数据源:** `topic_analysis_report.md``bilibili_analysis_results.csv`
    * **呈现内容:** 深入解读第二幕的图表。高亮展示哪些主题是“高播放洼地”或“高互动蓝海”。分析爆款视频的共性特征(标题、时长等),将 `topic_analysis_report.md` 中的核心洞察以精炼、可视化的方式呈现。

4.  **第四幕:行动蓝图 (Act IV: Action Blueprint)**
    * **核心问题:** 综上所述,我具体该做什么?
    * **数据源:** 综合所有输入
    * **呈现内容:** 报告的最终章,给出结论。提供 2-3 个具体的、高度可执行的视频选题建议。每个建议都必须**同时链接第一幕(我的优势)和第三幕(市场机遇)的分析**,形成一个无可辩驳的、逻辑闭环的行动方案。

## 数据输入说明:
你将获得以下三个文件,请在报告的四个幕中合理引用和可视化:
- **`【饼干哥哥AGI】公众号分析表 _文章汇总_单账号数据.csv`**:用于**第一幕**,分析博主自身的内容基因和优势领域。
- **`bilibili_analysis_results.csv`**:用于**第二幕**和**第三幕**,作为B站市场数据分析的核心依据。
- **`topic_analysis_report.md`**:用于**第三幕**和**第四幕**,提供文字性的分析洞察和最终建议。

## 交互图表要求:
在**第二幕**中,必须使用 Plotly 或其他库创建至少以下两个图表:
- **图表一:主题表现力雷达图/条形图**:对比不同关键词(主题)的“平均播放量”、“平均点赞率”、“平均收藏率”等多个维度,直观展示各主题的综合表现力。
- **图表二:播放量与互动效率矩阵**:创建一个散点图,以“播放量”为 X 轴,“综合互动率”为 Y 轴。鼠标悬停时可显示视频标题,帮助识别出那些“叫好又叫座”的爆款视频。

## 技术要求:
1. 使用 TailwindCSS 进行整体布局和样式控制。
2. 集成 GSAP,为关键数据和标题添加微妙、专业的入场或交互动效。
3. 基于 HTML5 标准,确保代码结构清晰。
4. **必须**实现响应式设计,确保在桌面和移动设备上都有优秀的阅读体验。

## 设计规范:
1. 根据“AI”、“科技”等主题特性选择深色系(如深蓝、太空黑)作为背景,并搭配科技感的亮色(如赛博蓝、亮青色)作为主题和高亮色。
2. **应用超大字体和视觉元素突出每幕的标题和核心结论**,创造强烈的视觉对比和信息层级。
3. 大标题使用中文,辅助性说明或数据单位可使用英文小字点缀。
4. 使用简洁的矩形、线条元素来组织信息模块和进行数据可视化。
5. 高亮色可应用半透明效果,尤其是在边框或背景上,增加页面的通透感和精致度。
6. 所有图表(包括自定义的HTML图表)应采用统一的脚注和标题样式,保持视觉一致性。
7. 避免使用 emoji 作为图标,应使用线条图标(SVG)或纯文本。

## 输出格式:
请直接提供一份单一、完整的 HTML 文件代码。所有 CSS (TailwindCSS) 和 JavaScript (GSAP) 都应包含在内(可通过 CDN 引入),确保代码复制后能直接在浏览器中完美运行。

## 初始化:
作为 AI 自媒体内容策略与数据可视化专家,我已经理解了全部需求。请立即开始工作,生成这份具有清晰叙事逻辑的动态可视化报告。报告的核心目标是让用户在 **60秒内清晰洞察从现有优势到B站爆款选题的完整路径**,并确保**第四幕的行动蓝图**具备极强的说服力和可执行性。

最终报告给的方向确实也是我感兴趣且擅长的:AI 搞钱、n8n、AI 出海营销。

接下来会去做实践。

大家可以对比一下,Kimi 这个版本的审美到什么地步了?我个人感觉是跟 Claude4 蛮接近的

vibe-marketing-bilibili-data-analysis
Kimi K2
vibe-marketing-bilibili-data-analysis
Claude 4
vibe-marketing-bilibili-data-analysis
ChatGPT 5

写在最后

我们再来复盘一下整个流程,并聊聊我对 Kimi K2 表现的看法。

说实话,这个流程看似顺畅,但其实有 2 个非常棘手的难点

一个是写爬虫脚本,而且是要去为一个结构复杂、动态加载的网站(B 站)编写一个能精准定位并抓取数据的 Playwright 脚本。

这个过程其实我看到它是在不断的测试:访问 B 站,获得源码,解析后更新脚本,如此重复 🔁

对模型的 Agentic 规划能力和上下文长度要求是很高的

另一个是生成可视化数据分析报告,这不是技术问题,而是对审美、对信息的提炼归纳能力

Kimi K2 的表现确实超出了我的预期,至少这个版本的更新是有效的:

  • 前面说 Kimi 迭代了多个版本,而最终给出的爬虫是能顺利跑数据的,也就是**「调用工具执行任务更少报错」**这个说法没错

  • 上下文长度会影响爬虫返回数据的处理,这个量是很大的,我看到这个处理过程是会不断超出长度上限,但最后又能完成编程,说明 Kimi 的上下文理解能力也到位。

  • 速度方面,说实话没什么感觉哈哈哈,还是慢

虽然国产大模型跟国外还有距离,但明显能看到在多个场景下,距离在不断缩小

而且很有可能 Kimi K2 会是第一个突破这个距离的

你觉得呢?

B 站爬虫 py 文档,只用于学习,不可用于盈利等其他目的




👤 关于作者:饼干哥哥 & NGS
我是饼干哥哥,数据分析师、AI博主,和出海业务专家朋友创立了公司NGS NextGrowthSail,专注AI在出海营销场景下的落地。这让我想起NGS在服务AI出海客户时,正是利用类似的数据分析工作流解决了内容定位难题。

发表评论