自动化爬取抖音国风达人的主页简介,智能提取活动日期与地点,过滤过期信息,生成结构化的 Markdown 活动报告。
- 一键获取活动信息:自动爬取 19 位国风达人的抖音主页简介,提取昵称与行程信息
- 智能解析与过滤:AI 自动识别简介中的日期、地点,与当前时间比对,过滤掉已过期的活动
- 结构化报告输出:生成包含近期活动预告、活动碰撞分析、活动频次排名的 Markdown 报告
- Cookie 智能管理:先尝试爬取,全部失败才触发 Selenium 扫码登录,避免不必要的重复登录
- 自包含可移植:所有脚本均内置在
scripts/目录,无需额外依赖,复制目录即可使用
在 Qoder 对话框中直接输入触发词即可:
获取国风达人活动安排
抖音活动
达人行程
国风活动
AI 将自动执行完整流程并输出活动报告。
步骤1:爬取主页
↓ (至少1个用户有数据)→ 步骤3
↓ (全部失败)
步骤2:更新 Cookie(扫码登录)→ 重新执行步骤1
↓
步骤3:获取当前系统时间
↓
步骤4:AI 解析数据,生成 Markdown 报告 → 保存到 activity_report.md
生成的 activity_report.md 包含以下板块:
| 板块 | 说明 |
|---|---|
| 近期活动预告 | 按月分组展示未过期的活动,含日期、主播、地点 |
| 活动碰撞分析 | 标注同一日期有多个主播活动的情况,方便粉丝安排行程 |
| 活动频次排名 | 统计各主播的活动数量,列出最忙时段 |
| 未公开行程主播 | 列出未在简介中公布活动的主播,提示关注动态 |
douyin-guofeng-tracker/
├── SKILL.md # Skill 执行流程定义(AI 读取此文件执行任务)
├── README.md # 本文档
├── activity_report.md # 生成的活动报告(运行后生成)
└── scripts/
├── crawler_main.py # 主页爬取与数据解析主脚本
├── get_cookie_by_selenium.py # Selenium 自动登录获取 Cookie
└── user_sec_uid.py # 国风达人 sec_uid 列表配置
运行时自动生成的文件(位于 scripts/ 下):
cookies.txt— 抖音登录凭证,首次登录后生成homepage_html/— 主页 HTML 缓存目录crawl_results/— 解析后的 JSON 数据目录
- Cookie 时效:Cookie 通常 7-15 天有效,过期后脚本会自动唤起扫码登录界面
- 反爬保护:每次请求间隔 0.5 秒,避免触发抖音反爬机制
- 数据准确性:活动信息来自主播自行更新的主页简介,可能存在滞后,建议以主播最新公告为准
- 日期推断:简介中只写月日,AI 会自动补充当前年份;跨年场景下需注意判断
- Chrome 要求:Cookie 更新脚本需要本地已安装 Chrome 浏览器
编辑 scripts/user_sec_uid.py,在字典中添加新主播的 sec_uid 和昵称:
sec_uid_list = {
# 现有主播...
"MS4wLjABAAAA新主播的sec_uid": "新主播昵称"
}获取 sec_uid 方法:在抖音网页版打开主播主页,URL 中的 sec_uid 参数即为所需值。