Skip to content

Latest commit

 

History

History
326 lines (230 loc) · 6.32 KB

File metadata and controls

326 lines (230 loc) · 6.32 KB

YouTube 视频处理完整指南

概述

本项目实现了完整的 YouTube 视频下载、处理和转录工作流,通过集成多个工具解决了 YouTube 反机器人保护问题。

核心组件

1. Dev Browser 扩展

用途: 浏览器自动化,绕过 YouTube 反机器人保护

安装位置: ~/.dev-browser-extension-clean/

功能:

  • 连接到用户的 Chrome 浏览器
  • 利用已登录的 YouTube 会话
  • 支持页面自动化操作

服务器配置:

cd ~/.claude/skills/dev-browser-skill
npm run start-extension

端口: 9222

2. Video Processor

脚本位置: video_processor_fixed.py

核心修改: 添加 Chrome cookies 支持

ytdlp_cmd = ["yt-dlp", "--cookies-from-browser", "chrome"]

功能:

  • 下载 YouTube 视频
  • 提取音频
  • 使用 Whisper 转录

依赖:

  • yt-dlp
  • ffmpeg
  • openai-whisper

工作流程

视频下载

uv run video_processor_fixed.py download "VIDEO_URL" output.mp4 --subtitle

关键特性:

  • 自动从 Chrome 提取 cookies(58 个)
  • 支持最高质量下载
  • 可选字幕下载

音频转录

uv run video_processor_fixed.py transcribe video.mp4 transcript.txt --model base --language zh

Whisper 模型:

  • base: 平衡速度和准确度
  • small: 更快但准确度较低
  • medium: 更准确但较慢

技术细节

Cookie 认证机制

问题: YouTube 检测机器人访问

ERROR: Sign in to confirm you're not a bot

解决方案: 使用浏览器 cookies

  • yt-dlp 从 Chrome 读取 cookies
  • 利用用户已登录的会话
  • 绕过反机器人验证

文件结构

.
├── video_processor_fixed.py      # 修复后的处理脚本
├── antigravity_video.mp4          # 下载的视频 (48MB)
├── antigravity_transcript.txt     # 转录文本 (5.11KB)
└── ~/.dev-browser-extension-clean/ # Chrome 扩展

实际案例

测试视频

URL: https://www.youtube.com/watch?v=HRNkFK9g2-8

标题: 2026新年首发! 把谷歌 Antigravity 里的模型"偷"出来!API 无限中转,Claude Code 从此免费用。

频道: 神烦老狗

时长: 5:10

内容概要:

  • 介绍 Antigravity Manager 工具
  • 演示如何中转 Google AI Studio API
  • 配置 CC Switch 管理多个 API 渠道
  • 在 Claude Code 中使用免费的 Claude Opus 4.5

处理结果

下载:

  • 文件大小: 48MB
  • 格式: MP4
  • 质量: 最高可用质量

转录:

  • 字数: 约 2000 字
  • 准确度: 高(中文识别)
  • 处理时间: < 2 分钟

配置说明

Chrome 扩展设置

manifest.json 关键配置:

{
  "permissions": ["debugger", "tabGroups", "storage"],
  "host_permissions": ["<all_urls>"]
}

yt-dlp 参数

下载命令构建:

ytdlp_cmd = [
    "yt-dlp",
    "--cookies-from-browser", "chrome",
    "-f", "bestvideo+bestaudio/best",
    "--merge-output-format", "mp4",
    "-o", output_file
]

字幕下载:

ytdlp_cmd.extend([
    "--write-sub",
    "--sub-lang", "en,zh-Hans,zh-Hant",
    "--embed-subs"
])

故障排除

问题 1: Cookie 提取失败

症状: ERROR: Sign in to confirm you're not a bot

解决:

  1. 确保 Chrome 已登录 YouTube
  2. 检查 Chrome 是否正在运行
  3. 验证 yt-dlp 版本 >= 2024.0.0

问题 2: 扩展未连接

症状: 扩展服务器无响应

解决:

# 检查服务器状态
ps aux | grep "start-extension"

# 重启服务器
cd ~/.claude/skills/dev-browser-skill
npm run start-extension

问题 3: Whisper 转录错误

症状: 语言识别错误

解决:

# 明确指定语言
uv run video_processor_fixed.py transcribe video.mp4 output.txt --language zh

性能优化

下载速度

平均速度: 800-1000 KiB/s

优化建议:

  • 使用有线网络
  • 选择合适的视频质量
  • 避免高峰时段

转录速度

Base 模型: ~2 分钟 / 5 分钟视频

加速方法:

  • 使用 GPU(如果可用)
  • 选择更小的模型
  • 预先提取音频

扩展应用

批量处理

# 批量下载播放列表
for url in $(cat urls.txt); do
    uv run video_processor_fixed.py download "$url" --subtitle
done

自动化工作流

#!/bin/bash
VIDEO_URL="$1"
OUTPUT_NAME="video_$(date +%s)"

# 下载
uv run video_processor_fixed.py download "$VIDEO_URL" "${OUTPUT_NAME}.mp4"

# 转录
uv run video_processor_fixed.py transcribe "${OUTPUT_NAME}.mp4" "${OUTPUT_NAME}.txt" --language zh

# 清理
rm "${OUTPUT_NAME}.mp4"

相关项目

Antigravity Manager

用途: API 中转工具

文档: [[Antigravity-Manager-项目介绍]]

集成: 视频中演示的核心工具

CC Switch

用途: API 配置管理

功能:

  • 管理多个 API 渠道
  • 快速切换配置
  • 支持 Claude Code、Cursor、Gemini

最佳实践

1. Cookie 管理

  • 定期更新 Chrome 登录状态
  • 避免在无痕模式下使用
  • 保持浏览器版本最新

2. 存储管理

  • 及时清理下载的视频文件
  • 保留转录文本用于后续分析
  • 使用压缩格式存储长期归档

3. 合规使用

  • 仅用于个人学习和研究
  • 尊重视频版权
  • 遵守 YouTube 服务条款

技术栈

组件 技术 版本
视频下载 yt-dlp >= 2024.0.0
音频处理 ffmpeg 最新
语音识别 OpenAI Whisper base
浏览器自动化 Dev Browser 1.0.0
Python 环境 uv 最新

更新日志

2026-01-03

  • ✅ 成功配置 Chrome cookies 认证
  • ✅ 完成 Antigravity 视频下载和转录
  • ✅ 创建完整的工作流文档
  • ✅ 验证所有功能正常工作

参考资料

  • [[Dev-Browser-扩展安装指南]]
  • [[Dev-Browser-扩展测试结果]]
  • [[YouTube视频处理测试报告]]
  • [[Claude-Code-接入-Antigravity]]

总结

本项目成功实现了完整的 YouTube 视频处理工作流:

  1. 认证: 通过 Chrome cookies 绕过反机器人保护
  2. 下载: 使用 yt-dlp 获取高质量视频
  3. 转录: 使用 Whisper 生成准确的中文字幕
  4. 自动化: 集成 Dev Browser 实现浏览器自动化

核心优势:

  • 无需手动导出 cookies
  • 自动利用浏览器登录状态
  • 高准确度的中文转录
  • 完整的错误处理机制

适用场景:

  • 学习资料归档
  • 视频内容分析
  • 字幕生成
  • 批量处理工作流