-
Notifications
You must be signed in to change notification settings - Fork 33
Open
Labels
Description
你是否已经阅读并同意《Datawhale开源项目指南》?
- 我已阅读并同意《Datawhale开源项目指南》
你是否已经阅读并同意《Datawhale开源项目行为准则》?
- 我已阅读并同意《Datawhale开源项目行为准则》
项目简介
吃掉视频项目
1.目标
吃掉视频突出一份报告,报告包括图文内容和视频的剪影。这个项目的目标是做一个能把视频吃掉生成笔记的工具。
2.核心方法
asr+vlm
asr需要对整体视频进行语音转文本后标记出时间戳,并区分出每个人。
然后使用cv2对视频进行切分,将每一秒切分成12张帧图,如果上一帧和下一帧的相似度高于70%就断定为切换场景。否则上下只保留一帧即可。
3.参考技术
WhisperX 核心功能,或者说相对于Whisper的优势
快速转录:WhisperX 使用 faster-whisper 后端,支持批量推理,能够实现高达 70x 实时速度 的转录。
单词级时间戳:通过 wav2vec2.0 对齐技术,WhisperX 可以生成精确到单词级别的时间戳,这对于字幕制作、会议记录等场景非常有用。
说话人识别(Diarization):WhisperX 集成了 pyannote-audio 技术,能够自动识别不同说话人,并为转录文本添加说话人标签。
语音活动检测(VAD):通过 VAD 预处理,减少幻听现象,同时不影响转录准确性。
多语言支持:WhisperX 支持多种语言的语音识别和转录。
立项理由
有技术,有想法,有能力实现,目前同类产品还在收费。
项目受众
需要学习视频并懒得做笔记的人。
项目亮点
目前同类产品还在收费,而我们开源,貌似比付费项目的思路做的更好。
项目规划
至少包括以下内容:
1.目录(如有多级至少精确到二级)
- vlm设计实现
- asr及说话人识别、VAD设计
- agent框架设计和笔记生成
2.各章节负责人
目前只有我。
3.各章节预估完成日期
开发时间预计两周内
4.可预见的困难
我怕没时间,但是应该可以,每天一小时。
已完成内容
目前完成了视频切片和asr基础识别,还有agent设计。而且我有一定的对应项目开发经验。
❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les
- 我已知悉上述注意事项并添加了微信:at-Sm1les