Skip to content

zhangwenkai-orion/AHC

Repository files navigation

确认python已经安装numpy scipy sklearn
建立文件夹utils,将以下三个文件放入文件夹内:utt2spk_to_spk2utt.pl spk2utt_to_utt2spk.pl filter_scp.pl 
将其他所有文件包括utils放入同一个文件夹(此程序中是/data/zhangwenkai/cluster),在pick_dev_validation.sh 文件中修改路径
sh文件以及plda_scoring要先运行 chmod 777 
pl文件 运行 chmod +x
运行 ./run_validation.sh 
(文件内容 :dev文件是设备名称  读取dev的每一行,进行AHC聚类)
全部ivector在/data/zhangwenkai/kaldi_env/egs/aishell/online_300w/exp/male/mix6_train_ivectors200_gmm512/bnmfccdd
以及/data/zhangwenkai/kaldi_env/egs/aishell/online_300w/exp/female/mix6_train_ivectors200_gmm512/bnmfccdd

程序列表:
1.pick_dev_validation.sh [dev_name]
对给定的设备名称创建文件夹,分男性女性进行聚类、裁剪和添加,最后输出是cut_pred*文件
dir 是文件夹建立的路径
ivector_dir 是男/女性ivector.ark的文件夹 
2.plda_matrix.sh
生成 dist文件(任意两个utt的plda打分) 
为程序中生成plda_matrix做准备
3.morethan_cluster.py
层次聚类的python程序  生成cluster文件 (参数 12 8 12)
4.cut.py
裁剪程序 (参数 8 0.7)
5.run_add.sh
裁剪后的添加
6.add_utt.sh  add_utt.py
生成big_cluster full small 文件 分别代表聚出的大簇的utt编号 全部utt编号 剩余小簇的utt编号
7.average_plda.py 
small中的utt跟大簇的平均ivector打分 来进行添加
8.num_to_sid.py
将utt编号替换为sid


文件列表:
1.dev_sid_male dev_sid_female 
100个设备的 dev2sid形式的文件  (若要运行所有设备 需要自行准备)
2.utils文件夹
3.plda plda_scoring
4.ivector.ark


###得到每个设备的cut_pred*之后,送交标注团队的文件处理程序##
wav文件,是去掉utt前缀的wav.scp文件
generate_predlist.sh文件 最后生成male_sid2spk,female_sid2spk,音频文件夹male_pcm,female_pcm

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published