GitHub - zhangwenkai-orion/AHC

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
add_utt.py		add_utt.py
add_utt.sh		add_utt.sh
average_plda.py		average_plda.py
cut.py		cut.py
dev		dev
dev_sid_female		dev_sid_female
dev_sid_male		dev_sid_male
female_ivector.ark		female_ivector.ark
filter_scp.pl		filter_scp.pl
generate_predlist.sh		generate_predlist.sh
male_ivector.ark		male_ivector.ark
morethan_cluster.py		morethan_cluster.py
num_to_sid.py		num_to_sid.py
pick_dev_validation.sh		pick_dev_validation.sh
plda		plda
plda_matrix.sh		plda_matrix.sh
plda_scoring		plda_scoring
readme.txt		readme.txt
run_add.sh		run_add.sh
run_validation.sh		run_validation.sh
spk2utt_to_utt2spk.pl		spk2utt_to_utt2spk.pl
utt2spk_to_spk2utt.pl		utt2spk_to_spk2utt.pl

Repository files navigation

确认python已经安装numpy scipy sklearn
建立文件夹utils,将以下三个文件放入文件夹内：utt2spk_to_spk2utt.pl spk2utt_to_utt2spk.pl filter_scp.pl 
将其他所有文件包括utils放入同一个文件夹(此程序中是/data/zhangwenkai/cluster)，在pick_dev_validation.sh 文件中修改路径
sh文件以及plda_scoring要先运行 chmod 777 
pl文件 运行 chmod +x
运行 ./run_validation.sh 
（文件内容 ：dev文件是设备名称  读取dev的每一行，进行AHC聚类）
全部ivector在/data/zhangwenkai/kaldi_env/egs/aishell/online_300w/exp/male/mix6_train_ivectors200_gmm512/bnmfccdd
以及/data/zhangwenkai/kaldi_env/egs/aishell/online_300w/exp/female/mix6_train_ivectors200_gmm512/bnmfccdd

程序列表：
1.pick_dev_validation.sh [dev_name]
对给定的设备名称创建文件夹，分男性女性进行聚类、裁剪和添加，最后输出是cut_pred*文件
dir 是文件夹建立的路径
ivector_dir 是男/女性ivector.ark的文件夹 
2.plda_matrix.sh
生成 dist文件（任意两个utt的plda打分） 
为程序中生成plda_matrix做准备
3.morethan_cluster.py
层次聚类的python程序  生成cluster文件 （参数 12 8 12）
4.cut.py
裁剪程序 （参数 8 0.7）
5.run_add.sh
裁剪后的添加
6.add_utt.sh  add_utt.py
生成big_cluster full small 文件 分别代表聚出的大簇的utt编号 全部utt编号 剩余小簇的utt编号
7.average_plda.py 
small中的utt跟大簇的平均ivector打分 来进行添加
8.num_to_sid.py
将utt编号替换为sid


文件列表：
1.dev_sid_male dev_sid_female 
100个设备的 dev2sid形式的文件  （若要运行所有设备 需要自行准备）
2.utils文件夹
3.plda plda_scoring
4.ivector.ark


###得到每个设备的cut_pred*之后，送交标注团队的文件处理程序##
wav文件，是去掉utt前缀的wav.scp文件
generate_predlist.sh文件 最后生成male_sid2spk,female_sid2spk,音频文件夹male_pcm,female_pcm