huggingfaceのdisscussionが閉じていたのでこちらに失礼します。
huggingfaceに公開されているreason-speechの学習データセットを使用させていただいています。
smallをload_datasetよりダウンロードしたのですが、58004目の要素が参照するだけでエラーを出すようになっており、前処理時に必ずエラーになります。
ds = load_dataset("reason-research/reasonspeech", "small", trust_remote_code=True, use_auth_token="xxx")
ds["train"][58004] #←ここでエラー "Unknown error in flac decoder"
smallはこれを取り除けば使用できそうなのですが、今後mediumやlargeなどのデータセットを使わせていただきたく上で同様の事象が発生するindexと原因を確認していただけますでしょうか。
取り除くべきindexを洗い出したいただくだけでもありがたいです。
huggingfaceのdisscussionが閉じていたのでこちらに失礼します。
huggingfaceに公開されているreason-speechの学習データセットを使用させていただいています。
smallを
load_datasetよりダウンロードしたのですが、58004目の要素が参照するだけでエラーを出すようになっており、前処理時に必ずエラーになります。smallはこれを取り除けば使用できそうなのですが、今後mediumやlargeなどのデータセットを使わせていただきたく上で同様の事象が発生するindexと原因を確認していただけますでしょうか。
取り除くべきindexを洗い出したいただくだけでもありがたいです。