Skip to content

reasonspeech-dataset: "Unknown error in flac decoder" in index 58004 #49

@chamakkon

Description

@chamakkon

huggingfaceのdisscussionが閉じていたのでこちらに失礼します。

huggingfaceに公開されているreason-speechの学習データセットを使用させていただいています。
smallをload_datasetよりダウンロードしたのですが、58004目の要素が参照するだけでエラーを出すようになっており、前処理時に必ずエラーになります。

ds = load_dataset("reason-research/reasonspeech", "small", trust_remote_code=True, use_auth_token="xxx")
ds["train"][58004]    #←ここでエラー "Unknown error in flac decoder"

smallはこれを取り除けば使用できそうなのですが、今後mediumやlargeなどのデータセットを使わせていただきたく上で同様の事象が発生するindexと原因を確認していただけますでしょうか。

取り除くべきindexを洗い出したいただくだけでもありがたいです。

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type
No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions