audio-visual-music-transcription

Models

Fused "Skipping-the-Frame-Level" and "piano-vision"
Audio-Visual Model V1 --> enhanced with standard computer vision techniques
Audio-Visual Model V2 --> enhanced with deep keyboard segmentation
Application --> V1 with the option to choose the exact keyboard region

Main changes:

For the audio model, implementations have been made in transkun/transcribe.py and transkun/Model_ablation.py
For the visual model, see main.py, and the processors folder

Datasets

pianoDetectData (keyboard segmentation training)
OMAPS (evaluation)
OMAPS2 (evaluation with velocity)

Evaluation

MIR Evaluation
MV2H (source code omitted)

Results

Further details and results can be found here.

Contact

Please send me an email at [email protected] for further information. I am also open and eager to discuss any available work/collaboration opportunities as a recent graduate.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Application/audio-visual-model-v1.5		Application/audio-visual-model-v1.5
Datasets		Datasets
Evaluation		Evaluation
Unused Code		Unused Code
audio-visual-model-v1		audio-visual-model-v1
audio-visual-model-v2		audio-visual-model-v2
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

audio-visual-music-transcription

Results

Contact

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

CognitiveComputingLab/audio-visual-music-transcription

Folders and files

Latest commit

History

Repository files navigation

audio-visual-music-transcription

Results

Contact

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages