Vyvo-Research
/

AST-Music-Classifier-1K

@@ -26,7 +26,7 @@ Fine-tuned Audio Spectrogram Transformer (AST) for music vs speech classificatio
 - **Base Model:** MIT/ast-finetuned-audioset-10-10-0.4593
 - **Task:** Binary Audio Classification (Music vs Speech)
 - **Training Dataset:** AIGenLab/speech-music-1k (1000 samples)
-- **Overall Accuracy:** 86.7% (26/30)
 ---
@@ -36,20 +36,20 @@ Fine-tuned Audio Spectrogram Transformer (AST) for music vs speech classificatio
 |----------|----------|---------|-------|
 | Pure Music | 100.0% | 10 | 10 |
 | Pure Speech | 70.0% | 7 | 10 |
-| Speech + Music | 90.0% | 9 | 10 |
 ### Pure Music
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
 | music_1.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| music_10.wav | 0.999 | 0.001 | MUSIC | ✅ |
-| music_2.wav | 0.999 | 0.001 | MUSIC | ✅ |
-| music_3.wav | 0.999 | 0.001 | MUSIC | ✅ |
 | music_4.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| music_5.wav | 0.996 | 0.004 | MUSIC | ✅ |
 | music_6.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| music_7.wav | 0.998 | 0.002 | MUSIC | ✅ |
 | music_8.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | music_9.wav | 1.000 | 0.000 | MUSIC | ✅ |
@@ -58,28 +58,28 @@ Fine-tuned Audio Spectrogram Transformer (AST) for music vs speech classificatio
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
 | speech_1.wav | 0.000 | 1.000 | SPEECH | ✅ |
-| speech_10.wav | 0.000 | 1.000 | SPEECH | ✅ |
 | speech_2.wav | 0.000 | 1.000 | SPEECH | ✅ |
-| speech_3.wav | 0.824 | 0.176 | MUSIC | ❌ |
-| speech_4.wav | 0.978 | 0.022 | MUSIC | ❌ |
-| speech_5.wav | 1.000 | 0.000 | MUSIC | ❌ |
-| speech_6.wav | 0.038 | 0.962 | SPEECH | ✅ |
-| speech_7.wav | 0.003 | 0.997 | SPEECH | ✅ |
-| speech_8.wav | 0.001 | 0.999 | SPEECH | ✅ |
-| speech_9.wav | 0.000 | 1.000 | SPEECH | ✅ |
 ### Speech + Music
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
-| speech_and_music_1.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| speech_and_music_10.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_2.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_3wav.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_4.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| speech_and_music_5.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_6.wav | 1.000 | 0.000 | MUSIC | ✅ |
-| speech_and_music_7.wav | 0.353 | 0.647 | SPEECH | ❌ |
 | speech_and_music_8.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_9.wav | 1.000 | 0.000 | MUSIC | ✅ |

 - **Base Model:** MIT/ast-finetuned-audioset-10-10-0.4593
 - **Task:** Binary Audio Classification (Music vs Speech)
 - **Training Dataset:** AIGenLab/speech-music-1k (1000 samples)
+- **Overall Accuracy:** 90.0% (27/30)
 ---
 |----------|----------|---------|-------|
 | Pure Music | 100.0% | 10 | 10 |
 | Pure Speech | 70.0% | 7 | 10 |
+| Speech + Music | 100.0% | 10 | 10 |
 ### Pure Music
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
 | music_1.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| music_10.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| music_2.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| music_3.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | music_4.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| music_5.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | music_6.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| music_7.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | music_8.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | music_9.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
 | speech_1.wav | 0.000 | 1.000 | SPEECH | ✅ |
+| speech_10.wav | 0.002 | 0.998 | SPEECH | ✅ |
 | speech_2.wav | 0.000 | 1.000 | SPEECH | ✅ |
+| speech_3.wav | 0.714 | 0.286 | MUSIC | ❌ |
+| speech_4.wav | 0.906 | 0.094 | MUSIC | ❌ |
+| speech_5.wav | 0.350 | 0.650 | SPEECH | ✅ |
+| speech_6.wav | 0.895 | 0.105 | MUSIC | ❌ |
+| speech_7.wav | 0.068 | 0.932 | SPEECH | ✅ |
+| speech_8.wav | 0.097 | 0.903 | SPEECH | ✅ |
+| speech_9.wav | 0.083 | 0.917 | SPEECH | ✅ |
 ### Speech + Music
 | File | Music Score | Speech Score | Prediction | Result |
 |------|-------------|--------------|------------|--------|
+| speech_and_music_1.wav | 0.995 | 0.005 | MUSIC | ✅ |
+| speech_and_music_10.wav | 0.987 | 0.013 | MUSIC | ✅ |
 | speech_and_music_2.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_3wav.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_4.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| speech_and_music_5.wav | 0.998 | 0.002 | MUSIC | ✅ |
 | speech_and_music_6.wav | 1.000 | 0.000 | MUSIC | ✅ |
+| speech_and_music_7.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_8.wav | 1.000 | 0.000 | MUSIC | ✅ |
 | speech_and_music_9.wav | 1.000 | 0.000 | MUSIC | ✅ |