You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: content/_index.md
+6Lines changed: 6 additions & 0 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -8,6 +8,12 @@ bookToC: false
8
8
9
9
Dies ist die offizielle Websseite der Open-Source-Software noScribe ([GitHub](https://github.com/kaixxx/noScribe)).
10
10
11
+
{{% hint warning %}}
12
+
Achtung: Jemand hat die Domain noscribe(punkt)ai registriert und versucht dort, kostenplfichtige Transkriptionsdienste zu verkaufen. Ich habe damit nichts zu tun. Das echte noScribe ist kostenlos und wird es immer bleiben.
-**Keine Cloud**, alles bleibt auf dem eigenen Computer
13
19
-**Hochwertige Transkripte** basierend auf [Whisper von OpenAI](https://github.com/openai/whisper) und [Pyannote von Hervé Bredin](https://github.com/pyannote/pyannote-audio)
-**Audiodatei wählen:** Unterstützt werden nahezu alle Audio‑ und Videoformate. Im Dialog können auch mehrere Dateien gewählt werden. Diese werden dann nacheinander abgearbeitet.
14
+
-**Transkript speichern unter:** Standard ist `.html` (kompatibel mit dem Editor). Optional `.txt` für Klartext oder `.vtt` für Untertitel sowie die Weiterarbeit in [EXMARaLDA](https://exmaralda.org/). Wenn mehrere Dateien auf einmal verarbeitet werden, kann hier nur der Ausgabeordner gewählt werden. Die Benennung der Ausgabedateien erfolgt dann automatisch.
15
+
-**Start/Stop:** Zeitbereich im Format `hh:mm:ss`, ideal zum Testen kürzerer Ausschnitte.
16
+
-**Sprache:** Sprache auswählen oder „Auto“ zur Erkennung bzw. „Multilingual“ für mehrere Sprachen in derselben Aufnahme (experimentell).
17
+
-**Qualität:** „Precise“ liefert die besten Ergebnisse und ist für fast alle Anwendungszwecke die beste Wahl. „Fast“ ist etwas schneller und vor allem für ältere Rechner gedacht. Es erfordert mehr Nachkorrektur.
18
+
-**Pausen markieren:** Wenn gewählt, werden Sprechpausen als Punkte in Klammern markiert, jeweils ein Punkt pro Sekunde Pause. Optional ab 1/2/3 Sekunden.
19
+
-**Sprechererkennung:** Wenn bekannt, Anzahl der Sprecher:innen wählen, das macht die Erkennung robuster. Ansonsten „Auto“ für die automatische Erkennung oder „None“, um diesen Schritt ganz zu überspringen.
20
+
-**Überlappende Sprache:** Gleichzeitiges Sprechen wird mit `// Sprecher:in: Einwurf //` markiert (experimentell).
21
+
-**Füllworte:** Wenn gewählt, werden Füllwörter und unvollständige Worte/Sätze nach Möglichkeit mittranskribiert, sonst nicht. Achtung: Dies ist eher eine 'Empfehlung' ann das KI-Modell, kein harter Ja/Nein-Schalter.
22
+
-**Zeitstempel:** Fügt einen Zeitstempel im Format `[hh:mm:ss] alle 60 Sekunden oder bei Sprecher:innenwechsel in den Text ein (gut für MAXQDA).
23
+
-**Start** beginnt den Transkriptionsprozess. Wenn bereits ein Prozess läuft, können trotzdem neue in Auftrag gegeben werden. Diese werden dann in die [Warteschlange](#warteschlange) eingereiht und erledigt, sobald sie an der Reihe sind.
14
24
15
-
-**Audiodatei auswählen:** Unterstützt werden nahezu alle Audio‑ und Videoformate.
16
-
-**Ausgabedatei:** Standard ist `.html` (kompatibel mit dem Editor). Optional `.vtt` für Untertitel oder `.txt` als Klartext.
17
-
-**Start/Stop:** Zeitbereich im Format `hh:mm:ss`, ideal zum Testen einzelner Ausschnitte.
18
-
-**Sprache:** „Auto“ zur Erkennung oder „Multilingual“ für mehrere Sprachen (experimentell).
19
-
-**Qualität:** „Precise“ liefert die besten Ergebnisse, „Fast“ ist schneller und erfordert mehr Nachkorrektur.
20
-
-**Pausen markieren:** Stille wird als Punkte in Klammern markiert, optional ab 1/2/3 Sekunden.
21
-
-**Sprechererkennung:** Anzahl der Sprecher wählen oder „Auto“. „None“ beschleunigt, liefert aber keinen Sprecherwechsel.
22
-
-**Überlappende Sprache:** Markierung mit `//` (experimentell).
23
-
-**Disfluencies:** Füllwörter und Satzabbrüche nach Möglichkeit mittranskribieren.
24
-
-**Zeitstempel:** Optional alle 60 Sekunden oder bei Sprecherwechsel.
25
+
<divstyle="clear: both;"></div>
25
26
26
-
### Transcription process
27
+
##Warteschlange
27
28
28
-
-**Start** beginnt, **Cancel** bricht ab.
29
-
- Eine Stunde Audio kann mehrere Stunden Rechenzeit benötigen.
30
-
- Fortschritt erscheint in der Statuszeile, Log‑Ausgaben im Hauptfenster.
31
-
- Zwischenspeicherung erfolgt automatisch.
32
-
- Ergebnisse sollten immer im Editor geprüft werden.
29
+

33
30
34
-
### Batch transcription
31
+
Der Tab „Warteschlange“ zeigt eine Liste aller Aufträge in der aktuellen Sitzung, ihren aktuellen Status und Fortschritt. Die Aufträge werden einer nach dem anderen abgearbeitet.
35
32
36
-

33
+
**Aktionen für Aufträge:**
37
34
38
-
-Der Tab „Queue“ zeigt alle Jobs, Status und Fortschritt.
39
-
-Neue Jobs werden in eine Warteschlange gestellt.
40
-
-Mehrere Dateien lassen sich in einem Durchgang auswählen.
35
+
-`X` löscht oder bricht den Auftrag ab.
36
+
-`✔` öffnet das Ergebnis im Editor (auch bei Fehlern, sofern ein unvollständiges Transkript vorhanden ist).
37
+
-`⟲` startet einen Job erneut (bei Fehlern/Abbruch).
41
38
42
-
Job‑Buttons:
39
+
Mit dem „Abbrechen“ Button unten rechts kann die gesamte Warteschlange beendet werden.
43
40
44
-
-`X` löscht oder bricht Jobs ab.
45
-
-`✔` öffnet das Ergebnis im Editor (auch bei Fehlern).
46
-
-`⟲` startet einen Job neu (bei Fehlern/Abbruch).
41
+
## Der noScribe Editor
47
42
48
-
## noScribe Edit
43
+
Der Editor ist ein wichtiger Bestandteil von noScribe. Er dient zur Kontrolle und Korrektur der Transkripte. Das ist auch bei den besten KI-Modellen leider immer noch dringend erforderlich.
49
44
50
45

51
46
52
-
noScribeEdit ist der Editor zur Korrektur der Transkripte.
47
+
Die wichtigste Funktion: **Ctrl+Space** (Mac: `^Space`) oder der **orangene Button** starten das Audio an der aktuellen Cursorposition. Die Textauswahl folgt der Audioaufnahme. Zum Editieren einfach an beliebiger Stelle in den Text klicken oder mit den Pfeiltasten navigieren.
53
48
54
-
-**Ctrl+Space** (Mac: `^Space`) startet/stoppt Audio an der Cursorposition.
55
-
- Die Auswahl folgt dem Audio; zum Editieren einfach klicken oder mit den Pfeiltasten navigieren.
- In dem **Kombinationsfeld ("100%")** kann man das Abspieltempo erhöhen/reduzieren.
51
+
- Mit der **Lupe** wird ein Suchen/Ersetzen-Dialog aufgerufen. Das ist sehr hilfreich, um beispielsweise die Namen der Sprecher:innen zu ändern.
52
+
-**Plus/Minus:** Zoom‑Funktion
53
+
- Außerdem gibt es **typische Editor-Funktionen** um Dateien zu öffnen, Text zu kopieren oder zu formatieren. Auch die üblichen Tastenkombinationen (bspw. Strg+C zum Kopieren) funktionieren. Alle Funktionen sind auch über die Menüs erreichbar. Leider ist die Oberfläche des Editors aktuell nicht übersetzt.
- Gute Aufnahmequalität (klare Stimmen, wenig Störgeräusche) ist entscheidend.
66
-
- Die Qualität variiert je nach Sprache; einige Sprachen sind deutlich besser unterstützt.
67
-
- Dialekte werden oft erkannt, benötigen aber mehr Nacharbeit.
59
+
## Typische Probleme KI-gestützter Transkriptionen
68
60
69
-
## Known Issues
61
+
KI-gestützte Spracherkennung hat in den letzten Jahren enorme Fortschritte gemacht. Trotzdem gibt es typische Probleme, Fehler und Einschränkungen, auf die man achten sollte:
70
62
71
-
- Fehlerhafte Transkriptionen und Sprecherzuordnung sind möglich – eine Prüfung ist notwendig.
72
-
- Das Modell kann in seltenen Fällen halluzinieren (insbesondere in stillen Passagen).
73
-
- Eigennamen und Begriffe werden häufiger falsch erkannt.
74
-
- Wiederholte Textschleifen sind möglich; in diesem Fall kürzere Abschnitte transkribieren.
75
-
- Multilinguale Audios sind experimentell und können Übersetzungen enthalten.
76
-
- Nonverbale Ausdrücke (Lachen etc.) fehlen und müssen ergänzt werden.
77
-
- Bei langen Audios kann Interpunktion/Kapitalisierung verloren gehen.
63
+
- Nonverbale Ausdrücke wie Lachen, Seufzen, etc. werden nicht erfasst und müssen manuell ergänzt werden.
64
+
- Gleichzeitiges Sprechen und interaktiv sehr dichte Passagen bspw. in Gruppendiskussionen sind eine Herausforderung für das KI-Modell. Hier gehen auch teils Inhalte verloren oder werden falschen Personen zugeordnet.
65
+
- Teils werden mehr Sprecher:innen erkannt, als tatsächlich anwesend waren. Hier hilft es, die korrekte Zahl vorher bei "Sprecher:in erkennen" anzugeben.
66
+
- Ungewöhnliche Namen von Personen oder Organisationen, Slangausdrücke oder Wörter aus anderen Sprachen werden oft falsch geschrieben, teils fast lautsprachlich. Hier kann Suchen & Ersetzen im noScribe Editor helfen.
67
+
- Wie andere KI-Sprachmodelle kann auch das hier verwendete Modell Whisper manchmal "halluzinieren", also Worte oder Satzteile hinzufügen, die zwar inhaltlich passend erscheinen, tatsächlich aber nicht gesagt wurden - siehe diese [Studie der Cornell University](https://facctconference.org/static/papers24/facct24-111.pdf) zum Thema.
68
+
- Selten können sich fortwährend wiederholende Textschleifen entstehen, ähnlich einer defekten Schallplatte. In diesem Fall kürzere Abschnitte mit leichter Überlappung transkribieren und manuell aneinanderfügen.
69
+
- Eine Mischung mehrerer Sprachen in derselben Aufnahme kann dazu führen, dass das KI-Modell übersetzt statt wortgetreu zu transkribieren.
70
+
- Bei langen Audios kann die Interpunktion/Kapitalisierung verloren gehen. Auch hier kann eine Aufteilung des Transkripts möglicherweise helfen, oder man verwendet das Transkriptionsmodell "faster-whisper-large-v2", das weniger anfällig für dieses Problem ist. Es muss allerdings zunächst [installiert werden.](/docs/erweiterte-optionen/#andere-transkriptionsmodelle-nutzen).
71
+
- Die Qualität des Ergebnisses hängt stark von der Sprache ab. Westliche Sprachen werden generell sehr gut unterstützt, auch kleinere wie bspw. Niederländisch. Gut ist auch die Unterstützung für Koreanisch, Chinesisch (Mandarin), oder Indonesisch. Dagegen werden andere, ebenfalls große Sprachen wie bspw. Persisch, Panjabi oder Tamil nur sehr fehlerhaft transkribiert. Dies ist ein klarer Fall von KI-Bias, in dem sich die ökonomischen Interessen von OpenAI spiegeln, die das Whisper-Modell trainiert haben. Hier findet man eine eine Übersicht zu [typischen Fehlerraten in verschiedenen Sprachen](https://github.com/openai/whisper?tab=readme-ov-file#available-models-and-languages). Siehe auch [dieses Paper](https://doi.org/10.1145/3576915.3624380) für einen Vergleich verscheidener Transkriptionsmodelle und deren Fehlerraten.
Copy file name to clipboardExpand all lines: content/docs/download-installation.md
+2-1Lines changed: 2 additions & 1 deletion
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -8,7 +8,8 @@ weight: 10
8
8
9
9
**Aktuelle Version:** 0.7
10
10
11
-
Alle Downloads liegen auf SWITCHdrive.ch, einer Datasharing-Plattform für Schweizer Hochschulen. Der Quellcode ist auf [GitHub](https://github.com/kaixxx/noScribe) verfügbar, auch für den [noScribe Editor](https://github.com/kaixxx/noScribeEditor).
11
+
Alle Installationsdateien liegen auf SWITCHdrive.ch, einer sicheren Datasharing-Plattform für Schweizer Hochschulen.
12
+
Der Quellcode ist auf [GitHub](https://github.com/kaixxx/noScribe) verfügbar, auch für den [noScribe Editor](https://github.com/kaixxx/noScribeEditor).
Copy file name to clipboardExpand all lines: content/docs/erweiterte-optionen.md
+32-19Lines changed: 32 additions & 19 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -6,38 +6,51 @@ weight: 30
6
6
7
7
# Erweiterte Optionen
8
8
9
-
##Advanced Options
9
+
### Skripting
10
10
11
-
-**CLI‑Modus:**`noScribe.exe --help` zeigt Optionen; `--no-gui` ist für Skripting geeignet.
12
-
-**Konfiguration:** Nach dem ersten Start liegt `config.yml` im Benutzerprofil:
11
+
Seit Version 0.7 hat noScribe auch ein Kommandozeileninterface und kann so in eigene Skripte eingebunden werden. `noScribe.exe --help` zeigt die verfügbaren Optionen. Mit der Option `--no-gui` wird das Hauptfenster unterdrückt und noScribe läuft vollständig im Kommandozeilenmodus.
12
+
13
+
### Konfiguration
14
+
15
+
Nach dem ersten Start liegt die Datei `config.yml` im Benutzer:innenprofil:
Dort lassen sich u. a. UI‑Sprache und Modellparameter anpassen.
17
-
-**Logs:** Im gleichen Profilverzeichnis existiert ein Ordner `log` mit detaillierten Transkript‑Logs.
18
19
19
-
## Eigene Modelle (Whisper)
20
+
Dort lassen sich u.a. die Sprache der Oberfläche und weitere Optionen anpassen. Achtung: Diese Datei nur bearbeiten, wenn noScribe nicht geöffnet ist. Sonst werden die Änderungen wieder überschrieben.
21
+
22
+
### Logs
20
23
21
-
Kurzfassung der Schritte:
24
+
Im gleichen Profilverzeichnis existiert ein Ordner `log` mit detaillierten Informationen zu jedem Transkript - gut für die Fehlersuche.
22
25
23
-
1. In noScribe **Model > Add AI model...** öffnen.
24
-
2. Pro Modell einen **eigenen Unterordner** anlegen (Ordnername = Modellname im UI).
25
-
3.**Nur Faster‑Whisper/CTranslate2‑Modelle** werden unterstützt.
26
-
4. Dateien in den Ordner legen (typisch: `config.json`, `model.bin`, `preprocessor_config.json`, `tokenizer.json`, `vocabulary.json`).
26
+
## Spezielle Transkriptionsmodelle nutzen
27
27
28
-
Pfade:
28
+
NoScribe kommt mit zwei Transkriptionsmodellen (precise/fast), die beide auf *Whisper V3 turbo* basieren. Es können aber auch andere Whisper-Modelle genutzt werden, die bspw. besser auf bestimmte Sprachen abgestimmt sind.
1. In noScribe unter *Modell* die Liste aufklappen und *KI-Modelle hinzufügen* auswählen. Es öffnet sich der Ordner `whisper_models` im noScribe Konfigurationsordner (Pfade siehe oben).
33
+
2. Pro Modell einen *eigenen Unterordner* anlegen. Der Name dieses Unterordners ist dann später auch der Modellname, der in noScribe angezeigt wird.
34
+
3. Alle zu diesem Modell gehörenden Dateien in diesen Ordner legen (typisch: `config.json`, `model.bin`, `preprocessor_config.json`, `tokenizer.json`, `vocabulary.json`).
35
+
4. Jetzt sollte das neue Modell als zusätzliche Auswahl in noScribe unter *Modelle* erscheinen.
35
36
37
+
**Hinweise:**
38
+
39
+
- Es werden nur Modelle im *Faster‑Whisper* bzw. *CTranslate2*-Format unterstützt. Modelle im originalen Whisper-Format von OpenAI können [konvertiert werden.](https://github.com/SYSTRAN/faster-whisper?tab=readme-ov-file#model-conversion)
36
40
- Manche Downloads enthalten `ctranslate2_`‑Präfixe – diese entfernen (z. B. `ctranslate2_vocabulary.json` → `vocabulary.json`).
37
-
- Für das deutsche Modell wird zusätzlich `tokenizer.json` aus dem Whisper‑v3‑Repository benötigt.
- Das **offizielle Faster-Whisper-Repository** (15 Modelle): https://huggingface.co/Systran Hier gibt es auch Whisper-v2-Modell, das bis zur Version 0.5 von noScribe Standard war und immer noch von einigen bevorzugt wird, auch wenn es deutlich langsamer ist. Die rein englischen Modelle (mit der Endung „.en“) sind ebenfalls interessant, da sie deutlich schneller laufen.
45
+
-**Eine für Französisch angepasste Version von Whisper V3**: https://huggingface.co/bofenghuang/whisper-large-v3-french/tree/main/ctranslate2 (Wenn die heruntergeladenen Dateien das Präfix „ctranslate2_“ haben, dieses bitte entfernen.
46
+
-**Eine für Deutsch optimierte Version von Whisper V3** (meine Erfahrung: nur geringfügige Verbesserungen bei der Transkriptionsqualität, aber weniger Präzision bei der Pausenerkennung und der Identifizierung von überlappenden Sprachsequenzen): https://huggingface.co/aseifert/faster-whisper-large-v3-turbo-german/tree/main Sie benötigen außerdem die Datei `tokenizer.json` aus dem ursprünglichen Whisper V3-Repository: https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
47
+
48
+
Weitere Modelle findet man auf [huggingface](https://huggingface.co/). Suchen Sie nach „faster-whisper” und der gewünschten Sprache (oder nur nach „whisper”, um Modelle zu finden, die konvertiert werden können).
49
+
50
+
Ich verwende diese Version von Whisper V3 Turbo als „präzises” Modell: https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo
51
+
52
+
**Wenn Sie ein gutes neues Modell gefunden haben, teilen Sie es bitte in dieser Diskussion: https://github.com/kaixxx/noScribe/discussions/132**.
0 commit comments