Question 1

Wie genau ist die Transkription von WhatsApp-Sprachnachrichten?

Accepted Answer

Bei klarer Sprache in ruhiger Umgebung erreicht OpenAI Whisper eine Wort-Genauigkeit von etwa 95 % bei WhatsApp .opus-Sprachnachrichten (etwa 5 % Word Error Rate). Normales Hintergrundgeräusch wie in einem Café oder auf der Straße reduziert die Genauigkeit auf 90–95 %, und starke Geräusche (Wind, Menschenmassen, Baulärm) senken sie weiter auf 80–90 %. Die genaue Quote hängt von Sprache, Sprachklarheit und der Kompression der Originalaufnahme durch WhatsApp ab.

Question 2

Welches Audioformat verwendet WhatsApp für Sprachnachrichten?

Accepted Answer

WhatsApp speichert Sprachnachrichten als Opus-codiertes Audio in einem OGG-Container, exportiert als .opus-Dateien. Der Codec läuft mit etwa 16 kbps mono bei einer Abtastrate von 16 kHz, optimiert für Sprache statt Musik. Ältere iOS-Exporte verwenden gelegentlich .m4a (AAC). Beide Formate werden von ThreadRecap direkt aus der Export-.zip ausgelesen.

Question 3

Welches Speech-to-Text-Modell verwendet ThreadRecap?

Accepted Answer

ThreadRecap transkribiert WhatsApp-Sprachnachrichten mit OpenAI Whisper, der gleichen Architektur, die OpenAI 2022 veröffentlichte und bis zur Generation large-v3 aktualisierte. Whisper wurde mit 680.000+ Stunden mehrsprachiger Audio trainiert und unterstützt 99 Sprachen mit brauchbarer Qualität bei etwa 50 davon.

Question 4

Welche Sprachen erreichen die beste Transkriptionsgenauigkeit?

Accepted Answer

Whisper funktioniert am besten bei Sprachen, die am häufigsten in seinen Trainingsdaten vertreten sind, Englisch, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Niederländisch, Polnisch, Russisch, Mandarin, Japanisch und Arabisch landen typischerweise bei 4–12 % Word Error Rate bei sauberer Aufnahme. Weniger verbreitete Sprachen und starke regionale Dialekte können auf 15–25 % WER ansteigen, was immer noch nützlich für Zusammenfassungen ist, aber weniger zuverlässig für direkte Zitate.

Question 5

Warum transkribiert das Modell Namen und Eigennamen falsch?

Accepted Answer

Speech-to-Text-Modelle sagen das statistisch wahrscheinlichste Wort angesichts des Kontexts voraus, und seltene Namen sind selten in Trainingsdaten vertreten. Whisper wird häufig durch einen lautlich ähnlichen Begriff ersetzt (z. B. "Schwarzschild" wird zu "short shield"). Die Bedeutung auf Satzebene bleibt normalerweise erhalten, aber Eigennamen, Markennamen und numerische Kennzeichner sollten gegen die Originalaufnahme überprüft werden.

Question 6

Beeinflusst die Länge von Sprachnachrichten die Transkriptionsgenauigkeit?

Accepted Answer

Die Länge ist kein aussagekräftiger Genauigkeitsfaktor. Whisper verarbeitet Audio in 30-Sekunden-Fenstern mit Überlappung, sodass ein 5-Minuten-Clip nur zehn zusammengefügte Fenster sind. Die Qualität wird durch Lärm oder Sprecherwechsel innerhalb eines Fensters beeinträchtigt, nicht durch die Gesamtdauer. Sehr kurze Clips (unter 3 Sekunden) können weniger genau sein, da Whisper wenig Kontext zur Unterscheidung von Homophonen hat.

Question 7

Kann Whisper mehrere Sprecher in einer WhatsApp-Sprachnachricht trennen?

Accepted Answer

Nein. Whisper erzeugt eine einzelne Transkription ohne Sprecherbezeichnungen. WhatsApp-Sprachnachrichten bestehen normalerweise aus Aufnahmen einer Person, daher ist dies selten relevant. Bei gelegentlichen Mehrsprachclips (eine aufgezeichnete Besprechung, freisprechende Diktate) wird die Transkription verkettet und der Hörer muss Sprecherwechsel aus dem Kontext ableiten.

Question 8

Wie verändert Hintergrundlärm das Verhalten von Whisper?

Accepted Answer

Konstanter Hintergrundlärm (Motorengeräusche, Klimaanlage) wird überraschend gut gefiltert. Zeitweiliger Lärm (Sirenen, Türen, Hunde) und überlappende Sprache sind schwierigere Fälle, in denen Whisper entweder Wörter fallen lässt oder kurze Phrasen halluziniert, die die Stille füllen. Lange Pausen sind der häufigste Halluzinations-Auslöser und werden von ThreadRecap durch Sprachaktivitätserkennung vor der Transkription behandelt.

Question 9

Wie behandelt ThreadRecap Sprachnachrichten in einer Chat-Zusammenfassung?

Accepted Answer

Nach der Transkription wird jede Sprachnachricht in die Gesprächszeitachse beim ursprünglichen Zeitstempel eingefügt, dem ursprünglichen Absender zugeschrieben und als Audio markiert. Die nachgelagerten Outputs Zusammenfassung, Entscheidungen, Maßnahmen und offene Fragen behandeln Audioinhalte identisch mit geschriebenen Nachrichten, sodass eine in Audio getroffene Entscheidung genauso erfasst wird wie eine schriftlich verfasste.

Question 10

Was passiert mit Code-Switching oder mehrsprachigen Sprachnachrichten?

Accepted Answer

Whisper erkennt die Sprache am Anfang jedes 30-Sekunden-Fensters, daher wird ein Clip, der Sprachen mittensatz wechselt (Englisch zu Spanisch, Portugiesisch zu Englisch), normalerweise die dominante Sprache richtig transkribiert und kann an der Übergangsstelle stolpern. ThreadRecap erzwingt die Sprachanweisung basierend auf dem primären Ort des Chats, was die Genauigkeit verbessert, wenn der Chat überwiegend eine Sprache mit gelegentlichen Fremdausdrücken ist.

Question 11

Wie kann ich die Transkriptionsgenauigkeit verbessern, bevor ich eine Sprachnachricht versende?

Accepted Answer

Halten Sie das Telefon nah am Mund, sprechen Sie mit moderatem Tempo, vermeiden Sie es, sich zu bewegen oder das Gerät zu bewegen, sprechen Sie Namen und Zahlen langsam und nehmen Sie an einem ruhigen Ort auf. Sprachnachrichten, die drinnen mit dem Telefon 10–20 cm vom Mund aufgenommen werden, landen typischerweise im Bereich von 95 %+ Genauigkeit. Außen- oder Autofahrten-Aufnahmen sollten mit einer um 5–10 Prozentpunkte niedrigeren Genauigkeit rechnen.

Question 12

Ist eine 93 %-ige genaue Transkription tatsächlich nützlich?

Accepted Answer

Ja. Eine Genauigkeitsquote von 93 % bedeutet etwa 7 Wörter pro 100, die falsch sind, aber diese Fehler sind typischerweise geringfügig (Verbformen, Füllwörter, Eigennamen). Entscheidungen, Fristen, Verantwortliche und Maßnahmen, die Teile, um die es in einem Recap wirklich geht, bleiben in fast jedem Clip, den wir verarbeitet haben, intakt. Die Alternative, Sprachnachrichten vollständig zu ignorieren, kann 30–50 % des Inhalts eines Gesprächs verlieren.

Bedingung	Typische WER	Wort-Ebenen-Genauigkeit
Klare Sprache, ruhiger Raum, Muttersprachler	4–6%	~95%
Café, Straße, Innenraum mit Klimaanlage	6–10%	90–94%
Außenwind, Menschenmenge, Baustelle	10–20%	80–90%
Sprecherüberlappung, gegenseitiges Unterbrechen	15–30%	70–85%
Starker regionaler Dialekt, undeutliche Sprache	12–25%	75–88%

Wie WhatsApp Sprachnachrichten kodiert

Das Modell: Whisper, welche Generation, welche Zahlen

Sprachunterstützung in der Praxis

Was schiefgeht, nach Häufigkeit geordnet

1. Eigennamen

2. Zahlen und Daten

3. Fachterminologie

4. Code-Switching in der Mitte des Satzes

5. Halluzinationen bei Stille

Ein durchgearbeitetes Beispiel

Wie ThreadRecap Transkripte in ein Recap umwandelt

Wie die Genauigkeit vor der Aufnahme verbessert wird

Wie die Genauigkeit nachträglich verbessert wird

Der Genauigkeitskompromiss, deutlich dargelegt

WhatsApp-Transkription: Genauigkeit 2026

Bereit, deine Sprachnachrichten zu lesen?