Sprachnachrichten enthalten den echten Inhalt der meisten modernen WhatsApp-Unterhaltungen. Der 2-minütige Clip, der eine Entscheidung erklärt, das schnelle tägliche Standup, die Logistik der Elterngruppe zum Abholen – alles existiert in Audio. Wenn die Transkription falsch ist, ist auch das Recap falsch, und der wichtigste Teil des Gesprächs wird verstümmelt.
Diese Seite ist eine praktische Referenz dafür, was Sie von der WhatsApp-Sprachnachrichtentranskription erwarten können, welche Faktoren die Genauigkeitszahlen beeinflussen, und wie ThreadRecap mit den schwierigen Fällen umgeht.
Wie WhatsApp Sprachnachrichten kodiert
WhatsApp zeichnet Sprachnachrichten mit dem Opus-Audiocodec in einem OGG-Container auf. Die exportierte Dateiendung ist `.opus`, gelegentlich `.m4a` bei älteren iOS-Exporten (AAC in einem MP4-Container). Der Opus-Encoder läuft im Voice-over-IP-Modus mit ungefähr 16 kbps, Mono, 16 kHz Abtastrate, optimiert für Verständlichkeit statt musikalischer Treue.
Zwei Folgen sind wichtig für die Transkription:
Kompressionsartefakte sind aggressiv. Opus bei 16 kbps ist gut genug zum Verstehen von Sprache, entfernt aber die meisten Obertondetails oberhalb von 8 kHz. Zischlaute („s", „sch", „f") und stimmlose Verschlusslaute („p", „t", „k") sind die ersten Opfer, wenn die Bandbreite bei schlechter Verbindung weiter sinkt.
Abtastrate ist auf 16 kHz festgelegt. Whisper akzeptiert nativ bis zu 16 kHz, daher gibt es keine Neuabtastungsstrafe. Es gibt auch kein Audio über der Nyquist-Grenze zu regenerieren, was eine harte Obergrenze für das setzt, was jedes Speech-to-Text-Modell hören kann.
ThreadRecap liest die `.opus`-Dateien direkt aus der Export-`.zip`, dekodiert sie, führt Voice-Activity-Detection aus, um Stille zu entfernen, und speist das Audio in Whisper ein. Es ist keine Zwischenformat-Konvertierung erforderlich.
Das Modell: Whisper, welche Generation, welche Zahlen
ThreadRecaps Voice-to-Text-Tool läuft auf OpenAIs Whisper, ursprünglich 2022 veröffentlicht und bis zur Generation large-v3 aktualisiert. Whisper wird auf 680.000+ Stunden mehrsprachiger Web-Audio trainiert, deckt 99 Sprachen ab und erzeugt nutzbare Qualität bei ungefähr 50 davon.
Whisper macht intern drei Dinge, die Sie wissen sollten:
30-Sekunden-Fenster. Das Modell kodiert Audio in 30-Sekunden-Blöcken mit Überlappung und näht dann die Transkripte zusammen. Eine 4-Minuten-Sprachnachricht wird als acht überlappende Fenster verarbeitet, nicht als ein kontinuierlicher Stream.
Gemeinsame Sprachen-ID. Die ersten 30 Sekunden laufen durch einen Spracherkennungskopf, bevor die Transkription erfolgt. Code-Switching, das später im Clip auftritt, kann den Sprach-Anker verwirren.
Keine Sprecherlabel. Whisper gibt ein einzelnes Transkript ohne Diarisierung aus. WhatsApp-Sprachnachrichten sind fast immer von einem Sprecher, daher ist dies in der Praxis selten ein Problem.
Echte Word Error Rate (WER) bei WhatsApp-ähnlichem Audio:
Bedingung
Typische WER
Wort-Ebenen-Genauigkeit
Klare Sprache, ruhiger Raum, Muttersprachler
4–6%
~95%
Café, Straße, Innenraum mit Klimaanlage
6–10%
90–94%
Außenwind, Menschenmenge, Baustelle
10–20%
80–90%
Sprecherüberlappung, gegenseitiges Unterbrechen
15–30%
70–85%
Starker regionaler Dialekt, undeutliche Sprache
12–25%
75–88%
WER ist der Prozentsatz von eingefügten, gelöschten oder ersetzten Wörtern. Eine WER von 5% bedeutet 5 Wörter von je 100 sind falsch, aber die falschen Wörter sind normalerweise informationsarm (Zeitformenabweichungen, Füllwörter, gelegentliche Eigennamen).
Sprachunterstützung in der Praxis
Whispers Genauigkeit folgt der Verteilung seiner Trainingsdaten. Die Sprachen mit den meisten Stunden, die vertreten sind, erzielen auch die besten Ergebnisse.
Tier 1 (4–8% WER bei klarem Audio): Englisch, Spanisch, Portugiesisch, Französisch, Deutsch, Italienisch, Niederländisch, Russisch, Polnisch, Mandarin-Chinesisch, Japanisch, Koreanisch. Das sind die Sprachen, bei denen ThreadRecap eine nahezu menschliche Transkriptionsqualität bei typischen WhatsApp-Sprachnachrichten erreicht.
Tier 2 (8–15% WER): Arabisch, Türkisch, Hindi, Thai, Vietnamesisch, Tschechisch, Ungarisch, Schwedisch, Griechisch, Hebräisch, Indonesisch, Katalanisch. Starke Utility zur Zusammenfassung, aber Eigennamen und Zahlen sollten überprüft werden.
Tier 3 (15–25%+ WER): Weniger häufige Sprachen, starke regionale Dialekte, Code-Mixed-Varianten. Immer noch nützlich für „worum ging es" Rückrufe, aber direkte Zitate sollten gegen das Audio überprüft werden.
Brasilianisches Portugiesisch, Europäisches Portugiesisch und Lateinamerikanisches Spanisch liegen alle fest in Tier 1. Rio carioca, paulistano, gaúcho und ähnliche regionale brasilianische Akzente transkribieren mit der gleichen Genauigkeit wie standardisiertes Broadcast-Portugiesisch nach unserer Erfahrung. Starke ländliche Dialekte mit nicht standardisiertem Vokabular landen näher bei der Tier-2-Zahl.
Was schiefgeht, nach Häufigkeit geordnet
1. Eigennamen
Namen, Markennamen, Ortsnamen und Produktnamen sind die häufigsten Fehler. Whisper ersetzt einen phonetischen Nachbarn: „Priya" wird zu „Pria" oder „Priya"; „Schwarzschild building" wird zu „short shield building"; „Botafogo" könnte zu „Bota fogo" werden. Die Satzaussage bleibt erhalten, die Schreibweise nicht. Überprüfen Sie Eigennamen immer, bevor Sie zitieren.
2. Zahlen und Daten
Zeiten und Daten sind normalerweise richtig (Whisper hat genug „twenty-third"- und „23rd"-Muster gesehen, um beide zu handhaben). Telefonnummern, Preise und Bestellcodes sind riskanter. Ein gesprochenes „PIX 1.250 reais" kann als „1.250", „1.250" oder „1250" landen, je nach Gebietsschema-Konvention, was ein Formatierungsproblem ist und kein Inhaltsfehler.
3. Fachterminologie
Branchenspezifische Begriffe außerhalb der Trainingsverteilung (spezialisiertes medizinisches, rechtliches, technisches Vokabular) werden phonetisch ersetzt. Häufiges technisches Englisch (API, SDK, Frontend, Deploy) transkribiert korrekt, da das Korpus von englischsprachigen Web-Audio dominiert wird.
4. Code-Switching in der Mitte des Satzes
„So basically, vamos a hacer the deployment tomorrow" ist schwer. Whisper erkennt die Sprache an der Fenstergrenze und versucht sich festzulegen. Kurze Wechsel transkribieren normalerweise korrekt; anhaltende Wechsel über eine 30-Sekunden-Grenze können ein Fenster in der falschen Sprache erzeugen.
5. Halluzinationen bei Stille
Whispers Achillesferse: lange stille Pausen können fabrizierte Texte auslösen, oft Füllphrasen wie „thanks for watching" aus den Trainingsdaten. ThreadRecap verarbeitet Audio vor mit Voice-Activity-Detection und trimmt Stille, bevor das Modell das Audio sieht, was diese Fehlerkategorie in der Praxis entfernt.
Ein durchgearbeitetes Beispiel
So sieht die gleiche 35-Sekunden-Sprachnachricht unter drei Bedingungen aus:
Ruhiges Büro, englischsprachiger Muttersprachler:
"Quick update on the launch. We're shipping Friday at 10 AM. Marcus owns the landing copy, Priya is on billing, and I'll handle the Slack announcement. Open question on whether we need a press hold."
WER bei diesem Clip: ~3%. Der einzige Fehler war „Marcus" mit unterschiedlicher Kapitalisierung.
Gleicher Sprecher, zu Fuß auf einer belebten Straße:
"Quick update on the launch. We're shipping Friday at 10 AM. Mark is on the landing copy, Pria is on billing, and I'll handle the slack announcement. Open question on whether we need a press hole."
WER ~9%. Zwei Namensersetzungen, „Slack" kleingeschrieben, „press hold" als „press hole" missverstanden. Entscheidungen und Zeitstrahl überstanden; Namen benötigen Überprüfung.
Gleicher Sprecher, im Auto mit heruntergefahrenen Fenstern:
"Update on launch. Shipping Friday at 10. [unintelligible] is on landing, [unintelligible] on billing, I'll handle the announcement. Question on press."
WER ~22%. Namen fallen ganz weg (Whisper zog vor zu überspringen, anstatt zu raten), aber Entscheidung und Zeitstrahl sind immer noch wiederherstellbar.
Wie ThreadRecap Transkripte in ein Recap umwandelt
Nach der Transkription wird jede Sprachnachricht in die Unterhaltungs-Zeitleiste auf dem genauen Zeitstempel eingefügt, an dem sie gesendet wurde, dem ursprünglichen Absender zugeordnet und als Audio gekennzeichnet. Von dort behandelt die Analyseebene Voice und Text identisch.
Das bedeutet:
Eine in einer Sprachnachricht gesprochene Entscheidung erscheint im Decisions-Abschnitt.
Ein in Audio gesprochenes Aktionselement erscheint in Action Items mit dem ursprünglichen Sprecher als Eigentümer.
Die Summary synthetisiert Voice und Text zusammen, anstatt sie als separate Streams zu behandeln.
Die Notable Quotes-Ausgabe kann aus Sprachnachrichten ziehen, wobei der Zeitstempel-Link zurück zum ursprünglichen Audio geht.
Ohne diesen Zusammenführungsschritt wird ein KI-Tool, das „Sprachnachrichten transkribiert", aber dann nur den Text zusammenfasst, systematisch die substanzialsten Teile der Unterhaltung verfehlen. Dies ist der häufigste Fehlermodus von Allzweck-Chat-Zusammenfassern.
Wie die Genauigkeit vor der Aufnahme verbessert wird
Wenn Sie regelmäßig Sprachnachrichten senden, die in einem Recap landen:
Entfernung. Halten Sie das Telefon 10–20 cm von Ihrem Mund entfernt. Näher als das führt zu Atem- und Plosivgeräuschen; weiter weg hebt Raumhall auf.
Tempo. Moderates Tempo schlägt schnell oder langsam. Whisper handhält natürliche Gesprächssprache gut; gehastete Sprache verstärkt Fehler an 30-Sekunden-Fenstergrenzen.
Umgebung. Innenraum schlägt Außenraum. Stationär schlägt Gehen. Stiller Raum schlägt Musik oder Fernsehen im Hintergrund.
Namen und Zahlen. Sagen Sie sie bewusst, idealerweise zweimal, wenn sie wichtig sind („Rechnungsnummer 4-7-2-9, vier sieben zwei neun"). Die Redundanz gibt dem Modell eine zweite Chance.
Eine Sprache pro Clip. Wenn Sie Sprachen wechseln, machen Sie das über eine Satzgrenze, nicht in der Mitte des Satzes.
Dies sind keine strikten Anforderungen. ThreadRecap ist so gebaut, dass es mit realistischem WhatsApp-Audio umgehen kann, einschließlich Küchenhintergrund und zu-Fuß-gehen-auf-der-Straße-Aufnahmen. Sie sind Hebel, wenn Sie vom „gut genug für eine Zusammenfassung" zum „wortgetreu zitierbar" vorankommen möchten.
Wie die Genauigkeit nachträglich verbessert wird
Inside ThreadRecap:
Audiowiedergabe auf Nachrichtenposition. Jede transkribierte Sprachnachricht hat einen integrierten Player. Klicken Sie, um einen bestimmten Clip gegen das Transkript zu überprüfen.
Eigennamen zuerst überprüfen. Dort leben 70% der aussagekräftigen Fehler.
Zahlen in Verpflichtungen überprüfen. „Bis Dienstag um 2" und „bis Dienstag um 12" sind ein 12-Zeichen-Unterschied und ein aussagekräftiger.
Verwenden Sie den KI-Nachfolger. Eine Frage wie „wo genau hat sich Marcus die Frist zugesichert?" gibt den genauen Clip und Zeitstempel zurück, was Transkriptionsprobleme zu Tage bringt, wenn das zugrunde liegende Audio tatsächlich etwas anderes sagte.
Der Genauigkeitskompromiss, deutlich dargelegt
Keine Transkription ist perfekt. Whisper sitzt komfortabel in der gleichen Genauigkeitsspanne wie die großen Handeltalternativen (Google Speech-to-Text, AWS Transcribe, Deepgram) für die Sprachen, bei denen sie alle starke Abdeckung haben, und vor den meisten von ihnen bei Sprachen mit wenigen Ressourcen.
Der ehrliche Vergleich ist nicht Whisper vs. perfekt. Es ist Whisper vs. Sprachnachrichten völlig ignorieren. Sprachnachrichten enthalten normalerweise 30–50% des Inhalts einer Unterhaltung. Ein Transkript mit 93% Genauigkeit, das jede Entscheidung und jedes Aktionselement erfasst, mit einer Handvoll Eigennamen mit Schreibfehlern, die Sie in 30 Sekunden korrigieren können, ist dramatisch nützlicher als ein Recap, das die Hälfte der Unterhaltung durch Entwurf überspringt.