Las notas de voz contienen el contenido real de la mayoría de las conversaciones modernas de WhatsApp. El clip de 2 minutos explicando una decisión, el standup diario rápido, la logística de recogida del grupo de padres, todo vive en audio. Si la transcripción es incorrecta, el resumen es incorrecto, y la parte más importante de la conversación se ve dañada.
Esta página es una referencia de trabajo para saber qué esperar de la transcripción de notas de voz de WhatsApp, qué mueve los números de precisión, y cómo ThreadRecap maneja los casos incómodos.
Cómo WhatsApp codifica las notas de voz
WhatsApp graba notas de voz con el códec de audio Opus dentro de un contenedor OGG. La extensión del archivo exportado es `.opus`, ocasionalmente `.m4a` en exportaciones antiguas de iOS (AAC dentro de un contenedor MP4). El codificador Opus se ejecuta en modo de voz sobre IP a aproximadamente 16 kbps, mono, frecuencia de muestreo de 16 kHz, ajustado para la inteligibilidad en lugar de la fidelidad musical.
Dos consecuencias importan para la transcripción:
Los artefactos de compresión son agresivos. Opus a 16 kbps es lo suficientemente bueno para entender la voz, pero elimina la mayoría de los detalles armónicos por encima de 8 kHz. Las sibilantes ("s", "sh", "f") y las oclusivas sordas ("p", "t", "k") son las primeras bajas cuando el ancho de banda cae más en una conexión deficiente.
La frecuencia de muestreo se fija a 16 kHz. Whisper acepta hasta 16 kHz de forma nativa, por lo que no hay penalización de remuestreo. Tampoco hay audio por encima del límite de Nyquist para recuperar, lo que establece un techo duro sobre lo que cualquier modelo de voz a texto puede escuchar.
ThreadRecap lee los archivos `.opus` directamente desde el archivo `.zip` exportado, los decodifica, ejecuta detección de actividad de voz para eliminar el silencio, y alimenta el audio a Whisper. No hay conversión de formato intermedio involucrada.
El modelo: Whisper, qué generación, qué números
La herramienta de voz a texto de ThreadRecap se ejecuta en Whisper de OpenAI, lanzado originalmente en 2022 y actualizado a través de la generación large-v3. Whisper está entrenado en más de 680,000 horas de audio multilingüe de web, cubre 99 idiomas, y produce calidad utilizable en aproximadamente 50 de ellos.
Whisper hace tres cosas internamente que debes saber:
Ventanas de 30 segundos. El modelo codifica audio en fragmentos de 30 segundos con superposición, luego cose los transcripts. Una nota de voz de 4 minutos se procesa como ocho ventanas superpuestas, no como un flujo continuo.
ID de idioma conjunto. Los primeros 30 segundos pasan por un head de detección de idioma antes de la transcripción. El cambio de código que ocurre más tarde en el clip puede confundir el ancla de idioma.
Sin etiquetas de hablante. Whisper genera un único transcript sin diarización. Las notas de voz de WhatsApp son casi siempre de un solo hablante, por lo que esto rara vez es un problema en la práctica.
Tasa de error de palabra (WER) en el mundo real en audio tipo WhatsApp:
Condición
WER típico
Precisión a nivel de palabra
Voz clara, sala tranquila, hablante nativo
4–6%
~95%
Café, calle, interior con HVAC
6–10%
90–94%
Viento exterior, multitud, construcción
10–20%
80–90%
Superposición de hablantes, hablando uno sobre otro
15–30%
70–85%
Dialecto regional fuerte, voz murmullada
12–25%
75–88%
WER es el porcentaje de palabras insertadas, eliminadas o sustituidas. Un WER del 5% significa que 5 palabras de cada 100 son incorrectas, pero las palabras incorrectas suelen ser de baja información (deslices de tiempo verbal, palabras de relleno, ocasionales nombres propios).
Cobertura de idiomas en la práctica
La precisión de Whisper sigue la distribución de sus datos de entrenamiento. Los idiomas con más horas representadas también obtienen los mejores resultados.
Nivel 1 (4–8% WER en audio limpio): Inglés, español, portugués, francés, alemán, italiano, holandés, ruso, polaco, chino mandarín, japonés, coreano. Estos son los idiomas donde ThreadRecap ofrece calidad de transcripción cercana a la humana en notas de voz típicas de WhatsApp.
Nivel 2 (8–15% WER): Árabe, turco, hindi, tailandés, vietnamita, checo, húngaro, sueco, griego, hebreo, indonesio, catalán. Utilidad fuerte para summarización, pero los nombres propios y los números deben verificarse.
Nivel 3 (15–25%+ WER): Idiomas menos comunes, dialectos regionales fuertes, variedades mixtas de código. Aún útil para recordar "de qué se trataba", pero la cita directa debe verificarse contra el audio.
El portugués brasileño, el portugués europeo y el español latinoamericano se encuentran firmemente en el Nivel 1. Los acentos brasileños regionales carioca, paulistano, gaúcho y similares se transcriben con la misma precisión que el portugués estandarizado de transmisión en nuestra experiencia. Los dialectos rurales fuertes con vocabulario no estándar se acercan más al número del Nivel 2.
Qué sale mal, en orden de frecuencia
1. Nombres propios
Los nombres, nombres de marcas, nombres de lugares y nombres de productos son los errores más comunes. Whisper sustituye un vecino fonético: "Priya" se convierte en "Pria" o "Priya"; "edificio Schwarzschild" se convierte en "edificio short shield"; "Botafogo" podría convertirse en "Bota fogo". El significado de la oración sobrevive, la ortografía no. Siempre verifica los nombres propios antes de citar.
2. Números y fechas
Las horas y fechas suelen ser correctas (Whisper ha visto suficientes patrones de "twenty-third" y "23rd" para manejar ambos). Los números de teléfono, precios y códigos de pedido son más riesgosos. Un "PIX 1.250 reais" hablado puede resultar en "1.250", "1,250" o "1250" dependiendo de la convención de locale, que es un problema de formato en lugar de un error de contenido.
3. Jerga técnica
Los términos específicos de la industria fuera de la distribución de entrenamiento (vocabulario médico, legal, de ingeniería especializado) obtienen sustituciones fonéticas. El inglés técnico común (API, SDK, frontend, deploy) se transcribe correctamente porque el corpus está dominado por audio de web en idioma inglés.
4. Cambio de código a mitad de oración
"So basically, vamos a hacer the deployment tomorrow" es difícil. Whisper detecta idioma en el límite de ventana e intenta comprometerse. Los cambios breves generalmente se transcriben correctamente; los cambios sostenidos en un límite de 30 segundos pueden producir una ventana en el idioma incorrecto.
5. Alucinaciones sobre silencio
El talón de Aquiles de Whisper: los pasajes silenciosos largos pueden activar texto fabricado, a menudo frases de relleno como "gracias por ver" llevadas del conjunto de entrenamiento. ThreadRecap pre-procesa audio con detección de actividad de voz, eliminando silencio antes de que el modelo vea el audio, lo que elimina esta categoría de error en la práctica.
Un ejemplo trabajado
Así es como la misma nota de voz de 35 segundos se ve bajo tres condiciones:
Oficina tranquila, hablante nativo de inglés:
"Quick update on the launch. We're shipping Friday at 10 AM. Marcus owns the landing copy, Priya is on billing, and I'll handle the Slack announcement. Open question on whether we need a press hold."
WER en este clip: ~3%. El único error fue "Marcus" renderizado como "Marcus" con una capitalización diferente.
Mismo hablante, caminando por una calle ocupada:
"Quick update on the launch. We're shipping Friday at 10 AM. Mark is on the landing copy, Pria is on billing, and I'll handle the slack announcement. Open question on whether we need a press hole."
WER ~9%. Dos sustituciones de nombre, "Slack" en minúscula, "press hold" malinterpretado como "press hole". Las decisiones y la línea de tiempo sobrevivieron; los nombres necesitan verificación.
Mismo hablante, en un coche con ventanas abiertas:
"Update on launch. Shipping Friday at 10. [unintelligible] is on landing, [unintelligible] on billing, I'll handle the announcement. Question on press."
WER ~22%. Los nombres se descartaron por completo (Whisper prefirió omitir en lugar de adivinar), pero la decisión y la línea de tiempo aún son recuperables.
Cómo ThreadRecap convierte transcripts en un resumen
Después de la transcripción, cada nota de voz se inserta en la línea de tiempo de la conversación en la marca de tiempo exacta donde se envió, se atribuye al remitente original, y se marca como audio. De ahí, la capa de análisis trata la voz y el texto de forma idéntica.
Eso significa:
Una decisión hablada en una nota de voz aparece en la sección Decisiones.
Un elemento de acción hablado en audio aparece en Elementos de acción con el hablante original como propietario.
El Resumen sintetiza voz y texto juntos en lugar de tratarlos como flujos separados.
La salida de Citas notables puede extraer de notas de voz, con el enlace de marca de tiempo volviendo al audio original.
Sin este paso de fusión, una herramienta de IA que "transcribe notas de voz" pero luego resume solo el contenido de texto perderá sistemáticamente las partes más sustanciales de la conversación. Este es el modo de fallo más común de los resúmenes de chat de propósito general.
Cómo mejorar la precisión antes de grabar
Si envías regularmente notas de voz que terminarán en un resumen:
Distancia. Sostén el teléfono a 10–20 cm de tu boca. Más cerca que eso introduce ruido de aliento y de oclusiva; más lejos que eso capta reverberación de sala.
Ritmo. El ritmo moderado supera al rápido o lento. Whisper maneja bien la voz conversacional natural; la voz apresurada agrava los errores en los límites de ventana de 30 segundos.
Ambiente. Interior supera a exterior. Estacionario supera a caminar. Sala silenciosa supera a música o TV de fondo.
Nombres y números. Exprésalos deliberadamente, idealmente dos veces si importan ("número de factura 4-7-2-9, cuatro siete dos nueve"). La redundancia le da al modelo una segunda oportunidad.
Un idioma por clip. Si cambias de idioma, hazlo a través de un salto de oración, no a mitad de oración.
Estos no son requisitos estrictos. ThreadRecap está construido para lidiar con audio realista de WhatsApp, incluido ambiente de cocina y grabaciones caminando por la calle. Son palancas si quieres pasar de "lo suficientemente bueno para un resumen" a "cita verbatim".
Cómo mejorar la precisión después de los hechos
Dentro de ThreadRecap:
Reproducción de audio en posición del mensaje. Cada nota de voz transcrita tiene un reproductor en línea. Haz clic para verificar cualquier clip específico contra el transcript.
Verificación puntual de nombres propios primero. Ahí es donde viven el 70% de los errores significativos.
Verifica números en compromisos. "Antes del martes a las 2" y "antes del martes a las 12" son una diferencia de 12 caracteres y una diferencia significativa.
Usa el seguimiento de IA. Preguntar "¿exactamente dónde Marcus acordó el plazo?" devuelve el clip exacto y la marca de tiempo, que expone problemas de transcripción si el audio subyacente realmente dijo algo diferente.
El equilibrio de precisión, planteado claramente
Ninguna transcripción es perfecta. Whisper se sienta cómodamente en el mismo rango de precisión que las principales alternativas comerciales (Google Speech-to-Text, AWS Transcribe, Deepgram) para los idiomas donde todos tienen cobertura sólida, y por delante de la mayoría de ellos para idiomas de baja cobertura.
La comparación honesta no es Whisper vs. perfecto. Es Whisper vs. ignorar las notas de voz por completo. Las notas de voz típicamente llevan 30–50% del contenido de una conversación. Un transcript con 93% de precisión que captura cada decisión y cada elemento de acción, con un puñado de nombres mal deletreados que puedes corregir en 30 segundos, es dramáticamente más útil que un resumen que omite la mitad de la conversación por diseño.
Precisión de transcripción en notas de voz WhatsApp
Precisión real de Whisper en notas de voz .opus por idioma, condición de audio y tipo de contenido, más las peculiaridades del códec que mueven los números.