Question 1

¿Qué tan precisa es la transcripción de notas de voz en WhatsApp?

Accepted Answer

Para habla clara en un entorno tranquilo, OpenAI Whisper logra aproximadamente 95% de precisión a nivel de palabra en notas de voz .opus de WhatsApp (aproximadamente 5% de tasa de error de palabra). El ruido de fondo normal, como en una cafetería o calle, reduce la precisión a 90–95%, y el ruido intenso (viento, multitudes, construcción) la reduce aún más a 80–90%. La cifra exacta depende del idioma, la claridad del hablante y qué tan agresivamente WhatsApp comprimió el audio original.

Question 2

¿Qué formato de audio utiliza WhatsApp para las notas de voz?

Accepted Answer

WhatsApp registra notas de voz como audio codificado en Opus dentro de un contenedor OGG, exportado como archivos .opus. El códec funciona aproximadamente a 16 kbps mono con una frecuencia de muestreo de 16 kHz, optimizado para voz en lugar de música. Las exportaciones antiguas de iOS ocasionalmente usan .m4a (AAC). ThreadRecap lee ambos formatos directamente desde el archivo .zip de exportación.

Question 3

¿Qué modelo de conversión de voz a texto utiliza ThreadRecap?

Accepted Answer

ThreadRecap transcribe notas de voz de WhatsApp con el modelo Whisper de OpenAI, la misma arquitectura publicada por OpenAI en 2022 y actualizada hasta la generación large-v3. Whisper está entrenado en 680,000+ horas de audio multilingüe y soporta 99 idiomas con calidad utilizable en aproximadamente 50 de ellos.

Question 4

¿Qué idiomas obtienen la mejor precisión de transcripción?

Accepted Answer

Whisper funciona mejor en los idiomas más representados en sus datos de entrenamiento, inglés, español, portugués, francés, alemán, italiano, holandés, polaco, ruso, mandarín, japonés y árabe típicamente alcanzan entre 4% y 12% de tasa de error de palabra en audio limpio. Los idiomas con menos recursos y los dialectos regionales fuertes pueden llegar a 15–25% WER, lo que sigue siendo útil para resúmenes pero menos confiable para citas directas.

Question 5

¿Por qué la transcripción confunde nombres y nombres propios?

Accepted Answer

Los modelos de conversión de voz a texto predicen la palabra estadísticamente más probable dado el contexto, y los nombres poco comunes rara vez aparecen en los datos de entrenamiento. Whisper a menudo sustituirá un vecino fonético (por ejemplo "Schwarzschild" se convierte en "short shield"). El significado a nivel de oración generalmente se preserva, pero los nombres propios, marcas y identificadores numéricos deben verificarse contra el audio original.

Question 6

¿Afecta la duración de la nota de voz la precisión de la transcripción?

Accepted Answer

La duración en sí no es un factor de precisión significativo. Whisper procesa audio en ventanas de 30 segundos con superposición, así que un clip de 5 minutos es simplemente diez ventanas unidas. La calidad se degrada con ruido o cambio de hablante dentro de una ventana, no con la duración total. Los clips muy cortos (menos de 3 segundos) pueden ser menos precisos porque Whisper tiene contexto limitado para desambiguar homófonos.

Question 7

¿Puede Whisper separar múltiples hablantes en una nota de voz de WhatsApp?

Accepted Answer

No. Whisper produce una única transcripción sin etiquetas de hablante. Las notas de voz de WhatsApp suelen ser grabaciones de una sola persona, así que esto rara vez importa. Para el ocasional clip de múltiples voces (una reunión grabada, dictado de manos libres), la transcripción se concatena y el oyente debe inferir turnos de hablante del contexto.

Question 8

¿Cómo cambia el ruido de fondo el comportamiento de Whisper?

Accepted Answer

El ruido de fondo constante (zumbido del motor, aire acondicionado) se filtra sorprendentemente bien. El ruido intermitente (sirenas, puertas, perros) y la voz superpuesta son casos más difíciles, donde Whisper pierde palabras o alucina frases cortas que llenan el silencio. Los silencios largos son el desencadenante de alucinación más común y se manejan dentro de ThreadRecap mediante detección de actividad de voz antes de la transcripción.

Question 9

¿Cómo maneja ThreadRecap las notas de voz dentro de un resumen de chat?

Accepted Answer

Después de la transcripción, cada nota de voz se inserta en la línea de tiempo de la conversación en su marca de tiempo original, atribuida al remitente original, y etiquetada como audio. Los resúmenes posteriores, decisiones, elementos de acción y salidas de preguntas abiertas tratan el contenido de audio de manera idéntica a los mensajes escritos, por lo que una decisión tomada en audio se captura igual que una escrita en texto.

Question 10

¿Qué sucede con el cambio de código o notas de voz en idioma mixto?

Accepted Answer

Whisper detecta el idioma al comienzo de cada ventana de 30 segundos, por lo que un clip que cambia idiomas a mitad de oración (inglés a español, portugués a inglés) generalmente transcribe correctamente el idioma dominante y puede tropezar en el punto de cambio. ThreadRecap fuerza la sugerencia de idioma basada en la configuración regional principal del chat, lo que mejora la precisión cuando el chat es principalmente un idioma con frases ocasionales en idiomas extranjeros.

Question 11

¿Cómo puedo mejorar la precisión de transcripción antes de enviar una nota de voz?

Accepted Answer

Sostén el teléfono cerca de la boca, habla a un ritmo moderado, evita caminar o mover el dispositivo, declara nombres y números lentamente, y graba en el espacio más tranquilo disponible. Las notas de voz grabadas en interiores con el teléfono a 10–20 cm de la boca típicamente alcanzan un rango de precisión del 95%+. Las grabaciones al aire libre o mientras conduces deben asumirse como 5–10 puntos porcentuales más bajas.

Question 12

¿Es realmente útil una transcripción con precisión del 93%?

Accepted Answer

Sí. Una tasa de precisión del 93% significa aproximadamente 7 palabras de cada 100 son incorrectas, pero esos errores son típicamente menores (tiempo verbal, palabras de relleno, nombres propios). Las decisiones, plazos, responsables y elementos de acción, las partes que realmente importan en un resumen, se mantienen intactas en casi todos los clips que hemos procesado. La alternativa, ignorar notas de voz por completo, puede perder 30–50% del contenido de una conversación.

Condición	WER típico	Precisión a nivel de palabra
Voz clara, sala tranquila, hablante nativo	4–6%	~95%
Café, calle, interior con HVAC	6–10%	90–94%
Viento exterior, multitud, construcción	10–20%	80–90%
Superposición de hablantes, hablando uno sobre otro	15–30%	70–85%
Dialecto regional fuerte, voz murmullada	12–25%	75–88%

Cómo WhatsApp codifica las notas de voz

El modelo: Whisper, qué generación, qué números

Cobertura de idiomas en la práctica

Qué sale mal, en orden de frecuencia

1. Nombres propios

2. Números y fechas

3. Jerga técnica

4. Cambio de código a mitad de oración

5. Alucinaciones sobre silencio

Un ejemplo trabajado

Cómo ThreadRecap convierte transcripts en un resumen

Cómo mejorar la precisión antes de grabar

Cómo mejorar la precisión después de los hechos

El equilibrio de precisión, planteado claramente

Precisión de transcripción en notas de voz WhatsApp

¿Listo para analizar tu chat de WhatsApp?