Notas de voz carregam o conteúdo real da maioria das conversas modernas no WhatsApp. O clipe de 2 minutos explicando uma decisão, o standup diário rápido, a logística de entrega do grupo de pais, tudo isso vive em áudio. Se a transcrição está errada, o recap está errado, e a parte mais importante da conversa fica deturpada.
Esta página é uma referência prática para o que esperar da transcrição de notas de voz do WhatsApp, o que move os números de precisão, e como o ThreadRecap lida com os casos complicados.
Como o WhatsApp codifica notas de voz
O WhatsApp grava notas de voz com o codec de áudio Opus dentro de um contêiner OGG. A extensão do arquivo exportado é `.opus`, ocasionalmente `.m4a` em exportações iOS mais antigas (AAC dentro de um contêiner MP4). O codificador Opus roda em modo voz sobre IP a aproximadamente 16 kbps, mono, taxa de amostragem de 16 kHz, ajustado para inteligibilidade em vez de fidelidade musical.
Duas consequências importam para a transcrição:
Artefatos de compressão são agressivos. Opus a 16 kbps é bom o suficiente para entender a fala, mas remove a maioria dos detalhes harmônicos acima de 8 kHz. Sibilantes ("s", "sh", "f") e oclusivas surdas ("p", "t", "k") são as primeiras vítimas quando a largura de banda cai ainda mais em uma conexão ruim.
Taxa de amostragem fixa em 16 kHz. Whisper aceita até 16 kHz nativamente, então não há penalidade de reamostragem. Também não há áudio acima do limite de Nyquist para recuperar, o que define um teto rígido no que qualquer modelo de fala para texto pode ouvir.
O ThreadRecap lê os arquivos `.opus` diretamente do `.zip` exportado, decodifica-os, executa detecção de atividade de voz para remover silêncio, e alimenta o áudio no Whisper. Nenhuma conversão de formato intermediário está envolvida.
O modelo: Whisper, qual geração, quais números
A ferramenta de voz para texto do ThreadRecap roda no Whisper do OpenAI, lançado originalmente em 2022 e atualizado até a geração large-v3. Whisper é treinado em 680.000+ horas de áudio multilíngue da web, cobre 99 idiomas, e produz qualidade utilizável em aproximadamente 50 deles.
Whisper faz três coisas internamente que você deve saber:
Janelas de 30 segundos. O modelo codifica áudio em fragmentos de 30 segundos com sobreposição, depois costura as transcrições. Uma nota de voz de 4 minutos é processada como oito janelas sobrepostas, não como um fluxo contínuo.
ID de idioma conjunto. Os primeiros 30 segundos passam por uma cabeça de detecção de idioma antes da transcrição. O código-switching que acontece depois no clipe pode confundir a âncora de idioma.
Sem rótulos de falante. Whisper produz uma única transcrição sem diarização. Notas de voz do WhatsApp são quase sempre de um único falante, então raramente é um problema na prática.
Taxa de erro de palavra (WER) no mundo real em áudio estilo WhatsApp:
Condição
WER típico
Precisão ao nível da palavra
Fala clara, sala silenciosa, falante nativo
4–6%
~95%
Café, rua, interior com HVAC
6–10%
90–94%
Vento ao ar livre, multidão, construção
10–20%
80–90%
Sobreposição de falantes, falando um sobre o outro
15–30%
70–85%
Dialeto regional pesado, fala muda
12–25%
75–88%
WER é a porcentagem de palavras inseridas, deletadas ou substituídas. Um WER de 5% significa 5 palavras a cada 100 estão erradas, mas as palavras erradas geralmente têm pouca informação (deslizes de tempo verbal, palavras de preenchimento, ocasionais nomes próprios).
Cobertura de idiomas na prática
A precisão do Whisper segue a distribuição de seus dados de treinamento. Os idiomas com mais horas representadas também obtêm os melhores resultados.
Nível 1 (WER de 4–8% em áudio limpo): inglês, espanhol, português, francês, alemão, italiano, holandês, russo, polonês, mandarim chinês, japonês, coreano. Estes são os idiomas onde o ThreadRecap oferece qualidade de transcrição quase humana em notas de voz típicas do WhatsApp.
Nível 2 (WER de 8–15%): árabe, turco, hindi, tailandês, vietnamita, tcheco, húngaro, sueco, grego, hebraico, indonésio, catalão. Utilidade forte para sumarização, mas nomes próprios e números devem ser verificados.
Nível 3 (WER de 15–25%+): idiomas menos comuns, dialetos regionais pesados, variedades misturadas de código. Ainda útil para recordação de "do que era isso", mas citação direta deve ser verificada contra o áudio.
Português brasileiro, português europeu e espanhol latino-americano estão firmemente no nível 1. Rio carioca, paulistano, gaúcho e sotaques regionais brasileiros similares transcrevem com a mesma precisão que português padronizado em transmissão em nossa experiência. Dialetos rurais fortes com vocabulário não padrão chegam mais perto do número do nível 2.
O que dá errado, em ordem de frequência
1. Nomes próprios
Nomes, marcas, nomes de lugares e nomes de produtos são os erros mais comuns. Whisper substitui um vizinho fonético: "Priya" vira "Pria" ou "Priya"; "edifício Schwarzschild" vira "edifício escudo curto"; "Botafogo" pode virar "Bota fogo". O significado da frase sobrevive, a ortografia não. Sempre verifique nomes próprios antes de citar.
2. Números e datas
Horas e datas geralmente estão corretas (Whisper viu padrões suficientes de "vinte e três" e "23º" para lidar com ambos). Números de telefone, preços e códigos de pedido são mais arriscados. Um falado "PIX 1.250 reais" pode chegar como "1.250", "1,250" ou "1250" dependendo da convenção de localidade, que é um problema de formatação em vez de um erro de conteúdo.
3. Jargão técnico
Termos específicos do setor fora da distribuição de treinamento (vocabulário médico, legal, de engenharia especializado) recebem substituições fonéticas. Inglês técnico comum (API, SDK, frontend, deploy) transcreve corretamente porque o corpus é dominado por áudio da web em inglês.
4. Código-switching no meio da sentença
"So basically, vamos a hacer the deployment tomorrow" é difícil. Whisper detecta idioma na borda da janela e tenta se comprometer. Switches breves geralmente transcrevem corretamente; switches sustentados através de uma borda de 30 segundos podem produzir uma janela no idioma errado.
5. Alucinações em silêncio
O calcanhar de Aquiles do Whisper: passagens de silêncio longo podem desencadear texto fabricado, geralmente frases de preenchimento como "obrigado por assistir" carregadas do dado de treinamento. ThreadRecap pré-processa áudio com detecção de atividade de voz, aparando silêncio antes do modelo ver o áudio, o que remove esta categoria de erro na prática.
Um exemplo trabalhado
Aqui está o que a mesma nota de voz de 35 segundos parece sob três condições:
Escritório silencioso, falante nativo de inglês:
"Quick update on the launch. We're shipping Friday at 10 AM. Marcus owns the landing copy, Priya is on billing, and I'll handle the Slack announcement. Open question on whether we need a press hold."
WER neste clipe: ~3%. O único erro foi "Marcus" renderizado como "Marcus" com capitalização diferente.
Mesmo falante, caminhando por uma rua movimentada:
"Quick update on the launch. We're shipping Friday at 10 AM. Mark is on the landing copy, Pria is on billing, and I'll handle the slack announcement. Open question on whether we need a press hole."
WER ~9%. Duas substituições de nome, "Slack" em minúsculas, "press hold" ouvido erroneamente como "press hole". Decisões e cronograma sobreviveram; nomes precisam de verificação.
Mesmo falante, em um carro com janelas abaixadas:
"Update on launch. Shipping Friday at 10. [unintelligible] is on landing, [unintelligible] on billing, I'll handle the announcement. Question on press."
WER ~22%. Nomes completamente removidos (Whisper preferiu pular em vez de adivinhar), mas a decisão e o cronograma ainda são recuperáveis.
Como o ThreadRecap transforma transcrições em um recap
Após a transcrição, cada nota de voz é inserida na linha do tempo da conversa no carimbo de data/hora exato em que foi enviada, atribuída ao remetente original, e marcada como áudio. A partir daí a camada de análise trata voz e texto identicamente.
Isso significa:
Uma decisão falada em uma nota de voz aparece na seção Decisões.
Um item de ação falado em áudio aparece em Itens de ação com o falante original como o proprietário.
O Resumo sintetiza voz e texto juntos em vez de tratar como fluxos separados.
A saída de Citações notáveis pode extrair de notas de voz, com o link de carimbo de data/hora voltando ao áudio original.
Sem este passo de mesclagem, uma ferramenta de IA que "transcreve notas de voz" mas depois sumariza apenas o conteúdo de texto perderá sistematicamente as partes mais substantivas da conversa. Este é o modo de falha mais comum de sumarizadores de chat de propósito geral.
Como melhorar a precisão antes de gravar
Se você regularmente envia notas de voz que acabarão em um recap:
Distância. Segure o telefone a 10–20 cm de sua boca. Mais perto do que isso introduz ruído de respiração e plosivo; mais longe do que isso capta reverberação de sala.
Ritmo. Ritmo moderado supera rápido ou lento. Whisper lida bem com fala conversacional natural; fala apressada compõe erros nos limites de janela de 30 segundos.
Ambiente. Interior supera exterior. Estacionário supera andar. Sala silenciosa supera música ou TV de fundo.
Nomes e números. Declare-os deliberadamente, idealmente duas vezes se importarem ("número da fatura 4-7-2-9, quatro sete dois nove"). A redundância dá ao modelo uma segunda chance.
Um idioma por clipe. Se você mudar de idioma, faça isso através de uma quebra de sentença, não no meio da sentença.
Estes não são requisitos estritos. ThreadRecap é construído para lidar com áudio realista do WhatsApp, incluindo ambiente de cozinha e gravações caminhando pela rua. São alavancas se você quer progredir de "bom o suficiente para um resumo" em direção a "citação textual".
Como melhorar a precisão após o fato
Dentro do ThreadRecap:
Reprodução de áudio na posição da mensagem. Cada nota de voz transcrita tem um player inline. Clique para verificar qualquer clipe específico contra a transcrição.
Verificar nomes próprios primeiro. É onde 70% dos erros significativos vivem.
Verificar números em compromissos. "By Tuesday at 2" e "by Tuesday at 12" são uma diferença de 12 caracteres e uma significativa.
Use o acompanhamento de IA. Perguntar "onde exatamente Marcus concordou com o prazo?" retorna o clipe exato e carimbo de data/hora, que expõe problemas de transcrição se o áudio subjacente realmente disse algo diferente.
O tradeoff de precisão, dito claramente
Nenhuma transcrição é perfeita. Whisper fica confortavelmente na mesma faixa de precisão que as principais alternativas comerciais (Google Speech-to-Text, AWS Transcribe, Deepgram) para os idiomas onde todos têm cobertura forte, e à frente da maioria deles para idiomas com poucos recursos.
A comparação honesta não é Whisper vs. perfeito. É Whisper vs. ignorar notas de voz inteiramente. Notas de voz normalmente carregam 30–50% do conteúdo de uma conversa. Uma transcrição com 93% de precisão que captura cada decisão e cada item de ação, com um punhado de nomes mal escritos que você pode corrigir em 30 segundos, é dramaticamente mais útil do que um recap que pula metade da conversa por design.
Precisão da transcrição de notas de voz do WhatsApp (2026)
Precisão do Whisper no mundo real em notas de voz .opus por idioma, condição de áudio e tipo de conteúdo, além das peculiaridades do codec que movem os números.