Controle de gastos por voz em 7 idiomas: onde o Whisper ainda falha

Por Daniil Kozin · ex-banqueiro · Florianópolis

Gravei a mesma listinha de gastos em voz alta em sete idiomas e passei cada gravação pelo Capi e por três apps rivais para ver o que a transcrição realmente captou. Com fala limpa, os modelos chegam perto do impecável. O interessante são as bordas: um sotaque, uma cafeteria barulhenta, um valor dito em um idioma dentro de uma frase em outro. É aí que o controle por voz ou aguenta o tranco ou salva o número errado em silêncio, e essa é a parte que nenhuma página de vendas mostra.

A voz é o jeito mais rápido de registrar uma compra, mais rápido que abrir um app e digitar, e em 2026 quase todo app de voz roda sobre o mesmo motor por baixo: o Whisper da OpenAI, quase sempre o modelo Large v3. Então um teste justo tem menos a ver com qual app tem o melhor microfone e mais com como cada um lida com os momentos em que o Whisper erra. Passei anos dentro de bancos vendo gente largar o controle financeiro porque registrar dava trabalho demais, então me importo mais com o passo da entrada do que com o painel. Aqui está o que sete idiomas me ensinaram, dito na lata, inclusive onde os rivais ganham de nós.

Qual a precisão do controle de gastos por voz em 2026?

Com fala limpa, é muito boa. O Whisper Large v3, por trás da maioria dos apps de voz, fica perto de 5 a 6 por cento de erro em inglês e cerca de 10 por cento na média entre idiomas, pelo benchmark Common Voice. Para uma frase curta como um café e o valor, costuma dar transcrição correta de primeira. A precisão cai com sotaque, ruído e frases que misturam idiomas.

O número da manchete esconde o formato dos erros. Um erro de 5 por cento por palavra não quer dizer que cinco por cento dos seus gastos saem errados. Quer dizer que mais ou menos uma palavra em vinte sai torta, e o risco é inteiro sobre qual palavra. Erre uma palavra de ligação e nada acontece. Erre o número e você registrou o valor errado. Essa assimetria é o jogo todo no controle de gastos, e por isso julguei cada app menos pela qualidade da transcrição e mais por mostrar o valor lido antes de salvar. Velocidade de captura virou o básico. Pegar o único número errado é a função de verdade.

Qual idioma o Whisper transcreve com mais precisão?

Inglês, por ter mais dados de treino, seguido de perto por espanhol, português, italiano, alemão e francês. No meu teste, esses seis entenderam um gasto falado sem erro, na mesma faixa de um dígito em áudio limpo. O russo ficou um passo atrás, mas confiável. O hindi foi o mais fraco dos sete, o que combina com o Whisper ser mais forte nos idiomas que mais viu no treino.

O padrão bate com o que a OpenAI publicou e com o que benchmarks independentes mostram: o desempenho acompanha o volume de treino. Os idiomas latinos e germânicos com grande presença na web se agrupam perto do inglês, enquanto idiomas de menos recursos despencam, às vezes para a faixa de 15 a 30 por cento de erro nos mais raros. O hindi fica num meio desconfortável, bem apoiado mas ainda claramente pior que espanhol ou português nas minhas gravações, principalmente em palavras emprestadas do inglês, que aparecem o tempo todo na fala real. Para o leitor brasileiro isso é ótimo: o português está entre os idiomas mais fortes do Whisper, então a captura por voz é de fato confiável no idioma que este blog mais serve.

Onde o Whisper ainda falha no controle de gastos por voz?

Ele falha em quatro pontos: sotaque forte ou regional, ruído de fundo, números falados e mistura de idiomas na mesma frase. Sotaque e ruído elevam a taxa de erro porque o modelo treinou quase todo em fala limpa e padrão. Números escorregam porque quarenta e catorze soam parecidos. E dizer um valor em reais dentro de uma frase em inglês é o caso mais difícil, exatamente como gente bilíngue fala de dinheiro.

Minha gravação mais bagunçada foi proposital: uma frase em português com o nome de uma marca em inglês e um valor dito em reais, com uma cafeteria murmurando ao fundo. Todo app tropeçou em algum ponto dela. Um derrubou a moeda, um ouviu a marca como palavra comum, um errou a casa das dezenas do número. Não é um golpe no Whisper, e sim um lembrete de que as falhas honestas são previsíveis, então o produto precisa planejar para elas. Os apps que saíram melhor não foram os que prometiam a maior precisão. Foram os que assumiram que a transcrição podia estar errada e transformaram isso num conserto de dois segundos em vez de um erro silencioso. Escrevi mais sobre como o software confiante engana em silêncio em por que os apps financeiros mentem sobre seus gastos.

Como se comparam os principais apps de gastos por voz?

Quatro apps cobrem a maior parte do mercado focado em voz em 2026: Capi, Vocash, MonAi e TalkieMoney. Todos se apoiam em transcrição da classe Whisper, então a precisão bruta é parecida. Eles diferem em onde rodam, como confirmam um lançamento, o que fazem com o áudio e o preço. A tabela abaixo é o formato honesto disso, com a troca que cada um pede de você.

App	Onde roda	Confirma antes de salvar	Guarda o áudio	Preço
Capi	Chat do Telegram	Sim, lê de volta	Não, descarta	Grátis, depois US$ 69,90/ano
Vocash	iOS, Android, web	Edição rápida	Empresa informa	Grátis, Pro US$ 36,99/ano
MonAi	iOS, Android	Revisão no app	Guarda no seu iCloud	Cota grátis, depois pago
TalkieMoney	iOS, Android	Revisão no app	Empresa informa	Grátis até 50 lançam., depois assinatura

Leia isso pelo que você valoriza, não pela estrela da linha. Se você quer um app independente e caprichado e vive no mundo Apple, o MonAi é um belo trabalho de design, e o truque de separar vários gastos de uma frase falada é de fato útil. Se você quer o plano gratuito mais largo, o Vocash entrega a captura de voz de graça e só cobra por exportação e histórico longo. O TalkieMoney é um agente de orçamento com IA competente, no mesmo formato grátis-depois-pago. A diferença do Capi não é a precisão, é que tudo acontece num chat que você já deixa aberto, sem app novo para aprender. Se um app dedicado de iOS combina mais com você, um dos outros é a resposta certa, e prefiro dizer isso. A comparação Capi vs Copilot Money pesa a troca entre chat e app com mais detalhe contra a opção com Siri da Apple.

O que aconteceu ao gravar gastos em sete idiomas pelo Capi?

Gravei os mesmos cinco gastos em inglês, espanhol, português, francês, alemão, russo e hindi, falados em ritmo normal. Seis dos sete idiomas processaram todos os gastos certos de primeira. O hindi errou um valor e uma categoria, os dois corrigidos num toque na tela de confirmação. Os seis limpos não precisaram de nenhum ajuste. O áudio foi apagado depois de cada transcrição, deixando só o texto confirmado.

O detalhe que me importa é o que aconteceu no erro, não nos acertos. Quando a gravação em hindi ouviu o número errado, o Capi não salvou em silêncio. Ele mostrou a linha lida, valor e categoria, e esperou. Corrigi o número digitando o valor certo de volta, que o parser aceitou como edição do lançamento pendente e não como um gasto novo. Esse é o comportamento do Patch R, voz e texto fluindo para um único fluxo, então um lançamento falado e sua correção digitada são a mesma conversa. Por baixo, a nota de voz e uma mensagem digitada batem no mesmo parser, e por isso o idioma da correção não importa. Se você quer o ritual e o argumento de acessibilidade de registrar assim, cobri isso em controle de gastos por voz sem as mãos e testei o motor cru em o teste da nota de voz.

Como o Capi lida com uma nota de voz que ele transcreve errado?

Ele lê o gasto interpretado de volta e espera você confirmar antes de salvar. Toda nota de voz gera uma linha pendente mostrando valor, moeda e categoria que ele inferiu, e nada entra no seu histórico até você aceitar. Se o número ou a categoria estão errados, você corrige no mesmo chat, por voz ou texto, e o ajuste substitui o lançamento pendente. A transcrição imperfeita deixa de importar quando a confirmação é um toque.

Essa é a escolha de design que separa um app de voz confiável de um app de voz rápido. Um modelo certo em 95 por cento das vezes ainda te entrega um número errado a cada vigésimo lançamento, e um valor errado que salva em silêncio é pior que nenhum lançamento, porque você vai confiar num orçamento que está torto de mansinho. Ler a interpretação de volta transforma essa falha num momento visível e corrigível. É também por que eu não superestimo a precisão do Capi: a afirmação honesta não é que o Whisper nunca erra, é que um erro te custa dois segundos em vez de um mês corrompido. O plano gratuito do Capi cobre 30 transações por mês, o suficiente para testar a entrada por voz por algumas semanas antes de decidir.

O controle de gastos por voz é privado?

Pode ser, se o áudio for descartado depois da transcrição. A maioria dos apps de voz na nuvem, o Capi incluído, manda seu clipe para um serviço da classe Whisper, recebe o texto e apaga o áudio na hora. O Capi guarda só o texto confirmado e joga fora o arquivo de voz. Se transcrição no próprio aparelho importa mais, alguns apps rodam o modelo localmente, trocando um pouco de precisão por privacidade.

Privacidade aqui é um espectro, não um sim ou não. Um app com sincronização bancária automática sabe cada transação sozinho, mas guarda o seu login do banco. Um app de voz só sabe o que você fala em voz alta, o que é menos dado no total, mas passa o áudio por um passo de transcrição que você deveria entender. A pergunta que vale fazer a qualquer app de voz é simples: o áudio é guardado, e por quanto tempo. A resposta do Capi é que ele é transcrito e apagado, com só o texto retido. O Whisper roda rápido o bastante em plataformas de inferência como a Groq, bem mais de cem vezes o tempo real por uma fração de centavo por minuto, que guardar o clipe depois não serve a nenhum propósito que valha o custo de privacidade.

Como começar a controlar gastos por voz no Capi?

Você manda uma nota de voz para o bot do Capi no Telegram, do mesmo jeito que mandaria para um amigo. Ele transcreve o que você falou, interpreta valor e categoria e mostra o resultado para confirmar. Não tem app separado para instalar nem configuração para ajustar antes. Os passos abaixo levam menos de um minuto de ponta a ponta, em qualquer idioma que o Whisper suporte.

Abra o bot do Capi no Telegram e comece uma conversa.
Segure o botão do microfone e fale o gasto, tipo "doze reais no café" ou a mesma frase no seu idioma.
Espere um segundo enquanto o Capi transcreve e interpreta.
Confira o valor e a categoria que ele lê de volta, e corrija o que for por voz ou texto.
Confirme, e ele entra na sua visão mensal com a barra de ritmo e a leitura 50/30/20.

O teste em um fôlego. Com fala limpa, o controle por voz em 2026 chega perto do impecável em inglês, espanhol, português, francês, alemão e russo, e mais fraco em hindi. O Whisper ainda falha em sotaque, ruído, números falados e frases que misturam idiomas. Seis dos meus sete idiomas processaram perfeito pelo Capi, o hindi errou um valor, e tudo foi um conserto de um toque porque o Capi lê a interpretação antes de salvar. O app de voz certo é o que assume que pode ouvir errado e deixa a correção trivial.

Registre um gasto por voz no seu idioma.

O Capi transcreve sua nota de voz, lê o valor de volta e salva só o que você confirmar, tudo dentro do Telegram.
Grátis para começar, o Core é US$ 9,90 por mês ou US$ 69,90 por ano.

Testar o Capi grátis no Telegram →

Perguntas frequentes sobre controle de gastos por voz

Qual a precisão do controle de gastos por voz em 2026?

Com fala limpa, é muito boa. O Whisper Large v3, por trás da maioria dos apps de voz, fica em torno de 5 a 6 por cento de erro em inglês e cerca de 10 por cento na média entre idiomas. Para uma frase curta como um café e o valor, dá transcrição correta de primeira. A precisão cai com sotaque, ruído e mistura de idiomas, e a confirmação importa mais que o modelo.

Qual idioma o Whisper transcreve com mais precisão?

Inglês, por ter mais dados de treino, seguido de perto por espanhol, português, italiano, alemão e francês. No meu teste, esses seis entenderam um gasto falado sem erro. O russo ficou um pouco atrás, mas confiável. O hindi foi o mais fraco dos sete, com mais palavras erradas, o que combina com o Whisper ser mais forte nos idiomas que mais viu no treino. Boa notícia para quem fala português.

Por que meu gasto por voz sai com número ou moeda errada?

Porque número e nome de moeda são onde o modelo mais escorrega. Um quarenta falado pode virar catorze, e uma moeda dita dentro de uma frase em outro idioma, como reais numa frase em inglês, pode ser trocada ou adivinhada. A solução não é um microfone melhor, e sim uma tela de confirmação que lê o valor de volta antes de salvar, para você pegar o único número que importa.

O controle de gastos por voz é privado se o áudio vai para um servidor?

Depende se o áudio é guardado. A maioria dos apps de voz na nuvem manda seu clipe para um serviço de transcrição, recebe o texto, e os responsáveis descartam o áudio na hora. O Capi transcreve a nota de voz e apaga o arquivo, guardando só o texto que você confirmou. Se privacidade é sua prioridade, procure uma frase clara dizendo que o áudio não é armazenado.

Preciso de um app separado para controlar gastos por voz?

Não. Apps dedicados como Vocash, MonAi e TalkieMoney fazem bem, mas você também pode mandar uma nota de voz dentro de um mensageiro que já usa. O Capi funciona inteiro no Telegram, então registrar um gasto por voz é o mesmo gesto de mandar qualquer áudio para um contato. A escolha depende de você querer mais um ícone no celular ou um a menos.

Escrito por Daniil Kozin, fundador do Capi. Mais nesta série: O melhor controle financeiro no Telegram · Controle de gastos por voz sem as mãos · O teste da nota de voz · Por que os apps financeiros mentem · Capi vs Copilot Money.