← Blog · 20 de junho de 2026 · 10 min de leitura
Controle por voz

Controle de Gastos por Nota de Voz: Meu Teste Honesto de 30 Dias

A maior parte das tentativas de controlar gastos morre pelo mesmo motivo: a preguiça de parar a vida para digitar. Então, por 30 dias, eu me proibi de digitar. Todo café, toda corrida de Uber, toda ida ao mercado virou nota de voz, no idioma que eu estivesse falando naquele dia. No Brasil mandar áudio é segunda natureza, e eu queria saber se falar com o controle de gastos é de fato mais rápido e mais honesto do que ficar tocando na tela, ou se cai por terra no instante em que um ônibus passa. Fiz o teste em mim mesmo e contei tudo.

Esta é a versão honesta. A voz é a função de que eu mais me orgulho no Capi e a que quase ninguém fora do meu próprio celular já testou, então eu tinha todos os motivos para puxar a sardinha e nenhum para confiar na minha própria empolgação. Registrei 246 transações no mês, anotei quantas capturei por voz e conferi a precisão de cada transcrição contra o que eu realmente falei e gastei. Os números abaixo são meus, autorrelatados, de uma vida real só. Parte me surpreendeu. As falhas, como sempre, são o que interessa.

Dá para controlar gastos só por nota de voz em 2026?

Dá, e é mais rápido que digitar depois que você confia. Em 30 dias capturei 188 das minhas 246 transações como nota de voz, cerca de 76 por cento. O ciclo é simples: segura o microfone, fala nove reais café, solta. O app transcreve a nota, lê o valor e o estabelecimento, e responde com a transação interpretada em uns três segundos. Sem tela carregando, sem menu, sem conectar banco. Os outros 24 por cento foram fotos de comprovante e algumas linhas digitadas quando eu precisava ficar quieto.

Funciona porque um gasto é um dado minúsculo. Você precisa de um valor, uma moeda e algumas palavras de contexto, e os três cabem numa frase de dois segundos. Digitar o mesmo dado significa desbloquear o celular, abrir o app, esperar a tela, escolher categoria e tocar em salvar. Na quinta vez no dia, a versão digitada é a que você pula. A versão falada sobreviveu porque custava quase nada. Essa é a tese inteira da captura por voz, e o mês confirmou.

Qual a precisão do controle de gastos por voz entre idiomas?

Precisa o bastante nas palavras que importam, fraca nas que não importam. No meu teste, o Capi mandou cada nota de voz do Telegram para o Whisper Large v3 na Groq, que registra cerca de 8 a 10 por cento de erro de palavra em áudio curto e limpo e suporta 99 idiomas. Minhas notas limpas ficaram perto de 95 por cento em inglês e espanhol, um pouco abaixo em português e russo. O essencial: o valor e o estabelecimento saíram bem mais confiáveis que as palavras de enchimento ao redor.

Registrei em sete idiomas no mês: inglês, português do Brasil, espanhol, francês, alemão, russo e italiano. Veja mais ou menos como cada um se comportou em áudio limpo contra rua ou Uber barulhento, avaliando se valor e estabelecimento saíram certos.

Idioma Áudio limpo Áudio com barulho Falha principal
Inglês ~96% ~88% Estabelecimentos homófonos
Espanhol ~95% ~86% Números falados rápido
Português (BR) ~93% ~82% Decimais, "e noventa"
Francês ~92% ~83% Setenta como soixante-dix
Alemão ~91% ~82% Ordem invertida do número
Russo ~90% ~80% Desinências no estabelecimento
Italiano ~92% ~83% Palavras emendadas

O padrão é consistente em todo idioma: o modelo é forte no valor quando você fala em número inteiro e fraco em decimal falado e fundo barulhento. Falar nove e noventa em português derrubou mais que qualquer outra coisa sozinha. Na prática, o jeito é arredondar ao falar, dizer dez reais, e corrigir depois se importava, ou dizer o decimal como número limpo. Trato a questão de digitar contra falar no controle de gastos por voz sem usar as mãos, e o campo todo de ferramentas no melhor bot de controle financeiro do Telegram.

Quando a nota de voz é melhor que digitar um gasto?

A voz ganha em todo momento de mãos ocupadas, que são quase todos. As notas que sobreviveram ao mês foram gravadas saindo da padaria, dentro do Uber vindo do aeroporto, subindo as compras pela escada ou com um café na outra mão. Esses são exatamente os momentos em que a entrada digitada nunca acontece, porque você não vai parar, largar tudo e abrir um app. Uma nota falada de dois segundos cabe na brecha em que a digitada não cabe.

A voz perde quando você precisa ficar em silêncio ou quando a precisão importa mais que a velocidade. Numa reunião quieta, eu digitei. Conciliando a fatura linha por linha, eu digitei, porque estava lendo números na tela e falar de volta só somava um passo de transcrição sem ganho. A voz é o método de captura para a hora em que o dinheiro sai da mão, não para o trabalho de mesa. A leitura honesta é que voz e digitação se completam, e o melhor mês usou as duas.

Quais apps aceitam controle de gastos por voz em 2026?

Pouquíssimos fazem de forma nativa, e cada um faz uma escolha diferente. O Capi transforma uma nota de voz crua, em qualquer um dos 99 idiomas, em transação sem abrir tela. O Copilot Money, o app de orçamento mais forte do ecossistema Apple, aceita voz por um atalho do Siri, não por nota nativa, e brilha na sincronização automática de banco que o Capi não tem. Um áudio comum do celular mais digitação depois é grátis, mas devolve a digitação que você queria evitar. Veja a comparação honesta.

Ferramenta Captura por voz nativa Idiomas Sem mãos, sem abrir app Editar ou dividir por voz Preço (2026)
Capi Sim, nota de voz vira transação 99 via Whisper Sim, no Telegram Sim, os dois Free 30/mês; US$9,90/mês ou US$69,90/ano
Copilot Money Por atalho do Siri Idiomas do Siri Gatilho de atalho Só adicionar US$95/ano ou US$13/mês, aparelhos Apple
Atalho de Siri ou Assistente Comando, não fala livre Idiomas do assistente Sim, por frase gatilho Não Grátis, mas frase rígida
Áudio + planilha Sem interpretação Qualquer, você transcreve Áudio sim, registro não Manual Grátis, muito atrito

A leitura honesta é que o Copilot Money é um produto melhor que o Capi nas coisas que a Apple faz bem: conexão de banco, app nativo polido e acompanhamento de investimentos. Se você vive 100 por cento no iPhone e quer sincronização sem esforço, é uma boa escolha, e eu digo isso no comparativo Capi vs Copilot Money. Onde o Capi sai na frente é no caminho de voz crua. Você não está chamando um atalho de gramática fixa, está falando, e o modelo resolve o resto. Para uma vida em vários idiomas, é a diferença entre uma função que você usa e uma que você esquece que existe.

A nota de voz consegue corrigir ou dividir uma transação?

Sim, e essa é a parte que tirou a voz do brinquedo e fez dela meu padrão. Uma nota seguinte como muda aquele café para 12 reais atualiza a transação pendente em vez de criar uma duplicata. Uma nota só como mercado 80, gasolina 200, almoço 35 cria três transações de uma vez. A maioria das ferramentas de voz só anexa um gasto e não corrige nem divide sem abrir o app, que é justamente onde elas te perdem.

O caso de dividir importou mais do que eu esperava. Uma ida normal ao mercado raramente é uma categoria só: tem comida, tem um item de casa, às vezes um presente. Falar tudo num fôlego e deixar o modelo quebrar em três linhas é mais rápido que qualquer app de toque que usei, porque a alternativa são três registros manuais. O caso de correção importou pela confiança. Quando entendi que um erro de transcrição era um conserto de cinco palavras e não um apagar e redigitar, parei de conferir cada transação com medo e deixei o mês correr.

O resultado de 30 dias, em uma linha. 246 transações, 188 capturadas por voz em 7 idiomas, cerca de 9 por cento de erro de palavra em áudio limpo, mas bem menos no valor e no estabelecimento que de fato importam. O que fez funcionar foi a captura de três segundos no momento em que o dinheiro saiu da mão, mais notas de voz que editam e dividem, não só somam.

Onde o teste de voz falhou?

Falhou em três pontos, e eles valem mais que os acertos. Primeiro, os decimais falados em português, o problema do nove e noventa, foram a maior fonte de valor errado, por alguns centavos ou por uma unidade inteira. Segundo, ruas e Uber barulhentos derrubaram a precisão de 8 a 12 pontos em todo idioma, às vezes perdendo o estabelecimento de vez. Terceiro, no começo do mês o formato de voz .oga do Telegram às vezes não entrava no fluxo, então a nota chegava como áudio sem virar transação.

O bug de roteamento do .oga já está corrigido, que é a realidade sem glamour de lançar voz: metade do trabalho é encanamento de áudio, não o modelo. Os problemas de decimal e barulho são próprios do reconhecimento de fala e não exclusivos do Capi, do mesmo jeito que erro de data em comprovante aparece em todo app de foto, sobre o que escrevi em por que apps de orçamento duplicam transações. A resposta prática é a conciliação mensal: subir a fatura, deixar comparar com o registro por voz e arrumar o punhado que o microfone errou. A leitura honesta é que captura por voz não é mágica, é captura rápida mais uma passada de limpeza.

Como o Capi faz o controle de gastos por nota de voz?

O Capi pega uma nota de voz do Telegram, manda para o Whisper Large v3 na Groq e transcreve em um a dois segundos. Depois interpreta o valor, a moeda e o estabelecimento do texto e responde com a transação para você confirmar ou corrigir. Como a captura acontece no chat, uma nota seguinte pode editar a mesma transação pendente ou dividir uma gravação em várias transações. Sem abrir tela, sem precisar conectar banco, e funciona em qualquer um dos 99 idiomas.

Onde o Capi vai te frustrar, dito sem rodeio. Não tem sincronização automática de banco, então, a menos que você suba a fatura, a captura fica por sua conta, e a voz não muda isso. Decimal falado e áudio barulhento vão produzir, de vez em quando, um valor errado que você precisa consertar. E as primeiras respostas num idioma novo parecem um pouco menos afiadas até você ver como ele interpreta o seu jeito de falar. Se a agregação de banco sem esforço importa mais que a voz sem atrito, o Copilot Money ou um app conectado ao banco vai te servir melhor, e eu prefiro dizer isso agora a te ver desistir na segunda semana. A captura por voz está incluída em todos os planos do Capi. O Capi Free cobre 30 transações por mês. O Capi Core custa 9,90 dólares por mês ou 69,90 dólares por ano, e o Capi Together custa 99 dólares por ano para duas pessoas num mesmo histórico, que é o arranjo que eu e minha companheira usamos de verdade.


Registre seu próximo gasto por voz.

Segure o microfone, fale o que gastou e deixe o Capi virar transação em segundos, em qualquer idioma. Corrija ou divida com uma nota seguinte.
O Capi Free cobre 30 transações por mês. O Capi Core custa US$9,90 por mês ou US$69,90 por ano.

Testar o Capi grátis no Telegram →

Perguntas frequentes sobre controle de gastos por voz

Dá para controlar gastos só por nota de voz?

Sim. Você grava uma nota de voz curta, tipo nove reais café, e o app transcreve, lê o valor e o estabelecimento, e cria a transação. No meu teste de 30 dias pelo Capi no Telegram, 188 de 246 transações entraram assim. O ciclo inteiro leva uns três segundos e não exige abrir tela, escolher menu, nem conectar banco.

Qual a precisão do Whisper para controle de gastos por voz?

No meu teste, o Whisper Large v3 rodando na Groq transcreveu notas curtas limpas com cerca de 9 por cento de erro de palavra no geral, e acerto maior nas palavras que importam num gasto: o valor e o estabelecimento. Inglês e espanhol foram os mais fortes, perto de 95 por cento. Barulho de rua e decimais falados em português foram as principais falhas, caindo de 8 a 12 pontos.

Qual o melhor app de controle de gastos por voz em 2026?

Para captura de fato por voz, o Capi é a opção mais forte em 2026 porque uma nota de voz crua, em qualquer um dos 99 idiomas, vira transação sem abrir tela. O Copilot Money é melhor se você vive no ecossistema Apple e quer sincronização automática de banco, mas a voz dele passa por um atalho do Siri, não por nota nativa. Áudio comum mais digitação manual é grátis, mas perde o sentido.

O Capi entende notas de voz em outros idiomas além do inglês?

Sim. O Capi envia as notas de voz do Telegram para o Whisper Large v3, que suporta 99 idiomas. Testei 7 deles no mês: inglês, português do Brasil, espanhol, francês, alemão, russo e italiano. Todos funcionaram para capturar valor e estabelecimento. A precisão foi maior em inglês e espanhol e menor em áudio com barulho e decimais falados, o que é consistente em todo idioma.

Uma nota de voz consegue editar uma transação existente?

Sim, no Capi. Uma nota seguinte como muda aquele café para 12 reais atualiza a transação pendente em vez de criar uma nova. Você também divide numa nota só: mercado 80, gasolina 200, almoço 35 cria três transações separadas. Essa é a parte que a maioria das ferramentas de voz não tem. Elas adicionam um gasto, mas não corrigem nem dividem sem abrir o app.

Quanto custa o controle de gastos por voz?

No Capi, a captura por voz está incluída em todos os planos. O Capi Free cobre 30 transações por mês sem custo. O Capi Core custa 9,90 dólares por mês ou 69,90 dólares por ano, com registro ilimitado por chat, voz ou foto. O Capi Together custa 99 dólares por ano para duas pessoas num mesmo histórico. O Copilot Money, o rival mais próximo no mundo Apple, custa 95 dólares por ano ou 13 dólares por mês.

Escrito por Daniil Kozin, fundador do Capi. Mais nesta série: Melhor bot de controle financeiro do Telegram · Controle de gastos por voz sem usar as mãos · Por que apps duplicam transações · Rastreando 7 moedas em 30 dias · Capi vs Copilot Money.