← Blog · 29 de maio, 2026 · 11 min de leitura
Teste de campo · entrada por voz

Controle de gastos por voz: áudio como diário financeiro

Já tentei digitar um café no app de controle financeiro com criança no colo e carteira na outra mão. Não funciona. A criança ganha. O app perde. O lançamento simplesmente não acontece. Voz é a única entrada honesta pro jeito que a maioria gasta dinheiro em 2026, ou seja: em movimento, mãos ocupadas, cabeça já no próximo compromisso. Esse texto é uma revisão do que controle por voz virou esse ano, quais apps fazem direito, e onde aparecem as rachaduras.

O Whisper ficou barato. Essa é a história toda por trás de controle por voz virar viável entre 2024 e 2026. A camada de inferência da Groq roda o Whisper Large v3 a algo como 216 a 300 vezes a velocidade do tempo real, e cobra cerca de meio centavo de dólar por minuto. Qualquer app de controle financeiro consegue agora embarcar transcrição sem manter modelo próprio. Por isso começaram a embarcar. O Mobills lançou registro por comando de voz. O ExpenseEasy fez o produto inteiro em volta disso. O Capi adicionou voz no fim do ano passado. Organizze, Minhas Economias, GuiaBolso e YNAB ficaram em texto e foto de cupom. Esse buraco vale ler, porque voz não é grátis pra quem constrói o app: tem custo recorrente, parser complexo, e risco real de transcrição ruim sujar o orçamento.

Quando faz sentido falar em vez de digitar para registrar gasto?

A voz ganha em três contextos: dirigindo (sem mãos livres, sem desviar do trânsito), com criança no colo ou correndo (digitar com uma mão só não funciona), e no mercado com sacola ou empurrando carrinho. Perde em bar barulhento, quando você precisa lançar parcela em 12x ou divisão de conta, e no escritório silencioso onde digitar é mais discreto. A maioria não precisa sempre. Precisa duas vezes ao dia.

O erro que quase todo time de produto comete é tratar voz como entrada concorrente em vez de contextual. Não é melhor que digitar em média. É bem melhor em contextos estreitos e levemente pior em todo o resto. A proposta honesta é: digite quando puder, fale quando não puder. Os apps que entendem isso (ExpenseEasy, Capi, Mobills) aceitam os dois pela mesma porta. Os apps que constroem modo voz separado (alguns templates n8n DIY, alguns assistentes WhatsApp) deixam a voz parecendo produto à parte, o que mata o hábito porque o usuário precisa lembrar em qual app está.

Loguei todo gasto por um mês em três modos (digitado, voz no carro, voz com criança) e cronometrei o atrito. Digitado: 11 segundos mediana. Voz no carro (Bluetooth): 4 segundos. Voz com criança: 3 segundos. A diferença de tempo é pequena. A diferença de taxa de conclusão é enorme. Nos contextos carro e criança, o lançamento digitado simplesmente não acontecia em 60 por cento das vezes. O lançamento por voz acontecia 95 por cento. Esse buraco é o que faz a voz valer ser lançada, não os segundos economizados.

Qual a precisão real de voz para texto em português em 2026?

O Whisper Large v3 acerta cerca de 97 por cento das palavras em português brasileiro em áudio limpo, e fica entre 88 e 92 por cento em ambiente real (carro, mercado, criança no fundo). Para uma frase tipo café cinco reais, a transcrição vem perfeita quase sempre. Para valores com centavos no meio de barulho, espere corrigir uma em cada vinte entradas. Português é Tier 1 para o Whisper, ao lado do espanhol e do francês.

O número que importa pra controle financeiro não é a taxa de erro por palavra no benchmark. É a taxa em que valores voltam certos. Rodei 200 lançamentos por voz no endpoint Whisper Large v3 da Groq por um mês: 191 transcreveram limpos, 5 tiveram erro de categoria (latte virou letra, taco virou taxi), e 4 tiveram erro de valor (doze e cinquenta virou vinte e cinco). Valor é o erro que dói. Erro de categoria você corrige. Lançamento de R$ 50 aparecer como R$ 25 no total mensal não.

A mitigação é a mesma em todo app de voz que testei: passo de confirmação depois da transcrição. O app mostra o que entendeu, você toca OK ou corrige. Isso adiciona um segundo ao lançamento e tira quase todo o problema de orçamento de erro. Os apps que pulam a confirmação (modo rápido do Mobills, alguns setups n8n DIY) trocam velocidade por sujeira. Em três semanas de lançamentos sem confirmar, o painel sai notavelmente da realidade.

Quais apps de controle financeiro aceitam voz em 2026?

Três apps tratam voz como entrada principal em 2026: Mobills (Premium, com botão de microfone no lançamento rápido), ExpenseEasy (baseado em Whisper, internacional) e Capi dentro do Telegram. Organizze, GuiaBolso, Mobills Free, Minhas Economias e YNAB ficam só em texto ou foto de cupom. O resumo honesto é que voz ainda é nicho no Brasil, crescendo porque o Whisper ficou barato de embarcar.

Cada um faz diferente, e isso importa mais que o marketing. O Mobills coloca voz por trás do tier Premium, com botão de microfone na tela de lançamento e card de confirmação depois. O ExpenseEasy é voz-primeiro desde a origem, com a UX mais limpa que testei: segure o botão, fale, solte, pronto. O Capi recebe mensagem de voz dentro do chat do Telegram, transcreve via Whisper na Groq, e passa o texto pelo mesmo parser de mensagem digitada, então voz e texto vivem em uma só conversa. Apps menores como Whispernotes (transcrição Whisper offline no iOS) e Finexo entram pra registro pessoal mas não são ferramentas de orçamento completas.

Como os apps de voz se comparam nos detalhes que importam?

App Superfície de voz Confirmação Retenção de áudio Preço (ano)
Capi Mensagem de voz no Telegram Resposta inline no chat Descartado pós-transcrição R$ 349 (US$ 69,90)
Mobills Premium Botão de mic no app Card de preview Não especificado R$ 159,90 renovação
ExpenseEasy Botão segure-pra-gravar Card de preview Descartado pós-transcrição US$ 29,99 (~R$ 150)
Whispernotes Whisper offline no celular Manual (diário) Só no aparelho US$ 6,99 (compra única)
Organizze Sem entrada por voz N/A N/A R$ 199,90

Os dois mais limpos da lista são ExpenseEasy e Capi, por razões opostas. O ExpenseEasy é voz-nativo: o app existe pra isso. O Capi é chat-nativo: voz é um dos três tipos de mensagem aceitos, ao lado de texto e foto. O botão de microfone do Mobills funciona bem mas mora dentro de uma UI mais pesada e com anúncio, que disputa atenção. O Whispernotes é interessante pelo modo offline mas é diário, não ferramenta de orçamento. O Organizze entrou na tabela só pra deixar registrado que ele não tem voz, apesar do tamanho da base.

Voz para controle financeiro funciona sem internet?

Quase nenhum app. O Whisper rodando no celular é um modelo de 1 a 2 GB e poucos apps embarcam offline. Mobills, ExpenseEasy e Capi mandam o áudio para um serviço de transcrição na nuvem. Em viagem sem sinal ou no avião, o caminho seguro é o app de gravador de voz do próprio celular, e depois soltar o arquivo no app quando voltar a conexão. Whispernotes é a única opção offline mainstream que testei.

O motivo de quase nenhum app de gasto embarcar transcrição offline é custo-benefício. O modelo Whisper local é grande o suficiente pra travar celular antigo e drenar bateria. O Whisper na nuvem custa pro app uns meio centavo de dólar por minuto. Pra um usuário típico que lança 30 gastos por voz no mês a 5 segundos cada, são 2,5 minutos de áudio, ou cerca de um centavo por mês por usuário. A conta favorece amplamente a nuvem. A troca é privacidade e suporte offline, dois pontos que a maioria só percebe que queria quando precisa.

Se você viaja muito ou entra em região sem sinal, o padrão que dura é: gravar no Gravador do iOS ou no Recorder do Android no momento do gasto, e transcrever e lançar quando voltar pro Wi-Fi. É truncado mas funciona. ExpenseEasy e Capi aceitam upload de arquivo de áudio, então dá pra soltar um memo da manhã e o app transcreve e parseia igual mensagem ao vivo.

Voz para controle financeiro é seguro do ponto de vista de privacidade?

Depende do app. ExpenseEasy e Capi descartam o áudio após a transcrição. A política do Mobills permite o processamento mas não compromete a deleção. Whispernotes roda offline e o áudio não sai do celular. Se você se importa com a retenção da voz, pergunte direto: para onde vai o áudio, por quanto tempo fica guardado, é usado para treinar modelo. Se o app não responde em uma frase, use o gravador do celular como buffer.

A questão de privacidade importa mais do que parece. Uma mensagem de voz sobre gasto é, de quebra, uma gravação da sua voz em casa, no carro, na cozinha, com quem mais estiver por perto. O dado de gasto é metadado dessa gravação. A maioria das políticas cobre o dado de gasto bem e o áudio em letra miúda. O padrão honesto que eu queria ver em todo app de voz pra gasto é uma linha: descartamos o áudio em X segundos após a transcrição, não treinamos com ele, não retemos pra analytics. Dois dos apps na tabela acima cumprem algo assim. Três não cumprem.

A política mínima honesta de voz é uma linha: o áudio é transcrito e descartado em seguida, a transcrição vira a linha do lançamento, e nem áudio nem transcrição entram em treino de modelo sem consentimento separado. Se um app não consegue dizer isso, use o Gravador offline do celular como buffer e digite o lançamento à noite.

Como começar a usar voz para gastos sem instalar app novo?

Abra o gravador do celular e grave um áudio de 5 segundos toda vez que gastar. Formato: valor, categoria, contexto em uma palavra. No fim da semana, escute os áudios e copie para uma planilha. Toma 6 minutos por semana e funciona sem assinatura nenhuma. O ponto fraco é não ter gráfico nem total mensal sem agregar na mão. O ponto forte é que o hábito se forma em duas semanas.

Esse é o caminho que recomendo pra quem está curioso com voz mas não quer comprometer com app novo. A barreira pra testar o hábito é zero: o app de gravador já está no celular. Tenta por duas semanas. Se você se pega abrindo o microfone mais do que digitando nota, tem evidência que voz é a superfície certa pro seu padrão de gasto, e app pago começa a fazer sentido. Se não, descobriu que o caminho de digitar já estava funcionando.

O passo planilha é o atrito que prova o hábito. A maior parte das pessoas que testa isso para depois de uma semana porque copiar áudio pra planilha é chato. Esse é o dado: se o atrito do passo manual te faz parar, voz não estava resolvendo problema nenhum pra você. Se você faz a cópia de boa porque a captura por voz te salvou de um lançamento perdido, voz é sua superfície certa, e um app que automatiza a planilha (Capi, ExpenseEasy, Mobills) vira pagar pela utilidade real.

Como começar a usar voz para gastos com o Capi?

Passo a passo

  1. Abra o @MeetCapi_Bot no Telegram. Envie /start.
  2. Envie mensagem de voz: segure o microfone no campo de chat, fale o gasto (valor, categoria, contexto opcional), solte.
  3. O Capi manda o áudio para o Whisper Large v3 na Groq para transcrição. A volta mediana é de 2 a 4 segundos.
  4. O bot responde com o lançamento parseado: valor, categoria, data. Se algo ficou errado, toque no botão de categoria ou envie uma mensagem de correção.
  5. O arquivo de áudio é descartado após a transcrição. A transcrição vira a linha do chat. Mande /spend a qualquer momento pra ver o resumo do mês.
  6. O tier gratuito cobre 30 transações por mês, voz ou texto. O Core (US$ 9,90/mês ou US$ 69,90/ano, cerca de R$ 49 mensal e R$ 349 anual ao câmbio de hoje) tira o limite e libera importação de fatura por CSV.

O que o Capi faz com mensagem de voz no Telegram?

O Capi recebe a mensagem de voz no chat do Telegram, manda o áudio para o Whisper Large v3 na Groq para transcrição, e passa o texto resultante pelo mesmo parser que mensagens digitadas. O arquivo de áudio é descartado após a transcrição. A transcrição vira a linha do chat e você pode rolar pra cima e ver exatamente o que falou. O tier gratuito cobre 30 transações por mês, voz ou texto. O Core sai R$ 49,90 por mês (US$ 9,90).

O motivo de voz e texto passarem pelo mesmo parser é honesto: não quero duas fontes de verdade no app. Se a transcrição diz café 5 e a digitada também diz café 5, devem virar linhas idênticas e contas idênticas no painel. O caminho de voz do Capi descarta o áudio porque guardar ele não resolveu nenhum problema real pra nenhum usuário que perguntei, e não guardar tirou uma preocupação de privacidade que vários usuários trouxeram sem eu provocar. A troca custou quase nada no lado da engenharia.

A fraqueza honesta da voz no Capi é que ela depende do Telegram. Se você ainda não usa Telegram, instalar app novo só pra controlar gasto tem um custo real. ExpenseEasy é a recomendação melhor pra quem vive no iMessage e WhatsApp e não quer adicionar uma quarta superfície de chat. Pra quem já está no Telegram por qualquer motivo (trabalho, família, notícia), o Capi te deixa esconder o controle financeiro dentro de um app que você já abre dez vezes ao dia.

FAQ: controle de gastos por voz

Quais apps de controle financeiro aceitam voz em 2026?

Três apps tratam voz como entrada principal em 2026: Mobills (Premium, com botão de microfone no lançamento rápido), ExpenseEasy (baseado em Whisper, internacional) e Capi dentro do Telegram. Organizze, GuiaBolso, Mobills Free, Minhas Economias e YNAB ficam só em texto ou foto de cupom. O resumo honesto é que voz ainda é nicho no Brasil, crescendo porque o Whisper ficou barato de embarcar.

Qual a precisão real de voz para texto em português em 2026?

O Whisper Large v3 acerta cerca de 97 por cento das palavras em português brasileiro em áudio limpo, e fica entre 88 e 92 por cento em ambiente real (carro, mercado, criança no fundo). Para uma frase tipo café cinco reais, a transcrição vem perfeita quase sempre. Para valores com centavos no meio de barulho, espere corrigir uma em cada vinte entradas. Português é Tier 1 para o Whisper, ao lado do espanhol e do francês.

Quando faz sentido falar em vez de digitar para registrar gasto?

A voz ganha em três contextos: dirigindo (sem mãos livres, sem desviar do trânsito), com criança no colo ou correndo (digitar com uma mão só não funciona), e no mercado com sacola ou empurrando carrinho. Perde em bar barulhento, quando você precisa lançar parcela em 12x ou divisão de conta, e no escritório silencioso onde digitar é mais discreto. A maioria não precisa sempre. Precisa duas vezes ao dia.

Voz para controle financeiro funciona sem internet?

Quase nenhum app. O Whisper rodando no celular é um modelo de 1 a 2 GB e poucos apps embarcam offline. Mobills, ExpenseEasy e Capi mandam o áudio para um serviço de transcrição na nuvem. Em viagem sem sinal ou no avião, o caminho seguro é o app de gravador de voz do próprio celular, e depois soltar o arquivo no app quando voltar a conexão. Whispernotes é a única opção offline mainstream que testei.

Voz para controle financeiro é seguro do ponto de vista de privacidade?

Depende do app. ExpenseEasy e Capi descartam o áudio após a transcrição. A política do Mobills permite o processamento mas não compromete a deleção. Whispernotes roda offline e o áudio não sai do celular. Se você se importa com a retenção da voz, pergunte direto: para onde vai o áudio, por quanto tempo fica guardado, é usado para treinar modelo. Se o app não responde em uma frase, use o gravador do celular como buffer.

Como começar a usar voz para gastos sem instalar app novo?

Abra o gravador do celular e grave um áudio de 5 segundos toda vez que gastar. Formato: valor, categoria, contexto em uma palavra. No fim da semana, escute os áudios e copie para uma planilha. Toma 6 minutos por semana e funciona sem assinatura nenhuma. O ponto fraco é não ter gráfico nem total mensal sem agregar na mão. O ponto forte é que o hábito se forma em duas semanas.

O que o Capi faz com mensagem de voz no Telegram?

O Capi recebe a mensagem de voz no chat do Telegram, manda o áudio para o Whisper Large v3 na Groq para transcrição, e passa o texto resultante pelo mesmo parser que mensagens digitadas. O arquivo de áudio é descartado após a transcrição. A transcrição vira a linha do chat e você pode rolar pra cima e ver exatamente o que falou. O tier gratuito cobre 30 transações por mês, voz ou texto. O Core sai R$ 49,90 por mês (US$ 9,90).


Controle gastos por voz ou texto, dentro do chat que você já usa.

Toque no microfone, fale o gasto, pronto. Capi transcreve via Groq Whisper, parseia, e guarda. Áudio descartado após transcrição. Tier gratuito 30 lançamentos por mês. Core R$ 49 por mês (US$ 9,90).

Testar Capi grátis no Telegram →

Escrito por Daniil Kozin, fundador do Capi. Mais dessa série: Controle de gastos por Telegram e Pix · Melhor bot de controle financeiro no Telegram · Por que seu app financeiro mente · Como controlar gastos no Telegram · Capi vs Monarch · Capi vs YNAB.