Control de gastos por voz: notas de audio como diario financiero
Probé escribir un café en la app de control de gastos con un nene en el brazo y la billetera en la otra mano. No funciona. Gana el nene. Pierde la app. La carga no pasa. La voz es la única entrada honesta para la manera en que la mayoría gasta plata en 2026, o sea: en movimiento, con las manos ocupadas, la cabeza ya en lo próximo. Esta es una revisión de cómo se ve el control por voz hoy, qué apps lo hacen bien, y dónde se ven las grietas.
Whisper se volvió barato. Esa es la historia entera de por qué control por voz se volvió viable entre 2024 y 2026. La capa de inferencia de Groq corre Whisper Large v3 a unas 216 a 300 veces la velocidad del tiempo real, y cobra alrededor de medio centavo de dólar por minuto. Cualquier app de gastos puede ahora embeber transcripción sin tener su propio modelo. Por eso empezaron a hacerlo. Spendee agregó registro por comando de voz en su tier Premium. ExpenseEasy armó el producto entero alrededor. Capi sumó voz a fines del año pasado. Splitwise, Monarch, YNAB y Rocket Money se quedaron en texto y foto de ticket. Esa brecha vale la pena leer, porque la voz no es gratis para el que arma la app: hay costo recurrente, parser complejo, y riesgo real de transcripción mala ensuciando el presupuesto.
Cuándo conviene hablar en vez de escribir para registrar gasto?
La voz gana en tres contextos: manejando (sin manos libres, sin sacar la vista del camino), con los hijos en brazos o corriendo (escribir con una mano no funciona), y en el supermercado con la bolsa o empujando el carrito. Pierde en bar ruidoso, cuando tenés que cargar cuotas en doce pagos o split de cuenta, y en oficina silenciosa donde escribir es más discreto. La mayoría no la necesita siempre. La necesita dos veces al día.
El error que casi todo equipo de producto comete es tratar la voz como entrada que compite en lugar de contextual. No es mejor que escribir en promedio. Es bastante mejor en contextos angostos y un poco peor en todo el resto. La propuesta honesta es: escribí cuando puedas, hablá cuando no podés. Las apps que entienden esto (ExpenseEasy, Capi, Spendee) aceptan ambas por la misma puerta. Las apps que arman modo voz separado (algunos templates de n8n, asistentes vía WhatsApp) dejan la voz pareciendo producto aparte, lo que mata el hábito porque el usuario tiene que acordarse en qué app está.
Loggeé cada gasto durante un mes en tres modos (escrito, voz en el auto, voz con el nene) y cronometré la fricción. Escrito: 11 segundos mediana. Voz en el auto (Bluetooth): 4 segundos. Voz con el nene: 3 segundos. La diferencia de tiempo es chica. La diferencia de tasa de cierre es enorme. En los contextos auto y nene, la carga escrita simplemente no pasaba el 60 por ciento de las veces. La carga por voz pasaba el 95 por ciento. Esa brecha es lo que justifica sacar la voz al mercado, no los segundos ahorrados.
Que precisión tiene la voz a texto en español en 2026?
Whisper Large v3 acierta cerca del 97 por ciento de las palabras en español latinoamericano en audio limpio, y queda entre 88 y 92 por ciento en ambiente real (auto, supermercado, niños de fondo). Para una frase tipo café cinco pesos, la transcripción sale perfecta casi siempre. Para montos con centavos sobre ruido, esperá corregir uno cada veinte. El español es Tier 1 para Whisper, al lado del francés y del portugués.
El número que importa para control de gastos no es la tasa de error por palabra en el benchmark. Es la tasa en la que los montos vuelven correctos. Corrí 200 cargas por voz por el endpoint Whisper Large v3 de Groq durante un mes: 191 transcribieron limpias, 5 tuvieron error de categoría (latte leído como letra, taco como taxi), y 4 tuvieron error de monto (doce con cincuenta leído como veinticinco). El monto es el error que duele. Error de categoría lo arreglás. Una carga de ARS 5.000 que aparece como ARS 2.500 en el total mensual no se arregla sola.
La mitigación es la misma en toda app voz que probé: paso de confirmación después de transcribir. La app muestra lo que entendió, vos tocás OK o corregís. Eso suma un segundo a la carga y saca casi todo el problema de presupuesto del error. Las apps que se saltean la confirmación (modo rápido de Spendee, algunos n8n DIY) cambian velocidad por suciedad. Después de tres semanas de cargas sin confirmar, el panel se va notoriamente de la realidad.
Que apps de control de gastos aceptan voz en 2026?
Tres apps tratan la voz como entrada principal en 2026: Spendee Premium (con botón de micrófono en la pantalla de carga rápida), ExpenseEasy (basada en Whisper, internacional) y Capi adentro de Telegram. Splitwise, Monarch, YNAB y Mint sucesor se quedan en texto o foto de ticket. Fintonic tiene asistente de voz FinVoice para préstamos pero todavía no para carga de gastos. El resumen honesto es que la voz sigue siendo nicho en LATAM, creciendo porque Whisper se volvió barato de embeber.
Cada una hace distinto, y eso importa más que el marketing. Spendee pone la voz en el tier Premium y la conecta a la pantalla de carga rápida con un card de confirmación después. ExpenseEasy es voz-primero desde el origen, con la UX más limpia que probé: mantenés el botón, hablás, soltás, listo. Capi recibe mensaje de voz adentro del chat de Telegram, transcribe vía Whisper en Groq, y pasa el texto por el mismo parser que mensajes escritos, así voz y texto viven en una sola conversación. Apps más chicas como Whispernotes (Whisper offline en iOS) y Finexo sirven para registro personal pero no son herramientas completas de presupuesto.
Cómo se comparan las apps de voz en los detalles que importan?
| App | Superficie de voz | Confirmación | Retención de audio | Precio (año) |
|---|---|---|---|---|
| Capi | Mensaje de voz en Telegram | Respuesta inline en chat | Descartado post-transcripción | US$ 69,90 (~ARS 90.000) |
| Spendee Premium | Botón de mic en la app | Card de preview | No especificado | US$ 22,99 |
| ExpenseEasy | Botón mantené-para-grabar | Card de preview | Descartado post-transcripción | US$ 29,99 (o US$ 89,99 lifetime) |
| Whispernotes | Whisper offline en el teléfono | Manual (diario) | Solo en el dispositivo | US$ 6,99 (pago único) |
| Splitwise | Sin entrada por voz | N/A | N/A | US$ 49,99 |
Las dos más limpias de la lista son ExpenseEasy y Capi, por razones opuestas. ExpenseEasy es voz-nativa: la app existe para esto. Capi es chat-nativo: la voz es uno de los tres tipos de mensaje aceptados, al lado de texto y foto. El botón de micrófono de Spendee funciona bien pero vive adentro de una UI más pesada que disputa atención. Whispernotes es interesante por el modo offline pero es diario, no herramienta de presupuesto. Splitwise entró en la tabla solo para dejar registrado que no tiene voz, a pesar del tamaño de su base.
La voz para control de gastos funciona sin conexión a internet?
Casi ninguna app. Whisper corriendo en el celular es un modelo de 1 a 2 GB y pocas apps lo embeben offline. Spendee, ExpenseEasy y Capi mandan el audio a un servicio de transcripción en la nube. En viaje sin señal o en vuelo, el camino seguro es el grabador de voz del propio celular, y después soltar el archivo en la app cuando vuelve la conexión. Whispernotes es la única opción offline mainstream que probé.
La razón por la que casi ninguna app de gastos embebe transcripción offline es costo-beneficio. El modelo Whisper local es lo bastante grande como para frenar celular viejo y comer batería. El Whisper en la nube cuesta a la app unos medio centavo de dólar por minuto. Para un usuario típico que carga 30 gastos por voz al mes a 5 segundos cada uno, son 2,5 minutos de audio, o más o menos un centavo al mes por usuario. La cuenta favorece ampliamente a la nube. El intercambio es privacidad y soporte offline, dos puntos que la mayoría se da cuenta de querer cuando ya los necesita.
Si volás seguido o entrás a zona sin señal, el patrón que aguanta es: grabar en el Grabador de Voz de iOS o en el Recorder de Android en el momento del gasto, y transcribir y cargar cuando vuelve el Wi-Fi. Es trabado pero funciona. ExpenseEasy y Capi aceptan subir archivo de audio, así que podés soltar una nota de la mañana y la app la transcribe y parsea igual que un mensaje en vivo.
La voz para control de gastos es segura desde la privacidad?
Depende de la app. ExpenseEasy y Capi descartan el audio después de transcribir. La política de Spendee permite el procesamiento pero no compromete el borrado. Whispernotes corre offline y el audio no sale del teléfono. Si te importa la retención de la voz, preguntá directo: a dónde va el audio, cuánto tiempo queda guardado, lo usan para entrenar modelo. Si la app no responde en una frase, usá el grabador del teléfono como buffer.
La pregunta de privacidad importa más de lo que suena. Una nota de voz sobre tu gasto es, de paso, una grabación de tu voz en tu casa, en el auto, en la cocina, con quien esté cerca. El dato de gasto es metadato de esa grabación. La mayoría de las políticas cubre el dato de gasto bien y el audio en letra chica. El estándar honesto que me gustaría ver en toda app de voz para gasto es una línea: descartamos el audio en X segundos después de transcribir, no lo entrenamos, no lo retenemos para analytics. Dos de las apps de la tabla cumplen algo así. Tres no.
La política mínima honesta de voz es una línea: el audio se transcribe y se descarta de inmediato, la transcripción queda como fila del lanzamiento, y ni audio ni transcripción entran a entrenar modelo sin consentimiento separado. Si una app no puede decir eso, usá el Grabador offline del teléfono como buffer y cargá el lanzamiento a mano a la noche.
Cómo empezar a usar voz para gastos sin instalar app nueva?
Abrí el grabador de voz del celular y grabá una nota de 5 segundos cada vez que gastes. Formato: monto, categoría, contexto en una palabra. Al final de la semana, escuchá las notas y copialas a una planilla. Toma 6 minutos por semana y funciona sin suscripción. La desventaja es que no hay gráfico ni total mensual sin agregación manual. La ventaja es que el hábito se forma en dos semanas.
Este es el camino que recomiendo para quien está curioso con la voz pero todavía no quiere comprometerse con app nueva. La barrera para probar el hábito es cero: el grabador ya está en el teléfono. Probá dos semanas. Si te encontrás abriendo el micrófono más seguido que escribiendo notas, tenés evidencia de que la voz es la superficie correcta para tu patrón de gasto, y la app paga empieza a tener sentido. Si no, descubriste que el camino escrito ya te estaba funcionando.
El paso planilla es la fricción que prueba el hábito. La mayoría de la gente que prueba esto deja a la semana porque copiar audios a la planilla es molesto. Ese es el dato: si la fricción del paso manual te frena, la voz no estaba resolviendo problema real para vos. Si hacés la copia tranquila porque la captura por voz te salvó de un lanzamiento perdido, la voz es tu superficie correcta, y una app que automatiza el paso planilla (Capi, ExpenseEasy, Spendee) pasa a pagarse sola.
Cómo empezar a usar voz para gastos con Capi?
Paso a paso
- Abrí @MeetCapi_Bot en Telegram. Mandá /start.
- Mandá un mensaje de voz: mantené el micrófono en el campo de chat, decí el gasto (monto, categoría, contexto opcional), soltá.
- Capi manda el audio a Whisper Large v3 en Groq para transcribir. El ida y vuelta mediano es de 2 a 4 segundos.
- El bot responde con la carga parseada: monto, categoría, fecha. Si algo quedó mal, tocá el botón de categoría o mandá un mensaje de corrección.
- El archivo de audio se descarta después de transcribir. La transcripción queda como fila del chat. Mandá
/spendcuando quieras para ver el resumen del mes. - El tier gratis cubre 30 transacciones al mes, por voz o texto. Core (US$ 9,90/mes o US$ 69,90/año, alrededor de ARS 90.000 al año al tipo blue de hoy) levanta el límite y suma importación de resumen por CSV.
Qué hace Capi con los mensajes de voz en Telegram?
Capi recibe el mensaje de voz en el chat de Telegram, manda el audio a Whisper Large v3 en Groq para transcribir, y pasa el texto resultante por el mismo parser que los mensajes escritos. El archivo de audio se descarta después de transcribir. La transcripción se guarda como fila del chat, así podés volver para arriba y ver exactamente qué dijiste. El tier gratis cubre 30 transacciones al mes, por voz o texto. Core sale US$ 9,90 al mes.
La razón por la que voz y texto pasan por el mismo parser es honesta: no quiero dos fuentes de verdad en la app. Si la transcripción dice café cinco y la escrita también dice café cinco, deberían producir filas idénticas y matemática idéntica en el panel. El camino de voz de Capi descarta el audio porque guardarlo no resolvía ningún problema real para ningún usuario que pregunté, y no guardarlo sacaba una preocupación de privacidad que varios usuarios trajeron sin que yo provoque. El intercambio costó casi nada del lado de ingeniería.
La debilidad honesta de la voz en Capi es que depende de Telegram. Si todavía no usás Telegram, instalar app nueva solo para cargar gasto tiene un costo real. ExpenseEasy es la mejor recomendación para quien vive en iMessage o WhatsApp y no quiere sumar una cuarta superficie de chat. Para quien ya está en Telegram por cualquier motivo (laburo, familia, noticia), Capi te deja meter el control de gastos adentro de una app que ya abrís diez veces al día.
FAQ: control de gastos por voz
Que apps de control de gastos aceptan voz en 2026?
Tres apps tratan la voz como entrada principal en 2026: Spendee Premium (con botón de micrófono en la pantalla de carga rápida), ExpenseEasy (basada en Whisper, internacional) y Capi adentro de Telegram. Fintonic tiene asistente de voz FinVoice para préstamos pero todavía no para carga de gastos. Splitwise, Monarch, YNAB y Mint sucesor se quedan en texto o foto de ticket. El resumen honesto es que la voz sigue siendo nicho en LATAM, creciendo porque Whisper se volvió barato de embeber.
Que precisión tiene la voz a texto en español en 2026?
Whisper Large v3 acierta cerca del 97 por ciento de las palabras en español latinoamericano en audio limpio, y queda entre 88 y 92 por ciento en ambiente real (auto, supermercado, niños de fondo). Para una frase tipo café cinco pesos, la transcripción sale perfecta casi siempre. Para montos con centavos sobre ruido, esperá corregir uno cada veinte. El español es Tier 1 para Whisper, al lado del francés y del portugués.
Cuándo conviene hablar en vez de escribir para registrar gasto?
La voz gana en tres contextos: manejando (sin manos libres, sin sacar la vista del camino), con los hijos en brazos o corriendo (escribir con una mano no funciona), y en el supermercado con la bolsa o empujando el carrito. Pierde en bar ruidoso, cuando tenés que cargar cuotas en doce pagos o split de cuenta, y en oficina silenciosa donde escribir es más discreto. La mayoría no la necesita siempre. La necesita dos veces al día.
La voz para control de gastos funciona sin conexión a internet?
Casi ninguna app. Whisper corriendo en el celular es un modelo de 1 a 2 GB y pocas apps lo embeben offline. Spendee, ExpenseEasy, Fintonic y Capi mandan el audio a un servicio de transcripción en la nube. En viaje sin señal o en vuelo, el camino seguro es el grabador de voz del propio celular, y después soltar el archivo en la app cuando vuelve la conexión. Whispernotes es la única opción offline mainstream que probé.
La voz para control de gastos es segura desde la privacidad?
Depende de la app. ExpenseEasy y Capi descartan el audio después de transcribir. La política de Spendee permite el procesamiento pero no compromete el borrado. Whispernotes corre offline y el audio no sale del teléfono. Si te importa la retención de la voz, preguntá directo: a dónde va el audio, cuánto tiempo queda guardado, lo usan para entrenar modelo. Si la app no responde en una frase, usá el grabador del teléfono como buffer.
Cómo empezar a usar voz para gastos sin instalar app nueva?
Abrí el grabador de voz del celular y grabá una nota de 5 segundos cada vez que gastes. Formato: monto, categoría, contexto en una palabra. Al final de la semana, escuchá las notas y copialas a una planilla. Toma 6 minutos por semana y funciona sin suscripción. La desventaja es que no hay gráfico ni total mensual sin agregación manual. La ventaja es que el hábito se forma en dos semanas.
Qué hace Capi con los mensajes de voz en Telegram?
Capi recibe el mensaje de voz en el chat de Telegram, manda el audio a Whisper Large v3 en Groq para transcribir, y pasa el texto resultante por el mismo parser que los mensajes escritos. El archivo de audio se descarta después de transcribir. La transcripción se guarda como fila del chat, así podés volver para arriba y ver exactamente qué dijiste. El tier gratis cubre 30 transacciones al mes, por voz o texto. Core sale US$ 9,90 al mes.
Controlá gastos por voz o por texto, adentro del chat que ya usás.
Tocá el micrófono, decí el gasto, listo. Capi transcribe vía Groq Whisper, parsea, y guarda. Audio descartado post-transcripción. Tier gratis 30 cargas al mes. Core US$ 9,90 al mes.
Probar Capi gratis en Telegram →