Control de Gastos por Nota de Voz: Mi Prueba Honesta de 30 Días
La mayoría de los intentos de controlar gastos muere por lo mismo: la pereza de frenar la vida para escribir. Así que durante 30 días me prohibí escribir. Cada café, cada taxi, cada vuelta al súper se convirtió en nota de voz, en el idioma que estuviera hablando ese día. En América Latina mandar un audio es segunda naturaleza, y yo quería saber si hablarle al control de gastos es de verdad más rápido y más honesto que andar tocando la pantalla, o si se cae en el instante en que pasa un colectivo. Hice la prueba conmigo mismo y conté todo.
Esta es la versión honesta. La voz es la función de la que más orgulloso estoy en Capi y la que casi nadie fuera de mi propio teléfono probó, así que tenía todos los motivos para tirarle flores y ninguno para confiar en mi propio entusiasmo. Registré 246 transacciones en el mes, anoté cuántas capturé por voz y revisé la precisión de cada transcripción contra lo que realmente dije y gasté. Los números de abajo son míos, autodeclarados, de una sola vida real. Una parte me sorprendió. Las fallas, como siempre, son lo que importa.
¿Se puede controlar gastos solo con nota de voz en 2026?
Se puede, y es más rápido que escribir una vez que confiás. En 30 días capturé 188 de mis 246 transacciones como nota de voz, cerca del 76 por ciento. El ciclo es simple: mantenés el micrófono, decís nueve pesos café, soltás. La app transcribe la nota, lee el monto y el comercio, y responde con la transacción interpretada en unos tres segundos. Sin pantalla cargando, sin menú, sin conectar el banco. El otro 24 por ciento fueron fotos de tique y algunas líneas escritas cuando tenía que quedarme callado.
Funciona porque un gasto es un dato minúsculo. Necesitás un monto, una moneda y unas pocas palabras de contexto, y los tres entran en una frase de dos segundos. Escribir ese mismo dato significa desbloquear el teléfono, abrir la app, esperar la pantalla, elegir categoría y tocar guardar. A la quinta vez en el día, la versión escrita es la que te salteás. La versión hablada sobrevivió porque casi no costaba nada. Esa es la tesis entera de la captura por voz, y el mes lo confirmó.
¿Qué precisión tiene el control de gastos por voz entre idiomas?
Precisa lo suficiente en las palabras que importan, floja en las que no. En mi prueba, Capi mandó cada nota de voz de Telegram a Whisper Large v3 en Groq, que registra cerca de 8 a 10 por ciento de error de palabra en audio corto y limpio y soporta 99 idiomas. Mis notas limpias quedaron cerca del 95 por ciento en inglés y español, un poco menos en portugués y ruso. Lo esencial: el monto y el comercio salieron bastante más confiables que las palabras de relleno alrededor.
Registré en siete idiomas durante el mes: inglés, portugués de Brasil, español, francés, alemán, ruso e italiano. Acá va más o menos cómo se comportó cada uno en audio limpio contra una calle o un taxi ruidoso, midiendo si el monto y el comercio salieron bien.
| Idioma | Audio limpio | Audio con ruido | Falla principal |
|---|---|---|---|
| Inglés | ~96% | ~88% | Comercios homófonos |
| Español | ~95% | ~86% | Números hablados rápido |
| Portugués (BR) | ~93% | ~82% | Decimales hablados |
| Francés | ~92% | ~83% | Setenta como soixante-dix |
| Alemán | ~91% | ~82% | Orden invertido del número |
| Ruso | ~90% | ~80% | Terminaciones en el comercio |
| Italiano | ~92% | ~83% | Palabras pegadas |
El patrón es consistente en todo idioma: el modelo es fuerte en el monto cuando lo decís como número entero y flojo en decimal hablado y fondo ruidoso. Decir nueve con noventa en español me bajó la precisión más que cualquier otra cosa sola. En la práctica, lo que conviene es redondear al hablar, decir diez pesos, y corregir después si importaba, o decir el decimal como número limpio. Trato la cuestión de escribir contra hablar en control de gastos por voz sin usar las manos, y el campo entero de herramientas en el mejor bot de finanzas de Telegram.
¿Cuándo conviene la nota de voz en lugar de escribir un gasto?
La voz gana en cada momento con las manos ocupadas, que son casi todos. Las notas que sobrevivieron al mes las grabé saliendo de un café, dentro de un taxi desde el aeropuerto, subiendo las compras por la escalera o con un café en la otra mano. Esos son justo los momentos en que la carga escrita nunca pasa, porque no vas a frenar, dejar todo y abrir una app. Una nota hablada de dos segundos entra en el hueco donde la escrita no entra.
La voz pierde cuando necesitás quedarte en silencio o cuando la precisión importa más que la velocidad. En una reunión callada, escribí. Conciliando el resumen de la tarjeta línea por línea, escribí, porque estaba leyendo números de la pantalla y decirlos en voz solo agregaba un paso de transcripción sin beneficio. La voz es el método de captura para el momento en que la plata sale de la mano, no para el trabajo de escritorio. La lectura honesta es que voz y escritura se complementan, y el mejor mes usó las dos.
¿Qué apps permiten control de gastos por voz en 2026?
Muy pocas lo hacen de forma nativa, y cada una elige distinto. Capi convierte una nota de voz cruda, en cualquiera de los 99 idiomas, en transacción sin abrir pantalla. Copilot Money, la app de presupuesto más fuerte del ecosistema Apple, acepta voz por un atajo de Siri, no por nota nativa, y brilla en la sincronización automática de banco que Capi no tiene. Un audio común del teléfono más carga posterior es gratis, pero devuelve la escritura que querías evitar. Acá la comparación honesta.
| Herramienta | Captura por voz nativa | Idiomas | Sin manos, sin abrir app | Editar o dividir por voz | Precio (2026) |
|---|---|---|---|---|---|
| Capi | Sí, nota de voz a transacción | 99 vía Whisper | Sí, en Telegram | Sí, ambas | Free 30/mes; US$9,90/mes o US$69,90/año |
| Copilot Money | Por atajo de Siri | Idiomas de Siri | Disparo por atajo | Solo agregar | US$95/año o US$13/mes, equipos Apple |
| Atajo de Siri o Asistente | Comando, no habla libre | Idiomas del asistente | Sí, por frase gatillo | No | Gratis, pero frase rígida |
| Audio + planilla | Sin interpretación | Cualquiera, transcribís vos | Audio sí, carga no | Manual | Gratis, mucha fricción |
La lectura honesta es que Copilot Money es mejor producto que Capi en lo que Apple hace bien: conexión de banco, app nativa pulida y seguimiento de inversiones. Si vivís 100 por ciento en el iPhone y querés sincronización sin esfuerzo, es una buena elección, y lo digo en el comparativo Capi vs Copilot Money. Donde Capi saca ventaja es en el camino de voz cruda. No estás invocando un atajo de gramática fija, estás hablando, y el modelo resuelve el resto. Para una vida en varios idiomas, es la diferencia entre una función que usás y una que te olvidás que existe.
¿Una nota de voz puede corregir o dividir una transacción?
Sí, y esa es la parte que sacó a la voz del lugar de juguete y la volvió mi opción por defecto. Una nota siguiente como cambiá ese café a 12 pesos actualiza la transacción pendiente en vez de crear un duplicado. Una sola nota como súper 80, nafta 200, almuerzo 35 crea tres transacciones de una. La mayoría de las herramientas de voz solo agrega un gasto y no corrige ni divide sin abrir la app, que es justo donde te pierden.
El caso de dividir importó más de lo que esperaba. Una vuelta normal al súper rara vez es una sola categoría: hay comida, hay un artículo de casa, a veces un regalo. Decir todo de un tirón y dejar que el modelo lo parta en tres líneas es más rápido que cualquier app de toque que usé, porque la alternativa son tres cargas manuales. El caso de corrección importó por la confianza. Cuando entendí que un error de transcripción era un arreglo de cinco palabras y no un borrar y reescribir, dejé de revisar cada transacción con miedo y dejé correr el mes.
El resultado de 30 días, en una línea. 246 transacciones, 188 capturadas por voz en 7 idiomas, cerca del 9 por ciento de error de palabra en audio limpio, pero bastante menos en el monto y el comercio que de verdad importan. Lo que lo hizo funcionar fue la captura de tres segundos en el momento en que la plata salió de la mano, más notas de voz que editan y dividen, no solo suman.
¿Dónde falló la prueba de voz?
Falló en tres lugares, y valen más que los aciertos. Primero, los decimales hablados, el problema del nueve con noventa, fueron la mayor fuente de monto equivocado, por unos centavos o por una unidad entera. Segundo, calles y taxis ruidosos bajaron la precisión de 8 a 12 puntos en todo idioma, a veces perdiendo el comercio por completo. Tercero, al principio del mes el formato de voz .oga de Telegram a veces no entraba al flujo, así que la nota llegaba como audio sin volverse transacción.
El bug de ruteo del .oga ya está corregido, que es la realidad sin glamour de lanzar voz: la mitad del trabajo es plomería de audio, no el modelo. Los problemas de decimal y ruido son propios del reconocimiento de habla y no exclusivos de Capi, igual que el error de fecha en el tique aparece en toda app de foto, sobre lo que escribí en por qué las apps de presupuesto duplican transacciones. La respuesta práctica es la conciliación mensual: subir el resumen, dejar que compare con el registro por voz y arreglar el puñado que el micrófono erró. La lectura honesta es que la captura por voz no es magia, es captura rápida más una pasada de limpieza.
¿Cómo hace Capi el control de gastos por nota de voz?
Capi toma una nota de voz de Telegram, la manda a Whisper Large v3 en Groq y la transcribe en uno a dos segundos. Después interpreta el monto, la moneda y el comercio del texto y responde con la transacción para que confirmes o corrijas. Como la captura pasa en el chat, una nota siguiente puede editar la misma transacción pendiente o dividir una grabación en varias transacciones. Sin abrir pantalla, sin necesidad de conectar el banco, y funciona en cualquiera de los 99 idiomas.
Dónde Capi te va a frustrar, dicho sin vueltas. No tiene sincronización automática de banco, así que, salvo que subas el resumen, la captura corre por tu cuenta, y la voz no cambia eso. El decimal hablado y el audio ruidoso van a producir, de vez en cuando, un monto equivocado que tenés que arreglar. Y las primeras respuestas en un idioma nuevo se sienten un poco menos afiladas hasta que ves cómo interpreta tu forma de hablar. Si la agregación de banco sin esfuerzo te importa más que la voz sin fricción, Copilot Money o una app conectada al banco te va a servir mejor, y prefiero decirlo ahora antes de que abandones en la segunda semana. La captura por voz viene incluida en todos los planes de Capi. Capi Free cubre 30 transacciones por mes. Capi Core cuesta 9,90 dólares por mes o 69,90 dólares por año, y Capi Together cuesta 99 dólares por año para dos personas en un mismo historial, que es el arreglo que mi pareja y yo usamos de verdad.
Registrá tu próximo gasto por voz.
Mantené el micrófono, decí lo que gastaste y dejá que Capi lo vuelva transacción en segundos, en cualquier idioma. Corregilo o dividilo con una nota siguiente.
Capi Free cubre 30 transacciones por mes. Capi Core cuesta US$9,90 por mes o US$69,90 por año.
Preguntas frecuentes sobre control de gastos por voz
¿Se pueden registrar gastos solo con nota de voz?
Sí. Grabás una nota de voz corta, tipo nueve pesos café, y la app la transcribe, lee el monto y el comercio, y crea la transacción. En mi prueba de 30 días con Capi en Telegram, 188 de 246 transacciones entraron así. Todo el ciclo lleva unos tres segundos y no exige abrir pantalla, elegir menú ni conectar el banco.
¿Qué precisión tiene Whisper para el control de gastos por voz?
En mi prueba, Whisper Large v3 corriendo en Groq transcribió notas cortas limpias con cerca de 9 por ciento de error de palabra en general, y mayor acierto en las palabras que importan en un gasto: el monto y el comercio. Inglés y español fueron los más fuertes, cerca de 95 por ciento. El ruido de calle y los decimales hablados fueron las fallas principales, bajando entre 8 y 12 puntos.
¿Cuál es la mejor app de control de gastos por voz en 2026?
Para captura real por voz, Capi es la opción más fuerte en 2026 porque una nota de voz cruda, en cualquiera de los 99 idiomas, se vuelve transacción sin abrir pantalla. Copilot Money es mejor si vivís en el ecosistema Apple y querés sincronización automática del banco, aunque su voz pasa por un atajo de Siri, no por nota nativa. Un audio común más carga manual es gratis, pero pierde el sentido.
¿Capi entiende notas de voz en idiomas además del inglés?
Sí. Capi envía las notas de voz de Telegram a Whisper Large v3, que soporta 99 idiomas. Probé 7 en el mes: inglés, portugués de Brasil, español, francés, alemán, ruso e italiano. Todos sirvieron para capturar un monto y un comercio. La precisión fue mayor en inglés y español y menor con audio ruidoso y decimales hablados, algo consistente en todo idioma.
¿Una nota de voz puede editar una transacción existente?
Sí, en Capi. Una nota siguiente como cambiá ese café a 12 pesos actualiza la transacción pendiente en vez de crear una nueva. También dividís en una sola nota: súper 80, nafta 200, almuerzo 35 crea tres transacciones separadas. Esa es la parte que la mayoría de las herramientas de voz no tiene. Agregan un gasto, pero no corrigen ni dividen sin abrir la app.
¿Cuánto cuesta el control de gastos por voz?
En Capi, la captura por voz viene incluida en todos los planes. Capi Free cubre 30 transacciones por mes sin costo. Capi Core cuesta 9,90 dólares por mes o 69,90 dólares por año, con registro ilimitado por chat, voz o foto. Capi Together cuesta 99 dólares por año para dos personas en un mismo historial. Copilot Money, el rival más cercano del mundo Apple, cuesta 95 dólares por año o 13 dólares por mes.