Control de gastos por voz en 7 idiomas: dónde Whisper todavía falla
Grabé la misma lista corta de gastos en voz alta en siete idiomas y pasé cada grabación por Capi y tres apps rivales para ver qué captó de verdad la transcripción. Con habla limpia, los modelos rozan lo impecable. Lo interesante son los bordes: un acento, un café ruidoso, un monto dicho en un idioma dentro de una frase en otro. Ahí el control por voz aguanta o guarda el número equivocado en silencio, y esa es la parte que ninguna página de ventas te muestra.
La voz es la forma más rápida de registrar una compra, más rápida que abrir una app y tipear, y en 2026 casi toda app de voz corre sobre el mismo motor por debajo: Whisper de OpenAI, casi siempre el modelo Large v3. Así que una prueba justa tiene menos que ver con cuál app tiene el mejor micrófono y más con cómo cada una maneja los momentos en que Whisper se equivoca. Pasé años dentro de bancos viendo gente abandonar el presupuesto porque registrar daba demasiada fricción, así que me importa más el paso de la entrada que el tablero. Acá está lo que siete idiomas me enseñaron, dicho sin vueltas, incluso dónde los rivales nos ganan.
¿Qué tan preciso es el control de gastos por voz en 2026?
Con habla limpia, es muy bueno. Whisper Large v3, detrás de la mayoría de las apps de voz, ronda un 5 a 6 por ciento de error en inglés y cerca de 10 por ciento promediado entre idiomas, según el benchmark Common Voice. Para una frase corta como un café y su precio, suele dar una transcripción correcta al primer intento. La precisión baja con acentos, ruido y frases que mezclan idiomas.
El número del titular esconde la forma de los errores. Un error de 5 por ciento por palabra no significa que el cinco por ciento de tus gastos salga mal. Significa que más o menos una palabra de cada veinte queda torcida, y el riesgo está entero en cuál palabra. Errá una palabra de relleno y no pasa nada. Errá el número y registraste el monto equivocado. Esa asimetría es todo el juego en el control de gastos, y por eso juzgué a cada app menos por la calidad de la transcripción y más por si te muestra el monto leído antes de guardar. La velocidad de captura ya es lo mínimo. Atrapar el único número mal es la función de verdad.
¿Qué idioma transcribe Whisper con más precisión?
Inglés, porque tiene más datos de entrenamiento, seguido de cerca por español, portugués, italiano, alemán y francés. En mi prueba esos seis entendieron un gasto hablado sin error, en la misma franja de un dígito en audio claro. El ruso quedó un paso atrás pero confiable. El hindi fue el más flojo de los siete, lo que coincide con que Whisper es más fuerte en los idiomas que más vio al entrenar.
El patrón coincide con lo que publicó OpenAI y con lo que muestran los benchmarks independientes: el rendimiento sigue el volumen de entrenamiento. Los idiomas latinos y germánicos con gran presencia en la web se agrupan cerca del inglés, mientras que los idiomas de menos recursos se caen, a veces a la franja de 15 a 30 por ciento de error en los más raros. El hindi queda en un medio incómodo, bien soportado pero todavía claramente peor que el español o el portugués en mis grabaciones, sobre todo en palabras prestadas del inglés, que aparecen todo el tiempo en el habla real. Para el lector argentino, mexicano o colombiano esto es una buena noticia: el español está entre los idiomas más fuertes de Whisper, así que la captura por voz es de verdad confiable en el idioma que este blog más sirve.
¿Dónde falla todavía Whisper en el control de gastos por voz?
Falla en cuatro puntos: acento fuerte o regional, ruido de fondo, números hablados y mezcla de idiomas. El acento y el ruido suben la tasa de error porque el modelo se entrenó casi todo con habla limpia y estándar. Los números resbalan porque cuarenta y catorce suenan parecido. Y decir un monto en pesos dentro de una frase en inglés es el caso más difícil, como habla de plata la gente bilingüe.
Mi grabación más caótica fue a propósito: una frase en español con el nombre de una marca en inglés y un monto dicho en pesos, con un café murmurando de fondo. Toda app tropezó en algún punto. Una tiró la moneda, una oyó la marca como una palabra común, una erró la decena del número. No es un golpe a Whisper sino un recordatorio de que las fallas honestas son predecibles, así que el producto tiene que planear para ellas. Las apps que salieron mejor no fueron las que prometían la mayor precisión. Fueron las que asumieron que la transcripción podía estar mal y la convirtieron en un arreglo de dos segundos en vez de un error silencioso. Escribí más sobre cómo el software confiado engaña en silencio en por qué las apps financieras mienten sobre tus gastos.
¿Cómo se comparan las principales apps de gastos por voz?
Cuatro apps cubren la mayor parte del mercado centrado en voz en 2026: Capi, Vocash, MonAi y TalkieMoney. Todas se apoyan en transcripción de la clase Whisper, así que la precisión bruta es parecida. Difieren en dónde corren, cómo confirman un registro, qué hacen con el audio y el precio. La tabla de abajo es la forma honesta del asunto, con el canje que cada una te pide.
| App | Dónde corre | Confirma antes de guardar | Guarda el audio | Precio |
|---|---|---|---|---|
| Capi | Chat de Telegram | Sí, lo lee de vuelta | No, lo descarta | Gratis, luego US$ 69,90/año |
| Vocash | iOS, Android, web | Edición rápida | La empresa informa | Gratis, Pro US$ 36,99/año |
| MonAi | iOS, Android | Revisión en la app | Guarda en tu iCloud | Cuota gratis, luego pago |
| TalkieMoney | iOS, Android | Revisión en la app | La empresa informa | Gratis hasta 50 tx, luego suscripción |
Leé esto por lo que valorás, no por la estrella de la fila. Si querés una app independiente y prolija y vivís en el mundo Apple, MonAi es un lindo trabajo de diseño, y su truco de separar varios gastos de una frase hablada es de verdad útil. Si querés el plan gratis más amplio, Vocash regala su captura de voz y solo cobra por exportación e historial largo. TalkieMoney es un agente de presupuesto con IA competente, con la misma forma gratis-luego-pago. La diferencia de Capi no es la precisión, es que todo pasa en un chat que ya tenés abierto, sin app nueva que aprender. Si una app dedicada de iOS te calza mejor, una de las otras es la respuesta correcta, y prefiero decirlo. La comparación Capi vs Copilot Money pesa el canje entre chat y app con más detalle contra la opción con Siri de Apple.
¿Qué pasó al grabar gastos en siete idiomas por Capi?
Grabé los mismos cinco gastos en inglés, español, portugués, francés, alemán, ruso e hindi, hablados a ritmo normal. Seis de los siete idiomas procesaron todos los gastos bien al primer intento. El hindi erró un monto y una categoría, los dos corregidos en un toque en la pantalla de confirmación. Los seis limpios no necesitaron ningún ajuste. El audio se borró después de cada transcripción, dejando solo el texto confirmado.
El detalle que me importa es lo que pasó en el error, no en los aciertos. Cuando la grabación en hindi oyó el número equivocado, Capi no guardó en silencio. Mostró la línea leída, monto y categoría, y esperó. Corregí el número tipeando el valor correcto de vuelta, que el parser aceptó como una edición del registro pendiente y no como un gasto nuevo. Ese es el comportamiento del Patch R, voz y texto fluyendo a un solo flujo, así que un registro hablado y su corrección tipeada son la misma conversación. Por debajo, la nota de voz y un mensaje tipeado pegan en el mismo parser, y por eso el idioma de la corrección no importa. Si querés el ritual y el argumento de accesibilidad de registrar así, lo cubrí en control de gastos por voz sin manos y probé el motor crudo en la prueba de la nota de voz.
¿Cómo maneja Capi una nota de voz que transcribe mal?
Lee el gasto interpretado de vuelta y espera que confirmes antes de guardar. Toda nota de voz genera una línea pendiente con el monto, la moneda y la categoría, y nada entra a tu historial hasta que aceptás. Si el número o la categoría están mal, corregís en el mismo chat, por voz o texto, y el arreglo reemplaza el registro pendiente. Una transcripción imperfecta deja de importar cuando la confirmación es un toque.
Esta es la decisión de diseño que separa una app de voz confiable de una rápida. Un modelo acertado el 95 por ciento de las veces igual te entrega un número mal cada vigésimo registro, y un monto equivocado que guarda en silencio es peor que ningún registro, porque vas a confiar en un presupuesto que está torcido de a poco. Leer la interpretación de vuelta convierte esa falla en un momento visible y corregible. Es también por qué no exagero la precisión de Capi: la afirmación honesta no es que Whisper nunca yerra, es que un error te cuesta dos segundos en vez de un mes corrompido. El plan gratis de Capi cubre 30 transacciones al mes, suficiente para probar la entrada por voz durante algunas semanas antes de decidir.
¿El control de gastos por voz es privado?
Puede serlo, si el audio se descarta tras la transcripción. La mayoría de las apps de voz en la nube, Capi incluida, manda tu clip a un servicio de la clase Whisper, recibe el texto y borra el audio al instante. Capi guarda solo el texto confirmado y tira el archivo de voz. Si la transcripción en el dispositivo te importa más, algunas apps corren el modelo localmente, canjeando precisión por privacidad.
La privacidad acá es un espectro, no un sí o un no. Una app con sincronización bancaria automática sabe cada transacción sola, pero guarda tu login del banco. Una app de voz solo sabe lo que decís en voz alta, que es menos dato en total, pero pasa el audio por un paso de transcripción que conviene entender. La pregunta que vale hacerle a cualquier app de voz es simple: ¿el audio se guarda, y por cuánto tiempo? La respuesta de Capi es que se transcribe y se borra, con solo el texto retenido. Whisper corre rápido de sobra en plataformas de inferencia como Groq, bastante más de cien veces el tiempo real por una fracción de centavo el minuto, así que guardar el clip después no sirve a ningún propósito que valga el costo de privacidad.
¿Cómo empezar a controlar gastos por voz en Capi?
Mandás una nota de voz al bot de Capi en Telegram, igual que se la mandarías a un amigo. Transcribe lo que dijiste, interpreta monto y categoría y te muestra el resultado para confirmar. No hay app aparte que instalar ni ajustes que configurar antes. Los pasos de abajo llevan menos de un minuto de punta a punta, en cualquier idioma que Whisper soporte.
- Abrí el bot de Capi en Telegram y empezá una conversación.
- Mantené el botón del micrófono y decí el gasto, como "doce pesos en café" o la misma frase en tu idioma.
- Esperá un segundo mientras Capi transcribe e interpreta.
- Revisá el monto y la categoría que te lee de vuelta, y corregí lo que haga falta por voz o texto.
- Confirmá, y entra a tu vista mensual con la barra de ritmo y la lectura 50/30/20.
La prueba en una frase. Con habla limpia, el control por voz en 2026 roza lo impecable en inglés, español, portugués, francés, alemán y ruso, y más flojo en hindi. Whisper todavía falla en acentos, ruido, números hablados y frases que mezclan idiomas. Seis de mis siete idiomas procesaron perfecto por Capi, el hindi erró un monto, y todo fue un arreglo de un toque porque Capi lee la interpretación antes de guardar. La app de voz correcta es la que asume que puede oír mal y deja la corrección trivial.
Registrá un gasto por voz en tu idioma.
Capi transcribe tu nota de voz, lee el monto de vuelta y guarda solo lo que confirmás, todo dentro de Telegram.
Gratis para empezar, Core es US$ 9,90 al mes o US$ 69,90 al año.
Preguntas frecuentes sobre control de gastos por voz
¿Qué tan preciso es el control de gastos por voz en 2026?
Con habla limpia, es muy bueno. Whisper Large v3, detrás de la mayoría de las apps de voz, ronda un 5 a 6 por ciento de error en inglés y cerca de 10 por ciento promediado entre idiomas. Para una frase corta como un café y su precio, suele dar una transcripción correcta al primer intento. La precisión baja con acentos, ruido y mezcla de idiomas, y la confirmación importa más que el modelo.
¿Qué idioma transcribe Whisper con más precisión?
Inglés, porque tiene más datos de entrenamiento, seguido de cerca por español, portugués, italiano, alemán y francés. En mi prueba esos seis entendieron un gasto hablado sin error. El ruso quedó un poco atrás pero confiable. El hindi fue el más flojo de los siete, con más palabras mal oídas, lo que coincide con que Whisper es más fuerte en los idiomas que más vio al entrenar. Buena noticia para quien habla español.
¿Por qué mi gasto por voz sale con el número o la moneda equivocada?
Porque los números y los nombres de moneda son donde el modelo más resbala. Un cuarenta hablado puede caer como catorce, y una moneda dicha dentro de una frase en otro idioma, como pesos en una frase en inglés, puede quedar cambiada o adivinada. La solución no es un mejor micrófono sino una pantalla de confirmación que te lee el monto antes de guardar, para atrapar la única cifra que importa.
¿El control de gastos por voz es privado si el audio va a un servidor?
Depende de si el audio se guarda. La mayoría de las apps de voz en la nube manda tu clip a un servicio de transcripción, recibe el texto y las responsables descartan el audio al instante. Capi transcribe la nota de voz y borra el archivo, guardando solo el texto que confirmaste. Si la privacidad es tu prioridad, buscá una frase clara que diga que el audio no se almacena.
¿Necesito una app aparte para controlar gastos por voz?
No. Apps dedicadas como Vocash, MonAi y TalkieMoney lo hacen bien, pero también podés mandar una nota de voz dentro de un mensajero que ya usás. Capi funciona entero en Telegram, así que registrar un gasto por voz es el mismo gesto de mandar cualquier audio a un contacto. La elección depende de si querés un ícono más en el teléfono o uno menos.