Mejores formatos de audio para transcribir (MP3, WAV, M4A, OGG)
Guía técnica sobre qué formato de audio usar para obtener la mejor transcripción. Diferencias entre MP3, WAV, M4A, FLAC y OGG.
No todos los formatos dan la misma precisión
La precisión de una transcripción depende principalmente de tres cosas: qué se grabó, en qué condiciones, y en qué formato se guardó. El formato importa porque algunos comprimen tirando información acústica que la IA necesita para reconocer el habla con precisión.
Formatos sin pérdida (lossless)
- WAV — crudo, sin compresión. Calidad máxima, archivos grandes (10 MB por minuto a 44.1 kHz estéreo)
- FLAC — comprimido sin pérdida. Mitad del tamaño de WAV, misma calidad de transcripción
- AIFF — equivalente a WAV en el ecosistema Apple
Cuándo usarlos: grabaciones profesionales, entrevistas con múltiples personas, audios que se van a archivar a largo plazo.
Formatos con pérdida (lossy)
- MP3 — el más universal. A 192 kbps o superior la transcripción es casi idéntica a WAV
- M4A (AAC) — mejor compresión que MP3 a la misma calidad. Default de iPhone y Notas de Voz
- OGG Vorbis / Opus — usado por WhatsApp, Telegram, Discord. Opus a 32+ kbps funciona bien para voz
Cuándo usarlos: audios de apps de mensajería, archivos que necesitás compartir rápido, grabaciones casuales.
Formatos comprimidos problemáticos
- MP3 a menos de 96 kbps — empieza a perder detalles de voz
- AMR — usado por algunas grabadoras viejas, compresión agresiva para voz
- GSM 6.10 — formato de telefonía, baja calidad
Si tu archivo está en uno de estos formatos, la transcripción funciona igual pero podés esperar ~5-10% menos de precisión que con MP3 de buena calidad.
Tabla de referencia
| Formato | Tamaño por minuto | Calidad transcripción | Caso típico |
|---|---|---|---|
| WAV 44.1/16 | ~10 MB | 100% | Estudio, grabadora pro |
| FLAC | ~5 MB | 100% | Archivo profesional |
| M4A 128 kbps | ~1 MB | 99% | iPhone Notas de Voz |
| MP3 192 kbps | ~1.4 MB | 99% | Podcast, grabación laptop |
| MP3 128 kbps | ~1 MB | 98% | Grabación casual |
| OPUS 32 kbps | ~240 KB | 97% | WhatsApp voice |
| AMR | ~60 KB | 90-93% | Teléfonos antiguos |
Sample rate y bit depth
Para voz:
- Sample rate mínimo recomendado: 16 kHz
- Sample rate óptimo: 44.1 kHz o 48 kHz (estándar audio)
- Bit depth: 16 bits es suficiente, 24 bits no mejora transcripción
Grabar a 96 kHz no mejora la transcripción — la voz humana no tiene información útil arriba de 20 kHz. Es desperdicio de almacenamiento.
Mono vs estéreo
Para una sola persona hablando: mono es suficiente. Archivo a la mitad del tamaño con misma precisión.
Para múltiples personas en canales separados (ej. dos personas con micrófonos distintos): estéreo con cada persona en un canal da la mejor diarización posible. TranscribeIA detecta automáticamente si cada canal tiene un hablante distinto.
Qué formato usar según el caso
- Reunión con una grabadora central → MP3 192 kbps o M4A
- Entrevista con dos micrófonos → WAV o FLAC estéreo (cada micro en un canal)
- Audio de WhatsApp/Telegram → OPUS/OGG (lo que venga, no re-comprimas)
- Grabación con iPhone → M4A (default)
- Podcast profesional → FLAC o WAV para el master, MP3 192 kbps para distribución
- Archivo muy largo (>3 horas) → MP3 128 kbps para reducir tamaño sin sacrificar precisión
Qué hacer con archivos malos
Si recibiste un audio de baja calidad (ej. grabado en un auto con ruido de motor):
- No lo re-comprimas — perderías más calidad
- Subilo tal cual a TranscribeIA — nuestros modelos manejan ruido mejor que los generalistas
- Considerá agregar vocabulario custom si hay términos técnicos
Mirá (ver precios) para planes con vocabulario personalizado desde Business.
¿Listo para transcribir tu primer archivo?
Subí tu audio o video y obtené la transcripción y el resumen en minutos.
Comenzar gratis