Todos los artículos
Herramientas5 min

Mejores formatos de audio para transcribir (MP3, WAV, M4A, OGG)

Guía técnica sobre qué formato de audio usar para obtener la mejor transcripción. Diferencias entre MP3, WAV, M4A, FLAC y OGG.

No todos los formatos dan la misma precisión

La precisión de una transcripción depende principalmente de tres cosas: qué se grabó, en qué condiciones, y en qué formato se guardó. El formato importa porque algunos comprimen tirando información acústica que la IA necesita para reconocer el habla con precisión.

Formatos sin pérdida (lossless)

  • WAV — crudo, sin compresión. Calidad máxima, archivos grandes (10 MB por minuto a 44.1 kHz estéreo)
  • FLAC — comprimido sin pérdida. Mitad del tamaño de WAV, misma calidad de transcripción
  • AIFF — equivalente a WAV en el ecosistema Apple

Cuándo usarlos: grabaciones profesionales, entrevistas con múltiples personas, audios que se van a archivar a largo plazo.

Formatos con pérdida (lossy)

  • MP3 — el más universal. A 192 kbps o superior la transcripción es casi idéntica a WAV
  • M4A (AAC) — mejor compresión que MP3 a la misma calidad. Default de iPhone y Notas de Voz
  • OGG Vorbis / Opus — usado por WhatsApp, Telegram, Discord. Opus a 32+ kbps funciona bien para voz

Cuándo usarlos: audios de apps de mensajería, archivos que necesitás compartir rápido, grabaciones casuales.

Formatos comprimidos problemáticos

  • MP3 a menos de 96 kbps — empieza a perder detalles de voz
  • AMR — usado por algunas grabadoras viejas, compresión agresiva para voz
  • GSM 6.10 — formato de telefonía, baja calidad

Si tu archivo está en uno de estos formatos, la transcripción funciona igual pero podés esperar ~5-10% menos de precisión que con MP3 de buena calidad.

Tabla de referencia

FormatoTamaño por minutoCalidad transcripciónCaso típico
WAV 44.1/16~10 MB100%Estudio, grabadora pro
FLAC~5 MB100%Archivo profesional
M4A 128 kbps~1 MB99%iPhone Notas de Voz
MP3 192 kbps~1.4 MB99%Podcast, grabación laptop
MP3 128 kbps~1 MB98%Grabación casual
OPUS 32 kbps~240 KB97%WhatsApp voice
AMR~60 KB90-93%Teléfonos antiguos

Sample rate y bit depth

Para voz:

  • Sample rate mínimo recomendado: 16 kHz
  • Sample rate óptimo: 44.1 kHz o 48 kHz (estándar audio)
  • Bit depth: 16 bits es suficiente, 24 bits no mejora transcripción

Grabar a 96 kHz no mejora la transcripción — la voz humana no tiene información útil arriba de 20 kHz. Es desperdicio de almacenamiento.

Mono vs estéreo

Para una sola persona hablando: mono es suficiente. Archivo a la mitad del tamaño con misma precisión.

Para múltiples personas en canales separados (ej. dos personas con micrófonos distintos): estéreo con cada persona en un canal da la mejor diarización posible. TranscribeIA detecta automáticamente si cada canal tiene un hablante distinto.

Qué formato usar según el caso

  • Reunión con una grabadora central → MP3 192 kbps o M4A
  • Entrevista con dos micrófonos → WAV o FLAC estéreo (cada micro en un canal)
  • Audio de WhatsApp/Telegram → OPUS/OGG (lo que venga, no re-comprimas)
  • Grabación con iPhone → M4A (default)
  • Podcast profesional → FLAC o WAV para el master, MP3 192 kbps para distribución
  • Archivo muy largo (>3 horas) → MP3 128 kbps para reducir tamaño sin sacrificar precisión

Qué hacer con archivos malos

Si recibiste un audio de baja calidad (ej. grabado en un auto con ruido de motor):

  1. No lo re-comprimas — perderías más calidad
  2. Subilo tal cual a TranscribeIA — nuestros modelos manejan ruido mejor que los generalistas
  3. Considerá agregar vocabulario custom si hay términos técnicos

Mirá (ver precios) para planes con vocabulario personalizado desde Business.

¿Listo para transcribir tu primer archivo?

Subí tu audio o video y obtené la transcripción y el resumen en minutos.

Comenzar gratis