¿Qué formatos de archivo puedo subir a TranscribeIA?

Soportamos MP3, WAV, M4A, OGG, FLAC, WebM para audio y MP4, MOV, WebM, OGG para video. Si subes un video, extraemos el audio automáticamente.

¿Qué tan precisa es la transcripción de audio a texto?

Nuestra IA alcanza un 98% de precisión promedio en audio claro. En el plan Business puedes agregar vocabulario custom para mejorar la precisión con términos técnicos.

¿En qué idiomas funciona la transcripción?

El plan Free soporta español. El plan Starter agrega inglés. Desde el plan Pro, soportamos más de 90 idiomas.

¿TranscribeIA sirve para transcribir clases universitarias?

Sí, es uno de nuestros casos de uso más populares. Miles de estudiantes usan TranscribeIA para transcribir clases, generar resúmenes de estudio y extraer conceptos clave. El plan Starter ($9/mes) con 3 horas de audio es ideal para la mayoría de estudiantes.

¿Mis archivos de audio y video están seguros?

Sí. Todos los archivos se transmiten con encriptación TLS y se almacenan con encriptación AES-256. Los archivos se eliminan automáticamente a las 24 horas del procesamiento.

Todos los artículos

Herramientas6 min

Cómo transcribir audios con varios hablantes (diarización)

Identificá automáticamente quién dice qué en reuniones, entrevistas y mesas redondas. Guía sobre diarización de hablantes con IA.

7 de abril de 2026

Qué es la diarización de hablantes

La diarización es el proceso de identificar automáticamente cuántas personas distintas hablan en un audio y separar sus intervenciones. Sin diarización, la transcripción es un bloque de texto continuo. Con diarización, obtenés algo como:

> Speaker 1 [00:01]: Buenos días a todos, gracias por venir.

> Speaker 2 [00:05]: Gracias por invitarnos, María.

La diferencia en usabilidad es enorme: podés leer la conversación como un guion, buscar qué dijo cada persona, y cuando armás el acta sabés a quién asignar cada action item.

Cómo funciona técnicamente

La IA analiza características acústicas de la voz — tono, timbre, cadencia, formantes — para agrupar fragmentos similares bajo una misma identidad. Luego le asigna una etiqueta temporal (Speaker 1, Speaker 2, etc.) que vos podés renombrar con los nombres reales.

Los modelos modernos llegan a ~95% de precisión con audios claros y hasta 8 hablantes distintos.

Qué audios funcionan mejor

Canales separados — si la grabación es multitrack (cada persona en un canal), la diarización es casi perfecta
Voces contrastantes — hombres y mujeres, acentos distintos, rangos vocales diferentes
Buena calidad de grabación — menos ruido = mejor separación
Hablantes que no se pisan — las interrupciones dificultan la diarización

Qué audios son desafiantes

Voces muy similares — hermanos, gemelos, personas con timbre parecido
Mucho cruce — panel donde todos hablan a la vez
Llamadas telefónicas comprimidas — compresión de códec baja la calidad de las características vocales
Grabaciones con eco o reverb — ambientes reflectivos degradan la señal

Paso a paso con TranscribeIA

Subí el archivo — cualquier formato de audio o video
La diarización se activa por defecto desde el plan Starter en adelante
Obtenés la transcripción con etiquetas Speaker 1, Speaker 2...
Renombrá los hablantes — click en la etiqueta, escribís el nombre real, y se reemplaza en toda la transcripción
Exportá — los nombres quedan en el DOCX, PDF, TXT o SRT

Cuántos hablantes puede distinguir

Plan	Hablantes distinguibles
Free	2 (conversación simple)
Starter	4
Pro	8
Business	8 + vocabulario custom

Si tenés más de 8 hablantes (webinar, asamblea), la diarización sigue funcionando pero puede agrupar voces similares bajo la misma etiqueta. En ese caso, la transcripción literal sigue siendo precisa, solo la atribución de cada intervención puede requerir revisión manual.

Casos donde la diarización es crítica

Entrevistas de investigación cualitativa — necesitás saber qué dijo cada participante
Mesas redondas y paneles — atribución correcta es clave para el acta
Audiencias y declaraciones legales — requisito de la documentación
Podcasts con varios invitados — para generar subtítulos con nombres
Focus groups — análisis por perfil de participante

Cómo mejorar la precisión

Grabá con varios micrófonos si podés — uno por persona
Pedí a los participantes que no se interrumpan al inicio de la sesión
Usá un lugar con poca reverberación — alfombras, cortinas, libros absorben mejor que paredes vacías
Si usás una sola grabadora, colocala en el centro de la mesa, no cerca de una persona

Mirá (ver precios) para activar diarización desde el plan Starter.

¿Listo para transcribir tu primer archivo?

Subí tu audio o video y obtené la transcripción y el resumen en minutos.

Comenzar gratis