Todos los artículos
Herramientas6 min

Cómo transcribir audios con varios hablantes (diarización)

Identificá automáticamente quién dice qué en reuniones, entrevistas y mesas redondas. Guía sobre diarización de hablantes con IA.

Qué es la diarización de hablantes

La diarización es el proceso de identificar automáticamente cuántas personas distintas hablan en un audio y separar sus intervenciones. Sin diarización, la transcripción es un bloque de texto continuo. Con diarización, obtenés algo como:

> Speaker 1 [00:01]: Buenos días a todos, gracias por venir.

>

> Speaker 2 [00:05]: Gracias por invitarnos, María.

La diferencia en usabilidad es enorme: podés leer la conversación como un guion, buscar qué dijo cada persona, y cuando armás el acta sabés a quién asignar cada action item.

Cómo funciona técnicamente

La IA analiza características acústicas de la voz — tono, timbre, cadencia, formantes — para agrupar fragmentos similares bajo una misma identidad. Luego le asigna una etiqueta temporal (Speaker 1, Speaker 2, etc.) que vos podés renombrar con los nombres reales.

Los modelos modernos llegan a ~95% de precisión con audios claros y hasta 8 hablantes distintos.

Qué audios funcionan mejor

  • Canales separados — si la grabación es multitrack (cada persona en un canal), la diarización es casi perfecta
  • Voces contrastantes — hombres y mujeres, acentos distintos, rangos vocales diferentes
  • Buena calidad de grabación — menos ruido = mejor separación
  • Hablantes que no se pisan — las interrupciones dificultan la diarización

Qué audios son desafiantes

  • Voces muy similares — hermanos, gemelos, personas con timbre parecido
  • Mucho cruce — panel donde todos hablan a la vez
  • Llamadas telefónicas comprimidas — compresión de códec baja la calidad de las características vocales
  • Grabaciones con eco o reverb — ambientes reflectivos degradan la señal

Paso a paso con TranscribeIA

  1. Subí el archivo — cualquier formato de audio o video
  2. La diarización se activa por defecto desde el plan Starter en adelante
  3. Obtenés la transcripción con etiquetas Speaker 1, Speaker 2...
  4. Renombrá los hablantes — click en la etiqueta, escribís el nombre real, y se reemplaza en toda la transcripción
  5. Exportá — los nombres quedan en el DOCX, PDF, TXT o SRT

Cuántos hablantes puede distinguir

PlanHablantes distinguibles
Free2 (conversación simple)
Starter4
Pro8
Business8 + vocabulario custom

Si tenés más de 8 hablantes (webinar, asamblea), la diarización sigue funcionando pero puede agrupar voces similares bajo la misma etiqueta. En ese caso, la transcripción literal sigue siendo precisa, solo la atribución de cada intervención puede requerir revisión manual.

Casos donde la diarización es crítica

  • Entrevistas de investigación cualitativa — necesitás saber qué dijo cada participante
  • Mesas redondas y paneles — atribución correcta es clave para el acta
  • Audiencias y declaraciones legales — requisito de la documentación
  • Podcasts con varios invitados — para generar subtítulos con nombres
  • Focus groups — análisis por perfil de participante

Cómo mejorar la precisión

  • Grabá con varios micrófonos si podés — uno por persona
  • Pedí a los participantes que no se interrumpan al inicio de la sesión
  • Usá un lugar con poca reverberación — alfombras, cortinas, libros absorben mejor que paredes vacías
  • Si usás una sola grabadora, colocala en el centro de la mesa, no cerca de una persona

Mirá (ver precios) para activar diarización desde el plan Starter.

¿Listo para transcribir tu primer archivo?

Subí tu audio o video y obtené la transcripción y el resumen en minutos.

Comenzar gratis