He notado un movimiento interesante en el campo del reconocimiento de voz. Sierra publicó en acceso abierto μ-Bench — un conjunto de datos multilingüe para evaluar sistemas ASR, y esto parece un paso bastante serio.



En qué consiste: el conjunto incluye 250 grabaciones reales de atención al cliente y 4270 clips de audio anotados. La principal diferencia con los benchmarks existentes es que aquí no solo está el idioma inglés. Soportan cinco idiomas: inglés, español, turco, vietnamita y mandarín.

Especialmente interesante es la nueva métrica UER (Tasa de Error en la Frase). Distingue errores que cambian el significado de la expresión de aquellos que no lo alteran. Esto es mucho más sutil que la métrica clásica WER, donde todos los errores se consideran iguales.

Según los resultados de las pruebas: Google Chirp-3 lidera en precisión, Deepgram Nova-3 es el más rápido, pero en multilingüismo se queda atrás. Es interesante ver cómo evolucionará esto en el futuro.

El conjunto de datos y la tabla de resultados ya están disponibles en Hugging Face, por lo que otros desarrolladores pueden unirse a la evaluación. Parece que μ-Bench se está convirtiendo en el nuevo estándar para una evaluación seria de ASR en entornos de atención al cliente.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado