Chú ý đến một xu hướng thú vị trong lĩnh vực nhận dạng giọng nói. Sierra đã công bố rộng rãi μ-Bench — bộ dữ liệu đa ngôn ngữ để đánh giá hệ thống ASR, và điều này trông khá nghiêm túc.



Vấn đề chính là: bộ dữ liệu bao gồm 250 bản ghi thực tế từ dịch vụ khách hàng và 4270 đoạn âm thanh đã được chú thích. Điểm khác biệt chính so với các benchmark hiện có là không chỉ có tiếng Anh. Hỗ trợ năm ngôn ngữ — tiếng Anh, tiếng Tây Ban Nha, tiếng Thổ Nhĩ Kỳ, tiếng Việt và tiếng Quan Thoại.

Đặc biệt, metric mới UER (Utterance Error Rate) rất thú vị. Nó phân biệt các lỗi làm thay đổi ý nghĩa của câu nói với những lỗi không làm thay đổi ý nghĩa. Điều này tinh tế hơn nhiều so với metric WER truyền thống, trong đó tất cả lỗi đều được tính như nhau.

Kết quả thử nghiệm cho thấy: Google Chirp-3 dẫn đầu về độ chính xác, Deepgram Nova-3 nhanh nhất, nhưng lại kém về khả năng đa ngôn ngữ. Thật thú vị để xem điều này sẽ phát triển như thế nào trong tương lai.

Bộ dữ liệu và bảng kết quả đã có sẵn trên Hugging Face, để các nhà phát triển khác có thể tham gia đánh giá. Có vẻ như μ-Bench đang trở thành tiêu chuẩn mới cho việc đánh giá nghiêm túc hệ thống ASR trong môi trường dịch vụ khách hàng.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim