Scan to Download Gate App
qrCode
More Download Options
Don't remind me again today

Meta AI, Omnilingual ASR'yi Tanıtıyor, 1600'den Fazla Dilde Otomatik Konuşma Tanıma Alanında İlerleme Sağlıyor

Kısaca

Meta AI, 1600’den fazla dil için konuşma tanıma sağlayan Omnilingual ASR sistemini piyasaya sürdü ve 350 az hizmet alan dil için açık kaynak modelleri ve bir derleme yayımladı.

Meta AI, 1600'den fazla dilde Otomatik Konuşma Tanımayı Geliştiren Omnilingual ASR'yi Tanıtıyor

Teknoloji şirketi Meta’nın yapay zeka ve artırılmış gerçeklik alanında uzmanlaşmış araştırma bölümü Meta AI, Meta Omnilingual Otomatik Konuşma Tanıma (ASR) sisteminin yayınlandığını duyurdu.

Bu model paketi, 1600’den fazla dil için otomatik konuşma tanıma hizmeti sunuyor ve benzeri görülmemiş bir ölçekte yüksek kaliteli performans sağlıyor. Ayrıca, Meta AI, 7 milyar parametreli, kendi kendine denetimli, çok dilli konuşma temsili modeli wav2vec 2.0’yi açık kaynak yapıyor; bu model, çeşitli konuşma görevlerini desteklemek üzere tasarlandı.

Bu araçların yanı sıra, organizasyon, 350 az hizmet alan dilden transkribe edilmiş konuşmalardan oluşan, özenle hazırlanmış Omnilingual ASR Derlemesini de yayımlıyor. Bu çalışma, küresel ortaklarla işbirliği içinde geliştirildi.

Otomatik konuşma tanıma son yıllarda büyük ilerleme kaydetti ve birçok yaygın dilde neredeyse mükemmel doğruluk sağladı. Ancak, daha az kaynaklara sahip dillerde kapsamı genişletmek, mevcut yapay zeka mimarilerinin yüksek veri ve hesaplama gereksinimleri nedeniyle zor olmaya devam ediyor. Omnilingual ASR sistemi, wav2vec 2.0 konuşma kodlayıcısını 7 milyar parametreye ölçeklendirerek bu sınırlamayı aşmayı hedefliyor ve ham, transkripsiyonsuz konuşmadan zengin çok dilli temsiller oluşturuyor. İki çözümleyici varyantı, bu temsilleri karakter tokenlerine dönüştürüyor: biri bağlantıçı zaman sınıflandırması (CTC) kullanırken, diğeri büyük dil modellerine benzeyen bir dönüştürme tabanlı yaklaşım kullanıyor.

Bu LLM-esinli ASR yaklaşımı, 1600’den fazla dilde en son performansı yakalıyor ve bunların %78’inde karakter hata oranlarını %10’un altında tutuyor. Ayrıca, yeni diller eklemek için daha esnek bir yöntem sunuyor.

Geleneksel sistemlerin uzman ince ayarına ihtiyaç duyduğu durumların aksine, Omnilingual ASR, daha önce desteklenmeyen bir dili birkaç ses ve metin örneğiyle dahil edebiliyor; böylece, kapsamlı veri, uzmanlık veya yüksek maliyetli hesaplama gerektirmeden transkripsiyon yapılabiliyor. Sıfır-atış sonuçlar henüz tam eğitilmiş sistemlerle eşleşmese de, bu yöntem az hizmet alan dillerin dijital ekosisteme entegrasyonunu ölçeklenebilir hale getiriyor.

Meta AI, Omnilingual ASR Paketi ve Derlemesiyle Konuşma Tanımayı Geliştirmeyi Hedefliyor

Araştırma bölümü, herhangi bir dil için konuşma teknolojisini ilerletmek amacıyla kapsamlı bir model ve veri seti yayımladı. FAIR’in önceki araştırmalarına dayanarak, Omnilingual ASR, düşük güç tüketimli cihazlar için hafif 300M modellerden yüksek doğruluk sağlayan 7B modellere kadar iki çözümleyici varyantı içeriyor. Ayrıca, çok çeşitli konuşma görevlerini destekleyen, farklı boyutlarda wav2vec 2.0 temel modeli de mevcut. Tüm modeller, Apache 2.0 lisansı altında sunuluyor ve veri seti CC-BY lisansı ile erişilebilir; böylece araştırmacılar, geliştiriciler ve dil savunucuları, FAIR’in açık kaynaklı fairseq2 çerçevesini kullanarak konuşma çözümlerini uyarlayabilir ve genişletebilir.

Omnilingual ASR, en büyük ve en dilsel olarak çeşitli ASR derlemlerinden biri üzerinde eğitildi; kamuya açık veri setleri ile topluluk kaynaklı kayıtları birleştiriyor. Dijital varlığı sınırlı olan diller için, Meta AI, yerel organizasyonlarla ortaklık kurarak ana dili konuşanları uzak veya az belgelenmiş bölgelerde işe alıp ücretlendirdi ve böylece, bugüne kadarki en büyük ultra-düşük kaynaklı spontane ASR veri seti olan Omnilingual ASR Derlemesini oluşturdu. Ayrıca, Dil Teknolojisi Ortaklık Programı aracılığıyla, dilbilimciler, araştırmacılar ve dil toplulukları dünya çapında bir araya getirildi; Mozilla Vakfı’nın Common Voice ve Lanfrica/NaijaVoices gibi ortaklıklar kuruldu. Bu çalışmalar, derin dilbilimsel içgörüler ve kültürel bağlam sağlayarak, teknolojinin yerel ihtiyaçlara uygun olmasını ve çeşitli dil topluluklarını küresel ölçekte güçlendirmesini sağladı.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)