Après Puissance de calcul, la qualité des données de corpus ou décide de la capacité maximale du grand modèle

robot
Création du résumé en cours

Du 21 au 23 février, la ville de Shanghai accueillera la Conférence mondiale des développeurs 2025 (Global Developer Conference, ci-après GDC). La Commission économique et informatique de Shanghai a déclaré que 100 communautés de développeurs nationales et étrangères, telles que Hugging Face, la communauté des développeurs Microsoft, CSDN, la communauté de développement Ali Moda, la Fondation Linux, la Fondation ARPA, la communauté Huawei, participeront à cette édition du GDC ; se concentrant sur les grands modèles, la puissance de calcul, les corpus, les outils, les plateformes logicielles et autres technologies clés, les développeurs participants couvrent le développement matériel, le cloud computing, le big data, l'internet des objets, l'IA, les robots, la blockchain et le Metaverse, etc.

Shanghai Kupas Technology Co., Ltd. is one of the companies participating in this conference. Kupas is a platform-based enterprise specializing in artificial intelligence language data, established specifically in accordance with the requirements of the Shanghai Municipal Party Committee and Municipal Government. The company is positioned as a professional functional language service operation platform, dedicated to providing low-cost, high-quality language data services to basic model, vertical model, and small and medium-sized innovative entrepreneurs.

Notre équipe entière n'a pas pris de congé depuis le quatrième jour du Nouvel An lunaire et a continué à étudier et à suivre l'innovation de DeepSeek. Le PDG de Kupas, Huang Haiqing, a déclaré à Interface News que la montée en puissance soudaine de DeepSeek a suscité à la fois de l'excitation et de l'anxiété dans l'industrie de l'IA. L'anxiété principale réside dans le fait que les modèles existants ont investi autant de fonds mais n'ont pas atteint les mêmes résultats que DeepSeek.

Il estime que le succès de DeepSeek repose non seulement sur l'innovation de l'algorithme d'origine, mais aussi sur l'utilisation d'ensembles de données de haute qualité, ce qui permet d'économiser considérablement la puissance de calcul et les données, ce qui ouvre la voie à un dépassement des courbes pour l'industrie chinoise des grands modèles. Huang Haiqing a déclaré que, compte tenu de la situation actuelle du développement des grands modèles, des ensembles de données de haute qualité détermineront la limite des capacités des grands modèles, et une offre de données de haute qualité permettra de réduire considérablement les coûts de formation des entreprises de grands modèles.

Il a introduit que Cupas a déjà lancé la construction complète du corpus de l'industrie dans les domaines de l'intelligence incarnée, de la finance, de la fabrication, de l'éducation, des soins de santé, du divertissement, de la gouvernance urbaine, etc., et que la plateforme d'exploitation de corpus 1.0 est en service, accélérant le déploiement de la plateforme de synthèse des données de simulation vers le monde réel 2.0. À l'heure actuelle, l'entreprise a déjà connecté plus de 50 partenaires écologiques de corpus, réduisant les coûts des grands modèles en fournissant des ensembles de données de haute qualité et efficaces à ces partenaires.

La loi de mise à l'échelle continue de jouer un rôle, mais la vitesse a ralenti, selon Huang Haiqing. Il estime que dans le futur, en plus des grands modèles linguistiques, l'application de grands modèles multimodaux va commencer à exploser, et les modèles commerciaux ToB (entreprise) et ToG (gouvernement) vont devenir la principale direction de développement des entreprises de grands modèles. Actuellement, de nombreuses entreprises de base de grands modèles se tournent vers des secteurs industriels spécifiques ; à l'avenir, il n'y aura probablement pas plus de dix entreprises de base de grands modèles qui survivront sur le marché chinois.

Dans des industries spécifiques, il estime que les secteurs de la finance, de l'éducation, de la santé et de l'industrie ont déjà adopté en priorité de grands modèles. Dans des domaines clés tels que la conduite automatique, l'intelligence incarnée et l'intelligence scientifique, des grands modèles sont également activement appliqués. Avec le passage du temps, l'industrie du transport, du commerce de détail et d'autres industries utiliseront également de grands modèles. En conséquence, il y a une demande plus importante et de meilleure qualité pour les corpus de données verticaux. Pour les modèles de raisonnement, il est également nécessaire de construire un processus de raisonnement sur les données existantes, ce qui pose de nouvelles exigences en matière de production de corpus de données.

Dans la collecte et la production de données de corpus, Huang Haiqing suggère également de suivre l'évolution de la législation sur le droit d'auteur, en apportant des mises à jour au cadre de définition raisonnable des données de corpus pour l'intelligence artificielle et l'entraînement de grands modèles.

"Ce n'est pas tant changer le passé (les règles) que les ajouter et les mettre à jour, je pense que c'est un chemin assez approprié et opérationnel." a déclaré Huang Haiqing, "Dans le domaine de l'intelligence artificielle, des grands modèles et des données de corpus, les lois sur le droit d'auteur précédentes étaient destinées aux humains. Lorsque les grands modèles entraînent des données de corpus, si l'on utilise à nouveau les critères passés pour évaluer les normes d'apprentissage automatique, cela ne sera pas nécessairement adapté. De plus, ce problème a déjà eu un impact sur les coûts d'achat de données de corpus des grandes entreprises de modèles et sur les risques juridiques."

Il a suggéré qu’il est nécessaire d’accélérer la clarification des règles d’utilisation raisonnable des données de corpus de grands modèles et de promouvoir l’application de la « fouille de textes et de données » dans le domaine de la pré-formation. Promouvoir l’utilisation équitable des données d’apprentissage automatique en Chine, équilibrer les droits des titulaires de droits d’auteur et les besoins du développement scientifique et technologique, et résoudre le problème de l’autorisation difficile ; Le gouvernement devrait mettre en place des politiques encourageantes pour soutenir les entreprises de données de corpus afin de renforcer la recherche et le développement de plates-formes de chaîne d’outils automatisées et de réduire le coût des données de corpus ; Construire une plateforme de chaîne d’outils de nettoyage et d’annotation automatisée par l’IA pour réduire le coût du corpus ; Accélérer la recherche juridique sur l’étendue de la protection des objets générés par l’IA et formuler des règles claires sur la propriété et les responsabilités des objets générés par l’IA.

Huang Haiqing a également déclaré que, à l'avenir, l'IA dominera l'annotation et le nettoyage des données, et l'annotation des données passera d'une industrie intensive en main-d'œuvre à une transformation basée sur la connaissance et la technologie.

(Source: Jiemian News)

Source: Oriental Wealth Net

Auteur : Interface News

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • 1
  • Partager
Commentaire
0/400
GateUser-91487898vip
· 02-25 02:02
Apein ApeinApeinApeinApein
Afficher la traductionRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)