Une œuvre d'art n'est jamais achevée, seulement abandonnée.
Tout le monde parle des agents d'IA, mais ce qu'ils veulent dire n'est pas la même chose, ce qui conduit à des compréhensions différentes des agents d'IA de notre perspective, de celle du public et de celle des praticiens de l'IA.
Il y a longtemps, j'ai écrit que Crypto est l'illusion de l'IA. Depuis lors, la combinaison de Crypto et de l'IA est restée une relation amoureuse à sens unique. Les praticiens de l'IA mentionnent rarement Web3 ou la blockchain, tandis que les enthousiastes de Crypto sont profondément amoureux de l'IA. Après avoir été témoins du phénomène où les cadres des agents d'IA peuvent même être tokenisés, il est incertain de savoir si cela pourrait vraiment amener les praticiens de l'IA dans notre monde.
L'IA est l'agent de Crypto. C'est la meilleure annotation d'un point de vue crypto pour examiner la poussée actuelle de l'IA. L'enthousiasme de Crypto pour l'IA est différent de celui d'autres industries ; nous espérons particulièrement intégrer son émission et son fonctionnement d'actifs financiers.
À sa base, l'Agent d'IA a au moins trois sources. L'AGI (Intelligence Artificielle Générale) d'OpenAI considère cela comme une étape importante, transformant le terme en un mot à la mode populaire au-delà des cercles techniques. Cependant, en essence, un Agent n'est pas un concept nouveau. Même avec l'autonomisation de l'IA, il est difficile de dire que c'est une tendance technologique révolutionnaire.
La première source est l'Agent IA tel que vu par OpenAI. Similaire au niveau L3 en conduite autonome, un Agent IA peut être considéré comme possédant certaines capacités d'assistance avancées mais n'est pas encore capable de remplacer pleinement un être humain.
Légende de l'image : phase AGI de la planification d'OpenAI
Source de l'image :https://www.bloomberg.com/
La deuxième source est, comme son nom l'indique, l'Agent IA, qui est un Agent doté d'IA. Le concept d'agence et de mécanismes de délégation n'est pas nouveau dans le domaine de l'informatique. Cependant, selon la vision d'OpenAI, l'Agent deviendra le stade L3 après les formes conversationnelles (comme ChatGPT) et les formes de raisonnement (comme divers bots). La caractéristique clé de ce stade est la capacité à "exécuter certains comportements de manière autonome", ou, comme le définit Harrison Chase, fondateur de LangChain : "Un Agent IA est un système qui utilise un LLM (Large Language Model) pour prendre des décisions de flux de contrôle dans un programme." \
C'est là que cela devient intrigant. Avant l'avènement des LLM, un Agent exécutait principalement des processus d'automatisation définis par des humains. Par exemple, lors de la conception d'un gratteur web, les programmeurs définiraient un User-Agent pour simuler des détails comme la version du navigateur et le système d'exploitation utilisé par de vrais utilisateurs. Si un Agent IA était employé pour imiter plus précisément le comportement humain, cela pourrait conduire à la création d'un cadre de gratteur web basé sur un Agent IA, rendant le gratteur "plus semblable à un humain." \
Dans de telles transitions, l'introduction d'agents d'IA doit s'intégrer aux scénarios existants, car les domaines entièrement nouveaux sont rares. Même les fonctionnalités de complétion de code et de génération dans des outils comme Curosr et Github Copilot ne sont que des améliorations fonctionnelles dans le cadre du protocole du serveur de langage (LSP), avec de nombreux exemples d'une telle évolution:
Pour clarifier, en interaction homme-machine, la combinaison de l'interface utilisateur graphique de Web 1.0 et des navigateurs a réellement permis au public d'utiliser des ordinateurs sans barrières, représentée par la combinaison de Windows et IE. Les API sont devenues la norme d'abstraction et de transmission des données derrière Internet, et pendant l'ère de Web 2.0, des navigateurs comme Chrome ont émergé, avec un passage au mobile changeant les habitudes d'utilisation d'Internet des gens. Les super applications comme WeChat et les plateformes Meta couvrent désormais tous les aspects de la vie des gens.
La troisième source est le concept d'«Intention» dans le domaine Crypto, ce qui a entraîné une augmentation de l'intérêt pour les agents d'IA. Cependant, notez que cela ne s'applique qu'à Crypto. Des scripts Bitcoin avec une fonctionnalité limitée aux contrats intelligents d'Ethereum, le concept d'Agent lui-même a été largement utilisé. L'apparition ultérieure de ponts inter-chaînes, d'abstractions de chaînes, de portefeuilles EOA (Comptes possédés de manière externe) à AA (Abstraction de compte) sont des extensions naturelles de cette ligne de pensée. Par conséquent, lorsque les agents d'IA «envahissent» Crypto, il n'est pas surprenant qu'ils conduisent naturellement à des scénarios DeFi.
C'est là que réside la confusion autour du concept d'Agent d'IA. Dans le contexte de la Crypto, ce que nous essayons réellement d'atteindre, c'est un Agent de "gestion financière automatisée, génération de mèmes automatisée". Cependant, selon la définition d'OpenAI, un tel scénario risqué nécessiterait la mise en œuvre réelle de L4 ou L5. Pendant ce temps, le public expérimente la génération de code automatique ou l'assistance à la rédaction et à la rédaction alimentées par l'IA, qui ne sont pas du même niveau que les objectifs que nous poursuivons.
Une fois que nous comprenons ce que nous voulons vraiment, nous pouvons nous concentrer sur la logique organisationnelle des agents d'IA. Les détails techniques suivront, car le concept d'un agent d'IA consiste finalement à supprimer les barrières à l'adoption à grande échelle de la technologie, tout comme les navigateurs ont révolutionné l'industrie des PC personnels. Notre attention se portera sur deux points : examiner les agents d'IA du point de vue de l'interaction homme-machine, et comprendre les différences et les liens entre les agents d'IA et les LLM, ce qui nous mènera à la troisième partie : ce que la combinaison de la crypto et des agents d'IA laissera finalement derrière elle.
Avant les modèles de conversation humain-ordinateur comme ChatGPT, les formes principales d'interaction humain-ordinateur étaient GUI (Interface Graphique Utilisateur) et CLI (Interface de Ligne de Commande). La mentalité GUI a évolué en différentes formes spécifiques telles que les navigateurs et les applications, tandis que la combinaison de CLI et de Shell a connu des changements minimes.
Mais cela n'est que le 'frontend' de l'interaction homme-machine. Avec l'évolution d'Internet, l'augmentation du volume et de la variété des données a conduit à davantage d'interactions 'backend' entre les données et entre les applications. Ces deux aspects dépendent l'un de l'autre - même une simple action de navigation sur le web nécessite en réalité leur collaboration.
Si l'interaction humaine avec les navigateurs et les applications est considérée comme le point d'entrée de l'utilisateur, les liens et les transitions entre les API soutiennent le fonctionnement réel d'Internet. Cela fait en fait partie de l'Agent. Les utilisateurs ordinaires n'ont pas besoin de comprendre des termes tels que les lignes de commande et les API pour atteindre leurs objectifs.
Il en va de même pour les LLM. Maintenant, les utilisateurs peuvent aller encore plus loin - il n'est plus nécessaire de chercher. Tout le processus peut être décrit en suivant les étapes suivantes:
On peut constater que dans ce processus, le plus grand défi est Google, car les utilisateurs n'ont pas besoin d'ouvrir le moteur de recherche, mais différentes fenêtres de dialogue de type GPT, et l'entrée du trafic change silencieusement. C'est pour cette raison que certaines personnes pensent que cette LLM révolutionne la vie des moteurs de recherche.
Alors, quel rôle joue l'agent IA dans ce processus ?
En bref, l'Agent IA est une extension spécialisée de LLM.
Les LLM actuels ne sont pas des AGI (Intelligence Artificielle Générale) et sont loin de l'organisateur de niveau L5 envisagé par OpenAI. Leurs capacités sont considérablement limitées. Par exemple, les LLM sont sujets à des hallucinations s'ils reçoivent trop d'entrées utilisateur. Une raison clé réside dans le mécanisme de formation. Par exemple, si vous dites à plusieurs reprises à GPT que 1+1=3, il y a une probabilité qu'il réponde 4 lorsqu'on lui demande ce que vaut 1+1+1=?.
Cela se produit parce que les commentaires de GPT sont entièrement dérivés de l’entrée de l’utilisateur. Si le modèle n’est pas connecté à Internet, il est possible que son fonctionnement soit modifié par vos entrées, ce qui donne un modèle qui ne « connaît » que 1+1=3. Cependant, si le modèle est autorisé à se connecter à Internet, son mécanisme de rétroaction devient plus diversifié, car la grande majorité des données en ligne affirmeraient que 1 + 1 = 2.
Maintenant, que se passe-t-il si nous devons utiliser des LLM localement et que nous voulons éviter de tels problèmes ?
Une solution simple consiste à utiliser simultanément deux LLM, les obligeant à se valider mutuellement pour réduire la probabilité d'erreurs. Si cela ne suffit pas, une autre approche pourrait impliquer que deux utilisateurs gèrent un seul processus : l'un posant les questions et l'autre les affinant pour rendre le langage plus précis et logique.
Bien sûr, être connecté à Internet n'élimine pas complètement les problèmes. Par exemple, si le LLM récupère des réponses à partir de sources peu fiables, la situation pourrait empirer. Éviter de telles données réduit toutefois la quantité d'informations disponibles. Pour remédier à cela, les données existantes peuvent être divisées, recombinées, voire utilisées pour générer de nouvelles données basées sur des ensembles de données plus anciens afin de rendre les réponses plus fiables. Cette approche correspond essentiellement au concept de la RAG (Retrieval-Augmented Generation) en compréhension naturelle du langage.
Les humains et les machines doivent se comprendre mutuellement. Lorsque plusieurs LLM collaborent et interagissent, nous exploitons essentiellement le modèle opérationnel des agents d'IA. Ils servent de mandataires humains, accédant à d'autres ressources, y compris de grands modèles et d'autres agents.
Cela nous amène à la connexion entre LLM et les agents d'IA :
Les LLM sont des agrégations de connaissances avec lesquelles les humains interagissent via des interfaces de discussion. Cependant, en pratique, certains flux de travail spécifiques peuvent être condensés en de plus petits programmes, des robots ou des ensembles d'instructions. Ceux-ci sont définis comme des Agents.
Les agents d'IA restent un sous-ensemble des LLM mais ne doivent pas être assimilés à eux. La caractéristique déterminante des agents d'IA réside dans leur accent mis sur la collaboration avec des programmes externes, des LLM et d'autres agents. C'est pourquoi les gens résument souvent les agents d'IA comme étant LLM + API.
Pour illustrer cela dans le flux de travail LLM, prenons l'exemple d'un appel API via un agent IA :
Souvenez-vous de l'évolution de l'interaction homme-machine ? Les navigateurs, les API et les autres éléments de la Web 1.0 et de la Web 2.0 existent toujours, mais les utilisateurs n'ont plus besoin d'interagir directement avec eux. Au lieu de cela, ils peuvent simplement interagir avec des agents d'IA. Les appels d'API et les processus associés peuvent tous être effectués de manière conversationnelle. Ces services d'API peuvent englober n'importe quel type de données, qu'elles soient locales, en ligne ou provenant d'applications externes, tant que les interfaces sont ouvertes et que les utilisateurs disposent des autorisations nécessaires pour y accéder.
Un flux de travail complet de l'Agent IA, tel qu'illustré ci-dessus, traite LLM soit comme un composant séparé de l'Agent IA, soit comme deux sous-processus dans un seul flux de travail. Quelle que soit la façon dont ils sont divisés, l'objectif est toujours de répondre aux besoins des utilisateurs. Du point de vue de l'interaction homme-machine, cela peut même donner l'impression que les utilisateurs se parlent à eux-mêmes. Vous n'avez qu'à exprimer pleinement vos pensées et l'Agent IA/LLM/Agent IA devinera continuellement vos besoins. En incorporant des mécanismes de rétroaction et en veillant à ce que le LLM se souvienne du contexte actuel, l'Agent IA évite de perdre le fil de ses tâches.
En résumé, les agents d'IA sont des créations plus personnalisées et humanisées, ce qui les distingue des scripts traditionnels et des outils d'automatisation. Ils agissent comme des assistants personnels, en tenant compte des besoins réels de l'utilisateur. Cependant, il est important de noter que cette personnalisation est toujours basée sur un raisonnement probabiliste. Un agent d'IA de niveau L3 ne possède pas des capacités de compréhension et d'expression de niveau humain, ce qui rend son intégration avec des API externes intrinsèquement risquée.
La capacité de monétiser les cadres d'IA est l'une des principales raisons pour lesquelles je reste intéressé par la crypto. Dans les piles technologiques d'IA traditionnelles, les cadres ne sont pas particulièrement importants, du moins pas comparés aux données et à la puissance de calcul. La monétisation des produits d'IA commence rarement par le cadre, car la plupart des algorithmes et des cadres de modèles d'IA sont open source. Ce qui reste propriétaire, ce sont des éléments sensibles comme les données.
Essentiellement, les cadres ou modèles d'IA sont des conteneurs et des combinaisons d'algorithmes, tout comme un pot pour faire cuire l'oie. Cependant, la qualité de l'oie et la maîtrise du processus de cuisson sont ce qui définit vraiment la saveur. En théorie, le produit à vendre devrait être l'oie, mais les clients de Web3 semblent préférer acheter le pot tout en jetant l'oie.
La raison de cela n'est pas compliquée. La plupart des produits Web3 AI s'appuient sur des cadres, des algorithmes et des produits d'IA existants, en les personnalisant pour leurs besoins. En fait, les principes techniques des différents cadres d'IA crypto ne sont pas très différents. Étant donné que la technologie elle-même manque de différenciation, l'attention se porte sur le branding, les scénarios d'application et d'autres distinctions superficielles. Par conséquent, même de légères modifications du cadre d'IA deviennent la base de soutien à divers jetons, ce qui conduit à une bulle de cadre au sein des écosystèmes des agents d'IA crypto.
Parce qu'il n'est pas nécessaire d'investir lourdement dans des données de formation ou des algorithmes, différencier les cadres par leur nom devient particulièrement crucial. Même un cadre abordable comme DeepSeek V3 demande encore des coûts significatifs en termes de puissance GPU, d'électricité et d'efforts.
Dans un sens, cela s'aligne sur la tendance récente de Web3 : les plateformes émettant des jetons sont souvent plus précieuses que les jetons eux-mêmes. Des projets comme Pump.Fun et Hyperliquid en sont l'exemple. À l'origine, les Agents étaient censés représenter les applications et les actifs, mais les cadres émettant des Agents sont maintenant devenus les produits les plus recherchés.
Cela reflète une forme d'ancrage de valeur. Comme les Agents manquent de différenciation, les cadres pour l'émission des Agents deviennent plus stables et créent un effet de siphonnage de valeur pour l'émission d'actifs. Cela marque la version 1.0 de l'intégration de la crypto et des Agents d'IA.
La version 2.0 émerge maintenant, exemplifiée par la convergence de DeFi et d'agents d'IA. Alors que le concept de DeFAI a pu être déclenché par l'engouement du marché, un examen plus approfondi des tendances suivantes suggère le contraire :
Dans ce contexte de transformation de DeFi, l'IA est en train de remodeler la logique fondamentale de DeFi. Auparavant, la logique centrale de DeFi était de vérifier la faisabilité des contrats intelligents. Maintenant, les agents d'IA modifient la logique de fabrication de DeFi. Vous n'avez plus besoin de comprendre DeFi pour créer des produits DeFi. Cela représente une étape au-delà de l'abstraction de chaîne, offrant une autonomisation fondamentale plus profonde.
L’ère où tout le monde peut être programmeur se profile à l’horizon. Les calculs complexes peuvent être externalisés vers le LLM et les API derrière AI Agents, ce qui permet aux individus de se concentrer uniquement sur leurs idées. Le langage naturel peut être efficacement transformé en logique de programmation.
Cet article ne mentionne pas de jetons ou de cadres Crypto AI Agent, car Cookie.Fun a déjà fait un excellent travail - une plateforme d'agrégation d'informations sur les agents d'IA et de découverte de jetons, suivie de cadres d'agents d'IA, et enfin de l'apparition fugace et de la disparition des jetons d'agents. Continuer à énumérer de telles informations ici serait de peu de valeur.
Cependant, grâce aux observations faites pendant cette période, le marché manque encore d'une discussion significative sur ce à quoi les agents d'IA Crypto pointent finalement. Nous ne pouvons pas continuer à nous concentrer sur les indicateurs ; l'essence réside dans les changements qui se produisent au niveau de la mémoire.
C'est précisément la capacité en constante évolution de transformer divers actifs en formes tokenisées qui rend Crypto si captivant.
Une œuvre d'art n'est jamais achevée, seulement abandonnée.
Tout le monde parle des agents d'IA, mais ce qu'ils veulent dire n'est pas la même chose, ce qui conduit à des compréhensions différentes des agents d'IA de notre perspective, de celle du public et de celle des praticiens de l'IA.
Il y a longtemps, j'ai écrit que Crypto est l'illusion de l'IA. Depuis lors, la combinaison de Crypto et de l'IA est restée une relation amoureuse à sens unique. Les praticiens de l'IA mentionnent rarement Web3 ou la blockchain, tandis que les enthousiastes de Crypto sont profondément amoureux de l'IA. Après avoir été témoins du phénomène où les cadres des agents d'IA peuvent même être tokenisés, il est incertain de savoir si cela pourrait vraiment amener les praticiens de l'IA dans notre monde.
L'IA est l'agent de Crypto. C'est la meilleure annotation d'un point de vue crypto pour examiner la poussée actuelle de l'IA. L'enthousiasme de Crypto pour l'IA est différent de celui d'autres industries ; nous espérons particulièrement intégrer son émission et son fonctionnement d'actifs financiers.
À sa base, l'Agent d'IA a au moins trois sources. L'AGI (Intelligence Artificielle Générale) d'OpenAI considère cela comme une étape importante, transformant le terme en un mot à la mode populaire au-delà des cercles techniques. Cependant, en essence, un Agent n'est pas un concept nouveau. Même avec l'autonomisation de l'IA, il est difficile de dire que c'est une tendance technologique révolutionnaire.
La première source est l'Agent IA tel que vu par OpenAI. Similaire au niveau L3 en conduite autonome, un Agent IA peut être considéré comme possédant certaines capacités d'assistance avancées mais n'est pas encore capable de remplacer pleinement un être humain.
Légende de l'image : phase AGI de la planification d'OpenAI
Source de l'image :https://www.bloomberg.com/
La deuxième source est, comme son nom l'indique, l'Agent IA, qui est un Agent doté d'IA. Le concept d'agence et de mécanismes de délégation n'est pas nouveau dans le domaine de l'informatique. Cependant, selon la vision d'OpenAI, l'Agent deviendra le stade L3 après les formes conversationnelles (comme ChatGPT) et les formes de raisonnement (comme divers bots). La caractéristique clé de ce stade est la capacité à "exécuter certains comportements de manière autonome", ou, comme le définit Harrison Chase, fondateur de LangChain : "Un Agent IA est un système qui utilise un LLM (Large Language Model) pour prendre des décisions de flux de contrôle dans un programme." \
C'est là que cela devient intrigant. Avant l'avènement des LLM, un Agent exécutait principalement des processus d'automatisation définis par des humains. Par exemple, lors de la conception d'un gratteur web, les programmeurs définiraient un User-Agent pour simuler des détails comme la version du navigateur et le système d'exploitation utilisé par de vrais utilisateurs. Si un Agent IA était employé pour imiter plus précisément le comportement humain, cela pourrait conduire à la création d'un cadre de gratteur web basé sur un Agent IA, rendant le gratteur "plus semblable à un humain." \
Dans de telles transitions, l'introduction d'agents d'IA doit s'intégrer aux scénarios existants, car les domaines entièrement nouveaux sont rares. Même les fonctionnalités de complétion de code et de génération dans des outils comme Curosr et Github Copilot ne sont que des améliorations fonctionnelles dans le cadre du protocole du serveur de langage (LSP), avec de nombreux exemples d'une telle évolution:
Pour clarifier, en interaction homme-machine, la combinaison de l'interface utilisateur graphique de Web 1.0 et des navigateurs a réellement permis au public d'utiliser des ordinateurs sans barrières, représentée par la combinaison de Windows et IE. Les API sont devenues la norme d'abstraction et de transmission des données derrière Internet, et pendant l'ère de Web 2.0, des navigateurs comme Chrome ont émergé, avec un passage au mobile changeant les habitudes d'utilisation d'Internet des gens. Les super applications comme WeChat et les plateformes Meta couvrent désormais tous les aspects de la vie des gens.
La troisième source est le concept d'«Intention» dans le domaine Crypto, ce qui a entraîné une augmentation de l'intérêt pour les agents d'IA. Cependant, notez que cela ne s'applique qu'à Crypto. Des scripts Bitcoin avec une fonctionnalité limitée aux contrats intelligents d'Ethereum, le concept d'Agent lui-même a été largement utilisé. L'apparition ultérieure de ponts inter-chaînes, d'abstractions de chaînes, de portefeuilles EOA (Comptes possédés de manière externe) à AA (Abstraction de compte) sont des extensions naturelles de cette ligne de pensée. Par conséquent, lorsque les agents d'IA «envahissent» Crypto, il n'est pas surprenant qu'ils conduisent naturellement à des scénarios DeFi.
C'est là que réside la confusion autour du concept d'Agent d'IA. Dans le contexte de la Crypto, ce que nous essayons réellement d'atteindre, c'est un Agent de "gestion financière automatisée, génération de mèmes automatisée". Cependant, selon la définition d'OpenAI, un tel scénario risqué nécessiterait la mise en œuvre réelle de L4 ou L5. Pendant ce temps, le public expérimente la génération de code automatique ou l'assistance à la rédaction et à la rédaction alimentées par l'IA, qui ne sont pas du même niveau que les objectifs que nous poursuivons.
Une fois que nous comprenons ce que nous voulons vraiment, nous pouvons nous concentrer sur la logique organisationnelle des agents d'IA. Les détails techniques suivront, car le concept d'un agent d'IA consiste finalement à supprimer les barrières à l'adoption à grande échelle de la technologie, tout comme les navigateurs ont révolutionné l'industrie des PC personnels. Notre attention se portera sur deux points : examiner les agents d'IA du point de vue de l'interaction homme-machine, et comprendre les différences et les liens entre les agents d'IA et les LLM, ce qui nous mènera à la troisième partie : ce que la combinaison de la crypto et des agents d'IA laissera finalement derrière elle.
Avant les modèles de conversation humain-ordinateur comme ChatGPT, les formes principales d'interaction humain-ordinateur étaient GUI (Interface Graphique Utilisateur) et CLI (Interface de Ligne de Commande). La mentalité GUI a évolué en différentes formes spécifiques telles que les navigateurs et les applications, tandis que la combinaison de CLI et de Shell a connu des changements minimes.
Mais cela n'est que le 'frontend' de l'interaction homme-machine. Avec l'évolution d'Internet, l'augmentation du volume et de la variété des données a conduit à davantage d'interactions 'backend' entre les données et entre les applications. Ces deux aspects dépendent l'un de l'autre - même une simple action de navigation sur le web nécessite en réalité leur collaboration.
Si l'interaction humaine avec les navigateurs et les applications est considérée comme le point d'entrée de l'utilisateur, les liens et les transitions entre les API soutiennent le fonctionnement réel d'Internet. Cela fait en fait partie de l'Agent. Les utilisateurs ordinaires n'ont pas besoin de comprendre des termes tels que les lignes de commande et les API pour atteindre leurs objectifs.
Il en va de même pour les LLM. Maintenant, les utilisateurs peuvent aller encore plus loin - il n'est plus nécessaire de chercher. Tout le processus peut être décrit en suivant les étapes suivantes:
On peut constater que dans ce processus, le plus grand défi est Google, car les utilisateurs n'ont pas besoin d'ouvrir le moteur de recherche, mais différentes fenêtres de dialogue de type GPT, et l'entrée du trafic change silencieusement. C'est pour cette raison que certaines personnes pensent que cette LLM révolutionne la vie des moteurs de recherche.
Alors, quel rôle joue l'agent IA dans ce processus ?
En bref, l'Agent IA est une extension spécialisée de LLM.
Les LLM actuels ne sont pas des AGI (Intelligence Artificielle Générale) et sont loin de l'organisateur de niveau L5 envisagé par OpenAI. Leurs capacités sont considérablement limitées. Par exemple, les LLM sont sujets à des hallucinations s'ils reçoivent trop d'entrées utilisateur. Une raison clé réside dans le mécanisme de formation. Par exemple, si vous dites à plusieurs reprises à GPT que 1+1=3, il y a une probabilité qu'il réponde 4 lorsqu'on lui demande ce que vaut 1+1+1=?.
Cela se produit parce que les commentaires de GPT sont entièrement dérivés de l’entrée de l’utilisateur. Si le modèle n’est pas connecté à Internet, il est possible que son fonctionnement soit modifié par vos entrées, ce qui donne un modèle qui ne « connaît » que 1+1=3. Cependant, si le modèle est autorisé à se connecter à Internet, son mécanisme de rétroaction devient plus diversifié, car la grande majorité des données en ligne affirmeraient que 1 + 1 = 2.
Maintenant, que se passe-t-il si nous devons utiliser des LLM localement et que nous voulons éviter de tels problèmes ?
Une solution simple consiste à utiliser simultanément deux LLM, les obligeant à se valider mutuellement pour réduire la probabilité d'erreurs. Si cela ne suffit pas, une autre approche pourrait impliquer que deux utilisateurs gèrent un seul processus : l'un posant les questions et l'autre les affinant pour rendre le langage plus précis et logique.
Bien sûr, être connecté à Internet n'élimine pas complètement les problèmes. Par exemple, si le LLM récupère des réponses à partir de sources peu fiables, la situation pourrait empirer. Éviter de telles données réduit toutefois la quantité d'informations disponibles. Pour remédier à cela, les données existantes peuvent être divisées, recombinées, voire utilisées pour générer de nouvelles données basées sur des ensembles de données plus anciens afin de rendre les réponses plus fiables. Cette approche correspond essentiellement au concept de la RAG (Retrieval-Augmented Generation) en compréhension naturelle du langage.
Les humains et les machines doivent se comprendre mutuellement. Lorsque plusieurs LLM collaborent et interagissent, nous exploitons essentiellement le modèle opérationnel des agents d'IA. Ils servent de mandataires humains, accédant à d'autres ressources, y compris de grands modèles et d'autres agents.
Cela nous amène à la connexion entre LLM et les agents d'IA :
Les LLM sont des agrégations de connaissances avec lesquelles les humains interagissent via des interfaces de discussion. Cependant, en pratique, certains flux de travail spécifiques peuvent être condensés en de plus petits programmes, des robots ou des ensembles d'instructions. Ceux-ci sont définis comme des Agents.
Les agents d'IA restent un sous-ensemble des LLM mais ne doivent pas être assimilés à eux. La caractéristique déterminante des agents d'IA réside dans leur accent mis sur la collaboration avec des programmes externes, des LLM et d'autres agents. C'est pourquoi les gens résument souvent les agents d'IA comme étant LLM + API.
Pour illustrer cela dans le flux de travail LLM, prenons l'exemple d'un appel API via un agent IA :
Souvenez-vous de l'évolution de l'interaction homme-machine ? Les navigateurs, les API et les autres éléments de la Web 1.0 et de la Web 2.0 existent toujours, mais les utilisateurs n'ont plus besoin d'interagir directement avec eux. Au lieu de cela, ils peuvent simplement interagir avec des agents d'IA. Les appels d'API et les processus associés peuvent tous être effectués de manière conversationnelle. Ces services d'API peuvent englober n'importe quel type de données, qu'elles soient locales, en ligne ou provenant d'applications externes, tant que les interfaces sont ouvertes et que les utilisateurs disposent des autorisations nécessaires pour y accéder.
Un flux de travail complet de l'Agent IA, tel qu'illustré ci-dessus, traite LLM soit comme un composant séparé de l'Agent IA, soit comme deux sous-processus dans un seul flux de travail. Quelle que soit la façon dont ils sont divisés, l'objectif est toujours de répondre aux besoins des utilisateurs. Du point de vue de l'interaction homme-machine, cela peut même donner l'impression que les utilisateurs se parlent à eux-mêmes. Vous n'avez qu'à exprimer pleinement vos pensées et l'Agent IA/LLM/Agent IA devinera continuellement vos besoins. En incorporant des mécanismes de rétroaction et en veillant à ce que le LLM se souvienne du contexte actuel, l'Agent IA évite de perdre le fil de ses tâches.
En résumé, les agents d'IA sont des créations plus personnalisées et humanisées, ce qui les distingue des scripts traditionnels et des outils d'automatisation. Ils agissent comme des assistants personnels, en tenant compte des besoins réels de l'utilisateur. Cependant, il est important de noter que cette personnalisation est toujours basée sur un raisonnement probabiliste. Un agent d'IA de niveau L3 ne possède pas des capacités de compréhension et d'expression de niveau humain, ce qui rend son intégration avec des API externes intrinsèquement risquée.
La capacité de monétiser les cadres d'IA est l'une des principales raisons pour lesquelles je reste intéressé par la crypto. Dans les piles technologiques d'IA traditionnelles, les cadres ne sont pas particulièrement importants, du moins pas comparés aux données et à la puissance de calcul. La monétisation des produits d'IA commence rarement par le cadre, car la plupart des algorithmes et des cadres de modèles d'IA sont open source. Ce qui reste propriétaire, ce sont des éléments sensibles comme les données.
Essentiellement, les cadres ou modèles d'IA sont des conteneurs et des combinaisons d'algorithmes, tout comme un pot pour faire cuire l'oie. Cependant, la qualité de l'oie et la maîtrise du processus de cuisson sont ce qui définit vraiment la saveur. En théorie, le produit à vendre devrait être l'oie, mais les clients de Web3 semblent préférer acheter le pot tout en jetant l'oie.
La raison de cela n'est pas compliquée. La plupart des produits Web3 AI s'appuient sur des cadres, des algorithmes et des produits d'IA existants, en les personnalisant pour leurs besoins. En fait, les principes techniques des différents cadres d'IA crypto ne sont pas très différents. Étant donné que la technologie elle-même manque de différenciation, l'attention se porte sur le branding, les scénarios d'application et d'autres distinctions superficielles. Par conséquent, même de légères modifications du cadre d'IA deviennent la base de soutien à divers jetons, ce qui conduit à une bulle de cadre au sein des écosystèmes des agents d'IA crypto.
Parce qu'il n'est pas nécessaire d'investir lourdement dans des données de formation ou des algorithmes, différencier les cadres par leur nom devient particulièrement crucial. Même un cadre abordable comme DeepSeek V3 demande encore des coûts significatifs en termes de puissance GPU, d'électricité et d'efforts.
Dans un sens, cela s'aligne sur la tendance récente de Web3 : les plateformes émettant des jetons sont souvent plus précieuses que les jetons eux-mêmes. Des projets comme Pump.Fun et Hyperliquid en sont l'exemple. À l'origine, les Agents étaient censés représenter les applications et les actifs, mais les cadres émettant des Agents sont maintenant devenus les produits les plus recherchés.
Cela reflète une forme d'ancrage de valeur. Comme les Agents manquent de différenciation, les cadres pour l'émission des Agents deviennent plus stables et créent un effet de siphonnage de valeur pour l'émission d'actifs. Cela marque la version 1.0 de l'intégration de la crypto et des Agents d'IA.
La version 2.0 émerge maintenant, exemplifiée par la convergence de DeFi et d'agents d'IA. Alors que le concept de DeFAI a pu être déclenché par l'engouement du marché, un examen plus approfondi des tendances suivantes suggère le contraire :
Dans ce contexte de transformation de DeFi, l'IA est en train de remodeler la logique fondamentale de DeFi. Auparavant, la logique centrale de DeFi était de vérifier la faisabilité des contrats intelligents. Maintenant, les agents d'IA modifient la logique de fabrication de DeFi. Vous n'avez plus besoin de comprendre DeFi pour créer des produits DeFi. Cela représente une étape au-delà de l'abstraction de chaîne, offrant une autonomisation fondamentale plus profonde.
L’ère où tout le monde peut être programmeur se profile à l’horizon. Les calculs complexes peuvent être externalisés vers le LLM et les API derrière AI Agents, ce qui permet aux individus de se concentrer uniquement sur leurs idées. Le langage naturel peut être efficacement transformé en logique de programmation.
Cet article ne mentionne pas de jetons ou de cadres Crypto AI Agent, car Cookie.Fun a déjà fait un excellent travail - une plateforme d'agrégation d'informations sur les agents d'IA et de découverte de jetons, suivie de cadres d'agents d'IA, et enfin de l'apparition fugace et de la disparition des jetons d'agents. Continuer à énumérer de telles informations ici serait de peu de valeur.
Cependant, grâce aux observations faites pendant cette période, le marché manque encore d'une discussion significative sur ce à quoi les agents d'IA Crypto pointent finalement. Nous ne pouvons pas continuer à nous concentrer sur les indicateurs ; l'essence réside dans les changements qui se produisent au niveau de la mémoire.
C'est précisément la capacité en constante évolution de transformer divers actifs en formes tokenisées qui rend Crypto si captivant.