Revisión completa: ¿Cómo nació Manus?

Intermedio3/17/2025, 7:40:21 AM
Este artículo proporciona un análisis profundo del trasfondo de nacimiento de Manus.im, conceptos de productos y sus prácticas innovadoras en el campo de la IA.

La historia empresarial que recibió más nutrición espiritual el año pasado provino del fundador de Dify, Zhang Luyu.

La primera vez que lo conocí fue en el evento “Xixi Taoism” en 2023. Entre los nombres de estrellas presentes, Zhang Luyu pasó desapercibido. Cuando nos volvimos a encontrar en 2024, Dify ya era otra historia - un emprendedor sin un trasfondo glamoroso, que creó uno de los productos de código abierto de IA más exitosos del mundo en medio de las dudas de todos sobre el modelo de negocio.

¿Qué le sucedió a esta empresa en un año, como su inesperada popularidad en el mercado japonés, que es "convencional y fácil de defender pero difícil de atacar", me ayudó a entender mejor el "espíritu empresarial". En su mayoría son accidentes, y también se requiere suerte. En última instancia, necesitas tener la capacidad de encontrar una salida a los cambios constantes y los contratiempos.

Ahora, una historia similar le sucedió a otro emprendedor de alto perfil—Manus.im Xiao Hong y su equipo.

Hace cuatro meses, Xiao Hong mencionó una confusión, 'El equipo es bueno para pasar de 0 a 1 y tiene una fuerte capacidad para aprovechar las oportunidades. Una vez que comienza de 1 a N, el estado no es tan bueno'.

En su experiencia pasada, la mayoría de los proyectos emprendedores han logrado ingresos relativamente estables y considerables, y su última empresa también fue adquirida con éxito. En 2023, su nueva empresa “Butterfly Effect” incluso utilizó un complemento del navegador, Monica.im, para competir en la narrativa de IA de cientos de modelos y convertirse en una de las aplicaciones de IA de más rápido crecimiento con una excelente experiencia de producto. Parece que es un empresario que ha tenido un camino sin problemas. Solo tiene 32 años cuando puede hacer estas cosas.

Pero de hecho, no se sentía muy feliz. En la opinión de Xiao Hong, la llamada 'salida continua de emprendedores' y la supuesta sensación refrescante de ir constantemente de 0 a 1 son como un asedio: la capacidad de aprovechar oportunidades de 0 a 1 es muy sólida y satisfactoria, pero por otro lado, también te preocupa si tendrás que hacerlo de nuevo.

En 2024, los expertos de la industria creen que los asistentes de IA con funciones de memoria como Monica.im enfrentarán presión de fuertes oponentes como Doubao, y no será tan fácil como en 2023. Monica.im tiene un buen comienzo, pero no necesariamente será un éxito a gran escala.

Y la razón por la que está confundido es porque "el equipo realmente va a hacer cosas más difíciles y cosas con techos más altos a continuación" y explorar cosas que pueden abarcar desde 1 hasta N.

Anteriormente, muchas voces prestando atención a Monica.im asumían que este "algo más difícil y con un techo más alto" se refiere al navegador de IA que se ha rumoreado durante mucho tiempo pero que no ha sido lanzado por el equipo. Mirándolo ahora, es cierto que adiviné mal.

Esta exploración más difícil es en realidad: abandonar el navegador de IA que ha alcanzado el estado de lanzamiento, buscar el próximo producto de IA del "momento ChatGPT", encontrar el objetivo de un agente universal y crear la última versión de Manus.im.

Hasta qué punto Manus es innovador y a qué nivel puede llegar en el futuro es ahora un tema candente. Pero lo que vale la pena ver sigue siendo la dirección encontrada en 'las cosas van en contra de las expectativas' y el proceso de encontrar la dirección. Manus.im puede que no logre que este equipo logre cosas del 1 al N, o incluso replicar el impulso de Monica.im, pero al igual que el nombre de esta empresa - 'Efecto Mariposa', muchas acciones y decisiones pequeñas tienen inadvertidamente un impacto profundo en el futuro, 'Conectar los puntos', el camino hacia el mañana estará oculto en la experiencia de hoy.

La experiencia de producto única de Manus proviene de las lecciones aprendidas al crear un "navegador de IA"

Desde mediados hasta finales del año pasado, el navegador de IA del equipo del “Efecto Mariposa” se ha convertido en un secreto “semipúblico” en la industria. El producto que se presentó oficialmente al público fue Manus, que atrajo una atención incontrolable.

Si has experimentado personalmente Manus o has visto el video de demostración, sentirás que tiene una diferencia significativa en comparación con los chatbots u algunas aplicaciones tipo agente: Manus puede ejecutar tareas de forma asincrónica y en paralelo.

Cuando abres una aplicación como Doubao, Kimi, o algo como Uso de Computadora y le envías una pregunta, debes esperar a que responda. De lo contrario, si le hablas mientras está respondiendo o realizando una tarea, la respuesta/tarea anterior se interrumpirá y solo podrás tener una conversación de relevo A-B-A-B con ella.

Sin embargo, en Manus.im, aunque todavía parece un producto de chatbot, puedes hacer 20 preguntas para que realice tareas simultáneamente. Puedes hacer cualquier otra cosa en la computadora, como ver videos, escribir documentos, jugar juegos, etc., sin retrasar su trabajo. Manus puede notificarte una vez que estas tareas estén completadas o si se encuentran problemas durante la ejecución. Si observas desviaciones en su pensamiento durante la ejecución de una tarea, puedes agregar palabras de aviso al cuadro de diálogo en cualquier momento, y continuará pensando y ejecutando la tarea con el nuevo contexto.

La experiencia es asincrónica y se puede paralelizar, y realmente se siente como tener un equipo de internos reales que pueden ayudarte a trabajar.

De hecho, el diseño de la arquitectura del producto de Manus para la experiencia asíncrona se originó a partir de una lección que el equipo aprendió en su producto anterior no revelado, el navegador de IA. Al mismo tiempo, esta es también la razón por la que el equipo invirtió mucha energía, pero decidió dejar de trabajar en el navegador en octubre del año pasado.

La compañía Browser anunció el 25 de octubre de 2024 que dejaría de desarrollar nuevas funciones para el navegador Arc y decidió transferir recursos a un nuevo navegador, Dia, con el objetivo de crear un navegador de IA más simple y fácil de usar. |Fuente: sitio web oficial de Arc

En el navegador de IA, la IA interrumpe constantemente al usuario. Debido a que es un escenario diseñado para un solo usuario, una vez que se usa la IA, no se puede utilizar. Cuando la IA comienza a funcionar, solo puedes ver cómo trabaja, lo que dificulta comenzar. Ver cómo la IA te arrebata el mouse y la computadora no solo te atreves a arrebatárselo, sino que también temes que tocar accidentalmente el teclado o el mouse cause que todo el proceso se colapse y requiera que comiences de nuevo.

Esto permite al equipo hacer dos juicios:

  1. Directamente usar la computadora para realizar el uso de la computadora no es factible en poco tiempo.
  2. AI should use a browser, but not in your browser. It should have its own browser, preferably in the cloud, and finally feed back the results to you.

En una entrevista con Zhang Xiaojun de Tencent Technology, Xiao Hong mencionó que cuando el equipo estaba resumiendo las formas de producto de Jasper a ChatGPT a Monica a Cursor a Devin, encontraron que el programador humano Devin era muy adecuado para esta arquitectura de experiencia asincrónica.

A diferencia de cuando se utiliza Windsurf, a veces te pide que confirmes si tu computadora necesita instalar esta biblioteca; o realiza una operación de línea de comandos y te pide que completes sí o no, porque realmente podría dañar tu computadora, o hay un conflicto con algo - te pide que completes "sí" para proceder al siguiente paso, pero tiene que pasar la culpa.

Por lo tanto, en la opinión del equipo de Manus, "Chatbot debería tener una computadora en la nube, y el código que escribe y las cosas que se deben verificar a través del navegador se ejecutan en esa computadora. Debido a que es un servidor virtual, no importa si se descompone, puedes conseguir otro. Incluso puede liberar el servidor después de que se complete la tarea actual.

Vale la pena señalar que mientras Devin eligió campos verticales e ingenieros hardcore, el equipo de Manus eligió asistentes de inteligencia artificial de propósito general a nivel de consumidor, incluyendo Web y App. Es un asistente de inteligencia artificial de propósito general que puede llamar herramientas y completar varias tareas en el trabajo y la vida según las instrucciones. En el futuro, también entregará los resultados de las tareas a un precio asequible para los consumidores.

02 Menos Estructura, Más Inteligencia

Con una idea clara y un objetivo, el siguiente paso es hacer realidad la idea. ¿Cómo lo hizo Manus?

Según su socio comercial Zhang Tao, esto requiere equipar el modelo grande con una computadora, así como otorgarle permisos del sistema (acceso a API privadas como depósitos de código y sitios web de consulta de datos profesionales) y proporcionarle cierto entrenamiento.

De esta manera, la IA puede utilizar esta computadora para abrir un navegador, tomar acciones para programar herramientas, y luego observar el impacto de sus acciones en el mundo real basándose en la retroalimentación generada por las herramientas, luego pensar en el próximo paso, tomar acciones nuevamente, y luego observar... Este es el proceso de la IA completando tareas en exploración e investigación. Durante este período, Manus también entenderá cada vez más tus requerimientos bajo tu 'entrenamiento'. En el futuro, incluso si no defines claramente tus requerimientos, aún puede 'descifrar el verdadero significado' basándose en el conocimiento acumulado en cada tarea.

Li Bojie, el joven genio de Huawei y fundador de Logenic AI, cree que Manus tiene una característica única que lo diferencia de otros productos: resuelve problemas de la forma de los programadores geeks. |Fuente de la imagen: Captura de pantalla de WeChat

El concepto de los productos de Manus se fue aclarando gradualmente durante la práctica de su equipo: Menos Estructura, Más Inteligencia (Menos Estructura, Más Inteligencia).

Este también fue el momento que hizo que el equipo de Manus dijera "¡Espera!" Por ejemplo, esto es lo que le sucedió al equipo en enero de este año:

Cuando se le pidió a Manus que intentara responder una pregunta en el conjunto de pruebas de GAIA: "En un enlace de video de YouTube similar al estilo de National Geographic, varios pingüinos van y vienen y entran y salen de la pantalla. Se le pide a Manus que cuente el número máximo de pingüinos que aparecen en un solo fotograma al mismo tiempo. ¿Cuántos hay?"

Entonces, algo mágico sucedió.

Manus abrió primero el enlace del video, y la primera acción que realizó fue "Pulsar K". Luego tomó capturas de pantalla una por una para registrar qué tipo de pingüino aparecía en cada fotograma. Finalmente, concluyó que el fotograma en el que aparecían más de 3 tipos de pingüinos. Manus volverá a revisar a continuación, y su próxima acción es "Pulsar 3"... Tras la inspección final, la respuesta fue 3.

Como las personas detrás de la construcción de Manus, deberíamos conocer los límites de sus capacidades, pero para el equipo, la realidad es que "siempre hay sorpresas". Sorprendentemente, no solo Manus respondió correctamente a la pregunta, sino que también, amigos humanos que han usado computadoras y Youtube durante muchos años no necesariamente saben qué son las teclas "K" y "3" en el teclado.

Al mirar la escena algo aturdida frente a ellos, el equipo siguió a Manus y lo hizo de nuevo. La tecla “K” en el teclado es la tecla de pausa, que permite a Manus tomar capturas de pantalla una por una después de pausar para registrar qué pingüino aparece en cada fotograma; “3” también es una tecla de acceso directo, del 0 al 9 representando respectivamente del 0% al 90% de la barra de progreso. 3 es el 30% de la barra de progreso. Puede localizar con precisión ese segundo del video y luego decir a los humanos cuántos tipos de pingüinos hay en esta imagen.

“Este proceso es diferente del Chatbot tradicional. Primero, puede ver imágenes de YouTube en lugar de subtítulos. Segundo, incluso descubrimos que estaba usando teclas de acceso directo de YouTube. Nos sorprendió mucho que respondiera a esta pregunta”. Xiao Hong también mencionó esta escena en una entrevista anterior con Tencent Technology.

De repente, descubrí que Manus no solo era mejor programando que los humanos, sino que el conocimiento de Manus sobre la Web y las aplicaciones que la gente usa a diario superaba con creces la imaginación. Como una IA omnisciente y omnipotente, puede comprender todas las formas y medios en cualquier herramienta, y luego elegir el método óptimo.

Esto una vez más permitió al equipo sentir "Menos Estructura, Más inteligencia" - minimizando restricciones artificiales en la IA y permitiendo que la IA funcione a través de su propia evolución en lugar de enseñarle qué hacer.

En la parte inferior del sitio web oficial de Manus, se presenta de forma discreta el descubrimiento más importante detrás de Manus: "Menos Estructura, Más Inteligencia". |Fuente de captura de pantalla: Manus

Esta es la explicación y el pensamiento extendido de Peak, el cofundador y científico jefe de “Butterfly Effect”, sobre el principio fundamental más importante detrás del producto Manus - “Menos Estructura, Más Inteligencia” el día del lanzamiento del producto Manus:

Cuando sus datos son de alta calidad, su modelo es lo suficientemente inteligente, su arquitectura es lo suficientemente flexible y su ingeniería es lo suficientemente sólida, conceptos como Uso de Computadora, Investigación Profunda y Agente de Codificación cambiarán de características del producto a capacidades que emergen naturalmente.

Volver a los primeros principios también nos proporciona una nueva forma de pensar sobre la forma del producto:· El navegador de IA no agrega IA al navegador, sino que crea un navegador para la IA;
· La búsqueda de IA no recupera y resume desde el índice, sino que permite a la IA obtener información con los permisos del usuario;
· Operar la GUI no arrebata el control del dispositivo del usuario, sino que permite que la IA tenga su propia máquina virtual;
· Escribir código no es el objetivo final, sino un medio general para resolver diversos problemas;
· La dificultad de generar un sitio web no es construir un marco, sino hacer que el contenido sea significativo;
· La atención no es todo lo que necesitas. Solo liberando la atención de los usuarios se puede redefinir el DAU;

A través del descubrimiento y la práctica de "Menos estructura, más inteligencia" una y otra vez, Manus ha producido resultados más allá de las expectativas, incluido el pase@1puntuación en la prueba de GAIA que supera la puntuación de OpenAI Deep Research bajo cons@64; al mismo tiempo, en pruebas internas, Manus también pudo cubrir directamente el 76% de los escenarios de productos de agentes dedicados en Y Combinator W25.

03 "El agente puede ser un problema de "alineación" en lugar de un problema de capacidades básicas del modelo"

Ahora, el valor de estos conocimientos se está discutiendo a mayor escala:

Clement Delangue, fundador y CEO de Hugging Face, propuso los hallazgos de Peak sobre que algunos modelos básicos de código abierto simplemente están entrenados para "responder todas las preguntas en una sola ronda, independientemente de la complejidad de las preguntas." Sin embargo, esto es un requisito en el escenario del chatbot. Simplemente realizar un post-entrenamiento en el camino del agente puede marcar una gran diferencia de inmediato. | Fuente de captura de pantalla: X

Manus no introduce MCP (Model Context Protocol), pero permite a la IA escribir su propio código para llamar a las API y manejar varias tareas de larga cola. |Fuente de la captura de pantalla: X

En las discusiones sobre Manus en los últimos días, una de las preguntas más comunes que he escuchado es: ¿Es factible un "Agente de IA universal"? ¿Dónde está el límite?

En la opinión de Peak, debido a que la interacción entre las personas y el mundo es en realidad muy estándar, con los ojos, las manos y los oídos, si el espacio de acción está bien definido, debería ser posible insertar un agente en un enlace que originalmente es realizado por los humanos.

Dado que las personas pueden utilizar diversas herramientas para llevar a cabo operaciones profundas en campos verticales, si un agente en sí mismo tiene suficiente conocimiento, ha sido adecuadamente capacitado y tiene una buena interfaz para interactuar con el mundo, debería ser capaz de funcionar como una persona e incluso permitir que el agente utilice cierto producto SaaS. Por ejemplo, un caso de búsqueda de vivienda presentado en el sitio web oficial de Manus.im implica en realidad permitir que la IA trabaje con un producto SaaS dedicado al campo inmobiliario.

Él cree que lo que debería estar claramente definido es el límite del uso de herramientas del agente, en lugar de a qué grupo de personas sirve. Manus no simula a una persona que hace cosas específicas, ni es un agente de rol dividido por I+D, gerente de producto, etc.; está simulando a una persona que puede hacer cosas, y cómo trabaja un pasante.

El sistema multiagente de Manus se refiere a la separación de la planificación y la ejecución.

Para el ejecutor (Executor), Manus adoptó a Claude, quien lidera temporalmente en programación, planificación a largo plazo y capacidades de resolución de problemas paso a paso, y también utilizó una serie de modelos Qwen para el post-entrenamiento.

Ayer, Manus también llegó a una cooperación estratégica con Alibaba Tongyi Qianwen, comprometida a realizar todas las funciones de Manus en modelos domésticos y plataformas de potencia informática. |Fuente de la imagen: Manus

En la parte del planificador, Manus ha hecho mucho trabajo.

Dado que las API o modelos de estantería actualmente en el mercado están esencialmente alineados para escenarios de robots de chat, durante el entrenamiento, no importa cuán compleja sea la pregunta del usuario, el objetivo de optimización del entrenamiento es responder claramente la pregunta del usuario en una sola respuesta, pero esto es en realidad completamente opuesto a la planificación requerida por el agente.

Entonces, si un modelo existente en el mercado se utiliza directamente en el escenario del agente sin 'alineación', este modelo siempre estará ansioso por el éxito rápido y dará un resultado 'confuso' dentro de una ronda de diálogo, al igual que muchos resúmenes con viñetas.

"Los métodos de alineación deberían ser diferentes. Nuestro equipo cree que se necesitan datos diferentes para realizar una alineación especial", dijo Xiao Hong.

En octubre del año pasado, Peak también registró en Zhihu el progreso y el fracaso de un intento de reproducir el proyecto de interés OpenAI o1, el modelo de código abierto Steiner. De hecho, este proyecto estaba realizando una investigación previa en la parte de planificación paso a paso del planificador Manus.

En general, Manus está simulando a una persona que hace cosas. Esta es la definición de producto del equipo de Manus como asistente de inteligencia artificial de propósito general. En cuanto a pensar en sus límites, es probable que el equipo todavía lo esté explorando y necesite más casos de uso de usuario.

En una entrevista con Tencent Technology publicada antes del lanzamiento de Manus, Xiao Hong mencionó en realidad sus pensamientos iniciales sobre la versatilidad de Manus. "Un problema muy central, o una responsabilidad muy importante de los gerentes de producto, es controlar las expectativas de los usuarios. Supongamos que puede hacer todo en el mundo, como: ¿cómo hago $1 millón? Esto no es algo que deba realizar un Agente. Pero si podemos dar ejemplos más específicos para que las expectativas de todos sean más razonables, todos lo usarán de manera más fluida."

04 “Las conchas tienen sus propios usos”, el equipo que mejor comprende las conchas

En la madrugada del 27 de febrero, el socio del producto de Gate.io, Zhang Tao, y el científico jefe Ji Yichao (Peak) derramaron lágrimas cuando vieron los resultados de clasificación de Gate.io. El rendimiento de Gate.io en la Prueba GAIA superó al de la Investigación Profunda de OpenAI, y logró este resultado inesperado a aproximadamente 1/10 del costo ($2/tarea) de la referencia de OpenAI.


Fuente de la imagen: Manus.im

Un equipo de decenas de personas se convirtió en uno de los primeros equipos en crear un producto de agente universal cuando los agentes llegaron a un consenso sobre la competencia en toda la industria. También son únicos en ingeniería de productos y experiencia interactiva en la interfaz de usuario.

La retroalimentación positiva de las cosas hechas es mejor que cualquier otra cosa. No hay mejor incentivo para un equipo de inicio que este. Pero antes de eso, ¿cómo sucedió Manus? ¿Por qué se formó este equipo?

Las capacidades del modelo actual son capaces de completar algunas tareas complejas y de múltiples pasos. Pero no hay tales productos, por lo que todos no pueden sentirlo. Las ideas que Xiao Hong mencionó en entrevistas anteriores con Tencent Technology se pueden utilizar para comprender este problema.

al mismo tiempo, no son muchas los equipos que tienen la oportunidad de probar los productos de Agent. Porque requiere muchas habilidades compuestas. Quiere trabajar en Chatbot, algo relacionado con la programación de IA y relacionado con el navegador, porque necesita llamar al navegador, y tiene un buen sentido de los límites de LLM - a qué nivel se ha desarrollado hoy, y a qué nivel se desarrollará después. En primer lugar, no hay muchas empresas que tengan estas capacidades al mismo tiempo, y las empresas que tienen estas capacidades pueden estar realizando un negocio muy específico en ese momento. Algunos de nuestros compañeros de clase tuvieron la oportunidad de hacer estas cosas juntos.

“exactamente”.

  • Se descubre en el momento oportuno que la capacidad del modelo ha alcanzado el nivel en el que se puede utilizar como agente, sin tener que esperar a que se lance un modelo grande de extremo a extremo como un Operador;
  • También me di cuenta de que el problema era de alineación;
  • También resulta que he realizado todas las funciones ampliadas por los chatbots y los navegadores de IA;
  • Al mismo tiempo, debido a que he estado desarrollando productos de aplicación de modelos a gran escala en la llamada 'cáscara', tengo una conciencia aguda de LLM;

El equipo del “Efecto Mariposa” ha logrado todos los elementos para hacer de tal agente universal hoy, por lo que ahora hay un agente universal con un grado de completitud relativamente alto en comparación con la industria.

Cuando se le preguntó cuál fue el momento decisivo en el que quería comenzar Manus, Peak restauró más detalles. Dijo: "En realidad no hay un punto de inflexión 'limpio' en el emprendimiento." Todo es coherente y no tiene límites claros.

“Al hacer un producto, también presto atención con frecuencia a la situación externa. Hubo algunas cosas en ese momento. Primero, al hacer un navegador, hice un modelo del lado del cliente. Más tarde descubrí que el navegador requería una amplia gama de escenarios y tenía diferentes características. Durante el proceso, descubrí que el modelo base se estaba fortaleciendo a un ritmo acelerado. La brecha entre él y el agente podría ser un problema de alineación. Aunque el mundo exterior pueda sentir que los grandes modelos de lenguaje se han ido convergiendo gradualmente y han encontrado un obstáculo.

Al mismo tiempo, el mundo exterior también estaba cambiando. Cursor despegó a principios del año pasado, seguido por Windsurf y Devin. Esto corresponde al mismo contexto. Los agentes son populares en el campo de la programación, y el camino hacia la popularidad es progresivo. Cursor es un copiloto para programadores, lo que mejora la eficiencia de la programación. A partir de Windsurf, se introducen gradualmente algunos procesos automatizados, lo que le permite tener capacidades de automatización más fuertes en su máquina local. Devin ha alcanzado un nuevo nivel de automatización.

Las tendencias de VC también son consistentes. Por ejemplo, el año pasado y el antepasado, YC invirtió en dos tipos de empresas. Uno es Navegador en la nube, como Browser base; el segundo tipo es máquinas virtuales de Sandbox de IA liviana similares a e2b.

Esto muestra que “la infraestructura del modelo está madurando rápidamente, y la infraestructura de Infra también está madurando rápidamente. Además, al ver que los productos externos están ganando gradualmente más aceptación, sentimos que esta es una dirección que vale la pena seguir. Este es un proceso muy gradual y suave. Además, la infraestructura acumulada durante el desarrollo de navegadores como Chromium se puede migrar sin problemas, por eso nos atrevemos a desarrollar navegadores en la nube.”

En resumen, la aguda percepción y la acumulación de experiencia en los requisitos y modelos en la llamada "cáscara" crearon conjuntamente Manus. Muchos de los escenarios de Mónica requieren entrenamiento posterior al modelo. Al mismo tiempo, la lección más importante "menos estructura, más inteligencia" se ha fortalecido en la práctica de los navegadores de IA. Ella descubrió que la capacidad del modelo ha alcanzado el nivel de ser un agente, pero el problema radica en la alineación. Lo que siguió fue tres meses de rápida evolución para Manus.

Anteriormente, el equipo del “Efecto Mariposa” fue cuestionado una vez sobre el valor del “recubrimiento”. Construyó a Mónica integrando modelos grandes existentes sin desarrollar modelos grandes por sí mismo. Integró funciones como chat, búsqueda, lectura, escritura y traducción. También integró muchos escenarios de ejecución de tareas a través de API uno por uno. A finales del año pasado, el número de usuarios alcanzó decenas de millones.

Ahora, cuando Doubao, Quark y Yuanbao están promocionando vigorosamente sus productos de Mónica, y cuando un pequeño equipo está utilizando la tecnología existente para crear el primer agente general a nivel de consumidor, es hora de volver a entender la 'cáscara'.

¿Qué son exactamente las “shells” y las “shells”?

En la opinión de Xiao Hong, todos los avances son provocados por modelos, que son básicamente impulsados por modelos y primeros en el modelo. La cáscara es para mostrar las innovaciones técnicas del modelo de una manera que los usuarios puedan percibir, y para encapsular las capacidades innovadoras del modelo de una manera que los usuarios puedan percibir mejor.

A partir de esta definición, la aplicación DeepSeek (incluida la visualización de la cadena de pensamiento) es una cáscara de DeepSeek-R1, Cursor es una cáscara de Soneto Antropico 3.5, Perplejidad es una cáscara de GPT-4, y ChatGPT es una cáscara de InstructGPT.

A medida que las capacidades del modelo evolucionan rápidamente, 'esa carcasa' también necesita evolucionar. Después de que las capacidades de cada generación de modelos evolucionen, ni siquiera es necesariamente el fabricante original. Es un fabricante de terceros que presenta su valor perceptible por el usuario. Al igual que Cursor aporta valor perceptible por el usuario al Claude 3.5 Sonnet.

El 5 de marzo, en el segundo aniversario del lanzamiento de Monica.im, la respuesta a por qué estas docenas de personas han logrado una experiencia de producto que supera a la de varios Operadores de Investigación Profunda y OpenAI radica en la comprensión y práctica de las cáscaras.

¿Cómo hacer la mejor cáscara para un nuevo modelo que se pueda utilizar como agente?

Como el constructor de Manus, Zhang Tao cree: 'Al observar toda su arquitectura desde el fondo, vemos que hay mucho trabajo sin terminar por hacer en cada lugar, y cada uno de esos lugares es la clave del éxito, y todos son lugares que hacen que la superficie del producto sea diferente.'

Desde la perspectiva del equipo, la ventaja más importante es el ritmo de innovación. Tanto las aplicaciones como los modelos han alcanzado ahora un estado de saturación relativa. La única capacidad central real al final es correr rápido, aunque la "rueda de datos" y los "efectos de red" aún no han sido verificados.

En un campo completamente nuevo, todo es incierto y desconocido. Lo más importante es la velocidad de la innovación. Lo que buscamos es la exploración, la prueba y el error en diversas direcciones, y encontrar rápidamente el camino correcto. El equipo de Manus es lo suficientemente flexible en cuanto a filosofía de gestión, estructura organizativa y procesos industriales. Cuando surgen nuevas oportunidades, puedes utilizar recursos limitados para conectar todos los recursos de toda la empresa, tomar decisiones a una velocidad muy alta y adaptarte a los comentarios sobre los errores.

De izquierda a derecha están el científico jefe de "Butterfly Effect" Peak, el CEO Xiao Hong y el socio de producto Zhang Tao | Fuente de la imagen: Internet

En lo que respecta a las expectativas de Manus, Xiao Hong cree que "incluso si hay un período de ventana, vale la pena intentarlo." En el último año, su pensamiento también ha experimentado cambios drásticos. Por ejemplo, ahora cree que "cuando te das cuenta de que vas por delante del calendario, eres más agresivo y súper agresivo. Después de revisar hoy, siento que Mónica en 2023 no fue lo suficientemente agresiva." "Si sabes que estás innovando y estás a la vanguardia, debes ser agresivo."

No sé si Manus puede llevar a Xiao Hong y su equipo la experiencia y el salto de 1 a N, pero este equipo que sabe más sobre "shell" cree en crear con el corazón y la mano como uno solo, y también cree en el efecto mariposa que trae consigo la creación. Manus proviene de un lema en el MIT: Mens at manus, que enfatiza la unidad de corazón y mano. No puede ser óptico, debe hacerse, y puede tener un impacto en el mundo real, que es conocimiento real.

En el futuro, a medida que más de los depósitos detrás de Manus se vuelvan de código abierto, se liberará una gama más amplia de efectos mariposa.

Descargo de responsabilidad:

  1. Este artículo es reproducido de [GateGEEEKPARK], y los derechos de autor pertenecen al autor original [Wan Chen], si tienes alguna objeción a la reimpresión, por favor contacta Gate Learnel equipo, el equipo lo manejará lo antes posible de acuerdo con los procedimientos relevantes.

  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo representan únicamente las opiniones personales del autor y no constituyen asesoramiento de inversión.

  3. Otras versiones del artículo en otros idiomas son traducidas por el equipo de Gate Learn y no se mencionan en Gate.io, el artículo traducido no puede ser reproducido, distribuido o plagiado.

Revisión completa: ¿Cómo nació Manus?

Intermedio3/17/2025, 7:40:21 AM
Este artículo proporciona un análisis profundo del trasfondo de nacimiento de Manus.im, conceptos de productos y sus prácticas innovadoras en el campo de la IA.

La historia empresarial que recibió más nutrición espiritual el año pasado provino del fundador de Dify, Zhang Luyu.

La primera vez que lo conocí fue en el evento “Xixi Taoism” en 2023. Entre los nombres de estrellas presentes, Zhang Luyu pasó desapercibido. Cuando nos volvimos a encontrar en 2024, Dify ya era otra historia - un emprendedor sin un trasfondo glamoroso, que creó uno de los productos de código abierto de IA más exitosos del mundo en medio de las dudas de todos sobre el modelo de negocio.

¿Qué le sucedió a esta empresa en un año, como su inesperada popularidad en el mercado japonés, que es "convencional y fácil de defender pero difícil de atacar", me ayudó a entender mejor el "espíritu empresarial". En su mayoría son accidentes, y también se requiere suerte. En última instancia, necesitas tener la capacidad de encontrar una salida a los cambios constantes y los contratiempos.

Ahora, una historia similar le sucedió a otro emprendedor de alto perfil—Manus.im Xiao Hong y su equipo.

Hace cuatro meses, Xiao Hong mencionó una confusión, 'El equipo es bueno para pasar de 0 a 1 y tiene una fuerte capacidad para aprovechar las oportunidades. Una vez que comienza de 1 a N, el estado no es tan bueno'.

En su experiencia pasada, la mayoría de los proyectos emprendedores han logrado ingresos relativamente estables y considerables, y su última empresa también fue adquirida con éxito. En 2023, su nueva empresa “Butterfly Effect” incluso utilizó un complemento del navegador, Monica.im, para competir en la narrativa de IA de cientos de modelos y convertirse en una de las aplicaciones de IA de más rápido crecimiento con una excelente experiencia de producto. Parece que es un empresario que ha tenido un camino sin problemas. Solo tiene 32 años cuando puede hacer estas cosas.

Pero de hecho, no se sentía muy feliz. En la opinión de Xiao Hong, la llamada 'salida continua de emprendedores' y la supuesta sensación refrescante de ir constantemente de 0 a 1 son como un asedio: la capacidad de aprovechar oportunidades de 0 a 1 es muy sólida y satisfactoria, pero por otro lado, también te preocupa si tendrás que hacerlo de nuevo.

En 2024, los expertos de la industria creen que los asistentes de IA con funciones de memoria como Monica.im enfrentarán presión de fuertes oponentes como Doubao, y no será tan fácil como en 2023. Monica.im tiene un buen comienzo, pero no necesariamente será un éxito a gran escala.

Y la razón por la que está confundido es porque "el equipo realmente va a hacer cosas más difíciles y cosas con techos más altos a continuación" y explorar cosas que pueden abarcar desde 1 hasta N.

Anteriormente, muchas voces prestando atención a Monica.im asumían que este "algo más difícil y con un techo más alto" se refiere al navegador de IA que se ha rumoreado durante mucho tiempo pero que no ha sido lanzado por el equipo. Mirándolo ahora, es cierto que adiviné mal.

Esta exploración más difícil es en realidad: abandonar el navegador de IA que ha alcanzado el estado de lanzamiento, buscar el próximo producto de IA del "momento ChatGPT", encontrar el objetivo de un agente universal y crear la última versión de Manus.im.

Hasta qué punto Manus es innovador y a qué nivel puede llegar en el futuro es ahora un tema candente. Pero lo que vale la pena ver sigue siendo la dirección encontrada en 'las cosas van en contra de las expectativas' y el proceso de encontrar la dirección. Manus.im puede que no logre que este equipo logre cosas del 1 al N, o incluso replicar el impulso de Monica.im, pero al igual que el nombre de esta empresa - 'Efecto Mariposa', muchas acciones y decisiones pequeñas tienen inadvertidamente un impacto profundo en el futuro, 'Conectar los puntos', el camino hacia el mañana estará oculto en la experiencia de hoy.

La experiencia de producto única de Manus proviene de las lecciones aprendidas al crear un "navegador de IA"

Desde mediados hasta finales del año pasado, el navegador de IA del equipo del “Efecto Mariposa” se ha convertido en un secreto “semipúblico” en la industria. El producto que se presentó oficialmente al público fue Manus, que atrajo una atención incontrolable.

Si has experimentado personalmente Manus o has visto el video de demostración, sentirás que tiene una diferencia significativa en comparación con los chatbots u algunas aplicaciones tipo agente: Manus puede ejecutar tareas de forma asincrónica y en paralelo.

Cuando abres una aplicación como Doubao, Kimi, o algo como Uso de Computadora y le envías una pregunta, debes esperar a que responda. De lo contrario, si le hablas mientras está respondiendo o realizando una tarea, la respuesta/tarea anterior se interrumpirá y solo podrás tener una conversación de relevo A-B-A-B con ella.

Sin embargo, en Manus.im, aunque todavía parece un producto de chatbot, puedes hacer 20 preguntas para que realice tareas simultáneamente. Puedes hacer cualquier otra cosa en la computadora, como ver videos, escribir documentos, jugar juegos, etc., sin retrasar su trabajo. Manus puede notificarte una vez que estas tareas estén completadas o si se encuentran problemas durante la ejecución. Si observas desviaciones en su pensamiento durante la ejecución de una tarea, puedes agregar palabras de aviso al cuadro de diálogo en cualquier momento, y continuará pensando y ejecutando la tarea con el nuevo contexto.

La experiencia es asincrónica y se puede paralelizar, y realmente se siente como tener un equipo de internos reales que pueden ayudarte a trabajar.

De hecho, el diseño de la arquitectura del producto de Manus para la experiencia asíncrona se originó a partir de una lección que el equipo aprendió en su producto anterior no revelado, el navegador de IA. Al mismo tiempo, esta es también la razón por la que el equipo invirtió mucha energía, pero decidió dejar de trabajar en el navegador en octubre del año pasado.

La compañía Browser anunció el 25 de octubre de 2024 que dejaría de desarrollar nuevas funciones para el navegador Arc y decidió transferir recursos a un nuevo navegador, Dia, con el objetivo de crear un navegador de IA más simple y fácil de usar. |Fuente: sitio web oficial de Arc

En el navegador de IA, la IA interrumpe constantemente al usuario. Debido a que es un escenario diseñado para un solo usuario, una vez que se usa la IA, no se puede utilizar. Cuando la IA comienza a funcionar, solo puedes ver cómo trabaja, lo que dificulta comenzar. Ver cómo la IA te arrebata el mouse y la computadora no solo te atreves a arrebatárselo, sino que también temes que tocar accidentalmente el teclado o el mouse cause que todo el proceso se colapse y requiera que comiences de nuevo.

Esto permite al equipo hacer dos juicios:

  1. Directamente usar la computadora para realizar el uso de la computadora no es factible en poco tiempo.
  2. AI should use a browser, but not in your browser. It should have its own browser, preferably in the cloud, and finally feed back the results to you.

En una entrevista con Zhang Xiaojun de Tencent Technology, Xiao Hong mencionó que cuando el equipo estaba resumiendo las formas de producto de Jasper a ChatGPT a Monica a Cursor a Devin, encontraron que el programador humano Devin era muy adecuado para esta arquitectura de experiencia asincrónica.

A diferencia de cuando se utiliza Windsurf, a veces te pide que confirmes si tu computadora necesita instalar esta biblioteca; o realiza una operación de línea de comandos y te pide que completes sí o no, porque realmente podría dañar tu computadora, o hay un conflicto con algo - te pide que completes "sí" para proceder al siguiente paso, pero tiene que pasar la culpa.

Por lo tanto, en la opinión del equipo de Manus, "Chatbot debería tener una computadora en la nube, y el código que escribe y las cosas que se deben verificar a través del navegador se ejecutan en esa computadora. Debido a que es un servidor virtual, no importa si se descompone, puedes conseguir otro. Incluso puede liberar el servidor después de que se complete la tarea actual.

Vale la pena señalar que mientras Devin eligió campos verticales e ingenieros hardcore, el equipo de Manus eligió asistentes de inteligencia artificial de propósito general a nivel de consumidor, incluyendo Web y App. Es un asistente de inteligencia artificial de propósito general que puede llamar herramientas y completar varias tareas en el trabajo y la vida según las instrucciones. En el futuro, también entregará los resultados de las tareas a un precio asequible para los consumidores.

02 Menos Estructura, Más Inteligencia

Con una idea clara y un objetivo, el siguiente paso es hacer realidad la idea. ¿Cómo lo hizo Manus?

Según su socio comercial Zhang Tao, esto requiere equipar el modelo grande con una computadora, así como otorgarle permisos del sistema (acceso a API privadas como depósitos de código y sitios web de consulta de datos profesionales) y proporcionarle cierto entrenamiento.

De esta manera, la IA puede utilizar esta computadora para abrir un navegador, tomar acciones para programar herramientas, y luego observar el impacto de sus acciones en el mundo real basándose en la retroalimentación generada por las herramientas, luego pensar en el próximo paso, tomar acciones nuevamente, y luego observar... Este es el proceso de la IA completando tareas en exploración e investigación. Durante este período, Manus también entenderá cada vez más tus requerimientos bajo tu 'entrenamiento'. En el futuro, incluso si no defines claramente tus requerimientos, aún puede 'descifrar el verdadero significado' basándose en el conocimiento acumulado en cada tarea.

Li Bojie, el joven genio de Huawei y fundador de Logenic AI, cree que Manus tiene una característica única que lo diferencia de otros productos: resuelve problemas de la forma de los programadores geeks. |Fuente de la imagen: Captura de pantalla de WeChat

El concepto de los productos de Manus se fue aclarando gradualmente durante la práctica de su equipo: Menos Estructura, Más Inteligencia (Menos Estructura, Más Inteligencia).

Este también fue el momento que hizo que el equipo de Manus dijera "¡Espera!" Por ejemplo, esto es lo que le sucedió al equipo en enero de este año:

Cuando se le pidió a Manus que intentara responder una pregunta en el conjunto de pruebas de GAIA: "En un enlace de video de YouTube similar al estilo de National Geographic, varios pingüinos van y vienen y entran y salen de la pantalla. Se le pide a Manus que cuente el número máximo de pingüinos que aparecen en un solo fotograma al mismo tiempo. ¿Cuántos hay?"

Entonces, algo mágico sucedió.

Manus abrió primero el enlace del video, y la primera acción que realizó fue "Pulsar K". Luego tomó capturas de pantalla una por una para registrar qué tipo de pingüino aparecía en cada fotograma. Finalmente, concluyó que el fotograma en el que aparecían más de 3 tipos de pingüinos. Manus volverá a revisar a continuación, y su próxima acción es "Pulsar 3"... Tras la inspección final, la respuesta fue 3.

Como las personas detrás de la construcción de Manus, deberíamos conocer los límites de sus capacidades, pero para el equipo, la realidad es que "siempre hay sorpresas". Sorprendentemente, no solo Manus respondió correctamente a la pregunta, sino que también, amigos humanos que han usado computadoras y Youtube durante muchos años no necesariamente saben qué son las teclas "K" y "3" en el teclado.

Al mirar la escena algo aturdida frente a ellos, el equipo siguió a Manus y lo hizo de nuevo. La tecla “K” en el teclado es la tecla de pausa, que permite a Manus tomar capturas de pantalla una por una después de pausar para registrar qué pingüino aparece en cada fotograma; “3” también es una tecla de acceso directo, del 0 al 9 representando respectivamente del 0% al 90% de la barra de progreso. 3 es el 30% de la barra de progreso. Puede localizar con precisión ese segundo del video y luego decir a los humanos cuántos tipos de pingüinos hay en esta imagen.

“Este proceso es diferente del Chatbot tradicional. Primero, puede ver imágenes de YouTube en lugar de subtítulos. Segundo, incluso descubrimos que estaba usando teclas de acceso directo de YouTube. Nos sorprendió mucho que respondiera a esta pregunta”. Xiao Hong también mencionó esta escena en una entrevista anterior con Tencent Technology.

De repente, descubrí que Manus no solo era mejor programando que los humanos, sino que el conocimiento de Manus sobre la Web y las aplicaciones que la gente usa a diario superaba con creces la imaginación. Como una IA omnisciente y omnipotente, puede comprender todas las formas y medios en cualquier herramienta, y luego elegir el método óptimo.

Esto una vez más permitió al equipo sentir "Menos Estructura, Más inteligencia" - minimizando restricciones artificiales en la IA y permitiendo que la IA funcione a través de su propia evolución en lugar de enseñarle qué hacer.

En la parte inferior del sitio web oficial de Manus, se presenta de forma discreta el descubrimiento más importante detrás de Manus: "Menos Estructura, Más Inteligencia". |Fuente de captura de pantalla: Manus

Esta es la explicación y el pensamiento extendido de Peak, el cofundador y científico jefe de “Butterfly Effect”, sobre el principio fundamental más importante detrás del producto Manus - “Menos Estructura, Más Inteligencia” el día del lanzamiento del producto Manus:

Cuando sus datos son de alta calidad, su modelo es lo suficientemente inteligente, su arquitectura es lo suficientemente flexible y su ingeniería es lo suficientemente sólida, conceptos como Uso de Computadora, Investigación Profunda y Agente de Codificación cambiarán de características del producto a capacidades que emergen naturalmente.

Volver a los primeros principios también nos proporciona una nueva forma de pensar sobre la forma del producto:· El navegador de IA no agrega IA al navegador, sino que crea un navegador para la IA;
· La búsqueda de IA no recupera y resume desde el índice, sino que permite a la IA obtener información con los permisos del usuario;
· Operar la GUI no arrebata el control del dispositivo del usuario, sino que permite que la IA tenga su propia máquina virtual;
· Escribir código no es el objetivo final, sino un medio general para resolver diversos problemas;
· La dificultad de generar un sitio web no es construir un marco, sino hacer que el contenido sea significativo;
· La atención no es todo lo que necesitas. Solo liberando la atención de los usuarios se puede redefinir el DAU;

A través del descubrimiento y la práctica de "Menos estructura, más inteligencia" una y otra vez, Manus ha producido resultados más allá de las expectativas, incluido el pase@1puntuación en la prueba de GAIA que supera la puntuación de OpenAI Deep Research bajo cons@64; al mismo tiempo, en pruebas internas, Manus también pudo cubrir directamente el 76% de los escenarios de productos de agentes dedicados en Y Combinator W25.

03 "El agente puede ser un problema de "alineación" en lugar de un problema de capacidades básicas del modelo"

Ahora, el valor de estos conocimientos se está discutiendo a mayor escala:

Clement Delangue, fundador y CEO de Hugging Face, propuso los hallazgos de Peak sobre que algunos modelos básicos de código abierto simplemente están entrenados para "responder todas las preguntas en una sola ronda, independientemente de la complejidad de las preguntas." Sin embargo, esto es un requisito en el escenario del chatbot. Simplemente realizar un post-entrenamiento en el camino del agente puede marcar una gran diferencia de inmediato. | Fuente de captura de pantalla: X

Manus no introduce MCP (Model Context Protocol), pero permite a la IA escribir su propio código para llamar a las API y manejar varias tareas de larga cola. |Fuente de la captura de pantalla: X

En las discusiones sobre Manus en los últimos días, una de las preguntas más comunes que he escuchado es: ¿Es factible un "Agente de IA universal"? ¿Dónde está el límite?

En la opinión de Peak, debido a que la interacción entre las personas y el mundo es en realidad muy estándar, con los ojos, las manos y los oídos, si el espacio de acción está bien definido, debería ser posible insertar un agente en un enlace que originalmente es realizado por los humanos.

Dado que las personas pueden utilizar diversas herramientas para llevar a cabo operaciones profundas en campos verticales, si un agente en sí mismo tiene suficiente conocimiento, ha sido adecuadamente capacitado y tiene una buena interfaz para interactuar con el mundo, debería ser capaz de funcionar como una persona e incluso permitir que el agente utilice cierto producto SaaS. Por ejemplo, un caso de búsqueda de vivienda presentado en el sitio web oficial de Manus.im implica en realidad permitir que la IA trabaje con un producto SaaS dedicado al campo inmobiliario.

Él cree que lo que debería estar claramente definido es el límite del uso de herramientas del agente, en lugar de a qué grupo de personas sirve. Manus no simula a una persona que hace cosas específicas, ni es un agente de rol dividido por I+D, gerente de producto, etc.; está simulando a una persona que puede hacer cosas, y cómo trabaja un pasante.

El sistema multiagente de Manus se refiere a la separación de la planificación y la ejecución.

Para el ejecutor (Executor), Manus adoptó a Claude, quien lidera temporalmente en programación, planificación a largo plazo y capacidades de resolución de problemas paso a paso, y también utilizó una serie de modelos Qwen para el post-entrenamiento.

Ayer, Manus también llegó a una cooperación estratégica con Alibaba Tongyi Qianwen, comprometida a realizar todas las funciones de Manus en modelos domésticos y plataformas de potencia informática. |Fuente de la imagen: Manus

En la parte del planificador, Manus ha hecho mucho trabajo.

Dado que las API o modelos de estantería actualmente en el mercado están esencialmente alineados para escenarios de robots de chat, durante el entrenamiento, no importa cuán compleja sea la pregunta del usuario, el objetivo de optimización del entrenamiento es responder claramente la pregunta del usuario en una sola respuesta, pero esto es en realidad completamente opuesto a la planificación requerida por el agente.

Entonces, si un modelo existente en el mercado se utiliza directamente en el escenario del agente sin 'alineación', este modelo siempre estará ansioso por el éxito rápido y dará un resultado 'confuso' dentro de una ronda de diálogo, al igual que muchos resúmenes con viñetas.

"Los métodos de alineación deberían ser diferentes. Nuestro equipo cree que se necesitan datos diferentes para realizar una alineación especial", dijo Xiao Hong.

En octubre del año pasado, Peak también registró en Zhihu el progreso y el fracaso de un intento de reproducir el proyecto de interés OpenAI o1, el modelo de código abierto Steiner. De hecho, este proyecto estaba realizando una investigación previa en la parte de planificación paso a paso del planificador Manus.

En general, Manus está simulando a una persona que hace cosas. Esta es la definición de producto del equipo de Manus como asistente de inteligencia artificial de propósito general. En cuanto a pensar en sus límites, es probable que el equipo todavía lo esté explorando y necesite más casos de uso de usuario.

En una entrevista con Tencent Technology publicada antes del lanzamiento de Manus, Xiao Hong mencionó en realidad sus pensamientos iniciales sobre la versatilidad de Manus. "Un problema muy central, o una responsabilidad muy importante de los gerentes de producto, es controlar las expectativas de los usuarios. Supongamos que puede hacer todo en el mundo, como: ¿cómo hago $1 millón? Esto no es algo que deba realizar un Agente. Pero si podemos dar ejemplos más específicos para que las expectativas de todos sean más razonables, todos lo usarán de manera más fluida."

04 “Las conchas tienen sus propios usos”, el equipo que mejor comprende las conchas

En la madrugada del 27 de febrero, el socio del producto de Gate.io, Zhang Tao, y el científico jefe Ji Yichao (Peak) derramaron lágrimas cuando vieron los resultados de clasificación de Gate.io. El rendimiento de Gate.io en la Prueba GAIA superó al de la Investigación Profunda de OpenAI, y logró este resultado inesperado a aproximadamente 1/10 del costo ($2/tarea) de la referencia de OpenAI.


Fuente de la imagen: Manus.im

Un equipo de decenas de personas se convirtió en uno de los primeros equipos en crear un producto de agente universal cuando los agentes llegaron a un consenso sobre la competencia en toda la industria. También son únicos en ingeniería de productos y experiencia interactiva en la interfaz de usuario.

La retroalimentación positiva de las cosas hechas es mejor que cualquier otra cosa. No hay mejor incentivo para un equipo de inicio que este. Pero antes de eso, ¿cómo sucedió Manus? ¿Por qué se formó este equipo?

Las capacidades del modelo actual son capaces de completar algunas tareas complejas y de múltiples pasos. Pero no hay tales productos, por lo que todos no pueden sentirlo. Las ideas que Xiao Hong mencionó en entrevistas anteriores con Tencent Technology se pueden utilizar para comprender este problema.

al mismo tiempo, no son muchas los equipos que tienen la oportunidad de probar los productos de Agent. Porque requiere muchas habilidades compuestas. Quiere trabajar en Chatbot, algo relacionado con la programación de IA y relacionado con el navegador, porque necesita llamar al navegador, y tiene un buen sentido de los límites de LLM - a qué nivel se ha desarrollado hoy, y a qué nivel se desarrollará después. En primer lugar, no hay muchas empresas que tengan estas capacidades al mismo tiempo, y las empresas que tienen estas capacidades pueden estar realizando un negocio muy específico en ese momento. Algunos de nuestros compañeros de clase tuvieron la oportunidad de hacer estas cosas juntos.

“exactamente”.

  • Se descubre en el momento oportuno que la capacidad del modelo ha alcanzado el nivel en el que se puede utilizar como agente, sin tener que esperar a que se lance un modelo grande de extremo a extremo como un Operador;
  • También me di cuenta de que el problema era de alineación;
  • También resulta que he realizado todas las funciones ampliadas por los chatbots y los navegadores de IA;
  • Al mismo tiempo, debido a que he estado desarrollando productos de aplicación de modelos a gran escala en la llamada 'cáscara', tengo una conciencia aguda de LLM;

El equipo del “Efecto Mariposa” ha logrado todos los elementos para hacer de tal agente universal hoy, por lo que ahora hay un agente universal con un grado de completitud relativamente alto en comparación con la industria.

Cuando se le preguntó cuál fue el momento decisivo en el que quería comenzar Manus, Peak restauró más detalles. Dijo: "En realidad no hay un punto de inflexión 'limpio' en el emprendimiento." Todo es coherente y no tiene límites claros.

“Al hacer un producto, también presto atención con frecuencia a la situación externa. Hubo algunas cosas en ese momento. Primero, al hacer un navegador, hice un modelo del lado del cliente. Más tarde descubrí que el navegador requería una amplia gama de escenarios y tenía diferentes características. Durante el proceso, descubrí que el modelo base se estaba fortaleciendo a un ritmo acelerado. La brecha entre él y el agente podría ser un problema de alineación. Aunque el mundo exterior pueda sentir que los grandes modelos de lenguaje se han ido convergiendo gradualmente y han encontrado un obstáculo.

Al mismo tiempo, el mundo exterior también estaba cambiando. Cursor despegó a principios del año pasado, seguido por Windsurf y Devin. Esto corresponde al mismo contexto. Los agentes son populares en el campo de la programación, y el camino hacia la popularidad es progresivo. Cursor es un copiloto para programadores, lo que mejora la eficiencia de la programación. A partir de Windsurf, se introducen gradualmente algunos procesos automatizados, lo que le permite tener capacidades de automatización más fuertes en su máquina local. Devin ha alcanzado un nuevo nivel de automatización.

Las tendencias de VC también son consistentes. Por ejemplo, el año pasado y el antepasado, YC invirtió en dos tipos de empresas. Uno es Navegador en la nube, como Browser base; el segundo tipo es máquinas virtuales de Sandbox de IA liviana similares a e2b.

Esto muestra que “la infraestructura del modelo está madurando rápidamente, y la infraestructura de Infra también está madurando rápidamente. Además, al ver que los productos externos están ganando gradualmente más aceptación, sentimos que esta es una dirección que vale la pena seguir. Este es un proceso muy gradual y suave. Además, la infraestructura acumulada durante el desarrollo de navegadores como Chromium se puede migrar sin problemas, por eso nos atrevemos a desarrollar navegadores en la nube.”

En resumen, la aguda percepción y la acumulación de experiencia en los requisitos y modelos en la llamada "cáscara" crearon conjuntamente Manus. Muchos de los escenarios de Mónica requieren entrenamiento posterior al modelo. Al mismo tiempo, la lección más importante "menos estructura, más inteligencia" se ha fortalecido en la práctica de los navegadores de IA. Ella descubrió que la capacidad del modelo ha alcanzado el nivel de ser un agente, pero el problema radica en la alineación. Lo que siguió fue tres meses de rápida evolución para Manus.

Anteriormente, el equipo del “Efecto Mariposa” fue cuestionado una vez sobre el valor del “recubrimiento”. Construyó a Mónica integrando modelos grandes existentes sin desarrollar modelos grandes por sí mismo. Integró funciones como chat, búsqueda, lectura, escritura y traducción. También integró muchos escenarios de ejecución de tareas a través de API uno por uno. A finales del año pasado, el número de usuarios alcanzó decenas de millones.

Ahora, cuando Doubao, Quark y Yuanbao están promocionando vigorosamente sus productos de Mónica, y cuando un pequeño equipo está utilizando la tecnología existente para crear el primer agente general a nivel de consumidor, es hora de volver a entender la 'cáscara'.

¿Qué son exactamente las “shells” y las “shells”?

En la opinión de Xiao Hong, todos los avances son provocados por modelos, que son básicamente impulsados por modelos y primeros en el modelo. La cáscara es para mostrar las innovaciones técnicas del modelo de una manera que los usuarios puedan percibir, y para encapsular las capacidades innovadoras del modelo de una manera que los usuarios puedan percibir mejor.

A partir de esta definición, la aplicación DeepSeek (incluida la visualización de la cadena de pensamiento) es una cáscara de DeepSeek-R1, Cursor es una cáscara de Soneto Antropico 3.5, Perplejidad es una cáscara de GPT-4, y ChatGPT es una cáscara de InstructGPT.

A medida que las capacidades del modelo evolucionan rápidamente, 'esa carcasa' también necesita evolucionar. Después de que las capacidades de cada generación de modelos evolucionen, ni siquiera es necesariamente el fabricante original. Es un fabricante de terceros que presenta su valor perceptible por el usuario. Al igual que Cursor aporta valor perceptible por el usuario al Claude 3.5 Sonnet.

El 5 de marzo, en el segundo aniversario del lanzamiento de Monica.im, la respuesta a por qué estas docenas de personas han logrado una experiencia de producto que supera a la de varios Operadores de Investigación Profunda y OpenAI radica en la comprensión y práctica de las cáscaras.

¿Cómo hacer la mejor cáscara para un nuevo modelo que se pueda utilizar como agente?

Como el constructor de Manus, Zhang Tao cree: 'Al observar toda su arquitectura desde el fondo, vemos que hay mucho trabajo sin terminar por hacer en cada lugar, y cada uno de esos lugares es la clave del éxito, y todos son lugares que hacen que la superficie del producto sea diferente.'

Desde la perspectiva del equipo, la ventaja más importante es el ritmo de innovación. Tanto las aplicaciones como los modelos han alcanzado ahora un estado de saturación relativa. La única capacidad central real al final es correr rápido, aunque la "rueda de datos" y los "efectos de red" aún no han sido verificados.

En un campo completamente nuevo, todo es incierto y desconocido. Lo más importante es la velocidad de la innovación. Lo que buscamos es la exploración, la prueba y el error en diversas direcciones, y encontrar rápidamente el camino correcto. El equipo de Manus es lo suficientemente flexible en cuanto a filosofía de gestión, estructura organizativa y procesos industriales. Cuando surgen nuevas oportunidades, puedes utilizar recursos limitados para conectar todos los recursos de toda la empresa, tomar decisiones a una velocidad muy alta y adaptarte a los comentarios sobre los errores.

De izquierda a derecha están el científico jefe de "Butterfly Effect" Peak, el CEO Xiao Hong y el socio de producto Zhang Tao | Fuente de la imagen: Internet

En lo que respecta a las expectativas de Manus, Xiao Hong cree que "incluso si hay un período de ventana, vale la pena intentarlo." En el último año, su pensamiento también ha experimentado cambios drásticos. Por ejemplo, ahora cree que "cuando te das cuenta de que vas por delante del calendario, eres más agresivo y súper agresivo. Después de revisar hoy, siento que Mónica en 2023 no fue lo suficientemente agresiva." "Si sabes que estás innovando y estás a la vanguardia, debes ser agresivo."

No sé si Manus puede llevar a Xiao Hong y su equipo la experiencia y el salto de 1 a N, pero este equipo que sabe más sobre "shell" cree en crear con el corazón y la mano como uno solo, y también cree en el efecto mariposa que trae consigo la creación. Manus proviene de un lema en el MIT: Mens at manus, que enfatiza la unidad de corazón y mano. No puede ser óptico, debe hacerse, y puede tener un impacto en el mundo real, que es conocimiento real.

En el futuro, a medida que más de los depósitos detrás de Manus se vuelvan de código abierto, se liberará una gama más amplia de efectos mariposa.

Descargo de responsabilidad:

  1. Este artículo es reproducido de [GateGEEEKPARK], y los derechos de autor pertenecen al autor original [Wan Chen], si tienes alguna objeción a la reimpresión, por favor contacta Gate Learnel equipo, el equipo lo manejará lo antes posible de acuerdo con los procedimientos relevantes.

  2. Descargo de responsabilidad: Las opiniones expresadas en este artículo representan únicamente las opiniones personales del autor y no constituyen asesoramiento de inversión.

  3. Otras versiones del artículo en otros idiomas son traducidas por el equipo de Gate Learn y no se mencionan en Gate.io, el artículo traducido no puede ser reproducido, distribuido o plagiado.

Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!