A história empreendedora que recebeu o maior enriquecimento espiritual no último ano veio do fundador da Dify, Zhang Luyu.
A primeira vez que o conheci foi no evento “Xixi Taoism” em 2023. Entre os nomes famosos presentes, Zhang Luyu passou despercebido. Quando nos encontramos novamente em 2024, Dify já era outra história - um empreendedor sem um histórico glamoroso, que criou um dos produtos open source de IA mais bem-sucedidos do mundo, apesar das dúvidas de todos sobre o modelo de negócio.
O que aconteceu a esta empresa num ano, como a sua popularidade inesperada no mercado japonês, que é “convencional e fácil de defender, mas difícil de atacar”, ajudou-me a compreender melhor o “empreendedorismo”. São, na sua maioria, acidentes, e também requer sorte. No final, é necessário ter a capacidade de encontrar uma saída das mudanças constantes e dos contratempos.
Agora, uma história semelhante aconteceu a outro empreendedor de alto perfil—Manus.im Xiao Hong e sua equipa.
Há quatro meses, Xiao Hong mencionou uma confusão, 'A equipe é boa em ir de 0 para 1 e tem uma forte capacidade de aproveitar oportunidades. Uma vez que começa de 1 para N, o estado não é tão bom.'
Na sua experiência passada, a maioria dos projetos empreendedores conseguiu receitas relativamente estáveis e consideráveis, e a sua última empresa foi também adquirida com sucesso. Em 2023, a sua nova empresa "Butterfly Effect" até usou um plug-in de navegador, o Monica.im, para competir na narrativa de IA de centenas de modelos e tornar-se uma das aplicações de IA de crescimento mais rápido com uma excelente experiência de produto. Parece que é um empreendedor que teve um percurso tranquilo. Ele só tem 32 anos quando consegue fazer estas coisas.
Mas, na verdade, ele não se sentia muito feliz. Na visão de Xiao Hong, a chamada 'saída contínua de empreendedores' e a chamada sensação refrescante de constantemente ir de 0 a 1 são como um cerco - a capacidade de aproveitar oportunidades de 0 a 1 é muito forte e muito satisfatória, mas, por outro lado, também preocupa se será necessário fazê-lo novamente.
Em 2024, os profissionais da indústria acreditam que os assistentes de IA com funções de memória como o Monica.im enfrentarão pressões de oponentes fortes como o Doubao, e não será tão fácil como em 2023. O Monica.im teve um bom começo, mas não é necessariamente um sucesso em escala.
E a razão pela qual ele está confuso é porque "a equipe vai realmente fazer coisas mais difíceis e coisas com tetos mais altos a seguir" e explorar coisas que podem abranger de 1 a N.
Anteriormente, muitas vozes que prestavam atenção a Monica.im presumiram que este "algo mais difícil e com um teto mais alto" se refere ao navegador de IA que há muito tempo é um rumor, mas que não foi lançado pela equipa. Olhando agora, é verdade que eu adivinhei errado.
Esta exploração mais difícil é, na verdade:Abandonar o navegador de IA que atingiu o status de lançamento, procurar o próximo produto de IA "momento ChatGPT", encontrar o objetivo de um agente universal e criar a versão mais recente do Manus.im.
Até que ponto o Manus é inovador e a que nível pode chegar no futuro é agora um tópico quente. Mas o que vale a pena assistir ainda é a direção encontrada em 'as coisas vão contra as expectativas' e o processo de encontrar a direção. Manus.im pode não ser capaz de permitir que esta equipe realize coisas de 1 a N, ou até mesmo replicar o impulso do Monica.im, mas assim como o nome desta empresa - 'Efeito Borboleta', muitas pequenas ações e decisões inadvertidamente têm um impacto profundo no futuro, 'Conectar os Pontos', o caminho para o amanhã estará escondido na experiência de hoje.
Desde meados do ano passado até o final do mesmo, a equipa do “Efeito Borboleta” viu o seu browser de IA tornar-se um segredo “semi-público” na indústria. O produto que foi oficialmente revelado ao público foi o Manus, que atraiu atenção incontrolável.
Se já experimentou o Manus pessoalmente ou viu o vídeo de demonstração, sentirá que tem uma diferença significativa em comparação com chatbots ou algumas aplicações semelhantes a agentes: o Manus pode executar tarefas de forma assíncrona e em paralelo.
Quando abres uma aplicação como Doubao, Kimi, ou algo como Utilização do Computador e lhe envias uma pergunta, tens de esperar pela resposta. Caso contrário, se falares com ela enquanto está a responder ou a fazer uma tarefa, a resposta/tarefa anterior será interrompida, e só poderás ter uma conversa de relé A-B-A-B com ela.
No entanto, no Manus.im, embora ainda pareça um produto de chatbot, pode fazer 20 perguntas para realizar tarefas simultaneamente. Pode fazer qualquer outra coisa no computador, como ver vídeos, escrever documentos, jogar jogos, etc., sem atrasar o seu trabalho. O Manus pode notificá-lo uma vez que estas tarefas estejam concluídas ou se ocorrerem problemas durante a execução. Se vir desvios no seu pensamento durante a execução de uma tarefa, pode adicionar palavras de incentivo à caixa de diálogo a qualquer momento, e ele continuará a pensar e a executar a tarefa com o novo contexto.
A experiência é assíncrona e pode ser paralelizada, e realmente parece ter uma equipa de estagiários reais que podem ajudá-lo a trabalhar.
Na verdade, o design da arquitetura de produto da Manus para a experiência assíncrona originou-se de uma lição que a equipe aprendeu em seu produto anterior não divulgado, o navegador de IA. Ao mesmo tempo, esta é também a razão pela qual a equipe investiu muita energia, mas decidiu parar de trabalhar no navegador em outubro do ano passado.
A Browser Company anunciou em 25 de outubro de 2024 que deixaria de desenvolver novos recursos para o navegador Arc e decidiu transferir recursos para um novo navegador, o Dia, com o objetivo de criar um navegador de IA mais simples e fácil de usar. |Fonte: site oficial do Arc
No navegador de IA, a IA está constantemente a interromper o utilizador. Por ser um cenário projetado para um único utilizador, uma vez que a IA é utilizada, não a pode utilizar. Quando a IA começa a trabalhar, só pode assistir à IA a trabalhar, o que é difícil de começar. Ao ver a IA a arrebatar o seu rato e computador, não só não se atreve a arrebatá-lo, como também tem medo de que tocar acidentalmente no teclado ou rato faça com que todo o processo colapse e exija que comece de novo.
Isto permite à equipa fazer dois julgamentos:
Numa entrevista com Zhang Xiaojun da Tencent Technology, Xiao Hong mencionou que, ao equipa estava a resumir as formas de produto de Jasper para ChatGPT para Monica para Cursor para Devin, descobriram que o “programador humano” Devin era muito adequado para esta arquitetura de experiência assíncrona.
Ao contrário de quando se utiliza o Windsurf, por vezes pede para confirmar se o seu computador precisa de instalar esta biblioteca; ou executa uma operação de linha de comandos e pede para preencher sim ou não, porque pode realmente danificar o seu computador, ou há um conflito com algo - pede para preencher 'sim' para avançar para o próximo passo, mas tem de passar a culpa.
Portanto, na opinião da equipe da Manus, "O Chatbot deve ter um computador na nuvem, e o código que ele escreve e as coisas a serem verificadas através do navegador são executados nesse computador. Como é um servidor virtual, não importa se ele quebrar, você pode obter outro. Ele até pode liberar o servidor após a conclusão da tarefa atual.
Vale ressaltar que, enquanto Devin escolheu campos verticais e engenheiros hard-core, a equipe da Manus escolheu assistentes de IA de uso geral, de nível de consumidor, incluindo Web e App. Trata-se de um assistente de IA de uso geral que pode chamar ferramentas e concluir várias tarefas no trabalho e na vida, de acordo com as instruções. No futuro, também entregará resultados de tarefas a um preço acessível para os consumidores.
Com uma ideia clara e um objetivo, o próximo passo é concretizar a ideia. Como é que a Manus o fez?
Segundo o seu parceiro de produto Zhang Tao, isto requer equipar o modelo grande com um computador, bem como dar-lhe permissões de sistema (acesso a APIs privadas como repositórios de código e websites profissionais de consulta de dados), e fornecer-lhe certo treino.
Desta forma, a IA pode usar este computador para abrir um navegador, tomar medidas para agendar ferramentas e depois observar o impacto das suas ações no mundo real com base no feedback gerado pelas ferramentas, depois pensar no próximo passo, tomar medidas novamente e depois observar... Este é o processo de a IA concluir tarefas em exploração e pesquisa. Durante este período, o Manus também compreenderá cada vez mais os seus requisitos sob o seu "treino". No futuro, mesmo que não defina claramente os seus requisitos, ainda pode "descobrir o verdadeiro significado" com base no conhecimento acumulado em cada tarefa.
Li Bojie, o jovem gênio da Huawei e fundador da Logenic AI, acredita que o Manus tem uma característica única que o diferencia de outros produtos: resolve problemas à maneira dos programadores geeks. |Fonte da imagem: Captura de tela do WeChat
O conceito dos produtos da Manus tornou-se gradualmente claro durante a prática de produto da sua equipa: Menos Estrutura, Mais Inteligência (Menos Estrutura, Mais Inteligência).
Este foi também o momento que fez a equipa da Manus dizer 'Ahá, espera!' Por exemplo, isto é o que aconteceu à equipa em janeiro deste ano:
Quando Manus foi convidado a tentar responder a uma pergunta no conjunto de testes GAIA: "Num link de vídeo do YouTube semelhante ao estilo da National Geographic, vários pinguins vêm e vão e entram e saem do ecrã. Manus é convidado a contar o número máximo de pinguins que aparecem num único quadro ao mesmo tempo. Quantos tipos existem?
Então, algo mágico aconteceu.
Manus abriu primeiro o link do vídeo e a primeira ação que fez foi “Pressionar K”. Depois tirou capturas de ecrã uma a uma para registar que tipo de pinguim aparecia em cada fotograma. Por fim, concluiu que o fotograma com mais 3 tipos de pinguins apareceu. Manus irá voltar a verificar em seguida, e a sua próxima ação é “Pressionar 3”... Após inspeção final a resposta era 3.
Como as pessoas por trás da construção da Gate, devemos conhecer os limites das suas capacidades, mas para a equipa, a realidade é que “há sempre surpresas.” Surpreendentemente, não só o Gate acertou na questão, como também, os amigos humanos que usam computadores e o Youtube há muitos anos podem não saber necessariamente o que são as teclas “K” e “3” no teclado?
Olhando para a cena um tanto atordoada diante deles, a equipe seguiu Manus e fez isso novamente. A tecla "K" no teclado é a tecla de pausa, que permite a Manus tirar capturas de tela uma por uma após pausar para registrar em qual quadro aparece qual pinguim; "3" também é uma tecla de atalho, de 0 a 9 representando respectivamente de 0% a 90% da barra de progresso. 3 representa 30% da barra de progresso. Ele pode localizar com precisão aquele segundo do vídeo e depois dizer aos humanos quantos tipos de pinguins estão nesta imagem.
“Este processo é diferente do Chatbot tradicional. Primeiro, ele pode assistir a imagens do YouTube em vez de legendas. Segundo, descobrimos até que estava a usar teclas de atalho do YouTube. Ficámos muito chocados quando respondeu a esta pergunta.” Xiao Hong também mencionou esta cena numa entrevista anterior com a Tencent Technology.
De repente, descobri que o Manus não só era melhor em programação do que os humanos, mas o conhecimento do Manus sobre a Web e Apps que as pessoas usam diariamente excedia muito a imaginação. Como uma IA onisciente e onipotente, pode compreender todas as formas e meios em qualquer ferramenta e, em seguida, escolher o método ótimo.
Isso permitiu mais uma vez à equipa sentir-se “Menos Estrutura, Mais Inteligência” - minimizando restrições artificiais na IA e permitindo que a IA funcione através da sua própria evolução em vez de lhe ensinar o que fazer.
No fundo do site oficial da Manus, a descoberta mais importante por trás da Manus é apresentada silenciosamente: "Menos Estrutura, Mais inteligência". |Fonte da captura de ecrã: Manus
Esta é a explicação e pensamento estendido de Peak, o cofundador e cientista-chefe do "Efeito Borboleta", sobre o primeiro princípio mais importante por trás do produto Manus - "Menos estrutura, mais inteligência" no dia em que o produto Manus foi lançado:
Quando os seus dados são de alta qualidade, o seu modelo é suficientemente inteligente, a sua arquitetura é suficientemente flexível e a sua engenharia é suficientemente sólida, conceitos como Utilização de Computador, Investigação Profunda e Agente de Codificação mudarão de características do produto para capacidades naturalmente emergentes.
Voltar aos primeiros princípios também nos dá uma nova forma de pensar sobre a forma do produto:· O navegador de IA não adiciona IA ao navegador, mas cria um navegador para IA;
· A pesquisa de IA não recorda e resume a partir do índice, mas permite que a IA obtenha informações com as permissões do utilizador;
· Operar a GUI não assume o controle do dispositivo do usuário, mas permite que a IA tenha sua própria máquina virtual;
· Escrever código não é o objetivo final, mas sim um meio geral para resolver vários problemas;
· A dificuldade em gerar um site não está em construir um framework, mas sim em tornar o conteúdo significativo;
· Atenção não é tudo o que você precisa. Somente liberando a atenção dos usuários a DAU pode ser redefinida;
Através da descoberta e prática de 'Menos Estrutura, Mais Inteligência' vez após vez, Manus tem produzido resultados além das expectativas, incluindo a passagem@1pontuação no benchmark GAIA que excede a pontuação da Pesquisa Profunda da OpenAI@64; ao mesmo tempo, nos testes internos, Manus também conseguiu cobrir diretamente 76% dos cenários dos produtos de agente dedicado na Y Combinator W25.
Agora, o valor dessas ideias está a ser discutido numa escala maior:
Clement Delangue, fundador e CEO da Hugging Face, propôs as descobertas do Peak sobre o facto de alguns modelos básicos de código aberto serem simplesmente treinados para "responder a todas as perguntas numa única ronda, independentemente da complexidade das perguntas." No entanto, isto é um requisito no cenário de chatbot. Apenas fazer algum pós-treino no percurso do agente pode fazer uma enorme diferença imediatamente. |Fonte da captura de ecrã: X
O Manus não introduz o MCP (Model Context Protocol), mas permite que a IA escreva seu próprio código para chamar APIs e lidar com várias tarefas de cauda longa. |Fonte da captura de tela: X
Nas discussões sobre Manus nos últimos dias, uma das perguntas mais comuns que ouvi foi: É viável um "Agente de IA universal"? Onde está o limite?
Na visão da Peak, porque a interação entre as pessoas e o mundo é na verdade muito padrão, com olhos, mãos e ouvidos, se o espaço de ação estiver bem definido, deve ser possível incorporar um agente a um elo que originalmente era realizado por humanos.
Uma vez que as pessoas podem usar várias ferramentas para realizar operações profundas em campos verticais, se um agente em si tiver conhecimento suficiente, tiver sido devidamente treinado e tiver uma boa interface para interagir com o mundo, deverá ser capaz de trabalhar como uma pessoa, e até permitir que o agente use um determinado produto SaaS. Por exemplo, um caso de procura de casa apresentado no site oficial da Manus.im envolve na realidade deixar a IA trabalhar com um produto SaaS dedicado ao campo imobiliário.
Ele acredita que o que deve ser claramente definido é o limite do uso de ferramentas do agente, em vez de para qual grupo de pessoas ele serve. O Manus não está simulando uma pessoa que faz coisas específicas, nem é um agente de papel dividido por P&D, gerente de produto, etc.; ele está simulando uma pessoa que pode fazer coisas e está simulando como um estagiário trabalha.
O sistema multi-agente da Manus refere-se à separação de planeamento e execução.
Para o executor (Executor), Manus adotou Claude, que lidera temporariamente em programação, planeamento a longo prazo e capacidades de resolução de problemas passo a passo, e também usou uma série de modelos Qwen para pós-treino.
Ontem, a Manus também alcançou uma cooperação estratégica com a Alibaba Tongyi Qianwen, comprometida em realizar todas as funções da Manus em modelos domésticos e plataformas de potência computacional. |Fonte da imagem: Manus
Na parte do planeador, Manus fez muito trabalho.
Uma vez que as APIs ou modelos de prateleira atualmente no mercado estão essencialmente alinhados para cenários de robôs de chat, durante o treino, não importa o quão complexa seja a pergunta do usuário, o objetivo de otimização do treino é responder claramente à pergunta do usuário em uma resposta, mas isso é na verdade completamente oposto ao planeamento exigido pelo agente.
Portanto, se um modelo existente no mercado for usado diretamente no cenário do agente sem 'alinhamento', esse modelo estará sempre ansioso por um sucesso rápido e dará um resultado 'confuso' dentro de uma rodada de diálogo, assim como muitos resumos em forma de tópicos.
Os métodos de alinhamento devem ser diferentes. A nossa equipa acredita que são necessários dados diferentes para realizar um alinhamento especial, disse o Xiao Hong.
Em outubro do ano passado, a Peak também registou no Zhihu o progresso e falha de uma tentativa de reproduzir o projeto de interesse OpenAI o1 - o modelo de código aberto Steiner. Na verdade, este projeto estava realizando pré-investigação na parte de planeamento passo a passo do planeador Manus.
Em termos gerais, Manus está a simular uma pessoa que faz coisas. Esta é a definição de produto da equipa de Manus como assistente de IA de uso geral. Quanto a pensar sobre os seus limites, a equipa ainda está a explorá-los e precisa de mais casos de uso por parte dos utilizadores.
Numa entrevista com a Tencent Technology divulgada antes do lançamento do Manus, Xiao Hong mencionou na verdade seus pensamentos iniciais sobre a versatilidade do Manus. "Uma questão muito central, ou uma responsabilidade muito importante dos gestores de produto, é controlar as expectativas dos utilizadores. Suponha que pode fazer tudo no mundo, como por exemplo: Como faço 1 milhão de dólares? Isto não é algo que um Agente deva fazer. Mas se pudermos dar exemplos mais específicos para tornar as expectativas de todos mais razoáveis, todos o utilizarão de forma mais suave."
Na manhã de 27 de fevereiro, o parceiro de produto da Manus, Zhang Tao, e o cientista-chefe Ji Yichao (Peak) derramaram lágrimas ao verem os resultados de classificação da Manus.im. O desempenho da Manus no Benchmark GAIA excedeu o da Deep Research da OpenAI, e alcançou este resultado inesperado a cerca de 1/10 do custo ($2/tarefa) do benchmark da OpenAI.
Fonte da imagem: Manus.im
Uma equipa de dezenas de pessoas tornou-se uma das primeiras equipas a criar um produto de agente universal quando os agentes chegaram a um consenso sobre a concorrência em toda a indústria. Eles são também únicos na engenharia de produtos e na experiência interativa de front-end.
O feedback positivo das coisas feitas é melhor do que qualquer outra coisa. Não há melhor incentivo para uma equipa de arranque do que este. Mas antes disso, como aconteceu o Manus? Por que foi feita esta equipa?
“As capacidades do modelo de hoje são capazes de concluir algumas tarefas complexas e multi-etapas. Mas não existem tais produtos, então ninguém consegue senti-lo.” As ideias que Xiao Hong mencionou em entrevistas anteriores com a Tencent Technology podem ser usadas para entender esta questão.
ao mesmo tempo, nem muitas equipas têm a oportunidade de experimentar os produtos da Gate. Porque requer muitas habilidades compostas. Ele quer trabalhar em Chatbot, alguma programação relacionada com IA e relacionada com o navegador, porque precisa de chamar o navegador, e tem um bom sentido dos limites do LLM - a que nível se desenvolveu hoje e a que nível se desenvolverá a seguir. Em primeiro lugar, não há muitas empresas que tenham estas capacidades ao mesmo tempo, e as empresas que têm estas capacidades podem estar a fazer um negócio muito específico. Alguns dos nossos colegas de turma tiveram tempo para fazer estas coisas juntos.
“exatamente”.
A equipe do "Efeito Borboleta" alcançou todos os elementos para tornar tal agente universal hoje, então agora há um agente universal com um grau de conclusão relativamente alto em relação à indústria.
Quando lhe perguntaram qual foi o momento decisivo em que quis começar a Manus, o Peak restaurou mais detalhes. Ele disse: "Na verdade, não há um ponto de viragem 'limpo' no empreendedorismo." Tudo é coerente e não tem fronteiras claras.
“Ao criar um produto, também presto frequentemente atenção à situação externa.” Havia algumas coisas naquela época. Primeiro, quando eu estava a criar um navegador, fiz um modelo do lado do cliente. Mais tarde, descobri que o navegador necessitava de uma ampla gama de cenários e possuía diferentes funcionalidades. Durante o processo, descobri que o modelo base estava a ficar mais forte a um ritmo acelerado. A lacuna entre ele e o agente poderia ser um problema de alinhamento. Embora o mundo exterior possa sentir que os grandes modelos de linguagem têm gradualmente convergido e atingido um obstáculo.
Ao mesmo tempo, o mundo exterior também estava mudando. O Cursor decolou no início do ano passado, seguido por Windsurf e Devin. Isto corresponde ao mesmo contexto. Os agentes são populares no campo da programação, e o caminho para a popularidade é progressivo. O Cursor é um copiloto para programadores, o que melhora a eficiência da programação. A partir do Windsurf, alguns processos automatizados são gradualmente introduzidos, permitindo-lhe ter capacidades de automação mais fortes na sua máquina local. O Devin atingiu um novo nível de automação.
As tendências de VC também são consistentes. Por exemplo, no ano passado e no ano anterior, a YC investiu em dois tipos de empresas. Um é o Browser em nuvem, como base do Browser; o segundo tipo é máquinas virtuais de Sandbox de IA leve semelhantes ao e2b.
Isto mostra que “a infraestrutura do modelo está a amadurecer rapidamente, e a infraestrutura da Infra também está a amadurecer rapidamente. Além disso, ao ver que os produtos externos estão a ganhar gradualmente mais aceitação, sentimos que esta é uma direção que merece toda a atenção. Este é um processo muito gradual e suave. Além disso, a infraestrutura acumulada durante o desenvolvimento de navegadores como o Chromium pode ser migrada facilmente, é por isso que nos atrevemos a desenvolver navegadores na nuvem.”
Em resumo, a perceção aguçada e a acumulação de experiência em termos de requisitos e modelos na chamada "casca" criaram em conjunto o Manus. Muitos dos cenários da Mónica requerem formação pós-modelo. Ao mesmo tempo, a lição mais importante "menos estrutura, mais inteligência" foi reforçada na prática dos navegadores de IA. Ela descobriu que a capacidade do modelo atingiu o nível de ser um agente, mas o problema reside no alinhamento. O que se seguiu foram três meses de rápida evolução para o Manus.
Anteriormente, a equipa do “Efeito Borboleta” foi uma vez questionada sobre o valor do “shell”. Construiu a Monica integrando modelos grandes existentes sem desenvolver grandes modelos por si própria. Integrou funções como chat, pesquisa, leitura, escrita e tradução. Também integrou muitos cenários de execução de tarefas através de APIs um por um. No final do ano passado, o número de utilizadores atingiu dezenas de milhões.
Agora, quando Doubao, Quark e Yuanbao estão todos a promover vigorosamente os seus produtos Monica, e quando uma pequena equipa está a utilizar tecnologia existente para criar o primeiro agente de nível de consumidor geral, é hora de reentender a “shell”.
O que exatamente são “shells” e “shells”?
Na visão de Xiao Hong, todas as inovações são causadas por modelos, que são basicamente orientados por modelos e priorizam o modelo. A casca é para exibir as inovações técnicas do modelo de forma que os utilizadores possam perceber e encapsular as capacidades inovadoras do modelo de forma que os utilizadores possam perceber melhor.
A partir desta definição, a aplicação DeepSeek (incluindo a exibição da cadeia de pensamento) é uma casca do DeepSeek-R1, o Cursor é uma casca do Soneto Antropico 3.5, a Perplexidade é uma casca do GPT-4 e o ChatGPT é uma casca do InstructGPT.
À medida que as capacidades do modelo evoluem rapidamente, 'essa casca' também precisa evoluir. Após a evolução das capacidades de cada geração de modelos, nem sempre é o fabricante original. É um fabricante de terceiros que apresenta seu valor percebido pelo usuário. Assim como o Cursor traz valor percebido pelo usuário para o Claude 3.5 Sonnet.
Em 5 de março, no segundo aniversário do lançamento do Monica.im, a resposta ao motivo pelo qual dezenas dessas pessoas alcançaram uma experiência de produto que excede a de vários Operadores de Pesquisa Profunda e OpenAI reside na compreensão e prática de shells.
Como fazer a melhor concha para um novo modelo que possa ser usado como agente?
Como construtor da Manus, Zhang Tao acredita: "Olhando para toda a arquitetura a partir do background, vemos que há muito trabalho inacabado a ser feito em cada lugar, e cada um desses lugares é a chave para o sucesso, e são todos lugares que tornam a superfície do produto diferente."
Do ponto de vista da equipa, a vantagem mais importante é o ritmo de inovação. Tanto as aplicações como os modelos atingiram agora um estado de saturação relativa. A única capacidade central real no final é correr rápido, embora o "volante de dados" e os "efeitos de rede" ainda não tenham sido verificados.
Num campo totalmente novo, tudo é incerto e desconhecido. A coisa mais importante é a velocidade da inovação. O que procuramos é exploração, tentativa e erro em várias direções e encontrar rapidamente o caminho certo. A equipa Manus é suficientemente flexível em termos de filosofia de gestão, estrutura organizacional e processos industriais. Quando surgem novas oportunidades, pode usar recursos limitados para conectar todos os recursos da empresa, tomar decisões a uma velocidade muito elevada e adaptar-se ao feedback sobre os erros.
Da esquerda para a direita estão o cientista-chefe "Butterfly Effect" Peak, o CEO Xiao Hong e o parceiro de produto Zhang Tao | Fonte da imagem: Internet
Em relação às expectativas da Manus, Xiao Hong acredita que “mesmo que haja um período de oportunidade, vale a pena tentar.” No último ano, o seu pensamento também sofreu mudanças drásticas. Por exemplo, agora ele acredita que “quando percebes que estás adiantado, tornas-te mais agressivo e super agressivo. Depois de rever hoje, sinto que a Monica em 2023 não foi agressiva o suficiente.” “Se sabes que estás a inovar e a liderar, deves ser agressivo.”
Não sei se Manus pode trazer a Xiao Hong e sua equipe a experiência e o salto de 1 para N, mas essa equipe que mais conhece sobre "shell" acredita em criar com o coração e a mão como um só, e também acredita no efeito borboleta trazido pela criação. Manus vem de um lema no MIT: Mens at manus, que enfatiza a unidade do coração e da mão. Não pode ser apenas óptico, deve ser feito, e pode ter impacto no mundo real, o que é conhecimento real.
No futuro, à medida que mais dos depósitos por trás do Manus forem disponibilizados em open source, uma gama mais ampla de efeitos borboleta será ainda mais libertada.
Este artigo é reproduzido a partir de [ GEEEKPARK], e os direitos de autor pertencem ao autor original [Wan Chen], se tiver alguma objeção à reimpressão, entre em contato Gate Learnequipa, a equipa tratará do assunto o mais rápido possível de acordo com os procedimentos relevantes.
Aviso legal: As opiniões expressas neste artigo representam apenas as opiniões pessoais do autor e não constituem nenhum conselho de investimento.
Outras versões do artigo em outros idiomas são traduzidas pela equipe da Gate Learn e não são mencionadas emGate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.
Share
Content
A história empreendedora que recebeu o maior enriquecimento espiritual no último ano veio do fundador da Dify, Zhang Luyu.
A primeira vez que o conheci foi no evento “Xixi Taoism” em 2023. Entre os nomes famosos presentes, Zhang Luyu passou despercebido. Quando nos encontramos novamente em 2024, Dify já era outra história - um empreendedor sem um histórico glamoroso, que criou um dos produtos open source de IA mais bem-sucedidos do mundo, apesar das dúvidas de todos sobre o modelo de negócio.
O que aconteceu a esta empresa num ano, como a sua popularidade inesperada no mercado japonês, que é “convencional e fácil de defender, mas difícil de atacar”, ajudou-me a compreender melhor o “empreendedorismo”. São, na sua maioria, acidentes, e também requer sorte. No final, é necessário ter a capacidade de encontrar uma saída das mudanças constantes e dos contratempos.
Agora, uma história semelhante aconteceu a outro empreendedor de alto perfil—Manus.im Xiao Hong e sua equipa.
Há quatro meses, Xiao Hong mencionou uma confusão, 'A equipe é boa em ir de 0 para 1 e tem uma forte capacidade de aproveitar oportunidades. Uma vez que começa de 1 para N, o estado não é tão bom.'
Na sua experiência passada, a maioria dos projetos empreendedores conseguiu receitas relativamente estáveis e consideráveis, e a sua última empresa foi também adquirida com sucesso. Em 2023, a sua nova empresa "Butterfly Effect" até usou um plug-in de navegador, o Monica.im, para competir na narrativa de IA de centenas de modelos e tornar-se uma das aplicações de IA de crescimento mais rápido com uma excelente experiência de produto. Parece que é um empreendedor que teve um percurso tranquilo. Ele só tem 32 anos quando consegue fazer estas coisas.
Mas, na verdade, ele não se sentia muito feliz. Na visão de Xiao Hong, a chamada 'saída contínua de empreendedores' e a chamada sensação refrescante de constantemente ir de 0 a 1 são como um cerco - a capacidade de aproveitar oportunidades de 0 a 1 é muito forte e muito satisfatória, mas, por outro lado, também preocupa se será necessário fazê-lo novamente.
Em 2024, os profissionais da indústria acreditam que os assistentes de IA com funções de memória como o Monica.im enfrentarão pressões de oponentes fortes como o Doubao, e não será tão fácil como em 2023. O Monica.im teve um bom começo, mas não é necessariamente um sucesso em escala.
E a razão pela qual ele está confuso é porque "a equipe vai realmente fazer coisas mais difíceis e coisas com tetos mais altos a seguir" e explorar coisas que podem abranger de 1 a N.
Anteriormente, muitas vozes que prestavam atenção a Monica.im presumiram que este "algo mais difícil e com um teto mais alto" se refere ao navegador de IA que há muito tempo é um rumor, mas que não foi lançado pela equipa. Olhando agora, é verdade que eu adivinhei errado.
Esta exploração mais difícil é, na verdade:Abandonar o navegador de IA que atingiu o status de lançamento, procurar o próximo produto de IA "momento ChatGPT", encontrar o objetivo de um agente universal e criar a versão mais recente do Manus.im.
Até que ponto o Manus é inovador e a que nível pode chegar no futuro é agora um tópico quente. Mas o que vale a pena assistir ainda é a direção encontrada em 'as coisas vão contra as expectativas' e o processo de encontrar a direção. Manus.im pode não ser capaz de permitir que esta equipe realize coisas de 1 a N, ou até mesmo replicar o impulso do Monica.im, mas assim como o nome desta empresa - 'Efeito Borboleta', muitas pequenas ações e decisões inadvertidamente têm um impacto profundo no futuro, 'Conectar os Pontos', o caminho para o amanhã estará escondido na experiência de hoje.
Desde meados do ano passado até o final do mesmo, a equipa do “Efeito Borboleta” viu o seu browser de IA tornar-se um segredo “semi-público” na indústria. O produto que foi oficialmente revelado ao público foi o Manus, que atraiu atenção incontrolável.
Se já experimentou o Manus pessoalmente ou viu o vídeo de demonstração, sentirá que tem uma diferença significativa em comparação com chatbots ou algumas aplicações semelhantes a agentes: o Manus pode executar tarefas de forma assíncrona e em paralelo.
Quando abres uma aplicação como Doubao, Kimi, ou algo como Utilização do Computador e lhe envias uma pergunta, tens de esperar pela resposta. Caso contrário, se falares com ela enquanto está a responder ou a fazer uma tarefa, a resposta/tarefa anterior será interrompida, e só poderás ter uma conversa de relé A-B-A-B com ela.
No entanto, no Manus.im, embora ainda pareça um produto de chatbot, pode fazer 20 perguntas para realizar tarefas simultaneamente. Pode fazer qualquer outra coisa no computador, como ver vídeos, escrever documentos, jogar jogos, etc., sem atrasar o seu trabalho. O Manus pode notificá-lo uma vez que estas tarefas estejam concluídas ou se ocorrerem problemas durante a execução. Se vir desvios no seu pensamento durante a execução de uma tarefa, pode adicionar palavras de incentivo à caixa de diálogo a qualquer momento, e ele continuará a pensar e a executar a tarefa com o novo contexto.
A experiência é assíncrona e pode ser paralelizada, e realmente parece ter uma equipa de estagiários reais que podem ajudá-lo a trabalhar.
Na verdade, o design da arquitetura de produto da Manus para a experiência assíncrona originou-se de uma lição que a equipe aprendeu em seu produto anterior não divulgado, o navegador de IA. Ao mesmo tempo, esta é também a razão pela qual a equipe investiu muita energia, mas decidiu parar de trabalhar no navegador em outubro do ano passado.
A Browser Company anunciou em 25 de outubro de 2024 que deixaria de desenvolver novos recursos para o navegador Arc e decidiu transferir recursos para um novo navegador, o Dia, com o objetivo de criar um navegador de IA mais simples e fácil de usar. |Fonte: site oficial do Arc
No navegador de IA, a IA está constantemente a interromper o utilizador. Por ser um cenário projetado para um único utilizador, uma vez que a IA é utilizada, não a pode utilizar. Quando a IA começa a trabalhar, só pode assistir à IA a trabalhar, o que é difícil de começar. Ao ver a IA a arrebatar o seu rato e computador, não só não se atreve a arrebatá-lo, como também tem medo de que tocar acidentalmente no teclado ou rato faça com que todo o processo colapse e exija que comece de novo.
Isto permite à equipa fazer dois julgamentos:
Numa entrevista com Zhang Xiaojun da Tencent Technology, Xiao Hong mencionou que, ao equipa estava a resumir as formas de produto de Jasper para ChatGPT para Monica para Cursor para Devin, descobriram que o “programador humano” Devin era muito adequado para esta arquitetura de experiência assíncrona.
Ao contrário de quando se utiliza o Windsurf, por vezes pede para confirmar se o seu computador precisa de instalar esta biblioteca; ou executa uma operação de linha de comandos e pede para preencher sim ou não, porque pode realmente danificar o seu computador, ou há um conflito com algo - pede para preencher 'sim' para avançar para o próximo passo, mas tem de passar a culpa.
Portanto, na opinião da equipe da Manus, "O Chatbot deve ter um computador na nuvem, e o código que ele escreve e as coisas a serem verificadas através do navegador são executados nesse computador. Como é um servidor virtual, não importa se ele quebrar, você pode obter outro. Ele até pode liberar o servidor após a conclusão da tarefa atual.
Vale ressaltar que, enquanto Devin escolheu campos verticais e engenheiros hard-core, a equipe da Manus escolheu assistentes de IA de uso geral, de nível de consumidor, incluindo Web e App. Trata-se de um assistente de IA de uso geral que pode chamar ferramentas e concluir várias tarefas no trabalho e na vida, de acordo com as instruções. No futuro, também entregará resultados de tarefas a um preço acessível para os consumidores.
Com uma ideia clara e um objetivo, o próximo passo é concretizar a ideia. Como é que a Manus o fez?
Segundo o seu parceiro de produto Zhang Tao, isto requer equipar o modelo grande com um computador, bem como dar-lhe permissões de sistema (acesso a APIs privadas como repositórios de código e websites profissionais de consulta de dados), e fornecer-lhe certo treino.
Desta forma, a IA pode usar este computador para abrir um navegador, tomar medidas para agendar ferramentas e depois observar o impacto das suas ações no mundo real com base no feedback gerado pelas ferramentas, depois pensar no próximo passo, tomar medidas novamente e depois observar... Este é o processo de a IA concluir tarefas em exploração e pesquisa. Durante este período, o Manus também compreenderá cada vez mais os seus requisitos sob o seu "treino". No futuro, mesmo que não defina claramente os seus requisitos, ainda pode "descobrir o verdadeiro significado" com base no conhecimento acumulado em cada tarefa.
Li Bojie, o jovem gênio da Huawei e fundador da Logenic AI, acredita que o Manus tem uma característica única que o diferencia de outros produtos: resolve problemas à maneira dos programadores geeks. |Fonte da imagem: Captura de tela do WeChat
O conceito dos produtos da Manus tornou-se gradualmente claro durante a prática de produto da sua equipa: Menos Estrutura, Mais Inteligência (Menos Estrutura, Mais Inteligência).
Este foi também o momento que fez a equipa da Manus dizer 'Ahá, espera!' Por exemplo, isto é o que aconteceu à equipa em janeiro deste ano:
Quando Manus foi convidado a tentar responder a uma pergunta no conjunto de testes GAIA: "Num link de vídeo do YouTube semelhante ao estilo da National Geographic, vários pinguins vêm e vão e entram e saem do ecrã. Manus é convidado a contar o número máximo de pinguins que aparecem num único quadro ao mesmo tempo. Quantos tipos existem?
Então, algo mágico aconteceu.
Manus abriu primeiro o link do vídeo e a primeira ação que fez foi “Pressionar K”. Depois tirou capturas de ecrã uma a uma para registar que tipo de pinguim aparecia em cada fotograma. Por fim, concluiu que o fotograma com mais 3 tipos de pinguins apareceu. Manus irá voltar a verificar em seguida, e a sua próxima ação é “Pressionar 3”... Após inspeção final a resposta era 3.
Como as pessoas por trás da construção da Gate, devemos conhecer os limites das suas capacidades, mas para a equipa, a realidade é que “há sempre surpresas.” Surpreendentemente, não só o Gate acertou na questão, como também, os amigos humanos que usam computadores e o Youtube há muitos anos podem não saber necessariamente o que são as teclas “K” e “3” no teclado?
Olhando para a cena um tanto atordoada diante deles, a equipe seguiu Manus e fez isso novamente. A tecla "K" no teclado é a tecla de pausa, que permite a Manus tirar capturas de tela uma por uma após pausar para registrar em qual quadro aparece qual pinguim; "3" também é uma tecla de atalho, de 0 a 9 representando respectivamente de 0% a 90% da barra de progresso. 3 representa 30% da barra de progresso. Ele pode localizar com precisão aquele segundo do vídeo e depois dizer aos humanos quantos tipos de pinguins estão nesta imagem.
“Este processo é diferente do Chatbot tradicional. Primeiro, ele pode assistir a imagens do YouTube em vez de legendas. Segundo, descobrimos até que estava a usar teclas de atalho do YouTube. Ficámos muito chocados quando respondeu a esta pergunta.” Xiao Hong também mencionou esta cena numa entrevista anterior com a Tencent Technology.
De repente, descobri que o Manus não só era melhor em programação do que os humanos, mas o conhecimento do Manus sobre a Web e Apps que as pessoas usam diariamente excedia muito a imaginação. Como uma IA onisciente e onipotente, pode compreender todas as formas e meios em qualquer ferramenta e, em seguida, escolher o método ótimo.
Isso permitiu mais uma vez à equipa sentir-se “Menos Estrutura, Mais Inteligência” - minimizando restrições artificiais na IA e permitindo que a IA funcione através da sua própria evolução em vez de lhe ensinar o que fazer.
No fundo do site oficial da Manus, a descoberta mais importante por trás da Manus é apresentada silenciosamente: "Menos Estrutura, Mais inteligência". |Fonte da captura de ecrã: Manus
Esta é a explicação e pensamento estendido de Peak, o cofundador e cientista-chefe do "Efeito Borboleta", sobre o primeiro princípio mais importante por trás do produto Manus - "Menos estrutura, mais inteligência" no dia em que o produto Manus foi lançado:
Quando os seus dados são de alta qualidade, o seu modelo é suficientemente inteligente, a sua arquitetura é suficientemente flexível e a sua engenharia é suficientemente sólida, conceitos como Utilização de Computador, Investigação Profunda e Agente de Codificação mudarão de características do produto para capacidades naturalmente emergentes.
Voltar aos primeiros princípios também nos dá uma nova forma de pensar sobre a forma do produto:· O navegador de IA não adiciona IA ao navegador, mas cria um navegador para IA;
· A pesquisa de IA não recorda e resume a partir do índice, mas permite que a IA obtenha informações com as permissões do utilizador;
· Operar a GUI não assume o controle do dispositivo do usuário, mas permite que a IA tenha sua própria máquina virtual;
· Escrever código não é o objetivo final, mas sim um meio geral para resolver vários problemas;
· A dificuldade em gerar um site não está em construir um framework, mas sim em tornar o conteúdo significativo;
· Atenção não é tudo o que você precisa. Somente liberando a atenção dos usuários a DAU pode ser redefinida;
Através da descoberta e prática de 'Menos Estrutura, Mais Inteligência' vez após vez, Manus tem produzido resultados além das expectativas, incluindo a passagem@1pontuação no benchmark GAIA que excede a pontuação da Pesquisa Profunda da OpenAI@64; ao mesmo tempo, nos testes internos, Manus também conseguiu cobrir diretamente 76% dos cenários dos produtos de agente dedicado na Y Combinator W25.
Agora, o valor dessas ideias está a ser discutido numa escala maior:
Clement Delangue, fundador e CEO da Hugging Face, propôs as descobertas do Peak sobre o facto de alguns modelos básicos de código aberto serem simplesmente treinados para "responder a todas as perguntas numa única ronda, independentemente da complexidade das perguntas." No entanto, isto é um requisito no cenário de chatbot. Apenas fazer algum pós-treino no percurso do agente pode fazer uma enorme diferença imediatamente. |Fonte da captura de ecrã: X
O Manus não introduz o MCP (Model Context Protocol), mas permite que a IA escreva seu próprio código para chamar APIs e lidar com várias tarefas de cauda longa. |Fonte da captura de tela: X
Nas discussões sobre Manus nos últimos dias, uma das perguntas mais comuns que ouvi foi: É viável um "Agente de IA universal"? Onde está o limite?
Na visão da Peak, porque a interação entre as pessoas e o mundo é na verdade muito padrão, com olhos, mãos e ouvidos, se o espaço de ação estiver bem definido, deve ser possível incorporar um agente a um elo que originalmente era realizado por humanos.
Uma vez que as pessoas podem usar várias ferramentas para realizar operações profundas em campos verticais, se um agente em si tiver conhecimento suficiente, tiver sido devidamente treinado e tiver uma boa interface para interagir com o mundo, deverá ser capaz de trabalhar como uma pessoa, e até permitir que o agente use um determinado produto SaaS. Por exemplo, um caso de procura de casa apresentado no site oficial da Manus.im envolve na realidade deixar a IA trabalhar com um produto SaaS dedicado ao campo imobiliário.
Ele acredita que o que deve ser claramente definido é o limite do uso de ferramentas do agente, em vez de para qual grupo de pessoas ele serve. O Manus não está simulando uma pessoa que faz coisas específicas, nem é um agente de papel dividido por P&D, gerente de produto, etc.; ele está simulando uma pessoa que pode fazer coisas e está simulando como um estagiário trabalha.
O sistema multi-agente da Manus refere-se à separação de planeamento e execução.
Para o executor (Executor), Manus adotou Claude, que lidera temporariamente em programação, planeamento a longo prazo e capacidades de resolução de problemas passo a passo, e também usou uma série de modelos Qwen para pós-treino.
Ontem, a Manus também alcançou uma cooperação estratégica com a Alibaba Tongyi Qianwen, comprometida em realizar todas as funções da Manus em modelos domésticos e plataformas de potência computacional. |Fonte da imagem: Manus
Na parte do planeador, Manus fez muito trabalho.
Uma vez que as APIs ou modelos de prateleira atualmente no mercado estão essencialmente alinhados para cenários de robôs de chat, durante o treino, não importa o quão complexa seja a pergunta do usuário, o objetivo de otimização do treino é responder claramente à pergunta do usuário em uma resposta, mas isso é na verdade completamente oposto ao planeamento exigido pelo agente.
Portanto, se um modelo existente no mercado for usado diretamente no cenário do agente sem 'alinhamento', esse modelo estará sempre ansioso por um sucesso rápido e dará um resultado 'confuso' dentro de uma rodada de diálogo, assim como muitos resumos em forma de tópicos.
Os métodos de alinhamento devem ser diferentes. A nossa equipa acredita que são necessários dados diferentes para realizar um alinhamento especial, disse o Xiao Hong.
Em outubro do ano passado, a Peak também registou no Zhihu o progresso e falha de uma tentativa de reproduzir o projeto de interesse OpenAI o1 - o modelo de código aberto Steiner. Na verdade, este projeto estava realizando pré-investigação na parte de planeamento passo a passo do planeador Manus.
Em termos gerais, Manus está a simular uma pessoa que faz coisas. Esta é a definição de produto da equipa de Manus como assistente de IA de uso geral. Quanto a pensar sobre os seus limites, a equipa ainda está a explorá-los e precisa de mais casos de uso por parte dos utilizadores.
Numa entrevista com a Tencent Technology divulgada antes do lançamento do Manus, Xiao Hong mencionou na verdade seus pensamentos iniciais sobre a versatilidade do Manus. "Uma questão muito central, ou uma responsabilidade muito importante dos gestores de produto, é controlar as expectativas dos utilizadores. Suponha que pode fazer tudo no mundo, como por exemplo: Como faço 1 milhão de dólares? Isto não é algo que um Agente deva fazer. Mas se pudermos dar exemplos mais específicos para tornar as expectativas de todos mais razoáveis, todos o utilizarão de forma mais suave."
Na manhã de 27 de fevereiro, o parceiro de produto da Manus, Zhang Tao, e o cientista-chefe Ji Yichao (Peak) derramaram lágrimas ao verem os resultados de classificação da Manus.im. O desempenho da Manus no Benchmark GAIA excedeu o da Deep Research da OpenAI, e alcançou este resultado inesperado a cerca de 1/10 do custo ($2/tarefa) do benchmark da OpenAI.
Fonte da imagem: Manus.im
Uma equipa de dezenas de pessoas tornou-se uma das primeiras equipas a criar um produto de agente universal quando os agentes chegaram a um consenso sobre a concorrência em toda a indústria. Eles são também únicos na engenharia de produtos e na experiência interativa de front-end.
O feedback positivo das coisas feitas é melhor do que qualquer outra coisa. Não há melhor incentivo para uma equipa de arranque do que este. Mas antes disso, como aconteceu o Manus? Por que foi feita esta equipa?
“As capacidades do modelo de hoje são capazes de concluir algumas tarefas complexas e multi-etapas. Mas não existem tais produtos, então ninguém consegue senti-lo.” As ideias que Xiao Hong mencionou em entrevistas anteriores com a Tencent Technology podem ser usadas para entender esta questão.
ao mesmo tempo, nem muitas equipas têm a oportunidade de experimentar os produtos da Gate. Porque requer muitas habilidades compostas. Ele quer trabalhar em Chatbot, alguma programação relacionada com IA e relacionada com o navegador, porque precisa de chamar o navegador, e tem um bom sentido dos limites do LLM - a que nível se desenvolveu hoje e a que nível se desenvolverá a seguir. Em primeiro lugar, não há muitas empresas que tenham estas capacidades ao mesmo tempo, e as empresas que têm estas capacidades podem estar a fazer um negócio muito específico. Alguns dos nossos colegas de turma tiveram tempo para fazer estas coisas juntos.
“exatamente”.
A equipe do "Efeito Borboleta" alcançou todos os elementos para tornar tal agente universal hoje, então agora há um agente universal com um grau de conclusão relativamente alto em relação à indústria.
Quando lhe perguntaram qual foi o momento decisivo em que quis começar a Manus, o Peak restaurou mais detalhes. Ele disse: "Na verdade, não há um ponto de viragem 'limpo' no empreendedorismo." Tudo é coerente e não tem fronteiras claras.
“Ao criar um produto, também presto frequentemente atenção à situação externa.” Havia algumas coisas naquela época. Primeiro, quando eu estava a criar um navegador, fiz um modelo do lado do cliente. Mais tarde, descobri que o navegador necessitava de uma ampla gama de cenários e possuía diferentes funcionalidades. Durante o processo, descobri que o modelo base estava a ficar mais forte a um ritmo acelerado. A lacuna entre ele e o agente poderia ser um problema de alinhamento. Embora o mundo exterior possa sentir que os grandes modelos de linguagem têm gradualmente convergido e atingido um obstáculo.
Ao mesmo tempo, o mundo exterior também estava mudando. O Cursor decolou no início do ano passado, seguido por Windsurf e Devin. Isto corresponde ao mesmo contexto. Os agentes são populares no campo da programação, e o caminho para a popularidade é progressivo. O Cursor é um copiloto para programadores, o que melhora a eficiência da programação. A partir do Windsurf, alguns processos automatizados são gradualmente introduzidos, permitindo-lhe ter capacidades de automação mais fortes na sua máquina local. O Devin atingiu um novo nível de automação.
As tendências de VC também são consistentes. Por exemplo, no ano passado e no ano anterior, a YC investiu em dois tipos de empresas. Um é o Browser em nuvem, como base do Browser; o segundo tipo é máquinas virtuais de Sandbox de IA leve semelhantes ao e2b.
Isto mostra que “a infraestrutura do modelo está a amadurecer rapidamente, e a infraestrutura da Infra também está a amadurecer rapidamente. Além disso, ao ver que os produtos externos estão a ganhar gradualmente mais aceitação, sentimos que esta é uma direção que merece toda a atenção. Este é um processo muito gradual e suave. Além disso, a infraestrutura acumulada durante o desenvolvimento de navegadores como o Chromium pode ser migrada facilmente, é por isso que nos atrevemos a desenvolver navegadores na nuvem.”
Em resumo, a perceção aguçada e a acumulação de experiência em termos de requisitos e modelos na chamada "casca" criaram em conjunto o Manus. Muitos dos cenários da Mónica requerem formação pós-modelo. Ao mesmo tempo, a lição mais importante "menos estrutura, mais inteligência" foi reforçada na prática dos navegadores de IA. Ela descobriu que a capacidade do modelo atingiu o nível de ser um agente, mas o problema reside no alinhamento. O que se seguiu foram três meses de rápida evolução para o Manus.
Anteriormente, a equipa do “Efeito Borboleta” foi uma vez questionada sobre o valor do “shell”. Construiu a Monica integrando modelos grandes existentes sem desenvolver grandes modelos por si própria. Integrou funções como chat, pesquisa, leitura, escrita e tradução. Também integrou muitos cenários de execução de tarefas através de APIs um por um. No final do ano passado, o número de utilizadores atingiu dezenas de milhões.
Agora, quando Doubao, Quark e Yuanbao estão todos a promover vigorosamente os seus produtos Monica, e quando uma pequena equipa está a utilizar tecnologia existente para criar o primeiro agente de nível de consumidor geral, é hora de reentender a “shell”.
O que exatamente são “shells” e “shells”?
Na visão de Xiao Hong, todas as inovações são causadas por modelos, que são basicamente orientados por modelos e priorizam o modelo. A casca é para exibir as inovações técnicas do modelo de forma que os utilizadores possam perceber e encapsular as capacidades inovadoras do modelo de forma que os utilizadores possam perceber melhor.
A partir desta definição, a aplicação DeepSeek (incluindo a exibição da cadeia de pensamento) é uma casca do DeepSeek-R1, o Cursor é uma casca do Soneto Antropico 3.5, a Perplexidade é uma casca do GPT-4 e o ChatGPT é uma casca do InstructGPT.
À medida que as capacidades do modelo evoluem rapidamente, 'essa casca' também precisa evoluir. Após a evolução das capacidades de cada geração de modelos, nem sempre é o fabricante original. É um fabricante de terceiros que apresenta seu valor percebido pelo usuário. Assim como o Cursor traz valor percebido pelo usuário para o Claude 3.5 Sonnet.
Em 5 de março, no segundo aniversário do lançamento do Monica.im, a resposta ao motivo pelo qual dezenas dessas pessoas alcançaram uma experiência de produto que excede a de vários Operadores de Pesquisa Profunda e OpenAI reside na compreensão e prática de shells.
Como fazer a melhor concha para um novo modelo que possa ser usado como agente?
Como construtor da Manus, Zhang Tao acredita: "Olhando para toda a arquitetura a partir do background, vemos que há muito trabalho inacabado a ser feito em cada lugar, e cada um desses lugares é a chave para o sucesso, e são todos lugares que tornam a superfície do produto diferente."
Do ponto de vista da equipa, a vantagem mais importante é o ritmo de inovação. Tanto as aplicações como os modelos atingiram agora um estado de saturação relativa. A única capacidade central real no final é correr rápido, embora o "volante de dados" e os "efeitos de rede" ainda não tenham sido verificados.
Num campo totalmente novo, tudo é incerto e desconhecido. A coisa mais importante é a velocidade da inovação. O que procuramos é exploração, tentativa e erro em várias direções e encontrar rapidamente o caminho certo. A equipa Manus é suficientemente flexível em termos de filosofia de gestão, estrutura organizacional e processos industriais. Quando surgem novas oportunidades, pode usar recursos limitados para conectar todos os recursos da empresa, tomar decisões a uma velocidade muito elevada e adaptar-se ao feedback sobre os erros.
Da esquerda para a direita estão o cientista-chefe "Butterfly Effect" Peak, o CEO Xiao Hong e o parceiro de produto Zhang Tao | Fonte da imagem: Internet
Em relação às expectativas da Manus, Xiao Hong acredita que “mesmo que haja um período de oportunidade, vale a pena tentar.” No último ano, o seu pensamento também sofreu mudanças drásticas. Por exemplo, agora ele acredita que “quando percebes que estás adiantado, tornas-te mais agressivo e super agressivo. Depois de rever hoje, sinto que a Monica em 2023 não foi agressiva o suficiente.” “Se sabes que estás a inovar e a liderar, deves ser agressivo.”
Não sei se Manus pode trazer a Xiao Hong e sua equipe a experiência e o salto de 1 para N, mas essa equipe que mais conhece sobre "shell" acredita em criar com o coração e a mão como um só, e também acredita no efeito borboleta trazido pela criação. Manus vem de um lema no MIT: Mens at manus, que enfatiza a unidade do coração e da mão. Não pode ser apenas óptico, deve ser feito, e pode ter impacto no mundo real, o que é conhecimento real.
No futuro, à medida que mais dos depósitos por trás do Manus forem disponibilizados em open source, uma gama mais ampla de efeitos borboleta será ainda mais libertada.
Este artigo é reproduzido a partir de [ GEEEKPARK], e os direitos de autor pertencem ao autor original [Wan Chen], se tiver alguma objeção à reimpressão, entre em contato Gate Learnequipa, a equipa tratará do assunto o mais rápido possível de acordo com os procedimentos relevantes.
Aviso legal: As opiniões expressas neste artigo representam apenas as opiniões pessoais do autor e não constituem nenhum conselho de investimento.
Outras versões do artigo em outros idiomas são traduzidas pela equipe da Gate Learn e não são mencionadas emGate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.