A história empreendedora que recebeu mais nutrição espiritual no ano passado veio do fundador da Dify, Zhang Luyu.
A primeira vez que o conheci foi no evento “Xixi Taoism” em 2023. Entre os nomes de estrelas presentes, Zhang Luyu passou despercebido. Quando nos encontramos novamente em 2024, Dify já era outra história - um empreendedor sem um histórico glamoroso, que criou um dos produtos de código aberto de IA de maior sucesso do mundo, apesar das dúvidas de todos sobre o modelo de negócios.
O que aconteceu com esta empresa em um ano, como sua inesperada popularidade no mercado japonês, que é "convencional e fácil de defender, mas difícil de atacar", me ajudou a entender melhor o "empreendedorismo". São principalmente acidentes e também requer sorte. No final, você precisa ter a capacidade de encontrar uma saída para mudanças constantes e contratempos.
Agora, uma história semelhante aconteceu com outro empreendedor de alto perfil—Manus.im Xiao Hong e sua equipe.
Quatro meses atrás, Xiao Hong mencionou uma confusão, 'A equipe é boa em ir de 0 a 1 e tem uma forte capacidade de aproveitar oportunidades. Uma vez que começa de 1 para N, o estado não é tão bom.'
Em sua experiência anterior, a maioria dos projetos empreendedores alcançou receitas relativamente estáveis e consideráveis, e sua última empresa também foi adquirida com sucesso. Em 2023, sua nova empresa "Efeito Borboleta" até mesmo utilizou um plug-in de navegador, Monica.im, para competir na narrativa de IA de centenas de modelos e se tornar uma das aplicações de IA de crescimento mais rápido com excelente experiência de produto. Parece que ele é um empreendedor que teve uma jornada tranquila. Ele tem apenas 32 anos quando consegue fazer essas coisas.
Mas, na verdade, ele não se sentia muito feliz. Na visão de Xiao Hong, o chamado "contínuo sair dos empresários" e a suposta sensação revigorante de constantemente ir de 0 a 1 são como um cerco - a capacidade de aproveitar oportunidades de 0 a 1 é muito forte e muito satisfatória, mas, por outro lado, você também está preocupado se precisará fazer isso de novo.
Em 2024, os insiders da indústria acreditam que assistentes de IA com funções de memória como o Monica.im enfrentarão pressão de oponentes fortes como o Doubao, e não será tão fácil quanto em 2023. O Monica.im tem um bom 0 a 1, mas não necessariamente um sucesso de 1 a N.
E a razão pela qual ele está confuso é porque "a equipe realmente vai fazer coisas mais difíceis e coisas com tetos mais altos a seguir" e explorar coisas que podem abranger de 1 a N.
Anteriormente, muitas vozes prestando atenção ao Monica.im assumiram que esse 'algo mais difícil e com um teto mais alto' se refere ao navegador de IA que há muito tempo é rumorado, mas não foi lançado pela equipe. Olhando agora, é verdade que eu adivinhei errado.
Essa exploração mais difícil é, na verdade: abandonar o navegador de IA que atingiu o status de lançamento, procurar o próximo produto de IA "momento ChatGPT", encontrar o objetivo de um agente universal e criar a versão mais recente do Manus.im.
Em que medida Manus é inovador e a que nível ele pode alcançar no futuro é agora um tópico quente. Mas o que vale a pena assistir ainda é a direção encontrada em 'as coisas vão contra as expectativas' e o processo de encontrar a direção. Manus.im pode não ser capaz de permitir que essa equipe realize coisas de 1 a N, ou até mesmo replicar o ímpeto de Monica.im, mas assim como o nome dessa empresa - 'Efeito Borboleta', muitas ações e decisões pequenas têm inadvertidamente um impacto profundo no futuro, 'Conectar os Pontos', o caminho para o amanhã estará escondido na experiência de hoje.
Desde o meio até o final do ano passado, o navegador de IA da equipe do “Efeito Borboleta” se tornou um segredo “semi-público” na indústria. O produto que foi oficialmente revelado ao público foi Manus, que atraiu atenção incontrolável.
Se você já experimentou pessoalmente o Manus ou assistiu ao vídeo de demonstração, sentirá que ele tem uma diferença significativa em comparação com os chatbots ou algumas aplicações semelhantes a agentes: o Manus pode executar tarefas de forma assíncrona e em paralelo.
Quando você abre um aplicativo como Doubao, Kimi, ou algo como Uso do Computador e envia uma pergunta, você tem que esperar pela resposta. Caso contrário, se você falar com ele enquanto ele está respondendo ou realizando uma tarefa, a resposta/tarefa anterior será interrompida e você só poderá ter uma conversa de revezamento A-B-A-B com ele.
No entanto, no Manus.im, embora ainda pareça um produto de chatbot, você pode fazer 20 perguntas para ele executar tarefas simultaneamente. Você pode fazer qualquer outra coisa no computador, como assistir vídeos, escrever documentos, jogar jogos, etc., sem atrasar seu trabalho. O Manus pode notificá-lo assim que essas tarefas forem concluídas ou se problemas forem encontrados durante a execução. Se você perceber desvios em seu pensamento durante a execução de uma tarefa, pode adicionar palavras de comando à caixa de diálogo a qualquer momento, e ele continuará a pensar e executar a tarefa com o novo contexto.
A experiência é assíncrona e pode ser paralelizada, e realmente parece ter uma equipe de estagiários reais que podem ajudá-lo a trabalhar.
Na verdade, o design da arquitetura do produto da Manus para uma experiência assíncrona originou-se de uma lição que a equipe aprendeu em seu produto anterior não divulgado, o navegador de IA. Ao mesmo tempo, esta é também a razão pela qual a equipe investiu muita energia, mas decidiu parar de trabalhar no navegador em outubro do ano passado.
A empresa Browser anunciou em 25 de outubro de 2024 que iria parar de desenvolver novos recursos para o navegador Arc e decidiu transferir recursos para um novo navegador, o Dia, com o objetivo de criar um navegador de IA mais simples e fácil de usar. |Fonte: site oficial do Arc
"No navegador de IA, a IA está constantemente interrompendo o usuário." Por ser um cenário projetado para um único usuário, uma vez que a IA é usada, não é possível usá-la. Quando a IA começa a funcionar, você só pode assistir à IA trabalhar, o que é difícil de começar. Assistir a IA roubar seu mouse e computador não só faz com que você não ouse roubá-lo, mas também tem medo de que tocar acidentalmente no teclado ou mouse faça com que todo o processo desmorone e exija que você comece de novo.
Isso permite que a equipe faça dois julgamentos:
Em uma entrevista com Zhang Xiaojun da Tecnologia Tencent, Xiao Hong mencionou que quando a equipe estava resumindo as formas de produto de Jasper para ChatGPT para Monica para Cursor para Devin, eles descobriram que o programador humano Devin era muito adequado para esta arquitetura de experiência assíncrona.
Ao contrário do uso do Windsurf, às vezes pede para confirmar se o computador precisa instalar esta biblioteca; ou realiza uma operação de linha de comando e pede para preencher sim ou não, porque pode realmente danificar o computador, ou há um conflito com algo - pede para preencher "sim" para prosseguir para a próxima etapa, mas tem que passar a culpa.
Portanto, na visão da equipe da Manus, "Chatbot deve ter um computador na nuvem, e o código que ele escreve e as coisas a serem verificadas através do navegador são executados nesse computador. Por ser um servidor virtual, não importa se quebrar, você pode obter outro. Ele até pode liberar o servidor depois que a tarefa atual for concluída."
Vale ressaltar que enquanto Devin escolheu campos verticais e engenheiros hardcore, a equipe da Manus optou por assistentes de IA de uso geral de nível de consumo, incluindo Web e App. É um assistente de IA de uso geral que pode chamar ferramentas e concluir várias tarefas no trabalho e na vida de acordo com as instruções. No futuro, também entregará resultados de tarefas a um preço acessível para os consumidores.
Com uma ideia clara e um objetivo, o próximo passo é realizar a ideia. Como o Manus fez isso?
De acordo com seu parceiro de produto Zhang Tao, isso requer equipar o modelo grande com um computador, bem como dar permissões de sistema a ele (acesso a APIs privadas como repositórios de código e sites profissionais de consulta de dados), e fornecendo-lhe determinado treinamento.
Dessa forma, a IA pode usar este computador para abrir um navegador, tomar medidas para agendar ferramentas e, em seguida, observar o impacto de suas ações no mundo real com base no feedback gerado pelas ferramentas, depois pensar sobre o próximo passo, tomar medidas novamente e então observar... Este é o processo de conclusão de tarefas de IA em exploração e pesquisa. Durante este período, a Manus também entenderá cada vez mais seus requisitos sob seu "treinamento". No futuro, mesmo que você não defina claramente seus requisitos, ainda poderá "descobrir o significado sagrado" com base no conhecimento acumulado em cada tarefa.
Li Bojie, o jovem gênio da Huawei e fundador da Logenic AI, acredita que o Manus possui uma característica única que o diferencia de outros produtos: ele resolve problemas no estilo dos programadores geeks. | Fonte da imagem: Captura de tela do WeChat
O conceito dos produtos Manus gradualmente tornou-se claro durante a prática de produto de sua equipe: Menos Estrutura, Mais Inteligência (Menos Estrutura, Mais Inteligência).
Este também foi o momento que fez a equipe do Manus dizer 'A-Ha, espera!' Por exemplo, isso é o que aconteceu com a equipe em janeiro deste ano:
Quando Manus foi solicitado a tentar responder a uma pergunta no conjunto de testes GAIA: "Em um link de vídeo do YouTube semelhante ao estilo da National Geographic, vários pinguins entram e saem da tela. Manus é solicitado a contar o número máximo de pinguins que aparecem em um único quadro ao mesmo tempo. Quantos tipos existem?"
Então, algo mágico aconteceu.
Manus abriu primeiro o link do vídeo, e a primeira ação que ele fez foi "Pressionar K". Então ele tirou capturas de tela uma por uma para registrar qual tipo de pinguim aparecia em qual quadro. Finalmente, concluiu que o quadro com mais 3 tipos de pinguins apareceu. Manus voltará para verificar em seguida, e sua próxima ação é "Pressionar 3"... Após a inspeção final, a resposta foi 3.
Como as pessoas por trás da construção do Manus, devemos conhecer os limites de suas capacidades, mas para a equipe, a realidade é que "sempre há surpresas." Surpreendentemente, não apenas o Manus acertou a pergunta, mas também, amigos humanos que usaram computadores e o Youtube por muitos anos podem não saber necessariamente o que são as teclas "K" e "3" no teclado.
Observando a cena um tanto atordoada diante deles, a equipe seguiu Manus e fez isso novamente. A tecla de pausa “K” no teclado permite a Manus tirar capturas de tela uma por uma após pausar para registrar em qual quadro aparece cada pinguim; o “3” também é uma tecla de atalho, de 0 a 9 representando respectivamente de 0% a 90% da barra de progresso. 3 é 30% da barra de progresso. Ele pode localizar com precisão aquele segundo do vídeo e então dizer aos humanos quantos tipos de pinguins estão nesta imagem.
“Esse processo é diferente do Chatbot tradicional. Primeiro, ele pode assistir imagens do YouTube em vez de legendas. Segundo, descobrimos até que ele estava usando atalhos do YouTube. Ficamos muito chocados que ele respondeu a essa pergunta.” Xiao Hong também mencionou essa cena em uma entrevista anterior à Tencent Technology.
De repente, descobri que Manus não era apenas melhor em programação do que os humanos, mas o conhecimento de Manus sobre a Web e os aplicativos que as pessoas usam todos os dias excedia em muito a imaginação. Como uma IA onisciente e onipotente, ela pode entender todas as formas e meios em qualquer ferramenta, e então escolher o método ótimo.
Isso mais uma vez permitiu à equipe sentir 'Menos Estrutura, Mais Inteligência' - minimizando restrições artificiais à IA e permitindo que a IA funcione por meio de sua própria evolução em vez de ensiná-la sobre o que fazer.
No final da página oficial da Manus, a descoberta mais importante por trás da Manus é apresentada silenciosamente: 'Menos Estrutura, Mais inteligência'. |Fonte da captura de tela: Manus
Esta é a explicação e o pensamento estendido de Peak, co-fundador e cientista-chefe da “Butterfly Effect”, sobre o primeiro princípio mais importante por trás do produto Manus - “Menos Estrutura, Mais Inteligência” no dia em que o produto Manus foi lançado:
Quando seus dados são de alta qualidade, seu modelo é inteligente o suficiente, sua arquitetura é flexível o suficiente e sua engenharia é sólida o suficiente, conceitos como Uso de Computador, Pesquisa Profunda e Agente de Codificação mudarão de características do produto para capacidades naturalmente emergentes.
Voltar aos primeiros princípios também nos dá uma nova maneira de pensar sobre a forma do produto:· O navegador de IA não adiciona IA ao navegador, mas cria um navegador para IA;
· A pesquisa de IA não recorda e resume a partir do índice, mas permite que a IA obtenha informações com as permissões do usuário;
· Operar a GUI não rouba o controle do dispositivo do usuário, mas permite que a IA tenha sua própria máquina virtual;
· Escrever código não é o objetivo final, mas sim um meio geral para resolver vários problemas;
· A dificuldade em gerar um site não está em construir um framework, mas sim em tornar o conteúdo significativo;
· A atenção não é tudo o que você precisa. Apenas liberando a atenção dos usuários, é possível redefinir o DAU;
Através da descoberta e prática de “Menos Estrutura, Mais Inteligência” repetidamente, Manus tem produzido resultados além das expectativas, incluindo o passe@1pontuação no benchmark GAIA excedendo a pontuação do OpenAI Deep Research sob cons@64; ao mesmo tempo, em testes internos, Manus também foi capaz de cobrir diretamente 76% dos cenários de produtos de agente dedicado na Y Combinator W25.
Agora, o valor dessas percepções está sendo discutido em uma escala maior:
Clement Delangue, fundador e CEO da Hugging Face, propôs as descobertas da Peak sobre Alguns modelos básicos de código aberto são simplesmente treinados para "responder a todas as perguntas em uma rodada, independentemente da complexidade das perguntas." No entanto, isso é um requisito no cenário do chatbot. Apenas fazer um pós-treinamento no caminho do agente pode fazer uma enorme diferença imediatamente. |Fonte da captura de tela: X
Manus não introduz MCP (Model Context Protocol), mas permite que a IA escreva seu próprio código para chamar APIs e lidar com várias tarefas de cauda longa. |Fonte da captura de tela: X
Nas discussões sobre Manus nos últimos dias, uma das perguntas mais comuns que tenho ouvido é: Um 'Agente de IA universal' é viável? Onde está o limite?
Na visão do Peak, porque a interação entre as pessoas e o mundo é na verdade muito padrão, com olhos, mãos e ouvidos, se o espaço de ação for bem definido, deve ser possível incorporar um agente em um link que é originalmente realizado por humanos.
Uma vez que as pessoas podem usar várias ferramentas para realizar operações profundas em campos verticais, se um agente em si tiver conhecimento suficiente, tiver sido devidamente treinado e tiver uma boa interface para interagir com o mundo, ele deve ser capaz de trabalhar como uma pessoa e até mesmo permitir que o agente use um determinado produto SaaS. Por exemplo, um caso de caça à casa apresentado no site oficial do Manus.im envolve na verdade permitir que a IA trabalhe com um produto SaaS dedicado ao campo imobiliário.
Ele acredita que o que deve ser claramente definido é o limite do uso de ferramentas do agente, em vez de qual grupo de pessoas ele serve. Manus não está simulando uma pessoa que faz coisas específicas, nem é um agente de funções divididas por P&D, gerente de produtos, etc.; ele está simulando uma pessoa que pode fazer coisas e simulando como um estagiário trabalha.
O sistema multiagente de Manus refere-se à separação entre planejamento e execução.
Para o executor (Executor), Manus adotou Claude, que está temporariamente liderando em programação, planejamento de longo prazo e capacidades de resolução de problemas passo a passo, e também usou uma série de modelos Qwen para pós-treinamento.
Ontem, a Manus também alcançou uma cooperação estratégica com a Alibaba Tongyi Qianwen, comprometida em realizar todas as funções da Manus em modelos domésticos e plataformas de potência de computação. |Fonte da imagem: Manus
Na parte do planejador, Manus fez muito trabalho.
Uma vez que as APIs ou modelos de prateleira atualmente no mercado estão essencialmente alinhados para cenários de robôs de bate-papo, durante o treinamento, não importa quão complexa seja a pergunta do usuário, o objetivo de otimização do treinamento é responder claramente à pergunta do usuário em uma única resposta, mas isso é na verdade completamente oposto ao planejamento exigido pelo agente.
Portanto, se um modelo existente no mercado for usado diretamente no cenário do agente sem 'alinhamento', esse modelo sempre estará ansioso por um sucesso rápido e fornecerá um resultado 'confuso' dentro de uma rodada de diálogo, assim como muitos resumos em marcadores de pontos.
“Os métodos de alinhamento devem ser diferentes. Nossa equipe acredita que dados diferentes são necessários para realizar um alinhamento especial,” disse Xiao Hong.
Em outubro do ano passado, Peak também registrou no Zhihu o progresso e a falha de uma tentativa de reproduzir o projeto de interesse OpenAI o1 - o modelo de código aberto Steiner. Na verdade, este projeto estava fazendo pré-investigação na parte de planejamento passo a passo do planejador Manus.
Em geral, pode-se dizer que o Manus está simulando uma pessoa que faz coisas. Esta é a definição de produto da equipe do Manus como assistente de IA de uso geral. Quanto a pensar sobre seus limites, a equipe provavelmente ainda está explorando isso e precisa de mais casos de uso do usuário.
Em uma entrevista com a Tencent Technology lançada antes do lançamento do Manus, Xiao Hong mencionou na verdade seus pensamentos iniciais sobre a versatilidade do Manus. 'Uma questão muito central, ou uma responsabilidade muito importante dos gerentes de produtos, é controlar as expectativas do usuário. Suponha que ele possa fazer tudo no mundo, como: Como faço $1 milhão? Isso não é algo que deve ser realizado por um Agente. Mas se pudermos dar exemplos mais específicos para tornar as expectativas de todos mais razoáveis, todos o usarão mais facilmente.'
Na madrugada de 27 de fevereiro, o parceiro de produto da Gate.io, Zhang Tao, e o cientista-chefe Ji Yichao (Peak) derramaram lágrimas ao verem os resultados de classificação da Manus.im. O desempenho da Manus no Benchmark GAIA superou o da Deep Research da OpenAI, e alcançou esse resultado inesperado com cerca de 1/10 do custo ($2/tarefa) do benchmark da OpenAI.
Fonte da imagem: Manus.im
Uma equipe de dezenas de pessoas tornou-se uma das primeiras equipes a fazer um produto de agente universal quando os agentes alcançaram um consenso sobre a concorrência em toda a indústria. Eles também são únicos em engenharia de produto e experiência interativa de front-end.
Feedback positivo das coisas feitas é melhor do que qualquer outra coisa. Não há melhor incentivo para uma equipe de inicialização do que isso. Mas antes disso, como aconteceu o Manus? Por que essa equipe foi formada?
As capacidades do modelo de hoje são capazes de concluir algumas tarefas complexas e multi-etapas. Mas não existem tais produtos, então ninguém consegue senti-lo. As ideias que Xiao Hong mencionou em entrevistas anteriores com a Tencent Technology podem ser usadas para entender essa questão.
ao mesmo tempo, Nem muitas equipes têm a oportunidade de experimentar os produtos Agent. Porque requer muitas habilidades compostas. Ele quer trabalhar em Chatbot, algo relacionado à programação de IA e relacionado ao navegador, porque precisa chamar o navegador e tem uma boa noção dos limites de LLM - em que nível ele se desenvolveu até hoje e em que nível se desenvolverá a seguir. Em primeiro lugar, não são muitas as empresas que têm essas capacidades ao mesmo tempo, e as empresas que têm essas capacidades podem estar fazendo um negócio muito específico no momento. Alguns de nossos colegas de classe tiveram a oportunidade de fazer essas coisas juntos.
"exatamente".
A equipe do “Efeito Borboleta” alcançou todos os elementos para criar um agente universal hoje, então agora há um agente universal com um grau de conclusão relativamente alto em relação à indústria.
Quando perguntado qual foi o momento decisivo em que ele quis começar a Manus, Peak restaurou mais detalhes. Ele disse: "Na verdade, não há um ponto de virada 'limpo' no empreendedorismo". Tudo é coerente e não tem limites claros.
“Ao desenvolver um produto, eu também frequemente presto atenção à situação externa.” Naquela época, havia algumas coisas. Primeiramente, ao desenvolver um navegador, fiz um modelo do lado do cliente. Mais tarde, descobri que o navegador exigia uma ampla gama de cenários e possuía diferentes recursos. Durante o processo, percebi que o modelo base estava se fortalecendo em um ritmo acelerado. A lacuna entre ele e o agente poderia ser um problema de alinhamento. Embora o mundo externo possa sentir que os grandes modelos de linguagem estão gradualmente convergindo e encontrando um obstáculo.
Ao mesmo tempo, o mundo exterior também estava mudando. Cursor decolou no início do ano passado, seguido por Windsurf e Devin. Isso corresponde ao mesmo contexto. Os agentes são populares no campo da programação, e o caminho para a popularidade é progressivo. Cursor é um copiloto para programadores, o que melhora a eficiência da programação. A partir do Windsurf, alguns processos automatizados são gradualmente introduzidos, permitindo que você tenha capacidades de automação mais fortes em sua máquina local. Devin atingiu um novo nível de automação.
As tendências do VC também são consistentes. Por exemplo, no ano passado e no ano anterior, a YC investiu em dois tipos de empresas. Um é Navegador em nuvem, como base do navegador; o segundo tipo são máquinas virtuais leves de Sandbox de IA semelhantes ao e2b.
Isso mostra que 'a infraestrutura do modelo está amadurecendo rapidamente, e a infraestrutura da Infra também está amadurecendo rapidamente. Além disso, vendo que os produtos externos estão gradualmente ganhando mais aceitação, sentimos que esta é uma direção digna de all-in. Este é um processo muito gradual e suave. Além disso, a infraestrutura acumulada durante o desenvolvimento de navegadores como o Chromium pode ser migrada de forma transparente, por isso nos atrevemos a desenvolver navegadores na nuvem.'
Em resumo, a percepção aguçada e a acumulação de experiências em relação aos requisitos e modelos na chamada 'casca' criaram em conjunto o Manus. Muitos dos cenários da Monica requerem treinamento pós-modelo. Ao mesmo tempo, a lição mais importante 'menos estrutura, mais inteligência' foi reforçada na prática dos navegadores de IA. Ela descobriu que a capacidade do modelo atingiu o nível de ser um agente, mas o problema está na alinhamento. O que se seguiu foram três meses de rápida evolução para o Manus.
Anteriormente, a equipe do “Efeito Borboleta” foi questionada sobre o valor do “shell”. Construiu a Monica integrando modelos grandes existentes sem desenvolver grandes modelos por si própria. Integrava funções como chat, busca, leitura, escrita e tradução. Também integrava muitos cenários de execução de tarefas por meio de APIs um por um. No final do ano passado, o número de usuários alcançou dezenas de milhões.
Agora, quando Doubao, Quark e Yuanbao estão todos promovendo vigorosamente seus produtos Monica, e quando uma pequena equipe está usando a tecnologia existente para criar o primeiro agente de nível de consumidor geral, é hora de reentender a "shell".
O que exatamente são “shells” e “shells”?
Na visão de Xiao Hong, todos os avanços são trazidos por modelos, que são basicamente movidos a modelo e modelo primeiro. O shell é exibir as inovações técnicas do modelo de uma forma que os usuários possam perceber, e encapsular as capacidades inovadoras do modelo de uma maneira que os usuários possam perceber melhor.
A partir desta definição, o aplicativo DeepSeek (incluindo a exibição da cadeia de pensamento) é uma casca do DeepSeek-R1, o Cursor é uma casca do Soneto Antropico 3.5, a Perplexidade é uma casca do GPT-4 e o ChatGPT é uma casca do InstructGPT.
À medida que as capacidades do modelo evoluem rapidamente, “essa concha” também precisa evoluir. Depois que as capacidades de cada geração de modelos evoluem, nem sempre é o fabricante original. É um fabricante de terceiros que apresenta seu valor perceptível pelo usuário. Assim como o Cursor traz valor percebido pelo usuário para o Claude 3.5 Sonnet.
Em 5 de março, no segundo aniversário do lançamento do Monica.im, a resposta para por que essas dezenas de pessoas alcançaram uma experiência de produto que excede a de vários Operadores de Pesquisa Profunda e OpenAI reside na compreensão e prática de shells.
Como fazer a melhor concha para um novo modelo que pode ser usado como agente?
Como o construtor de Manus, Zhang Tao acredita: "Olhando para toda a sua arquitetura a partir do fundo, vemos que há muito trabalho inacabado a ser feito em todos os lugares, e cada um desses lugares é a chave para o sucesso, e todos eles são lugares que tornam a superfície do produto diferente."
Da perspectiva da equipe, a vantagem mais importante é o ritmo da inovação. Tanto as aplicações quanto os modelos agora atingiram um estado de saturação relativa. A única capacidade central real no final é correr rápido, embora a "roda de dados" e os "efeitos de rede" ainda não tenham sido verificados.
"Em um campo novo, tudo é incerto e desconhecido. O mais importante é a velocidade da inovação. O que buscamos é exploração, tentativa e erro em várias direções e encontrar rapidamente o caminho certo." A equipe Manus é flexível o suficiente em termos de filosofia de gestão, estrutura organizacional e processos industriais. Quando novas oportunidades surgem, você pode usar recursos limitados para conectar todos os recursos de toda a empresa, tomar decisões em uma velocidade muito alta e se adaptar ao feedback sobre erros.
Da esquerda para a direita estão o cientista-chefe do “Efeito Borboleta” Peak, o CEO Xiao Hong e o parceiro de produto Zhang Tao | Fonte da imagem: Internet
Em relação às expectativas de Manus, Xiao Hong acredita que “mesmo que haja um período de oportunidade, vale a pena tentar”. No último ano, seu pensamento também sofreu mudanças drásticas. Por exemplo, agora acredita que “quando percebe que está adiantado, torna-se mais agressivo e super agressivo. Após revisar hoje, sinto que Monica em 2023 não foi suficientemente agressiva.” “Se você sabe que está inovando e liderando, deve ser agressivo.”
Eu não sei se Manus pode trazer a Xiao Hong e sua equipe a experiência e o salto de 1 a N, mas essa equipe que sabe mais sobre "shell" acredita em criar com o coração e a mão como um só, e também acredita no efeito borboleta trazido pela criação. Manus vem de um lema no MIT: Mens at manus, que enfatiza a união do coração e da mão. Não pode ser óptico, deve ser feito, e pode ter um impacto no mundo real, que é conhecimento real.
No futuro, à medida que mais dos depósitos por trás do Manus forem disponibilizados em open source, uma gama mais ampla de efeitos borboleta será ainda mais liberada.
Este artigo é reproduzido a partir de [GateGEEEKPARK], e os direitos autorais pertencem ao autor original [Wan Chen], se você tiver alguma objeção à reprodução, entre em contato Portão Aprenderequipe, a equipe irá lidar com isso o mais rápido possível de acordo com os procedimentos relevantes.
Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas as opiniões pessoais do autor e não constituem qualquer conselho de investimento.
Outras versões do artigo em outros idiomas são traduzidas pela equipe do Gate Learn e não são mencionadas emGate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.
مشاركة
المحتوى
A história empreendedora que recebeu mais nutrição espiritual no ano passado veio do fundador da Dify, Zhang Luyu.
A primeira vez que o conheci foi no evento “Xixi Taoism” em 2023. Entre os nomes de estrelas presentes, Zhang Luyu passou despercebido. Quando nos encontramos novamente em 2024, Dify já era outra história - um empreendedor sem um histórico glamoroso, que criou um dos produtos de código aberto de IA de maior sucesso do mundo, apesar das dúvidas de todos sobre o modelo de negócios.
O que aconteceu com esta empresa em um ano, como sua inesperada popularidade no mercado japonês, que é "convencional e fácil de defender, mas difícil de atacar", me ajudou a entender melhor o "empreendedorismo". São principalmente acidentes e também requer sorte. No final, você precisa ter a capacidade de encontrar uma saída para mudanças constantes e contratempos.
Agora, uma história semelhante aconteceu com outro empreendedor de alto perfil—Manus.im Xiao Hong e sua equipe.
Quatro meses atrás, Xiao Hong mencionou uma confusão, 'A equipe é boa em ir de 0 a 1 e tem uma forte capacidade de aproveitar oportunidades. Uma vez que começa de 1 para N, o estado não é tão bom.'
Em sua experiência anterior, a maioria dos projetos empreendedores alcançou receitas relativamente estáveis e consideráveis, e sua última empresa também foi adquirida com sucesso. Em 2023, sua nova empresa "Efeito Borboleta" até mesmo utilizou um plug-in de navegador, Monica.im, para competir na narrativa de IA de centenas de modelos e se tornar uma das aplicações de IA de crescimento mais rápido com excelente experiência de produto. Parece que ele é um empreendedor que teve uma jornada tranquila. Ele tem apenas 32 anos quando consegue fazer essas coisas.
Mas, na verdade, ele não se sentia muito feliz. Na visão de Xiao Hong, o chamado "contínuo sair dos empresários" e a suposta sensação revigorante de constantemente ir de 0 a 1 são como um cerco - a capacidade de aproveitar oportunidades de 0 a 1 é muito forte e muito satisfatória, mas, por outro lado, você também está preocupado se precisará fazer isso de novo.
Em 2024, os insiders da indústria acreditam que assistentes de IA com funções de memória como o Monica.im enfrentarão pressão de oponentes fortes como o Doubao, e não será tão fácil quanto em 2023. O Monica.im tem um bom 0 a 1, mas não necessariamente um sucesso de 1 a N.
E a razão pela qual ele está confuso é porque "a equipe realmente vai fazer coisas mais difíceis e coisas com tetos mais altos a seguir" e explorar coisas que podem abranger de 1 a N.
Anteriormente, muitas vozes prestando atenção ao Monica.im assumiram que esse 'algo mais difícil e com um teto mais alto' se refere ao navegador de IA que há muito tempo é rumorado, mas não foi lançado pela equipe. Olhando agora, é verdade que eu adivinhei errado.
Essa exploração mais difícil é, na verdade: abandonar o navegador de IA que atingiu o status de lançamento, procurar o próximo produto de IA "momento ChatGPT", encontrar o objetivo de um agente universal e criar a versão mais recente do Manus.im.
Em que medida Manus é inovador e a que nível ele pode alcançar no futuro é agora um tópico quente. Mas o que vale a pena assistir ainda é a direção encontrada em 'as coisas vão contra as expectativas' e o processo de encontrar a direção. Manus.im pode não ser capaz de permitir que essa equipe realize coisas de 1 a N, ou até mesmo replicar o ímpeto de Monica.im, mas assim como o nome dessa empresa - 'Efeito Borboleta', muitas ações e decisões pequenas têm inadvertidamente um impacto profundo no futuro, 'Conectar os Pontos', o caminho para o amanhã estará escondido na experiência de hoje.
Desde o meio até o final do ano passado, o navegador de IA da equipe do “Efeito Borboleta” se tornou um segredo “semi-público” na indústria. O produto que foi oficialmente revelado ao público foi Manus, que atraiu atenção incontrolável.
Se você já experimentou pessoalmente o Manus ou assistiu ao vídeo de demonstração, sentirá que ele tem uma diferença significativa em comparação com os chatbots ou algumas aplicações semelhantes a agentes: o Manus pode executar tarefas de forma assíncrona e em paralelo.
Quando você abre um aplicativo como Doubao, Kimi, ou algo como Uso do Computador e envia uma pergunta, você tem que esperar pela resposta. Caso contrário, se você falar com ele enquanto ele está respondendo ou realizando uma tarefa, a resposta/tarefa anterior será interrompida e você só poderá ter uma conversa de revezamento A-B-A-B com ele.
No entanto, no Manus.im, embora ainda pareça um produto de chatbot, você pode fazer 20 perguntas para ele executar tarefas simultaneamente. Você pode fazer qualquer outra coisa no computador, como assistir vídeos, escrever documentos, jogar jogos, etc., sem atrasar seu trabalho. O Manus pode notificá-lo assim que essas tarefas forem concluídas ou se problemas forem encontrados durante a execução. Se você perceber desvios em seu pensamento durante a execução de uma tarefa, pode adicionar palavras de comando à caixa de diálogo a qualquer momento, e ele continuará a pensar e executar a tarefa com o novo contexto.
A experiência é assíncrona e pode ser paralelizada, e realmente parece ter uma equipe de estagiários reais que podem ajudá-lo a trabalhar.
Na verdade, o design da arquitetura do produto da Manus para uma experiência assíncrona originou-se de uma lição que a equipe aprendeu em seu produto anterior não divulgado, o navegador de IA. Ao mesmo tempo, esta é também a razão pela qual a equipe investiu muita energia, mas decidiu parar de trabalhar no navegador em outubro do ano passado.
A empresa Browser anunciou em 25 de outubro de 2024 que iria parar de desenvolver novos recursos para o navegador Arc e decidiu transferir recursos para um novo navegador, o Dia, com o objetivo de criar um navegador de IA mais simples e fácil de usar. |Fonte: site oficial do Arc
"No navegador de IA, a IA está constantemente interrompendo o usuário." Por ser um cenário projetado para um único usuário, uma vez que a IA é usada, não é possível usá-la. Quando a IA começa a funcionar, você só pode assistir à IA trabalhar, o que é difícil de começar. Assistir a IA roubar seu mouse e computador não só faz com que você não ouse roubá-lo, mas também tem medo de que tocar acidentalmente no teclado ou mouse faça com que todo o processo desmorone e exija que você comece de novo.
Isso permite que a equipe faça dois julgamentos:
Em uma entrevista com Zhang Xiaojun da Tecnologia Tencent, Xiao Hong mencionou que quando a equipe estava resumindo as formas de produto de Jasper para ChatGPT para Monica para Cursor para Devin, eles descobriram que o programador humano Devin era muito adequado para esta arquitetura de experiência assíncrona.
Ao contrário do uso do Windsurf, às vezes pede para confirmar se o computador precisa instalar esta biblioteca; ou realiza uma operação de linha de comando e pede para preencher sim ou não, porque pode realmente danificar o computador, ou há um conflito com algo - pede para preencher "sim" para prosseguir para a próxima etapa, mas tem que passar a culpa.
Portanto, na visão da equipe da Manus, "Chatbot deve ter um computador na nuvem, e o código que ele escreve e as coisas a serem verificadas através do navegador são executados nesse computador. Por ser um servidor virtual, não importa se quebrar, você pode obter outro. Ele até pode liberar o servidor depois que a tarefa atual for concluída."
Vale ressaltar que enquanto Devin escolheu campos verticais e engenheiros hardcore, a equipe da Manus optou por assistentes de IA de uso geral de nível de consumo, incluindo Web e App. É um assistente de IA de uso geral que pode chamar ferramentas e concluir várias tarefas no trabalho e na vida de acordo com as instruções. No futuro, também entregará resultados de tarefas a um preço acessível para os consumidores.
Com uma ideia clara e um objetivo, o próximo passo é realizar a ideia. Como o Manus fez isso?
De acordo com seu parceiro de produto Zhang Tao, isso requer equipar o modelo grande com um computador, bem como dar permissões de sistema a ele (acesso a APIs privadas como repositórios de código e sites profissionais de consulta de dados), e fornecendo-lhe determinado treinamento.
Dessa forma, a IA pode usar este computador para abrir um navegador, tomar medidas para agendar ferramentas e, em seguida, observar o impacto de suas ações no mundo real com base no feedback gerado pelas ferramentas, depois pensar sobre o próximo passo, tomar medidas novamente e então observar... Este é o processo de conclusão de tarefas de IA em exploração e pesquisa. Durante este período, a Manus também entenderá cada vez mais seus requisitos sob seu "treinamento". No futuro, mesmo que você não defina claramente seus requisitos, ainda poderá "descobrir o significado sagrado" com base no conhecimento acumulado em cada tarefa.
Li Bojie, o jovem gênio da Huawei e fundador da Logenic AI, acredita que o Manus possui uma característica única que o diferencia de outros produtos: ele resolve problemas no estilo dos programadores geeks. | Fonte da imagem: Captura de tela do WeChat
O conceito dos produtos Manus gradualmente tornou-se claro durante a prática de produto de sua equipe: Menos Estrutura, Mais Inteligência (Menos Estrutura, Mais Inteligência).
Este também foi o momento que fez a equipe do Manus dizer 'A-Ha, espera!' Por exemplo, isso é o que aconteceu com a equipe em janeiro deste ano:
Quando Manus foi solicitado a tentar responder a uma pergunta no conjunto de testes GAIA: "Em um link de vídeo do YouTube semelhante ao estilo da National Geographic, vários pinguins entram e saem da tela. Manus é solicitado a contar o número máximo de pinguins que aparecem em um único quadro ao mesmo tempo. Quantos tipos existem?"
Então, algo mágico aconteceu.
Manus abriu primeiro o link do vídeo, e a primeira ação que ele fez foi "Pressionar K". Então ele tirou capturas de tela uma por uma para registrar qual tipo de pinguim aparecia em qual quadro. Finalmente, concluiu que o quadro com mais 3 tipos de pinguins apareceu. Manus voltará para verificar em seguida, e sua próxima ação é "Pressionar 3"... Após a inspeção final, a resposta foi 3.
Como as pessoas por trás da construção do Manus, devemos conhecer os limites de suas capacidades, mas para a equipe, a realidade é que "sempre há surpresas." Surpreendentemente, não apenas o Manus acertou a pergunta, mas também, amigos humanos que usaram computadores e o Youtube por muitos anos podem não saber necessariamente o que são as teclas "K" e "3" no teclado.
Observando a cena um tanto atordoada diante deles, a equipe seguiu Manus e fez isso novamente. A tecla de pausa “K” no teclado permite a Manus tirar capturas de tela uma por uma após pausar para registrar em qual quadro aparece cada pinguim; o “3” também é uma tecla de atalho, de 0 a 9 representando respectivamente de 0% a 90% da barra de progresso. 3 é 30% da barra de progresso. Ele pode localizar com precisão aquele segundo do vídeo e então dizer aos humanos quantos tipos de pinguins estão nesta imagem.
“Esse processo é diferente do Chatbot tradicional. Primeiro, ele pode assistir imagens do YouTube em vez de legendas. Segundo, descobrimos até que ele estava usando atalhos do YouTube. Ficamos muito chocados que ele respondeu a essa pergunta.” Xiao Hong também mencionou essa cena em uma entrevista anterior à Tencent Technology.
De repente, descobri que Manus não era apenas melhor em programação do que os humanos, mas o conhecimento de Manus sobre a Web e os aplicativos que as pessoas usam todos os dias excedia em muito a imaginação. Como uma IA onisciente e onipotente, ela pode entender todas as formas e meios em qualquer ferramenta, e então escolher o método ótimo.
Isso mais uma vez permitiu à equipe sentir 'Menos Estrutura, Mais Inteligência' - minimizando restrições artificiais à IA e permitindo que a IA funcione por meio de sua própria evolução em vez de ensiná-la sobre o que fazer.
No final da página oficial da Manus, a descoberta mais importante por trás da Manus é apresentada silenciosamente: 'Menos Estrutura, Mais inteligência'. |Fonte da captura de tela: Manus
Esta é a explicação e o pensamento estendido de Peak, co-fundador e cientista-chefe da “Butterfly Effect”, sobre o primeiro princípio mais importante por trás do produto Manus - “Menos Estrutura, Mais Inteligência” no dia em que o produto Manus foi lançado:
Quando seus dados são de alta qualidade, seu modelo é inteligente o suficiente, sua arquitetura é flexível o suficiente e sua engenharia é sólida o suficiente, conceitos como Uso de Computador, Pesquisa Profunda e Agente de Codificação mudarão de características do produto para capacidades naturalmente emergentes.
Voltar aos primeiros princípios também nos dá uma nova maneira de pensar sobre a forma do produto:· O navegador de IA não adiciona IA ao navegador, mas cria um navegador para IA;
· A pesquisa de IA não recorda e resume a partir do índice, mas permite que a IA obtenha informações com as permissões do usuário;
· Operar a GUI não rouba o controle do dispositivo do usuário, mas permite que a IA tenha sua própria máquina virtual;
· Escrever código não é o objetivo final, mas sim um meio geral para resolver vários problemas;
· A dificuldade em gerar um site não está em construir um framework, mas sim em tornar o conteúdo significativo;
· A atenção não é tudo o que você precisa. Apenas liberando a atenção dos usuários, é possível redefinir o DAU;
Através da descoberta e prática de “Menos Estrutura, Mais Inteligência” repetidamente, Manus tem produzido resultados além das expectativas, incluindo o passe@1pontuação no benchmark GAIA excedendo a pontuação do OpenAI Deep Research sob cons@64; ao mesmo tempo, em testes internos, Manus também foi capaz de cobrir diretamente 76% dos cenários de produtos de agente dedicado na Y Combinator W25.
Agora, o valor dessas percepções está sendo discutido em uma escala maior:
Clement Delangue, fundador e CEO da Hugging Face, propôs as descobertas da Peak sobre Alguns modelos básicos de código aberto são simplesmente treinados para "responder a todas as perguntas em uma rodada, independentemente da complexidade das perguntas." No entanto, isso é um requisito no cenário do chatbot. Apenas fazer um pós-treinamento no caminho do agente pode fazer uma enorme diferença imediatamente. |Fonte da captura de tela: X
Manus não introduz MCP (Model Context Protocol), mas permite que a IA escreva seu próprio código para chamar APIs e lidar com várias tarefas de cauda longa. |Fonte da captura de tela: X
Nas discussões sobre Manus nos últimos dias, uma das perguntas mais comuns que tenho ouvido é: Um 'Agente de IA universal' é viável? Onde está o limite?
Na visão do Peak, porque a interação entre as pessoas e o mundo é na verdade muito padrão, com olhos, mãos e ouvidos, se o espaço de ação for bem definido, deve ser possível incorporar um agente em um link que é originalmente realizado por humanos.
Uma vez que as pessoas podem usar várias ferramentas para realizar operações profundas em campos verticais, se um agente em si tiver conhecimento suficiente, tiver sido devidamente treinado e tiver uma boa interface para interagir com o mundo, ele deve ser capaz de trabalhar como uma pessoa e até mesmo permitir que o agente use um determinado produto SaaS. Por exemplo, um caso de caça à casa apresentado no site oficial do Manus.im envolve na verdade permitir que a IA trabalhe com um produto SaaS dedicado ao campo imobiliário.
Ele acredita que o que deve ser claramente definido é o limite do uso de ferramentas do agente, em vez de qual grupo de pessoas ele serve. Manus não está simulando uma pessoa que faz coisas específicas, nem é um agente de funções divididas por P&D, gerente de produtos, etc.; ele está simulando uma pessoa que pode fazer coisas e simulando como um estagiário trabalha.
O sistema multiagente de Manus refere-se à separação entre planejamento e execução.
Para o executor (Executor), Manus adotou Claude, que está temporariamente liderando em programação, planejamento de longo prazo e capacidades de resolução de problemas passo a passo, e também usou uma série de modelos Qwen para pós-treinamento.
Ontem, a Manus também alcançou uma cooperação estratégica com a Alibaba Tongyi Qianwen, comprometida em realizar todas as funções da Manus em modelos domésticos e plataformas de potência de computação. |Fonte da imagem: Manus
Na parte do planejador, Manus fez muito trabalho.
Uma vez que as APIs ou modelos de prateleira atualmente no mercado estão essencialmente alinhados para cenários de robôs de bate-papo, durante o treinamento, não importa quão complexa seja a pergunta do usuário, o objetivo de otimização do treinamento é responder claramente à pergunta do usuário em uma única resposta, mas isso é na verdade completamente oposto ao planejamento exigido pelo agente.
Portanto, se um modelo existente no mercado for usado diretamente no cenário do agente sem 'alinhamento', esse modelo sempre estará ansioso por um sucesso rápido e fornecerá um resultado 'confuso' dentro de uma rodada de diálogo, assim como muitos resumos em marcadores de pontos.
“Os métodos de alinhamento devem ser diferentes. Nossa equipe acredita que dados diferentes são necessários para realizar um alinhamento especial,” disse Xiao Hong.
Em outubro do ano passado, Peak também registrou no Zhihu o progresso e a falha de uma tentativa de reproduzir o projeto de interesse OpenAI o1 - o modelo de código aberto Steiner. Na verdade, este projeto estava fazendo pré-investigação na parte de planejamento passo a passo do planejador Manus.
Em geral, pode-se dizer que o Manus está simulando uma pessoa que faz coisas. Esta é a definição de produto da equipe do Manus como assistente de IA de uso geral. Quanto a pensar sobre seus limites, a equipe provavelmente ainda está explorando isso e precisa de mais casos de uso do usuário.
Em uma entrevista com a Tencent Technology lançada antes do lançamento do Manus, Xiao Hong mencionou na verdade seus pensamentos iniciais sobre a versatilidade do Manus. 'Uma questão muito central, ou uma responsabilidade muito importante dos gerentes de produtos, é controlar as expectativas do usuário. Suponha que ele possa fazer tudo no mundo, como: Como faço $1 milhão? Isso não é algo que deve ser realizado por um Agente. Mas se pudermos dar exemplos mais específicos para tornar as expectativas de todos mais razoáveis, todos o usarão mais facilmente.'
Na madrugada de 27 de fevereiro, o parceiro de produto da Gate.io, Zhang Tao, e o cientista-chefe Ji Yichao (Peak) derramaram lágrimas ao verem os resultados de classificação da Manus.im. O desempenho da Manus no Benchmark GAIA superou o da Deep Research da OpenAI, e alcançou esse resultado inesperado com cerca de 1/10 do custo ($2/tarefa) do benchmark da OpenAI.
Fonte da imagem: Manus.im
Uma equipe de dezenas de pessoas tornou-se uma das primeiras equipes a fazer um produto de agente universal quando os agentes alcançaram um consenso sobre a concorrência em toda a indústria. Eles também são únicos em engenharia de produto e experiência interativa de front-end.
Feedback positivo das coisas feitas é melhor do que qualquer outra coisa. Não há melhor incentivo para uma equipe de inicialização do que isso. Mas antes disso, como aconteceu o Manus? Por que essa equipe foi formada?
As capacidades do modelo de hoje são capazes de concluir algumas tarefas complexas e multi-etapas. Mas não existem tais produtos, então ninguém consegue senti-lo. As ideias que Xiao Hong mencionou em entrevistas anteriores com a Tencent Technology podem ser usadas para entender essa questão.
ao mesmo tempo, Nem muitas equipes têm a oportunidade de experimentar os produtos Agent. Porque requer muitas habilidades compostas. Ele quer trabalhar em Chatbot, algo relacionado à programação de IA e relacionado ao navegador, porque precisa chamar o navegador e tem uma boa noção dos limites de LLM - em que nível ele se desenvolveu até hoje e em que nível se desenvolverá a seguir. Em primeiro lugar, não são muitas as empresas que têm essas capacidades ao mesmo tempo, e as empresas que têm essas capacidades podem estar fazendo um negócio muito específico no momento. Alguns de nossos colegas de classe tiveram a oportunidade de fazer essas coisas juntos.
"exatamente".
A equipe do “Efeito Borboleta” alcançou todos os elementos para criar um agente universal hoje, então agora há um agente universal com um grau de conclusão relativamente alto em relação à indústria.
Quando perguntado qual foi o momento decisivo em que ele quis começar a Manus, Peak restaurou mais detalhes. Ele disse: "Na verdade, não há um ponto de virada 'limpo' no empreendedorismo". Tudo é coerente e não tem limites claros.
“Ao desenvolver um produto, eu também frequemente presto atenção à situação externa.” Naquela época, havia algumas coisas. Primeiramente, ao desenvolver um navegador, fiz um modelo do lado do cliente. Mais tarde, descobri que o navegador exigia uma ampla gama de cenários e possuía diferentes recursos. Durante o processo, percebi que o modelo base estava se fortalecendo em um ritmo acelerado. A lacuna entre ele e o agente poderia ser um problema de alinhamento. Embora o mundo externo possa sentir que os grandes modelos de linguagem estão gradualmente convergindo e encontrando um obstáculo.
Ao mesmo tempo, o mundo exterior também estava mudando. Cursor decolou no início do ano passado, seguido por Windsurf e Devin. Isso corresponde ao mesmo contexto. Os agentes são populares no campo da programação, e o caminho para a popularidade é progressivo. Cursor é um copiloto para programadores, o que melhora a eficiência da programação. A partir do Windsurf, alguns processos automatizados são gradualmente introduzidos, permitindo que você tenha capacidades de automação mais fortes em sua máquina local. Devin atingiu um novo nível de automação.
As tendências do VC também são consistentes. Por exemplo, no ano passado e no ano anterior, a YC investiu em dois tipos de empresas. Um é Navegador em nuvem, como base do navegador; o segundo tipo são máquinas virtuais leves de Sandbox de IA semelhantes ao e2b.
Isso mostra que 'a infraestrutura do modelo está amadurecendo rapidamente, e a infraestrutura da Infra também está amadurecendo rapidamente. Além disso, vendo que os produtos externos estão gradualmente ganhando mais aceitação, sentimos que esta é uma direção digna de all-in. Este é um processo muito gradual e suave. Além disso, a infraestrutura acumulada durante o desenvolvimento de navegadores como o Chromium pode ser migrada de forma transparente, por isso nos atrevemos a desenvolver navegadores na nuvem.'
Em resumo, a percepção aguçada e a acumulação de experiências em relação aos requisitos e modelos na chamada 'casca' criaram em conjunto o Manus. Muitos dos cenários da Monica requerem treinamento pós-modelo. Ao mesmo tempo, a lição mais importante 'menos estrutura, mais inteligência' foi reforçada na prática dos navegadores de IA. Ela descobriu que a capacidade do modelo atingiu o nível de ser um agente, mas o problema está na alinhamento. O que se seguiu foram três meses de rápida evolução para o Manus.
Anteriormente, a equipe do “Efeito Borboleta” foi questionada sobre o valor do “shell”. Construiu a Monica integrando modelos grandes existentes sem desenvolver grandes modelos por si própria. Integrava funções como chat, busca, leitura, escrita e tradução. Também integrava muitos cenários de execução de tarefas por meio de APIs um por um. No final do ano passado, o número de usuários alcançou dezenas de milhões.
Agora, quando Doubao, Quark e Yuanbao estão todos promovendo vigorosamente seus produtos Monica, e quando uma pequena equipe está usando a tecnologia existente para criar o primeiro agente de nível de consumidor geral, é hora de reentender a "shell".
O que exatamente são “shells” e “shells”?
Na visão de Xiao Hong, todos os avanços são trazidos por modelos, que são basicamente movidos a modelo e modelo primeiro. O shell é exibir as inovações técnicas do modelo de uma forma que os usuários possam perceber, e encapsular as capacidades inovadoras do modelo de uma maneira que os usuários possam perceber melhor.
A partir desta definição, o aplicativo DeepSeek (incluindo a exibição da cadeia de pensamento) é uma casca do DeepSeek-R1, o Cursor é uma casca do Soneto Antropico 3.5, a Perplexidade é uma casca do GPT-4 e o ChatGPT é uma casca do InstructGPT.
À medida que as capacidades do modelo evoluem rapidamente, “essa concha” também precisa evoluir. Depois que as capacidades de cada geração de modelos evoluem, nem sempre é o fabricante original. É um fabricante de terceiros que apresenta seu valor perceptível pelo usuário. Assim como o Cursor traz valor percebido pelo usuário para o Claude 3.5 Sonnet.
Em 5 de março, no segundo aniversário do lançamento do Monica.im, a resposta para por que essas dezenas de pessoas alcançaram uma experiência de produto que excede a de vários Operadores de Pesquisa Profunda e OpenAI reside na compreensão e prática de shells.
Como fazer a melhor concha para um novo modelo que pode ser usado como agente?
Como o construtor de Manus, Zhang Tao acredita: "Olhando para toda a sua arquitetura a partir do fundo, vemos que há muito trabalho inacabado a ser feito em todos os lugares, e cada um desses lugares é a chave para o sucesso, e todos eles são lugares que tornam a superfície do produto diferente."
Da perspectiva da equipe, a vantagem mais importante é o ritmo da inovação. Tanto as aplicações quanto os modelos agora atingiram um estado de saturação relativa. A única capacidade central real no final é correr rápido, embora a "roda de dados" e os "efeitos de rede" ainda não tenham sido verificados.
"Em um campo novo, tudo é incerto e desconhecido. O mais importante é a velocidade da inovação. O que buscamos é exploração, tentativa e erro em várias direções e encontrar rapidamente o caminho certo." A equipe Manus é flexível o suficiente em termos de filosofia de gestão, estrutura organizacional e processos industriais. Quando novas oportunidades surgem, você pode usar recursos limitados para conectar todos os recursos de toda a empresa, tomar decisões em uma velocidade muito alta e se adaptar ao feedback sobre erros.
Da esquerda para a direita estão o cientista-chefe do “Efeito Borboleta” Peak, o CEO Xiao Hong e o parceiro de produto Zhang Tao | Fonte da imagem: Internet
Em relação às expectativas de Manus, Xiao Hong acredita que “mesmo que haja um período de oportunidade, vale a pena tentar”. No último ano, seu pensamento também sofreu mudanças drásticas. Por exemplo, agora acredita que “quando percebe que está adiantado, torna-se mais agressivo e super agressivo. Após revisar hoje, sinto que Monica em 2023 não foi suficientemente agressiva.” “Se você sabe que está inovando e liderando, deve ser agressivo.”
Eu não sei se Manus pode trazer a Xiao Hong e sua equipe a experiência e o salto de 1 a N, mas essa equipe que sabe mais sobre "shell" acredita em criar com o coração e a mão como um só, e também acredita no efeito borboleta trazido pela criação. Manus vem de um lema no MIT: Mens at manus, que enfatiza a união do coração e da mão. Não pode ser óptico, deve ser feito, e pode ter um impacto no mundo real, que é conhecimento real.
No futuro, à medida que mais dos depósitos por trás do Manus forem disponibilizados em open source, uma gama mais ampla de efeitos borboleta será ainda mais liberada.
Este artigo é reproduzido a partir de [GateGEEEKPARK], e os direitos autorais pertencem ao autor original [Wan Chen], se você tiver alguma objeção à reprodução, entre em contato Portão Aprenderequipe, a equipe irá lidar com isso o mais rápido possível de acordo com os procedimentos relevantes.
Isenção de responsabilidade: As opiniões expressas neste artigo representam apenas as opiniões pessoais do autor e não constituem qualquer conselho de investimento.
Outras versões do artigo em outros idiomas são traduzidas pela equipe do Gate Learn e não são mencionadas emGate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.