Полный обзор: Как родился Манус?

Средний3/17/2025, 7:40:21 AM
Эта статья предоставляет глубокий анализ истории возникновения Manus.im, концепций продукта и его инновационных практик в области искусственного интеллекта.

Самой духовно насыщенной предпринимательской историей, которая произошла в прошлом году, стал рассказ основателя Dify Чжан Лую.

Первый раз, когда я встретил его, был на мероприятии "Xixi Taoism" в 2023 году. Среди звездных имен на месте, Чжан Люю был незаметен. Когда мы встретились снова в 2024 году, Дифи уже был другой историей - предприниматель без блестящего прошлого, который создал один из самых успешных открытых продуктов искусственного интеллекта в мире в условиях сомнений всех в бизнес-модели.

Что случилось с этой компанией за один год, такое как ее неожиданная популярность на японском рынке, который "традиционен и легко защищен, но трудно атаковать", помогло мне еще глубже понять "предпринимательство". Это в основном случайности, и также требуется удача. В конечном итоге вам нужно иметь способность находить выход из постоянных изменений и неудач.

Теперь аналогичная история произошла с другим известным предпринимателем—Manus.im Xiao Hong и его командой.

Четыре месяца назад Сяо Хон упомянул о замешательстве: «Команда хорошо умеет переходить от 0 к 1 и обладает сильной способностью улавливать возможности. Как только начинается переход от 1 к N, ситуация не так хороша».

В его прошлом опыте большинство предпринимательских проектов достигли относительно стабильного и значительного дохода, и его последняя компания также была успешно приобретена. В 2023 году его новая компания "Бабочковый Эффект" даже использовала браузерный плагин Monica.im, чтобы конкурировать в области искусственного интеллекта с сотнями моделей и стать одним из наиболее быстрорастущих приложений искусственного интеллекта с отличным опытом продукта. Похоже, что он - предприниматель, у которого был гладкий путь. Ему всего 32 года, когда он может делать такие вещи.

Но, на самом деле, он не чувствовал себя слишком счастливым. По мнению Сяо Хун, так называемый «постоянный выход предпринимателей» и так называемое освежающее ощущение постоянного перехода от 0 к 1 похожи на осаду - способность захватывать возможности от 0 к 1 очень сильная и очень удовлетворительная, но с другой стороны, вы также беспокоитесь, нужно ли вам делать это снова.

В 2024 году инсайдеры отрасли считают, что искусственные интеллектуальные помощники с функциями памяти, такие как Monica.im, столкнутся с конкуренцией со стороны сильных оппонентов, таких как Doubao, и это не будет так легко, как в 2023 году. У Monica.im есть хороший 0 до 1, но не обязательно хит от 1 до N.

И причина его смущения заключается в том, что "команда действительно собирается делать более сложные вещи и вещи с более высокими потолками" и исследовать вещи, которые могут охватывать диапазон от 1 до N.

Ранее многие голоса, обращавшие внимание на Monica.im, предполагали, что это "что-то более сложное и с более высоким потолком" относится к браузеру AI, о котором долгое время ходят слухи, но команда его не выпустила. Смотря на это сейчас, действительно, я ошибся в догадках.

Это более сложное исследование на самом деле заключается в следующем: отказ от браузера с искусственным интеллектом, достигший статуса релиза, поиск следующего продукта искусственного интеллекта «момент ChatGPT», поиск цели универсального агента и создание последней версии Manus.im.

На сколько инновационной является компания Manus и какого уровня она может достичь в будущем, сейчас является горячей темой. Но то, что стоит наблюдать, - это всё еще направление, найденное в 'вещи идут вразрез с ожиданиями', и процесс нахождения этого направления. Возможно, Manus.im не сможет позволить этой команде совершить вещи от 1 до N, или даже повторить импульс Monica.im, но, как и имя этой компании - 'Эффект Бабочки', множество маленьких действий и решений ненамеренно оказывают глубокое влияние на будущее, 'Связать точки', дорога к завтрашнему дню будет скрыта в сегодняшнем опыте.

Уникальный опыт продукта Manus приходит из уроков, извлеченных из создания «браузера искусственного интеллекта»

С начала конца прошлого года команда "Бабочковый Эффект" AI браузера стала "полу-публичным" секретом в индустрии. Продукт, официально представленный публике, был Manus, который привлек неконтролируемое внимание.

Если вы лично испытали Manus или посмотрели демонстрационное видео, вы почувствуете, что у него есть значительная разница по сравнению с чат-ботами или некоторыми приложениями типа агента: Manus может выполнять задачи асинхронно и параллельно.

Когда вы открываете приложение, такое как Doubao, Kimi или что-то вроде использования компьютера и отправляете ему вопрос, вам придется подождать, пока оно ответит. В противном случае, если вы говорите с ним, пока он отвечает или выполняет задачу, предыдущий ответ/задача будут прерваны, и вы сможете вести с ним только разговор с ретрансляцией A-B-A-B.

Однако в Manus.im, хотя он по-прежнему выглядит как продукт чат-бота, вы можете задать 20 вопросов, чтобы он выполнял задачи одновременно. Вы можете делать что угодно еще на компьютере, смотреть видео, писать документы, играть в игры и т. д., не затрагивая его работы. Manus может уведомлять вас о завершении этих задач или возникновении проблем во время выполнения. Если вы заметите отклонения в его мышлении во время выполнения задачи, вы можете добавить подсказочные слова в диалоговое окно в любое время, и он будет продолжать мыслить и выполнять задачу с новым контекстом.

Опыт асинхронный и может быть параллельным, и это действительно похоже на то, что у вас есть команда настоящих стажеров, которые могут помочь вам работать.

Фактически, дизайн архитектуры продукта Manus для асинхронного опыта происходит из урока, который команда изучила в своем предыдущем необъявленном продукте, браузере AI. В то же время это также причина, по которой команда вложила много энергии, но решила прекратить работу над браузером в октябре прошлого года.

Компания Browser объявила 25 октября 2024 года, что прекратит разработку новых функций для браузера Arc и решила перенести ресурсы на новый браузер Dia с целью создать более простой и удобный браузер ИИ. |Источник: официальный сайт Arc

«В AI-браузере искусственный интеллект постоянно прерывает пользователя». Поскольку это сценарий, разработанный для одного пользователя, после использования искусственного интеллекта вы не сможете им пользоваться. Когда AI начинает работать, вы можете только наблюдать за его работой, что затрудняет начало работы. Наблюдая, как искусственный интеллект отнимает вашу мышь и компьютер, вы не только не осмеливаетесь отнять их, но и опасаетесь, что случайное касание клавиатуры или мыши может вызвать сбой всего процесса и потребовать начать все сначала.

Это позволяет команде делать два суждения:

  1. Прямое использование компьютера для использования компьютера не является целесообразным в короткие сроки.
  2. ИИ должен использовать браузер, но не в вашем браузере. Он должен иметь свой собственный браузер, желательно в облаке, и в конечном итоге передавать результаты вам.

В интервью с Чжаном Сяоцзюнем из Tencent Technology Сяо Хонг упомянул, что при подведении итогов по формам продукта от Jasper до ChatGPT до Monica до Cursor до Devin команда обнаружила, что "человек-программист" Девин очень подходит для этой асинхронной архитектуры опыта.

В отличие от использования Windsurf, иногда он просит вас подтвердить, требуется ли установить эту библиотеку на вашем компьютере; или выполняет команду в командной строке и просит вас ввести да или нет, потому что это может действительно повредить ваш компьютер, или есть конфликт с чем-то - он просит вас ввести "да" для перехода к следующему шагу, но он должен переложить вину.

Поэтому, по мнению команды Manus, "Чатбот должен иметь компьютер в облаке, и код, который он пишет, и вещи, которые нужно проверить через браузер, выполняются на этом компьютере. Поскольку это виртуальный сервер, не имеет значения, если он сломается, вы можете получить другой. Он даже может освободить сервер после завершения текущей задачи."

СтОит отметить, что, в то время как Девин выбрал вертикальные области и жестких инженеров, команда Manus выбрала универсальных помощников по искусственному интеллекту на уровне потребителя, включая веб и приложение. Это универсальный помощник по искусственному интеллекту, который может вызывать инструменты и выполнять различные задачи в работе и жизни в соответствии с инструкциями. В будущем он также будет предоставлять результаты задач по доступной цене для потребителей.

02 Меньше структуры, больше интеллекта

С ясной идеей и целью следующим шагом является реализация идеи. Как это сделал Manus?

По словам партнера по продукту Чжан Цзяо, для этого требуется оснащение большой модели компьютером, а также предоставление ей системных разрешений (доступ к закрытым API, таким как хранилища кода и профессиональные сайты для запросов данных) и определенная тренировка.

Таким образом, искусственный интеллект может использовать этот компьютер для открытия браузера, выполнения действий по планированию инструментов, а затем наблюдать за влиянием своих действий на реальный мир на основе обратной связи, генерируемой инструментами, затем думать о следующем шаге, снова действовать и затем наблюдать... Это процесс завершения задач искусственным интеллектом в исследованиях и исследованиях. В этот период Manus также будет все больше и больше понимать ваши требования под вашим «обучением». В будущем, даже если вы не четко определите свои требования, он все равно сможет «выяснить священный смысл» на основе накопленных знаний в каждой задаче.

Ли Боджи, молодой гений Хуавея и основатель Logenic AI, считает, что Manus имеет уникальную особенность, отличающую его от других продуктов: он решает проблемы в стиле гик-программистов. |Источник изображения: снимок экрана WeChat

Концепция продуктов Manus постепенно прояснилась в процессе их практического использования командой: Меньше структуры, больше интеллекта (Меньше структуры, больше интеллекта).

Это был тот момент, который заставил команду Manus сказать "А-ха, подожди!" Например, вот что произошло с командой в январе этого года:

Когда Манус попросили попробовать задать вопрос на тестовом наборе GAIA: "В видеоролике на YouTube, похожем на стиль National Geographic, различные пингвины приходят туда-сюда и появляются и исчезают из кадра. Манусу предлагается посчитать максимальное количество пингвинов, которые появляются в одном кадре одновременно. Сколько их видов?"

Затем произошло что-то волшебное.

Манус сначала открыл видеоссылку, и первое, что он сделал, было «Нажать K». Затем он делал скриншоты по одному, чтобы записать, какой тип пингвина появился на каком кадре. Наконец, он заключил, что на кадре появилось больше всего 3 типов пингвинов. Манус вернется, чтобы проверить дальше, и его следующее действие - «Нажать 3»... После окончательной проверки ответ оказался равен 3.

Как люди, стоящие за строительством Gate, мы должны знать границы его возможностей, но для команды реальность такова, что «сюрпризы всегда случаются». Удивительно, что Manus не только правильно ответил на вопрос, но и друзья, которые много лет пользуются компьютерами и Youtube, не обязательно знают, что такое клавиши «K» и «3» на клавиатуре?

Глядя на несколько ошеломляющую сцену перед ними, команда последовала за Манусом и сделала это снова. «K» на клавиатуре - это клавиша паузы, которая позволяет Манусу делать снимки по одному после паузы, чтобы записать, какой пингвин появляется на каком кадре; «3» также является комбинацией клавиш, от 0 до 9 соответственно, представляющих 0% до 90% полосы прогресса. 3 составляет 30% полосы прогресса. Это позволяет точно определить секунду видео, а затем сообщить людям, сколько видов пингвинов на этой картинке.

«Этот процесс отличается от традиционного чат-бота. Во-первых, он может смотреть картинки YouTube вместо субтитров. Во-вторых, мы даже обнаружили, что он использовал горячие клавиши YouTube. Мы были очень удивлены, что он ответил на этот вопрос». Сяо Хун также упомянул эту сцену в предыдущем интервью с Tencent Technology.

Внезапно я обнаружил, что Manus не только лучше программировал, чем люди, но и его знания о Вебе и приложениях, которыми люди пользуются каждый день, превосходят воображение. Как всезнающий и всемогущий искусственный интеллект, он может понять все способы и средства в любом инструменте, а затем выбрать оптимальный метод.

Это еще раз позволило команде почувствовать «Меньше структуры, больше интеллекта» - минимизируя искусственные ограничения на ИИ и позволяя ИИ функционировать через свою собственную эволюцию, а не учить его, что делать.

В самом низу официального сайта Мануса тихо представлено самое важное открытие, стоящее за Манусом: «Меньше структуры, больше интеллекта». |Источник скриншота: Manus

Это объяснение и расширенное мышление Пика, сооснователя и главного ученого “Butterfly Effect”, о самом важном первом принципе, лежащем в основе продукта Manus - “Меньше структуры, больше интеллекта” в день запуска продукта Manus:

Когда ваши данные имеют высокое качество, ваша модель достаточно умна, ваша архитектура достаточно гибка, а ваше инженерное дело достаточно прочно, концепции, такие как использование компьютера, глубокое исследование и кодирование агентов, перестанут быть функциями продукта и станут естественно возникающими возможностями.

Возвращение к первоначальным принципам также дает нам новый способ мышления о форме продукта:· AI браузер не добавляет AI в браузер, а делает браузер для AI;
· AI поиск не запоминает и не резюмирует индекс, но позволяет искусственному интеллекту получать информацию с разрешения пользователя;
· При работе с графическим интерфейсом управление устройством пользователя не перехватывается, но позволяет искусственному интеллекту иметь собственную виртуальную машину;
Написание кода не является конечной целью, а лишь общим средством для решения различных проблем;
· Сложность создания веб-сайта не в построении фреймворка, а в создании значимого контента;
· Внимание - это не все, что вам нужно. Только освободив внимание пользователей, можно переопределить DAU;

Через открытие и практику "Меньше структуры, больше интеллекта" раз за разом, Manus достиг результатов, превосходящих ожидания, включая проход@1результат в бенчмарке GAIA превышает результат OpenAI Deep Research в рамках@64Тем временем во внутренних тестах Manus также смогла непосредственно охватить 76% сценариев специализированных агентских продуктов в Y Combinator W25.

03 «Агент может быть проблемой «выравнивания», а не проблемой базовых возможностей модели»

Теперь эти идеи обсуждаются в большем масштабе:

Клемент Деланг, основатель и генеральный директор Hugging Face, предложил результаты Peak по некоторым базовым моделям с открытым исходным кодом, которые просто обучены «отвечать на все вопросы одним раундом независимо от сложности вопросов». Однако это требуется в сценарии чат-бота. Просто выполнение некоторых пост-тренировочных действий на пути агента может сделать огромную разницу сразу. |Источник скриншота: X

Manus не вводит MCP (Model Context Protocol), но позволяет искусственному интеллекту написать свой собственный код для вызова API и обработки различных долгих задач. |Источник скриншота: X

В обсуждениях о Manus за последние несколько дней один из самых распространенных вопросов, который я слышал, - это: возможно ли создать «универсального искусственного интеллекта»? Где находится граница?

По мнению Peak, поскольку взаимодействие между людьми и миром фактически очень стандартно, с использованием глаз, рук и ушей, если пространство действий хорошо определено, должна быть возможность внедрить агента в ссылку, которую изначально выполняют люди.

Поскольку люди могут использовать различные инструменты для проведения глубоких операций в вертикальных областях, если сам агент обладает достаточными знаниями, был должным образом обучен и имеет хороший интерфейс для взаимодействия с миром, он должен быть способен работать как человек и даже позволить агенту использовать определенный продукт SaaS. Например, случай поиска жилья, представленный на официальном сайте Manus.im, фактически включает в себя работу ИИ с продуктом SaaS, посвященным сфере недвижимости.

Он считает, что следует четко определить границу использования агентом инструментов, а не того, какой группе людей он служит. Manus не моделирует человека, который делает конкретные вещи, и не является агентом, разделенным на исследования и разработки, менеджера продукта и т. д .; он моделирует человека, который может делать вещи, и моделирует, как работает стажер.

Многоагентная система Manus относится к разделению планирования и выполнения.

Для исполнителя (Исполнитель), Манус принял Клода, который временно ведет в программировании, долгосрочном планировании и поэтапном решении проблем, а также использовал ряд моделей Qwen для последующего обучения.

Вчера Manus также достиг стратегического сотрудничества с Alibaba Tongyi Qianwen, обязавшись реализовать все функции Manus на отечественных моделях и платформах вычислительной мощности. |Источник изображения: Manus

В планировщике Манус проделал много работы.

Поскольку API или модели полки, которые в настоящее время представлены на рынке, в основном ориентированы на сценарии чат-роботов, во время обучения, несмотря на то, насколько сложно пользователь задает вопрос, цель оптимизации обучения заключается в том, чтобы ответить на вопрос пользователя четко одним ответом, но это на самом деле полностью противоположно планированию, требуемому агентом.

Поэтому, если существующая модель на рынке используется непосредственно в сценарии агента без "выравнивания", эта модель всегда будет стремиться к быстрому успеху и давать "запутанный" результат в течение одного раунда диалога, как многие краткие резюме в виде маркеров.

"Методы выравнивания должны быть разными. Наша команда считает, что для выполнения специального выравнивания требуются разные данные", - сказал Сяо Хонг.

В октябре прошлого года Peak также записал на Zhihu прогресс и неудачу попытки воспроизвести проект интереса OpenAI o1 - открытую модель Стейнера. Фактически, этот проект выполнял предварительное исследование по части пошагового планирования планировщика Manus.

В общем, Манус симулирует человека, который делает вещи. Это общее определение продукта команды Манус как универсального помощника по искусственному интеллекту. Что касается мыслей о его границах, команда, вероятно, все еще исследует это и нуждается в большем количестве примеров использования пользователей.

В интервью с Tencent Technology, опубликованном до релиза Manus, Сяо Хонг фактически упомянул свои первоначальные мысли о универсальности Manus. “Очень важный вопрос, или очень важная ответственность менеджеров продукта, заключается в контроле над ожиданиями пользователей. Предположим, что он может сделать все на свете, например: Как заработать $1 миллион? Это не то, что должен делать Агент. Но если мы можем дать более конкретные примеры, чтобы сделать ожидания всех более разумными, каждый будет использовать его более плавно.”

04 «У ракушек есть свои применения», команда, которая лучше всего понимает ракушки

Рано утром 27 февраля партнер по продукту Manus Чжан Тао и главный ученый Цзи Ичао (Пик) пролили слезы, когда увидели результаты рейтинга Manus.im. Производительность Manus на бенчмарке GAIA превзошла производительность Deep Research от OpenAI, и достигла этот неожиданный результат примерно за 1/10 стоимости ($2/задача) бенчмарка OpenAI.


Image source: Manus.im

Команда десятков человек стала одной из первых команд, создавших универсальный агентский продукт, когда агенты достигли консенсуса по конкуренции в отрасли. Они также уникальны в области инженерии продукта и интерактивного опыта на фронтенде.

Положительная обратная связь от сделанных вещей лучше всего. Нет лучшего стимула для стартап-команды, чем это. Но прежде чем это произошло, как произошло Манус? Зачем была создана эта команда?

«Современные возможности модели способны выполнять сложные многоэтапные задачи. Но таких продуктов пока нет, поэтому каждый не может этого почувствовать». Упомянутые Сяо Хонгом в предыдущих интервью с Tencent Technology идеи могут помочь понять эту проблему.

В то же время, не многие команды имеют возможность опробовать продукты Agent. Потому что для этого требуется множество композитных способностей. Он хочет поработать над Chatbot, некоторыми связанными с ИИ программированиями и связанными с браузером, потому что ему нужно вызывать браузер, и у него хорошее чувство границ LLM - до какого уровня он развился на сегодняшний день и до какого уровня он будет развиваться далее. Прежде всего, компаний, обладающих этими способностями одновременно, не так уж много, а компании, обладающие этими способностями, могут заниматься очень конкретным бизнесом. Некоторые наши одноклассники случайно оказались иметь время, чтобы вместе заниматься этими делами.

«точно».

  • Было обнаружено вовремя, что модельная способность достигла уровня, на котором ее можно использовать в качестве агента, не дожидаясь выпуска полноценной крупной модели, наподобие Оператора;
  • Мне также удалось обнаружить, что проблема заключалась в выравнивании;
  • Я также случайно выполнил все функции, расширенные чат-ботами и браузерами искусственного интеллекта;
  • В то же время, поскольку я занимаюсь созданием крупномасштабных модельных прикладных продуктов в так называемой «оболочке», у меня есть четкое понимание LLM;

Команда "Эффекта Бабочки" достигла всех элементов, чтобы создать такого универсального агента сегодня, поэтому сейчас существует универсальный агент с относительно высокой степенью завершенности по сравнению с индустрией.

Когда его спросили, каков момент решения начать Manus, Пик восстановил больше деталей. Он сказал: «На самом деле нет 'чистого' поворота в предпринимательстве». Все согласуется и не имеет четких границ.

«При создании продукта я также часто обращаю внимание на внешнюю ситуацию». Тогда было несколько вещей. Во-первых, когда я делал браузер, я сделал модель на стороне клиента. Позже я обнаружил, что браузер требует очень широкого спектра сценариев и имеет различные функции. В процессе я обнаружил, что базовая модель укрепляется с ускоренным темпом. Разрыв между ней и агентом может быть проблемой выравнивания. Хотя внешний мир может чувствовать, что большие языковые модели постепенно сходятся и сталкиваются с преградой.

В то же время внешний мир также менялся. Cursor взлетел в начале прошлого года, за которым последовали Windsurf и Devin. Это соответствует тому же контексту. Агенты популярны в области программирования, и путь к популярности постепенный. Cursor является сопилотом для программистов, что повышает эффективность программирования. Начиная с Windsurf, постепенно внедряются некоторые автоматизированные процессы, позволяющие вам иметь более сильные возможности автоматизации на вашем локальном компьютере. Devin достиг нового уровня автоматизации.

Тенденции VC также последовательны. Например, в прошлом году и позапрошлом году YC инвестировал в два типа компаний. Один из них - облачный браузер, такой как браузерная основа; второй тип - легкие виртуальные машины песочницы AI, аналогичные e2b.

Это показывает, что «инфраструктура модели быстро совершенствуется, и инфраструктура Инфра также быстро совершенствуется. Кроме того, учитывая, что внешние продукты постепенно приобретают большее признание, мы считаем, что это направление заслуживает всей внимания. Это очень постепенный и плавный процесс. Кроме того, накопленная инфраструктура во время разработки браузеров, таких как Chromium, может быть безболезненно перенесена, поэтому мы решаем разрабатывать браузеры в облаке.

В заключение, острое восприятие и накопление опыта требований и моделей в так называемой «оболочке» совместно создали Manus. Во многих сценариях Моники требуется после-модельное обучение. В то же время самый важный урок «меньше структуры, больше интеллекта» был усилен в практике браузеров искусственного интеллекта. Она обнаружила, что способности модели достигли уровня агента, но проблема заключается в выравнивании. За этим последовали три месяца быстрого развития Manus.

Ранее команду "Бабочкины эффекты" однажды допрашивали о ценности "оболочки". Она построила Монику, интегрируя существующие большие модели, не разрабатывая большие модели самостоятельно. Она интегрировала функции, такие как чат, поиск, чтение, запись и перевод. Также пошагово интегрировала множество сценариев выполнения задач через API. К концу прошлого года количество пользователей достигло десятков миллионов.

Теперь, когда Doubao, Quark и Yuanbao активно продвигают свои продукты Monica, а небольшая команда использует существующую технологию для создания первого общего потребительского агента, пришло время повторно понять "оболочку".

Что такое «shells» и «shells» в точности?

По мнению Сяо Хун, все прорывы происходят благодаря моделям, которые в основном ориентированы на модель и сначала на модель. Оболочка служит для отображения технических инноваций модели таким образом, чтобы пользователи могли их воспринять, и для инкапсуляции инновационных возможностей модели таким образом, чтобы пользователи могли их наилучшим образом воспринять.

Исходя из этого определения, DeepSeek App (включая отображение цепочки мыслей) является оболочкой DeepSeek-R1, Cursor является оболочкой Anthropic Sonnet 3.5, Perplexity является оболочкой GPT-4, а ChatGPT является оболочкой InstructGPT.

Поскольку возможности моделей развиваются стремительно, «та оболочка» также должна развиваться. После того как возможности каждого нового поколения моделей развиваются, это уже не обязательно оригинальный производитель. Это сторонний производитель, который представляет свою воспринимаемую пользователем ценность. Точно так же, как Курсор приносит пользовательскую ценность для Claude 3.5 Sonnet.

5 марта, во вторую годовщину выпуска Monica.im, ответ на вопрос, почему эти десятки людей достигли опыта работы с продуктом, превосходящего опыт работы с различными операторами Deep Research и OpenAI, заключается в понимании и практике оболочек.

Как сделать лучший корпус для новой модели, которая может использоваться в качестве агента?

Как строитель Manus, Чжан Тао считает: «Глядя на всю его архитектуру со стороны, мы видим, что в каждом месте много незавершенной работы, и каждое из этих мест ключевое для успеха, и они все делают поверхность продукта разной».

С точки зрения команды, самым важным преимуществом является темп инноваций. И приложения, и модели теперь достигли состояния относительной насыщенности. Единственная действительная основная способность в конечном итоге - это быстро двигаться, хотя "данные летучего колеса" и "сетевые эффекты" еще не были подтверждены.

«В совершенно новом поле все неопределенно и неизвестно. Самое важное - это скорость инноваций. Мы стремимся к исследованиям, пробам и ошибкам в различных направлениях и быстрому нахождению правильного пути». Команда Manus гибка в философии управления, организационной структуре и промышленных процессах. Когда появляются новые возможности, вы можете использовать ограниченные ресурсы для объединения всех ресурсов всей компании, принимать решения на очень высокой скорости и адаптироваться к обратной связи по ошибкам.

Слева направо находятся главный ученый “Бабочий Эффект” Пик, генеральный директор Сяо Хонг и партнер по продукту Чан Тао | Источник изображения: Интернет

Что касается ожиданий Мануса, Сяо Хун считает, что «даже если есть временное окно, стоит попробовать». За последний год его мышление также претерпело радикальные изменения. Например, теперь он считает, что «когда вы понимаете, что опережаете график, вы становитесь более агрессивным и супер-агрессивным. После просмотра сегодняшнего дня я чувствую, что Моника в 2023 году не была достаточно агрессивной». «Если вы знаете, что вы инновируете и ведете, вам следует быть агрессивным».

Я не знаю, сможет ли Manus принести Ксао Хонгу и его команде опыт и скачок от 1 до N, но эта команда, которая знает больше всего о "оболочке", верит в создание сердцем и рукой как одного целого, а также верит в бабочий эффект, вызванный творчеством. Manus происходит от девиза в MIT: Mens at manus, который подчеркивает единство сердца и руки. Это не должно быть оптическим, это должно быть сделано, и это может повлиять на реальный мир, что является истинным знанием.

В будущем, по мере того как больше депозитов, лежащих за Manus, станут открытыми, будет дополнительно высвобожден более широкий спектр бабочечных эффектов.

Отказ от ответственности:

  1. Эта статья воспроизводится из [GEEEKPARK], а авторские права принадлежат оригинальному автору [Уан Чен], если у вас есть возражения к перепечатке, пожалуйста, свяжитесь Gate Learnкоманда, команда обработает это как можно скорее в соответствии с соответствующими процедурами.

  2. Предупреждение: Взгляды и мнения, выраженные в этой статье, представляют только личные взгляды автора и не являются инвестиционными советами.

  3. Другие языковые версии статьи переведены командой Gate Learn и не упоминаются в Gate.io, переведенная статья не может быть воспроизведена, распространена или использована в качестве плагиата.

Compartir

Полный обзор: Как родился Манус?

Средний3/17/2025, 7:40:21 AM
Эта статья предоставляет глубокий анализ истории возникновения Manus.im, концепций продукта и его инновационных практик в области искусственного интеллекта.

Самой духовно насыщенной предпринимательской историей, которая произошла в прошлом году, стал рассказ основателя Dify Чжан Лую.

Первый раз, когда я встретил его, был на мероприятии "Xixi Taoism" в 2023 году. Среди звездных имен на месте, Чжан Люю был незаметен. Когда мы встретились снова в 2024 году, Дифи уже был другой историей - предприниматель без блестящего прошлого, который создал один из самых успешных открытых продуктов искусственного интеллекта в мире в условиях сомнений всех в бизнес-модели.

Что случилось с этой компанией за один год, такое как ее неожиданная популярность на японском рынке, который "традиционен и легко защищен, но трудно атаковать", помогло мне еще глубже понять "предпринимательство". Это в основном случайности, и также требуется удача. В конечном итоге вам нужно иметь способность находить выход из постоянных изменений и неудач.

Теперь аналогичная история произошла с другим известным предпринимателем—Manus.im Xiao Hong и его командой.

Четыре месяца назад Сяо Хон упомянул о замешательстве: «Команда хорошо умеет переходить от 0 к 1 и обладает сильной способностью улавливать возможности. Как только начинается переход от 1 к N, ситуация не так хороша».

В его прошлом опыте большинство предпринимательских проектов достигли относительно стабильного и значительного дохода, и его последняя компания также была успешно приобретена. В 2023 году его новая компания "Бабочковый Эффект" даже использовала браузерный плагин Monica.im, чтобы конкурировать в области искусственного интеллекта с сотнями моделей и стать одним из наиболее быстрорастущих приложений искусственного интеллекта с отличным опытом продукта. Похоже, что он - предприниматель, у которого был гладкий путь. Ему всего 32 года, когда он может делать такие вещи.

Но, на самом деле, он не чувствовал себя слишком счастливым. По мнению Сяо Хун, так называемый «постоянный выход предпринимателей» и так называемое освежающее ощущение постоянного перехода от 0 к 1 похожи на осаду - способность захватывать возможности от 0 к 1 очень сильная и очень удовлетворительная, но с другой стороны, вы также беспокоитесь, нужно ли вам делать это снова.

В 2024 году инсайдеры отрасли считают, что искусственные интеллектуальные помощники с функциями памяти, такие как Monica.im, столкнутся с конкуренцией со стороны сильных оппонентов, таких как Doubao, и это не будет так легко, как в 2023 году. У Monica.im есть хороший 0 до 1, но не обязательно хит от 1 до N.

И причина его смущения заключается в том, что "команда действительно собирается делать более сложные вещи и вещи с более высокими потолками" и исследовать вещи, которые могут охватывать диапазон от 1 до N.

Ранее многие голоса, обращавшие внимание на Monica.im, предполагали, что это "что-то более сложное и с более высоким потолком" относится к браузеру AI, о котором долгое время ходят слухи, но команда его не выпустила. Смотря на это сейчас, действительно, я ошибся в догадках.

Это более сложное исследование на самом деле заключается в следующем: отказ от браузера с искусственным интеллектом, достигший статуса релиза, поиск следующего продукта искусственного интеллекта «момент ChatGPT», поиск цели универсального агента и создание последней версии Manus.im.

На сколько инновационной является компания Manus и какого уровня она может достичь в будущем, сейчас является горячей темой. Но то, что стоит наблюдать, - это всё еще направление, найденное в 'вещи идут вразрез с ожиданиями', и процесс нахождения этого направления. Возможно, Manus.im не сможет позволить этой команде совершить вещи от 1 до N, или даже повторить импульс Monica.im, но, как и имя этой компании - 'Эффект Бабочки', множество маленьких действий и решений ненамеренно оказывают глубокое влияние на будущее, 'Связать точки', дорога к завтрашнему дню будет скрыта в сегодняшнем опыте.

Уникальный опыт продукта Manus приходит из уроков, извлеченных из создания «браузера искусственного интеллекта»

С начала конца прошлого года команда "Бабочковый Эффект" AI браузера стала "полу-публичным" секретом в индустрии. Продукт, официально представленный публике, был Manus, который привлек неконтролируемое внимание.

Если вы лично испытали Manus или посмотрели демонстрационное видео, вы почувствуете, что у него есть значительная разница по сравнению с чат-ботами или некоторыми приложениями типа агента: Manus может выполнять задачи асинхронно и параллельно.

Когда вы открываете приложение, такое как Doubao, Kimi или что-то вроде использования компьютера и отправляете ему вопрос, вам придется подождать, пока оно ответит. В противном случае, если вы говорите с ним, пока он отвечает или выполняет задачу, предыдущий ответ/задача будут прерваны, и вы сможете вести с ним только разговор с ретрансляцией A-B-A-B.

Однако в Manus.im, хотя он по-прежнему выглядит как продукт чат-бота, вы можете задать 20 вопросов, чтобы он выполнял задачи одновременно. Вы можете делать что угодно еще на компьютере, смотреть видео, писать документы, играть в игры и т. д., не затрагивая его работы. Manus может уведомлять вас о завершении этих задач или возникновении проблем во время выполнения. Если вы заметите отклонения в его мышлении во время выполнения задачи, вы можете добавить подсказочные слова в диалоговое окно в любое время, и он будет продолжать мыслить и выполнять задачу с новым контекстом.

Опыт асинхронный и может быть параллельным, и это действительно похоже на то, что у вас есть команда настоящих стажеров, которые могут помочь вам работать.

Фактически, дизайн архитектуры продукта Manus для асинхронного опыта происходит из урока, который команда изучила в своем предыдущем необъявленном продукте, браузере AI. В то же время это также причина, по которой команда вложила много энергии, но решила прекратить работу над браузером в октябре прошлого года.

Компания Browser объявила 25 октября 2024 года, что прекратит разработку новых функций для браузера Arc и решила перенести ресурсы на новый браузер Dia с целью создать более простой и удобный браузер ИИ. |Источник: официальный сайт Arc

«В AI-браузере искусственный интеллект постоянно прерывает пользователя». Поскольку это сценарий, разработанный для одного пользователя, после использования искусственного интеллекта вы не сможете им пользоваться. Когда AI начинает работать, вы можете только наблюдать за его работой, что затрудняет начало работы. Наблюдая, как искусственный интеллект отнимает вашу мышь и компьютер, вы не только не осмеливаетесь отнять их, но и опасаетесь, что случайное касание клавиатуры или мыши может вызвать сбой всего процесса и потребовать начать все сначала.

Это позволяет команде делать два суждения:

  1. Прямое использование компьютера для использования компьютера не является целесообразным в короткие сроки.
  2. ИИ должен использовать браузер, но не в вашем браузере. Он должен иметь свой собственный браузер, желательно в облаке, и в конечном итоге передавать результаты вам.

В интервью с Чжаном Сяоцзюнем из Tencent Technology Сяо Хонг упомянул, что при подведении итогов по формам продукта от Jasper до ChatGPT до Monica до Cursor до Devin команда обнаружила, что "человек-программист" Девин очень подходит для этой асинхронной архитектуры опыта.

В отличие от использования Windsurf, иногда он просит вас подтвердить, требуется ли установить эту библиотеку на вашем компьютере; или выполняет команду в командной строке и просит вас ввести да или нет, потому что это может действительно повредить ваш компьютер, или есть конфликт с чем-то - он просит вас ввести "да" для перехода к следующему шагу, но он должен переложить вину.

Поэтому, по мнению команды Manus, "Чатбот должен иметь компьютер в облаке, и код, который он пишет, и вещи, которые нужно проверить через браузер, выполняются на этом компьютере. Поскольку это виртуальный сервер, не имеет значения, если он сломается, вы можете получить другой. Он даже может освободить сервер после завершения текущей задачи."

СтОит отметить, что, в то время как Девин выбрал вертикальные области и жестких инженеров, команда Manus выбрала универсальных помощников по искусственному интеллекту на уровне потребителя, включая веб и приложение. Это универсальный помощник по искусственному интеллекту, который может вызывать инструменты и выполнять различные задачи в работе и жизни в соответствии с инструкциями. В будущем он также будет предоставлять результаты задач по доступной цене для потребителей.

02 Меньше структуры, больше интеллекта

С ясной идеей и целью следующим шагом является реализация идеи. Как это сделал Manus?

По словам партнера по продукту Чжан Цзяо, для этого требуется оснащение большой модели компьютером, а также предоставление ей системных разрешений (доступ к закрытым API, таким как хранилища кода и профессиональные сайты для запросов данных) и определенная тренировка.

Таким образом, искусственный интеллект может использовать этот компьютер для открытия браузера, выполнения действий по планированию инструментов, а затем наблюдать за влиянием своих действий на реальный мир на основе обратной связи, генерируемой инструментами, затем думать о следующем шаге, снова действовать и затем наблюдать... Это процесс завершения задач искусственным интеллектом в исследованиях и исследованиях. В этот период Manus также будет все больше и больше понимать ваши требования под вашим «обучением». В будущем, даже если вы не четко определите свои требования, он все равно сможет «выяснить священный смысл» на основе накопленных знаний в каждой задаче.

Ли Боджи, молодой гений Хуавея и основатель Logenic AI, считает, что Manus имеет уникальную особенность, отличающую его от других продуктов: он решает проблемы в стиле гик-программистов. |Источник изображения: снимок экрана WeChat

Концепция продуктов Manus постепенно прояснилась в процессе их практического использования командой: Меньше структуры, больше интеллекта (Меньше структуры, больше интеллекта).

Это был тот момент, который заставил команду Manus сказать "А-ха, подожди!" Например, вот что произошло с командой в январе этого года:

Когда Манус попросили попробовать задать вопрос на тестовом наборе GAIA: "В видеоролике на YouTube, похожем на стиль National Geographic, различные пингвины приходят туда-сюда и появляются и исчезают из кадра. Манусу предлагается посчитать максимальное количество пингвинов, которые появляются в одном кадре одновременно. Сколько их видов?"

Затем произошло что-то волшебное.

Манус сначала открыл видеоссылку, и первое, что он сделал, было «Нажать K». Затем он делал скриншоты по одному, чтобы записать, какой тип пингвина появился на каком кадре. Наконец, он заключил, что на кадре появилось больше всего 3 типов пингвинов. Манус вернется, чтобы проверить дальше, и его следующее действие - «Нажать 3»... После окончательной проверки ответ оказался равен 3.

Как люди, стоящие за строительством Gate, мы должны знать границы его возможностей, но для команды реальность такова, что «сюрпризы всегда случаются». Удивительно, что Manus не только правильно ответил на вопрос, но и друзья, которые много лет пользуются компьютерами и Youtube, не обязательно знают, что такое клавиши «K» и «3» на клавиатуре?

Глядя на несколько ошеломляющую сцену перед ними, команда последовала за Манусом и сделала это снова. «K» на клавиатуре - это клавиша паузы, которая позволяет Манусу делать снимки по одному после паузы, чтобы записать, какой пингвин появляется на каком кадре; «3» также является комбинацией клавиш, от 0 до 9 соответственно, представляющих 0% до 90% полосы прогресса. 3 составляет 30% полосы прогресса. Это позволяет точно определить секунду видео, а затем сообщить людям, сколько видов пингвинов на этой картинке.

«Этот процесс отличается от традиционного чат-бота. Во-первых, он может смотреть картинки YouTube вместо субтитров. Во-вторых, мы даже обнаружили, что он использовал горячие клавиши YouTube. Мы были очень удивлены, что он ответил на этот вопрос». Сяо Хун также упомянул эту сцену в предыдущем интервью с Tencent Technology.

Внезапно я обнаружил, что Manus не только лучше программировал, чем люди, но и его знания о Вебе и приложениях, которыми люди пользуются каждый день, превосходят воображение. Как всезнающий и всемогущий искусственный интеллект, он может понять все способы и средства в любом инструменте, а затем выбрать оптимальный метод.

Это еще раз позволило команде почувствовать «Меньше структуры, больше интеллекта» - минимизируя искусственные ограничения на ИИ и позволяя ИИ функционировать через свою собственную эволюцию, а не учить его, что делать.

В самом низу официального сайта Мануса тихо представлено самое важное открытие, стоящее за Манусом: «Меньше структуры, больше интеллекта». |Источник скриншота: Manus

Это объяснение и расширенное мышление Пика, сооснователя и главного ученого “Butterfly Effect”, о самом важном первом принципе, лежащем в основе продукта Manus - “Меньше структуры, больше интеллекта” в день запуска продукта Manus:

Когда ваши данные имеют высокое качество, ваша модель достаточно умна, ваша архитектура достаточно гибка, а ваше инженерное дело достаточно прочно, концепции, такие как использование компьютера, глубокое исследование и кодирование агентов, перестанут быть функциями продукта и станут естественно возникающими возможностями.

Возвращение к первоначальным принципам также дает нам новый способ мышления о форме продукта:· AI браузер не добавляет AI в браузер, а делает браузер для AI;
· AI поиск не запоминает и не резюмирует индекс, но позволяет искусственному интеллекту получать информацию с разрешения пользователя;
· При работе с графическим интерфейсом управление устройством пользователя не перехватывается, но позволяет искусственному интеллекту иметь собственную виртуальную машину;
Написание кода не является конечной целью, а лишь общим средством для решения различных проблем;
· Сложность создания веб-сайта не в построении фреймворка, а в создании значимого контента;
· Внимание - это не все, что вам нужно. Только освободив внимание пользователей, можно переопределить DAU;

Через открытие и практику "Меньше структуры, больше интеллекта" раз за разом, Manus достиг результатов, превосходящих ожидания, включая проход@1результат в бенчмарке GAIA превышает результат OpenAI Deep Research в рамках@64Тем временем во внутренних тестах Manus также смогла непосредственно охватить 76% сценариев специализированных агентских продуктов в Y Combinator W25.

03 «Агент может быть проблемой «выравнивания», а не проблемой базовых возможностей модели»

Теперь эти идеи обсуждаются в большем масштабе:

Клемент Деланг, основатель и генеральный директор Hugging Face, предложил результаты Peak по некоторым базовым моделям с открытым исходным кодом, которые просто обучены «отвечать на все вопросы одним раундом независимо от сложности вопросов». Однако это требуется в сценарии чат-бота. Просто выполнение некоторых пост-тренировочных действий на пути агента может сделать огромную разницу сразу. |Источник скриншота: X

Manus не вводит MCP (Model Context Protocol), но позволяет искусственному интеллекту написать свой собственный код для вызова API и обработки различных долгих задач. |Источник скриншота: X

В обсуждениях о Manus за последние несколько дней один из самых распространенных вопросов, который я слышал, - это: возможно ли создать «универсального искусственного интеллекта»? Где находится граница?

По мнению Peak, поскольку взаимодействие между людьми и миром фактически очень стандартно, с использованием глаз, рук и ушей, если пространство действий хорошо определено, должна быть возможность внедрить агента в ссылку, которую изначально выполняют люди.

Поскольку люди могут использовать различные инструменты для проведения глубоких операций в вертикальных областях, если сам агент обладает достаточными знаниями, был должным образом обучен и имеет хороший интерфейс для взаимодействия с миром, он должен быть способен работать как человек и даже позволить агенту использовать определенный продукт SaaS. Например, случай поиска жилья, представленный на официальном сайте Manus.im, фактически включает в себя работу ИИ с продуктом SaaS, посвященным сфере недвижимости.

Он считает, что следует четко определить границу использования агентом инструментов, а не того, какой группе людей он служит. Manus не моделирует человека, который делает конкретные вещи, и не является агентом, разделенным на исследования и разработки, менеджера продукта и т. д .; он моделирует человека, который может делать вещи, и моделирует, как работает стажер.

Многоагентная система Manus относится к разделению планирования и выполнения.

Для исполнителя (Исполнитель), Манус принял Клода, который временно ведет в программировании, долгосрочном планировании и поэтапном решении проблем, а также использовал ряд моделей Qwen для последующего обучения.

Вчера Manus также достиг стратегического сотрудничества с Alibaba Tongyi Qianwen, обязавшись реализовать все функции Manus на отечественных моделях и платформах вычислительной мощности. |Источник изображения: Manus

В планировщике Манус проделал много работы.

Поскольку API или модели полки, которые в настоящее время представлены на рынке, в основном ориентированы на сценарии чат-роботов, во время обучения, несмотря на то, насколько сложно пользователь задает вопрос, цель оптимизации обучения заключается в том, чтобы ответить на вопрос пользователя четко одним ответом, но это на самом деле полностью противоположно планированию, требуемому агентом.

Поэтому, если существующая модель на рынке используется непосредственно в сценарии агента без "выравнивания", эта модель всегда будет стремиться к быстрому успеху и давать "запутанный" результат в течение одного раунда диалога, как многие краткие резюме в виде маркеров.

"Методы выравнивания должны быть разными. Наша команда считает, что для выполнения специального выравнивания требуются разные данные", - сказал Сяо Хонг.

В октябре прошлого года Peak также записал на Zhihu прогресс и неудачу попытки воспроизвести проект интереса OpenAI o1 - открытую модель Стейнера. Фактически, этот проект выполнял предварительное исследование по части пошагового планирования планировщика Manus.

В общем, Манус симулирует человека, который делает вещи. Это общее определение продукта команды Манус как универсального помощника по искусственному интеллекту. Что касается мыслей о его границах, команда, вероятно, все еще исследует это и нуждается в большем количестве примеров использования пользователей.

В интервью с Tencent Technology, опубликованном до релиза Manus, Сяо Хонг фактически упомянул свои первоначальные мысли о универсальности Manus. “Очень важный вопрос, или очень важная ответственность менеджеров продукта, заключается в контроле над ожиданиями пользователей. Предположим, что он может сделать все на свете, например: Как заработать $1 миллион? Это не то, что должен делать Агент. Но если мы можем дать более конкретные примеры, чтобы сделать ожидания всех более разумными, каждый будет использовать его более плавно.”

04 «У ракушек есть свои применения», команда, которая лучше всего понимает ракушки

Рано утром 27 февраля партнер по продукту Manus Чжан Тао и главный ученый Цзи Ичао (Пик) пролили слезы, когда увидели результаты рейтинга Manus.im. Производительность Manus на бенчмарке GAIA превзошла производительность Deep Research от OpenAI, и достигла этот неожиданный результат примерно за 1/10 стоимости ($2/задача) бенчмарка OpenAI.


Image source: Manus.im

Команда десятков человек стала одной из первых команд, создавших универсальный агентский продукт, когда агенты достигли консенсуса по конкуренции в отрасли. Они также уникальны в области инженерии продукта и интерактивного опыта на фронтенде.

Положительная обратная связь от сделанных вещей лучше всего. Нет лучшего стимула для стартап-команды, чем это. Но прежде чем это произошло, как произошло Манус? Зачем была создана эта команда?

«Современные возможности модели способны выполнять сложные многоэтапные задачи. Но таких продуктов пока нет, поэтому каждый не может этого почувствовать». Упомянутые Сяо Хонгом в предыдущих интервью с Tencent Technology идеи могут помочь понять эту проблему.

В то же время, не многие команды имеют возможность опробовать продукты Agent. Потому что для этого требуется множество композитных способностей. Он хочет поработать над Chatbot, некоторыми связанными с ИИ программированиями и связанными с браузером, потому что ему нужно вызывать браузер, и у него хорошее чувство границ LLM - до какого уровня он развился на сегодняшний день и до какого уровня он будет развиваться далее. Прежде всего, компаний, обладающих этими способностями одновременно, не так уж много, а компании, обладающие этими способностями, могут заниматься очень конкретным бизнесом. Некоторые наши одноклассники случайно оказались иметь время, чтобы вместе заниматься этими делами.

«точно».

  • Было обнаружено вовремя, что модельная способность достигла уровня, на котором ее можно использовать в качестве агента, не дожидаясь выпуска полноценной крупной модели, наподобие Оператора;
  • Мне также удалось обнаружить, что проблема заключалась в выравнивании;
  • Я также случайно выполнил все функции, расширенные чат-ботами и браузерами искусственного интеллекта;
  • В то же время, поскольку я занимаюсь созданием крупномасштабных модельных прикладных продуктов в так называемой «оболочке», у меня есть четкое понимание LLM;

Команда "Эффекта Бабочки" достигла всех элементов, чтобы создать такого универсального агента сегодня, поэтому сейчас существует универсальный агент с относительно высокой степенью завершенности по сравнению с индустрией.

Когда его спросили, каков момент решения начать Manus, Пик восстановил больше деталей. Он сказал: «На самом деле нет 'чистого' поворота в предпринимательстве». Все согласуется и не имеет четких границ.

«При создании продукта я также часто обращаю внимание на внешнюю ситуацию». Тогда было несколько вещей. Во-первых, когда я делал браузер, я сделал модель на стороне клиента. Позже я обнаружил, что браузер требует очень широкого спектра сценариев и имеет различные функции. В процессе я обнаружил, что базовая модель укрепляется с ускоренным темпом. Разрыв между ней и агентом может быть проблемой выравнивания. Хотя внешний мир может чувствовать, что большие языковые модели постепенно сходятся и сталкиваются с преградой.

В то же время внешний мир также менялся. Cursor взлетел в начале прошлого года, за которым последовали Windsurf и Devin. Это соответствует тому же контексту. Агенты популярны в области программирования, и путь к популярности постепенный. Cursor является сопилотом для программистов, что повышает эффективность программирования. Начиная с Windsurf, постепенно внедряются некоторые автоматизированные процессы, позволяющие вам иметь более сильные возможности автоматизации на вашем локальном компьютере. Devin достиг нового уровня автоматизации.

Тенденции VC также последовательны. Например, в прошлом году и позапрошлом году YC инвестировал в два типа компаний. Один из них - облачный браузер, такой как браузерная основа; второй тип - легкие виртуальные машины песочницы AI, аналогичные e2b.

Это показывает, что «инфраструктура модели быстро совершенствуется, и инфраструктура Инфра также быстро совершенствуется. Кроме того, учитывая, что внешние продукты постепенно приобретают большее признание, мы считаем, что это направление заслуживает всей внимания. Это очень постепенный и плавный процесс. Кроме того, накопленная инфраструктура во время разработки браузеров, таких как Chromium, может быть безболезненно перенесена, поэтому мы решаем разрабатывать браузеры в облаке.

В заключение, острое восприятие и накопление опыта требований и моделей в так называемой «оболочке» совместно создали Manus. Во многих сценариях Моники требуется после-модельное обучение. В то же время самый важный урок «меньше структуры, больше интеллекта» был усилен в практике браузеров искусственного интеллекта. Она обнаружила, что способности модели достигли уровня агента, но проблема заключается в выравнивании. За этим последовали три месяца быстрого развития Manus.

Ранее команду "Бабочкины эффекты" однажды допрашивали о ценности "оболочки". Она построила Монику, интегрируя существующие большие модели, не разрабатывая большие модели самостоятельно. Она интегрировала функции, такие как чат, поиск, чтение, запись и перевод. Также пошагово интегрировала множество сценариев выполнения задач через API. К концу прошлого года количество пользователей достигло десятков миллионов.

Теперь, когда Doubao, Quark и Yuanbao активно продвигают свои продукты Monica, а небольшая команда использует существующую технологию для создания первого общего потребительского агента, пришло время повторно понять "оболочку".

Что такое «shells» и «shells» в точности?

По мнению Сяо Хун, все прорывы происходят благодаря моделям, которые в основном ориентированы на модель и сначала на модель. Оболочка служит для отображения технических инноваций модели таким образом, чтобы пользователи могли их воспринять, и для инкапсуляции инновационных возможностей модели таким образом, чтобы пользователи могли их наилучшим образом воспринять.

Исходя из этого определения, DeepSeek App (включая отображение цепочки мыслей) является оболочкой DeepSeek-R1, Cursor является оболочкой Anthropic Sonnet 3.5, Perplexity является оболочкой GPT-4, а ChatGPT является оболочкой InstructGPT.

Поскольку возможности моделей развиваются стремительно, «та оболочка» также должна развиваться. После того как возможности каждого нового поколения моделей развиваются, это уже не обязательно оригинальный производитель. Это сторонний производитель, который представляет свою воспринимаемую пользователем ценность. Точно так же, как Курсор приносит пользовательскую ценность для Claude 3.5 Sonnet.

5 марта, во вторую годовщину выпуска Monica.im, ответ на вопрос, почему эти десятки людей достигли опыта работы с продуктом, превосходящего опыт работы с различными операторами Deep Research и OpenAI, заключается в понимании и практике оболочек.

Как сделать лучший корпус для новой модели, которая может использоваться в качестве агента?

Как строитель Manus, Чжан Тао считает: «Глядя на всю его архитектуру со стороны, мы видим, что в каждом месте много незавершенной работы, и каждое из этих мест ключевое для успеха, и они все делают поверхность продукта разной».

С точки зрения команды, самым важным преимуществом является темп инноваций. И приложения, и модели теперь достигли состояния относительной насыщенности. Единственная действительная основная способность в конечном итоге - это быстро двигаться, хотя "данные летучего колеса" и "сетевые эффекты" еще не были подтверждены.

«В совершенно новом поле все неопределенно и неизвестно. Самое важное - это скорость инноваций. Мы стремимся к исследованиям, пробам и ошибкам в различных направлениях и быстрому нахождению правильного пути». Команда Manus гибка в философии управления, организационной структуре и промышленных процессах. Когда появляются новые возможности, вы можете использовать ограниченные ресурсы для объединения всех ресурсов всей компании, принимать решения на очень высокой скорости и адаптироваться к обратной связи по ошибкам.

Слева направо находятся главный ученый “Бабочий Эффект” Пик, генеральный директор Сяо Хонг и партнер по продукту Чан Тао | Источник изображения: Интернет

Что касается ожиданий Мануса, Сяо Хун считает, что «даже если есть временное окно, стоит попробовать». За последний год его мышление также претерпело радикальные изменения. Например, теперь он считает, что «когда вы понимаете, что опережаете график, вы становитесь более агрессивным и супер-агрессивным. После просмотра сегодняшнего дня я чувствую, что Моника в 2023 году не была достаточно агрессивной». «Если вы знаете, что вы инновируете и ведете, вам следует быть агрессивным».

Я не знаю, сможет ли Manus принести Ксао Хонгу и его команде опыт и скачок от 1 до N, но эта команда, которая знает больше всего о "оболочке", верит в создание сердцем и рукой как одного целого, а также верит в бабочий эффект, вызванный творчеством. Manus происходит от девиза в MIT: Mens at manus, который подчеркивает единство сердца и руки. Это не должно быть оптическим, это должно быть сделано, и это может повлиять на реальный мир, что является истинным знанием.

В будущем, по мере того как больше депозитов, лежащих за Manus, станут открытыми, будет дополнительно высвобожден более широкий спектр бабочечных эффектов.

Отказ от ответственности:

  1. Эта статья воспроизводится из [GEEEKPARK], а авторские права принадлежат оригинальному автору [Уан Чен], если у вас есть возражения к перепечатке, пожалуйста, свяжитесь Gate Learnкоманда, команда обработает это как можно скорее в соответствии с соответствующими процедурами.

  2. Предупреждение: Взгляды и мнения, выраженные в этой статье, представляют только личные взгляды автора и не являются инвестиционными советами.

  3. Другие языковые версии статьи переведены командой Gate Learn и не упоминаются в Gate.io, переведенная статья не может быть воспроизведена, распространена или использована в качестве плагиата.

Empieza ahora
¡Registrarse y recibe un bono de
$100
!