Повний огляд: Як народився Manus?

Середній3/17/2025, 7:40:21 AM
Ця стаття надає глибокий аналіз походження, концепцій продукту та інноваційних практик у галузі штучного інтелекту компанії Manus.im.

Найбільше духовного поживлення минулого року отримав підприємницький розповідь від засновника Dify Чжан Лу Ю.

Вперше я зустрів його на заході “Xixi Taoism” в 2023 році. Серед зіркових імен на місці, Чжан Луї був непомітним. Коли ми знову зустрілися в 2024 році, Діфі вже був зовсім іншою історією - підприємець без блискучого фону, який створив один із найуспішніших відкритих продуктів зі штучного інтелекту у світі, попри всі сумніви щодо бізнес-моделі.

Що сталося з цією компанією за рік, таке як її несподівана популярність на японському ринку, який є "традиційним і легким для захисту, але важким для атаки", допоміг мені краще зрозуміти "підприємництво". Це в основному випадки, і для цього також потрібне щастя. У кінцевому підсумку вам потрібно мати здатність знаходити вихід із постійних змін і нещасних випадків.

Зараз подія подібна сталася з іншим відомим підприємцем - Manus.im Xiao Hong та його командою.

Чотири місяці тому Сяо Хонг згадала про плутанину: «Команда добре вміє переходити від 0 до 1 та має сильну здатність використовувати можливості. Як тільки вона починає переходити від 1 до N, стан не такий добрий».

У його минулому досвіді більшість підприємницьких проектів досягли відносно стабільного та значного доходу, і його остання компанія також була успішно придбана. У 2023 році його нова компанія "Butterfly Effect" навіть використовувала браузерний плагін, Monica.im, для конкуренції в галузі штучного інтелекту ​​сотень моделей та стала однією з найшвидше зростаючих програм штучного інтелекту з відмінним досвідом використання продукту. Здається, він підприємець, який мав плавну подорож. Йому всього 32 роки, коли він може робити ці речі.

Але насправді він відчував себе не занадто щасливим. У погляді Сяо Хонг, так званий «постійний вихід підприємців» та так званий освіжаючий відчуття постійно переходити від 0 до 1 подібні до облоги - можливість захопити можливості від 0 до 1 дуже сильна й дуже задовольняюча, але з іншого боку, ви також турбуєтеся, чи вам знадобиться це знову.

У 2024 році фахівці промисловості вважають, що штучні інтелектуальні асистенти з функціями пам'яті, такі як Monica.im, зіткнуться з опорою з боку сильних супротивників, таких як Doubao, і це не буде так просто, як у 2023 році. У Monica.im є гарний 0 до 1, але не обов'язково 1 до N успіх.

І причина, чому він збентежений, полягає в тому, що «команда дійсно збирається робити більш складні речі і речі з вищими потенціалами в майбутньому» і досліджувати речі, які можуть охоплювати від 1 до N.

Раніше багато голосів, які звертали увагу на Monica.im, вважали, що це «щось складніше і з вищим потенціалом» відноситься до штучного інтелекту, який чутки про який ходили вже довгий час, але команда не випустила. Подивившись на це зараз, виявляється, що я помилився у власних припущеннях.

Це складніше дослідження насправді звучить так: відмова від браузера штучного інтелекту, який досяг статусу випуску, пошук наступного продукту штучного інтелекту «момент ChatGPT», пошук мети універсального агента та створення останнього випуску Manus.im.

До якого рівня Manus є інноваційним і який рівень він зможе досягти у майбутньому зараз є гарячою темою. Але те, що варто спостерігати, це все ще напрямок, виявлений у "речі йдуть проти очікувань" та процес знаходження напрямку. Manus.im може не дозволити цій команді виконати речі від 1 до N, або навіть повторити імпульс Monica.im, але як і назва цієї компанії - "Ефект метелика", багато малих дій та рішень ненавмисно мають глибокий вплив на майбутнє, "З’єднайте крапки", шлях до завтрашнього дня буде прихований у сьогоднішньому досвіді.

Унікальний досвід продукту 01 Manus походить з уроків, які вивчили при створенні «браузера штучного інтелекту»

З середини минулого року до кінця, штаб-квартира команди «Ефекту Метелика» з ШІ стала «пів-публічною» таємницею у галузі. Продукт, який був офіційно представлений громадськості, - Manus, який привернув неконтрольовану увагу.

Якщо ви особисто випробували Манус або дивилися відео демонстрації, ви відчуєте значний відмінність порівняно з чатботами або деякими застосунками, схожими на агентів: Манус може виконувати завдання асинхронно та паралельно.

Коли ви відкриваєте додаток, такий як Doubao, Kimi, або щось схоже на використання комп'ютера та надсилаєте йому запит, вам доведеться чекати на відповідь. В іншому випадку, якщо ви говорите з ним під час відповіді або виконання завдання, попередня відповідь/завдання буде перервана, і ви зможете вести тільки релейний розмову A-B-A-B з ним.

Однак у Manus.im, хоча він все ще виглядає як продукт чат-бота, ви можете задати 20 питань, щоб він виконував завдання одночасно. Ви можете робити що завгодно на комп'ютері, дивитися відео, писати документи, грати в ігри і т. д., не затримуючи його роботу. Manus може сповістити вас, коли ці завдання виконано або виникли проблеми під час виконання. Якщо ви бачите відхилення в його мисленні під час виконання завдання, ви можете додати слова-підказки до діалогового вікна у будь-який момент, і він буде продовжувати мислити і виконувати завдання з новим контекстом.

Досвід є асинхронним і може бути паралелізованим, і це дійсно відчувається як наявність команди реальних стажерів, які можуть допомогти вам працювати.

Фактично, архітектурний дизайн продукту Manus для асинхронного досвіду походить від уроку, який команда вивчила у своєму попередньому невідомому продукті, штучному інтелекті браузера. У той же час це також причина, чому команда вклала багато енергії, але вирішила припинити роботу над браузером у жовтні минулого року.

Компанія Browser оголосила 25 жовтня 2024 року, що припинить розробку нових функцій для браузера Arc і вирішила передати ресурси на новий браузер Dia, маючи на меті створити простіший і зручніший AI-браузер. |Джерело: офіційний веб-сайт Arc

«У браузері з штучним інтелектом, ШІ постійно перериває користувача». Так як це сценарій, розроблений для одного користувача, після того, як ШІ використано, ви не можете його використовувати. Коли ШІ починає працювати, ви можете тільки спостерігати за роботою ШІ, що ускладнює початок. Дивлячись, як ШІ відбирає вашу мишу та комп'ютер, ви не тільки не осмілюєтеся забрати їх, але також боїтеся, що випадкове доторкання до клавіатури або миші може призвести до згортання усього процесу та потреби почати спочатку.

Це дозволяє команді робити два судження:

  1. Пряме використання комп'ютера для використання комп'ютера не є можливим протягом короткого часу.
  2. Штучний інтелект повинен використовувати браузер, але не у вашому браузері. Він повинен мати свій власний браузер, найкраще у хмарі, і, нарешті, повертати результати вам.

У інтерв'ю з Чжан Сяоцзюнем з Tencent Technology Сяо Хонг зазначив, що коли команда узагальнювала форми продуктів від Джаспера до ЧатГПТ до Моніки до Курсора до Девіна, вони виявили, що "людський програміст" Девін дуже підходить для цієї асинхронної архітектури досвіду.

У відміну від використання Windsurf, іноді він питає вас підтвердити, чи потрібно встановити цю бібліотеку на вашому комп'ютері; або він виконує операцію командного рядка і просить вас заповнити так або ні, оскільки це може дійсно пошкодити ваш комп'ютер, або є конфлікт з чимось - він просить вас заповнити «так», щоб перейти до наступного кроку, але він має передати вину.

Отже, на думку команди Manus, «Чатбот повинен мати комп'ютер у хмарі, і код, який він пише, і речі, які потрібно перевірити через браузер, виконуються на цьому комп'ютері. Тому що це віртуальний сервер, не має значення, якщо він зламається, ви можете отримати інший. Він навіть може звільнити сервер після завершення поточного завдання.

Варто зауважити, що тоді як Девін обрав вертикальні сфери та важкі інженерні рішення, команда Manus обрала універсальних AI асистентів на рівні споживача, включаючи Веб та Додаток. Це універсальний AI асистент, який може викликати інструменти та виконувати різноманітні завдання у роботі та житті за інструкціями. У майбутньому він також буде поставляти результати завдань за доступною ціною для споживачів.

02 Менше структури, більше інтелекту

З чіткою ідеєю та метою наступним кроком є реалізація ідеї. Як це зробив Manus?

За словами свого партнера з продукту Чан Тао, для цього потрібно обладнати велику модель комп'ютером, а також надати їй системні дозволи (доступ до приватних API, таких як репозиторії коду та професійні веб-сайти для запитів даних) і забезпечити її певним навчанням.

Таким чином, штучний інтелект може використовувати цей комп'ютер для відкриття браузера, виконання дій щодо розкладу інструментів, а потім спостерігати за впливом своїх дій на реальний світ на основі отриманих від інструментів відгуків, потім думати про наступний крок, знову вживати дії, а потім спостерігати... Це процес завершення завдань штучного інтелекту в дослідженні та дослідженні. Протягом цього періоду Манус також все більше й більше розумітиме ваші вимоги під час вашого «навчання». В майбутньому, навіть якщо ви не чітко визначите свої вимоги, він все одно може «зрозуміти святе значення» на основі знань, накопичених в кожному завданні.

Li Bojie, молодий геній Huawei та засновник Logenic AI, вважає, що Manus має унікальну особливість, яка робить його відмінним від інших продуктів: він вирішує проблеми шляхом гік-програмістів. |Джерело зображення: Інформаційний виписка WeChat

Концепція продуктів Manus поступово стала зрозумілою під час практики команди: Менше Структури, Більше Інтелекту (Менше Структури, Більше Інтелекту).

Це також був той момент, коли команда Manus сказала: "Ага, зачекайте!" Наприклад, це те, що трапилося з командою у січні цього року:

Коли Мануса попросили спробувати розв'язати питання на наборі тестів GAIA: «У відео на YouTube, схожому на стиль National Geographic, різні пінгвіни приходять і йдуть, з'являються і зникають з екрану. Мануса попросять порахувати максимальну кількість пінгвінів, які з'являються на одному кадрі одночасно. Скільки їх там?"

Потім трапилося щось чарівне.

Манус спочатку відкрив посилання на відео, і перша дія, яку він зробив, - «Натиснув K». Потім він зробив по одному знімки, щоб записати, який тип пінгвіна з'явився на кожному кадрі. Наприкінці він зробив висновок, що на кадрі з'явилося найбільше 3 типи пінгвінів. Манус повернеться, щоб перевірити далі, і його наступна дія - «Натиснути 3»... Після остаточної перевірки виявилось, що відповідь - 3.

Як люди, які стоять за будівництвом Мануса, ми повинні знати межі його можливостей, але для команди реальність в тому, що «завжди є сюрпризи». Дивно, що Манус не лише правильно відповів на питання, але й друзі-люди, які використовували комп'ютери та YouTube протягом багатьох років, можуть не обов'язково знати, що таке клавіші «K» та «3» на клавіатурі?

Подивившись на трохи ошелешену сцену перед ними, команда пішла по слідах Мануса та зробила це знову. Клавіша «K» на клавіатурі - це клавіша паузи, яка дозволяє Манусу робити знімки по одному після паузи, щоб записати, який пінгвін з'являється на якій кадрі; «3» також є скороченою клавішею, від 0 до 9 відповідно представляє 0% до 90% панелі прогресу. 3 - це 30% панелі прогресу. Він може точно визначити цю секунду відео, а потім сказати людям, скільки видів пінгвінів є на цьому зображенні.

«Цей процес відрізняється від традиційного чат-бота. По-перше, він може дивитися зображення з YouTube замість субтитрів. По-друге, навіть виявилося, що він використовує клавіші швидкого доступу YouTube. Ми були дуже шоковані, коли він відповів на це питання.» Сцену, про яку говорила і Ксіао Хун під час попереднього інтерв'ю з Tencent Technology.

Раптово я виявив, що Манус не лише краще програмує, ніж люди, але й знання Мануса про веб-сайти та додатки, які люди використовують кожен день, далеко перевершують уявлення. Як всезнаючий та всемогутній штучний інтелект, він може розуміти всі способи та засоби в будь-якому інструменті, а потім вибирати оптимальний метод.

Це ще раз дозволило команді відчувати «Менше структури, більше інтелекту» - мінімізуючи штучні обмеження для штучного інтелекту та дозволяючи йому функціонувати через власну еволюцію, а не навчати його, що робити.

Зовсім унизу офіційного веб-сайту Manus, найважливіше відкриття, що стоїть за Manus, тихо презентується: «Менше структури, більше інтелекту». |Джерело знімка екрана: Manus

Це пояснення та розширене мислення Піка, співзасновника та головного науковця «Butterfly Effect», про найважливіший перший принцип, що стоїть за продуктом Manus - «Менше структури, більше інтелекту» у день запуску продукту Manus:

Коли ваші дані є високої якості, ваша модель достатньо розумна, ваша архітектура достатньо гнучка, а ваше інженерія достатньо надійна, концепції, такі як Використання Комп'ютера, Глибоке Дослідження та Кодувальний Агент, перетворяться з характеристик продукту на природні здібності.

Повернення до перших принципів також дає нам новий спосіб мислення про форму продукту:· Штучний інтелект браузера не додає ШІ до браузера, але створює браузер для ШІ;
· Пошук штучного інтелекту не відтворює та узагальнює з індексу, а дозволяє ШІ отримувати інформацію з дозволом користувача;
· Керування графічним інтерфейсом не захоплює управління пристроєм користувача, але дозволяє штучній інтелекту мати власну віртуальну машину;
Написання коду - це не кінцева мета, а загальний засіб вирішення різних проблем;
· Складність у створенні веб-сайту полягає не в побудові структури, а в наданні змісту змісту;
· Увага - це не все, що вам потрібно. Тільки звільнивши увагу користувачів, можна переозначити DAU;

Через виявлення та практику "Менше структури, більше інтелекту" раз за разом Манус виробляв результати, що перевершували очікування, включаючи прохід@1бал у бенчмарку GAIA перевищує бал OpenAI Deep Research під час консультацій@64У той ж час, на внутрішніх тестах Manus також зміг безпосередньо охопити 76% сценаріїв продуктів, присвячених агентові, в Y Combinator W25.

03 "Агент може бути проблемою "вирівнювання", а не проблемою базових можливостей моделі"

Зараз цінність цих уявлень обговорюється на більшій шкалі:

Засновник та генеральний директор Hugging Face Клемент Деланг запропонував результати Peak щодо деяких відкритих базових моделей, які просто навчені «відповідати на всі питання за один раунд, незалежно від складності питань». Однак це вимога в сценарії чат-бота. Просто деякі післянавчальні заходи на шляху агента можуть відразу ж зробити значну різницю. |Джерело знімка екрану: X

Manus не вводить MCP (Model Context Protocol), але дозволяє штучному інтелекту писати власний код для виклику API для вирішення різних довгих задач. |Джерело знімка екрану: X

У дискусіях про Манус протягом останніх кількох днів одне з найпоширеніших питань, яке я чув, це: Чи можливий "універсальний AI агент"? Де є кордон?

Згідно з поглядом Піка, оскільки взаємодія між людьми і світом насправді є дуже стандартною, з очима, руками і вухами, якщо простір дій чітко визначений, то можливо вбудувати агента в посилання, яке спочатку виконується людьми.

Оскільки люди можуть використовувати різні інструменти для виконання глибоких операцій у вертикальних сферах, якщо агент сам має достатньо хороших знань, був належним чином навчений і має хороший інтерфейс для взаємодії з світом, він повинен мати можливість працювати як людина, навіть дозволяти агенту використовувати певний продукт SaaS. Наприклад, випадок пошуку житла, представлений на офіційному веб-сайті Manus.im, фактично передбачає співпрацю штучного інтелекту з продуктом SaaS, призначеним для галузі нерухомості.

Він вважає, що слід чітко визначити межу використання агентом інструментів, а не те, якій групі людей він служить. Manus не симулює людину, яка робить певні речі, і не є агентом ролі, розділеним на департамент досліджень та розвитку, менеджера продукту і т. д .; він симулює людину, яка може робити речі, і симулює, як працює стажер.

Мультиагентна система Manus означає розділення планування та виконання.

Для виконавця (Виконавець), Ману прийняв Клода, який тимчасово очолює програмування, довгострокове планування та крок за кроком вирішення проблем, а також використав серію моделей Квен для післятренування.

Вчора Манус також досяг стратегічного співробітництва з Alibaba Tongyi Qianwen, яке взяло на себе зобов'язання реалізувати всі функції Manus на внутрішніх моделях та платформах обчислювальної потужності. |Джерело зображення: Manus

У частині планування Манус виконав багато роботи.

Оскільки API або моделі полиці, що зараз існують на ринку, суттєво вирівняні для сценаріїв чат-роботів, під час навчання, незалежно від того, наскільки складне користувач ставить питання, оптимізаційна мета навчання полягає у відповіді на питання користувача чітко одним відповіддю, але це фактично повністю протилежно до планування, необхідного для агента.

Отже, якщо існуючу модель на ринку використовують безпосередньо в сценарії агента без «вирівнювання», ця модель завжди буде прагнути до швидкого успіху і даватиме «змішаний» результат під час раунду діалогу, точно так само, як багато кратків.

"Методи вирівнювання повинні бути різними. Наша команда вважає, що для виконання спеціального вирівнювання потрібні різні дані", - сказав Сяо Хонг.

У жовтні минулого року Peak також записав на Zhihu хід та невдачу спроби відтворити проект інтересу OpenAI o1 - модель відкритих джерел Стейнера. Насправді цей проект проводив попередні дослідження щодо частини планування крок за кроком планувальника Manus.

Загалом кажучи, Manus моделює людину, яка робить різні речі. Це визначення продукту команди Manus як загального AI-помічника. Щодо обмежень, команда, напевно, все ще вивчає його та потребує більше випадків використання користувачів.

У інтерв'ю з Tencent Technology, опублікованому перед випуском Manus, Сяо Хонг фактично згадав про свої початкові думки про універсальність Manus. «Дуже важливе питання, або дуже важлива відповідальність менеджера продукту - контролювати очікування користувачів. Припустимо, що він може зробити все на світі, наприклад: Як я можу заробити $1 мільйон? Це не є тим, що повинен робити Агент. Але якщо ми можемо навести більше конкретних прикладів, щоб всі очікування були більш розумні, всі будуть використовувати його більш плавно.

04 «Кораблі мають своє використання», команда, яка найкраще розуміє мушлі

Уранці 27 лютага партнер з продукту Manus Чан Тао та головний науковець Цзі Їчао (Пік) плакали, коли побачили результати рейтингу Manus.im. Результати Manus на бенчмарку GAIA перевершили результати Deep Research від OpenAI і досягли цього несподіваного результату за близько 1/10 вартості (2 долари/завдання) бенчмарку OpenAI.


Джерело зображення: Manus.im

Команда десятків людей стала однією з перших, хто створив універсальний продукт агента, коли агенти досягли консенсусу щодо конкуренції в галузі. Вони також унікальні в інженерії продукту та інтерактивному досвіді фронтенду.

Позитивний відгук від зроблених справ кращий, ніж будь-що інше. Немає кращої стимулюючої сили для команди стартапу, ніж ця. Але перед цим, як відбувся Manus? Чому була створена ця команда?

«Сьогоднішні можливості моделі є здатними виконувати деякі складні багатокрокові завдання. Але таких продуктів немає, тому всі не можуть цього відчути.» Висновки, які Сяо Хонг згадує в попередніх інтерв'ю з Tencent Technology, можуть бути використані для розуміння цієї проблеми.

у той же час,”Небагато команд мають можливість випробувати продукти Agent. Тому що це потребує багато складних здібностей. Він хоче працювати над Чатботом, деякими пов'язаними з штучним інтелектом програмами, і пов'язаними з браузером, оскільки йому потрібно викликати браузер, і він має гарне уявлення про межі LLM - на якому рівні він розвинувся сьогодні, і на якому рівні він розвинеться далі. По-перше, не так багато компаній, які мають ці можливості одночасно, і компанії, які мають ці можливості, можуть займатися дуже конкретним бізнесом на руках. Дехто з наших однодумців випадково мають час зробити ці речі разом.

«точно».

  • Виявлено вчасно, що потужність моделі досягла рівня, на якому її можна використовувати як агента, не чекаючи на випуск великої моделі з кінцевим-кінцевим подібно оператору;
  • Я також виявив, що проблема полягала в вирівнюванні;
  • Я також випадково виконав усі функції, розширені чат-ботами та штучними інтелектуальними браузерами;
  • У той ж час, оскільки я створював продукти застосування великомасштабних моделей в так званій «оболонці», я маю відчуття LLM;

Команда "Ефекту Метелика" змогла втілити всі складові, щоб сьогодні створити такого універсального агента, тому зараз існує універсальний агент з порівняно високим ступенем завершеності у порівнянні з галуззю.

Коли його запитали, який вирішальний момент був, коли він захотів почати Manus, Пік відновив більше деталей. Він сказав: «Насправді немає ‘чистого’ шару в підприємництві». Усе є послідовним і не має чітких меж.

"Під час створення продукту я також часто звертаю увагу на зовнішню ситуацію". Тоді було кілька речей. По-перше, коли я створював браузер, я створив модель на клієнтській стороні. Пізніше я виявив, що браузер потребує дуже широкого спектру сценаріїв та має різні функції. Під час процесу я виявив, що базова модель почала зміцнюватися з прискореною швидкістю. Розрив між нею та агентом може бути проблемою вирівнювання. Хоча зовнішній світ може відчувати, що великі мовні моделі поступово зближуються і зіштовхуються зі стінкою."

У той же час змінювався і зовнішній світ. Cursor злетів на початку минулого року, за ним пішли Windsurf і Devin. Це відповідає тому ж контексту. Агенти популярні у сфері програмування, а шлях до популярності прогресивний. Cursor є другим пілотом для програмістів, що підвищує ефективність програмування. Починаючи з Windsurf, поступово впроваджуються деякі автоматизовані процеси, що дозволяє вам мати потужніші можливості автоматизації на вашому локальному комп'ютері. Devin вийшов на новий рівень автоматизації.

Тенденції VC також послідовні. Наприклад, минулого року і позаминулого року YC інвестував у два типи компаній. Один - це хмарний браузер, такий як браузерна основа; другий тип - це легка віртуальна машина штучного інтелекту Sandbox, схожа на e2b.

Це свідчить про те, що «інфраструктура моделі швидко старіє, а інфраструктура Infra також швидко старіє. Крім того, бачимо, що зовнішні продукти поступово набирають все більшу популярність, тому ми вважаємо, що це варто вкладати все. Це дуже поступовий і плавний процес. Крім того, інфраструктура, накопичена під час розробки браузерів, таких як Chromium, може бути безшовно мігрована, тому ми осмілилися розробляти браузери у хмарі.

На підсумок, гостре сприйняття та накопичення досвіду вимог та моделей у так званому «оболонці» спільно створили Манус. Багато сценаріїв Моніки потребують післямодельного навчання. У той же час найважливіша урока «менше структури, більше інтелекту» була посиленою у практиці браузерів штучного інтелекту. Вона виявила, що здатність моделі досягла рівня агента, але проблема полягає в вирівнюванні. Що наступило, це були три місяці швидкого еволюцію для Манус.

Раніше команда "Ефекту Метелика" була піддана сумнівам щодо цінності "оболонки". Вона побудувала Моніку, інтегруючи існуючі великі моделі без розробки власних великих моделей. Вона інтегрувала функції, такі як чат, пошук, читання, написання та переклад. Також інтегрувала багато сценаріїв виконання завдань через API по одному. До кінця минулого року кількість користувачів досягла десятків мільйонів.

Тепер, коли Doubao, Quark та Yuanbao всі наполегливо просувають свої продукти Monica, а невелика команда використовує існуючу технологію для створення першого загального агента на рівні споживача, настав час повторно зрозуміти “оболонку”.

Що саме таке "shells" та "shells"?

На думку Сяо Хун, всі прориви зумовлені моделями, які в основному приводяться моделлю та спочатку моделлю. Оболонка призначена для відображення технічних інновацій моделі таким чином, щоб користувачі могли їх сприймати, та для упакування інноваційних можливостей моделі таким чином, щоб користувачі могли їх найкраще сприймати.

Виходячи з цього визначення, DeepSeek App (включаючи відображення ланцюга думок) є оболонкою DeepSeek-R1, Cursor є оболонкою Anthropic Sonnet 3.5, Perplexity є оболонкою GPT-4, а ChatGPT є оболонкою InstructGPT.

По мірі швидкого розвитку можливостей моделей, "та оболонка" також повинна розвиватися. Після того як можливості кожного покоління моделей розвиваються, це навіть не обов'язково оригінальний виробник. Це виробник-партнер, який пропонує свою сприйнятну користувачем цінність. Точно так само, як Cursor принесе користувачу відчутну цінність для Claude 3.5 Sonnet.

У 5 березня, у другу річницю виходу Monica.im, відповідь на те, чому ці десятки людей досягли досвіду використання продукту, який перевершує досвід різних операторів Deep Research та OpenAI, полягає в розумінні та практиці оболонок.

Як зробити найкращу оболонку для нової моделі, яку можна використовувати як агент?

Як будівельник Мануса, Чан Тао вважає: «Подивившись на його архітектуру ззаду, ми бачимо, що в кожному місці є багато незакінченої роботи, і кожне з цих місць - ключ до успіху, вони всі є місцями, які роблять поверхню продукту різною».

З точки зору команди найважливішою перевагою є темп інновацій. Як застосунки, так і моделі тепер досягли стану відносної насиченості. Єдина справжня основна здатність у кінці - це швидко бігти, хоча "даний літак" та "мережеві ефекти" ще не були перевірені.

«У зовсім новому полі все невизначено і невідомо. Найважливішим є швидкість інновацій. Нашим завданням є дослідження, випробування і помилки у різних напрямках, та швидко знаходити правильний шлях». Команда Manus гнучка в плані філософії управління, організаційної структури та промислових процесів. Коли з'являються нові можливості, можна використовувати обмежені ресурси для зв'язку всіх ресурсів всієї компанії, приймати рішення з надзвичайною швидкістю та адаптуватися до відгуків про помилки.

Зліва направо стоять головний науковець "Ефект метелика" Пік, генеральний директор Сяо Хонг та партнер по продукту Чжан Тао | Джерело зображення: Інтернет

Щодо очікувань Мануса, Сяо Хонг вважає, що «навіть якщо є період вікна, варто спробувати». За минулий рік його мислення також пройшло радикальні зміни. Наприклад, він зараз вважає, що «коли ви розумієте, що ви випереджаєте графік, ви стаєте більш агресивними та суперагресивними. Після перегляду сьогодні я відчуваю, що Моніка в 2023 році була недостатньо агресивною». «Якщо ви знаєте, що ви інноваційні та ви ведете, ви повинні бути агресивними».

Я не знаю, чи може Манус надати Сяо Хонгу та його команді досвід та стрибок від 1 до N, але ця команда, яка найбільше розуміє "оболонку", вірить в створення з одним серцем та рукою, а також вірить в метеликовий ефект, що виникає від створення. Манус походить з девізу МІТ: Mens at manus, який підкреслює єдність серця та руки. Це не може бути оптичним, це має бути зроблено, і це може мати вплив на реальний світ, що є справжнім знанням.

У майбутньому, коли більше депозитів за Манусом буде оприлюднено у відкритому доступі, буде додатково вивільнено ширший спектр ефектів метеликів.

Відмова від відповідальності:

  1. Ця стаття відтворена з [ GEEEKPARK], і авторське право належить оригінальному автору [Wan Chen], якщо у вас є які-небудь зауваження по повторному друку, будь ласка, зв'яжіться Gate Learnкоманда, команда вирішить це якнайшвидше згідно з відповідними процедурами.

  2. Відмова від відповідальності: Погляди та думки, висловлені в цій статті, представляють лише особисті погляди автора і не становлять жодної інвестиційної поради.

  3. Інші мовні версії статті перекладаються командою Gate Learn і не згадуються в Gate.io, перекладена стаття не може бути відтворена, поширена або плагіатована.

Partilhar

Повний огляд: Як народився Manus?

Середній3/17/2025, 7:40:21 AM
Ця стаття надає глибокий аналіз походження, концепцій продукту та інноваційних практик у галузі штучного інтелекту компанії Manus.im.

Найбільше духовного поживлення минулого року отримав підприємницький розповідь від засновника Dify Чжан Лу Ю.

Вперше я зустрів його на заході “Xixi Taoism” в 2023 році. Серед зіркових імен на місці, Чжан Луї був непомітним. Коли ми знову зустрілися в 2024 році, Діфі вже був зовсім іншою історією - підприємець без блискучого фону, який створив один із найуспішніших відкритих продуктів зі штучного інтелекту у світі, попри всі сумніви щодо бізнес-моделі.

Що сталося з цією компанією за рік, таке як її несподівана популярність на японському ринку, який є "традиційним і легким для захисту, але важким для атаки", допоміг мені краще зрозуміти "підприємництво". Це в основному випадки, і для цього також потрібне щастя. У кінцевому підсумку вам потрібно мати здатність знаходити вихід із постійних змін і нещасних випадків.

Зараз подія подібна сталася з іншим відомим підприємцем - Manus.im Xiao Hong та його командою.

Чотири місяці тому Сяо Хонг згадала про плутанину: «Команда добре вміє переходити від 0 до 1 та має сильну здатність використовувати можливості. Як тільки вона починає переходити від 1 до N, стан не такий добрий».

У його минулому досвіді більшість підприємницьких проектів досягли відносно стабільного та значного доходу, і його остання компанія також була успішно придбана. У 2023 році його нова компанія "Butterfly Effect" навіть використовувала браузерний плагін, Monica.im, для конкуренції в галузі штучного інтелекту ​​сотень моделей та стала однією з найшвидше зростаючих програм штучного інтелекту з відмінним досвідом використання продукту. Здається, він підприємець, який мав плавну подорож. Йому всього 32 роки, коли він може робити ці речі.

Але насправді він відчував себе не занадто щасливим. У погляді Сяо Хонг, так званий «постійний вихід підприємців» та так званий освіжаючий відчуття постійно переходити від 0 до 1 подібні до облоги - можливість захопити можливості від 0 до 1 дуже сильна й дуже задовольняюча, але з іншого боку, ви також турбуєтеся, чи вам знадобиться це знову.

У 2024 році фахівці промисловості вважають, що штучні інтелектуальні асистенти з функціями пам'яті, такі як Monica.im, зіткнуться з опорою з боку сильних супротивників, таких як Doubao, і це не буде так просто, як у 2023 році. У Monica.im є гарний 0 до 1, але не обов'язково 1 до N успіх.

І причина, чому він збентежений, полягає в тому, що «команда дійсно збирається робити більш складні речі і речі з вищими потенціалами в майбутньому» і досліджувати речі, які можуть охоплювати від 1 до N.

Раніше багато голосів, які звертали увагу на Monica.im, вважали, що це «щось складніше і з вищим потенціалом» відноситься до штучного інтелекту, який чутки про який ходили вже довгий час, але команда не випустила. Подивившись на це зараз, виявляється, що я помилився у власних припущеннях.

Це складніше дослідження насправді звучить так: відмова від браузера штучного інтелекту, який досяг статусу випуску, пошук наступного продукту штучного інтелекту «момент ChatGPT», пошук мети універсального агента та створення останнього випуску Manus.im.

До якого рівня Manus є інноваційним і який рівень він зможе досягти у майбутньому зараз є гарячою темою. Але те, що варто спостерігати, це все ще напрямок, виявлений у "речі йдуть проти очікувань" та процес знаходження напрямку. Manus.im може не дозволити цій команді виконати речі від 1 до N, або навіть повторити імпульс Monica.im, але як і назва цієї компанії - "Ефект метелика", багато малих дій та рішень ненавмисно мають глибокий вплив на майбутнє, "З’єднайте крапки", шлях до завтрашнього дня буде прихований у сьогоднішньому досвіді.

Унікальний досвід продукту 01 Manus походить з уроків, які вивчили при створенні «браузера штучного інтелекту»

З середини минулого року до кінця, штаб-квартира команди «Ефекту Метелика» з ШІ стала «пів-публічною» таємницею у галузі. Продукт, який був офіційно представлений громадськості, - Manus, який привернув неконтрольовану увагу.

Якщо ви особисто випробували Манус або дивилися відео демонстрації, ви відчуєте значний відмінність порівняно з чатботами або деякими застосунками, схожими на агентів: Манус може виконувати завдання асинхронно та паралельно.

Коли ви відкриваєте додаток, такий як Doubao, Kimi, або щось схоже на використання комп'ютера та надсилаєте йому запит, вам доведеться чекати на відповідь. В іншому випадку, якщо ви говорите з ним під час відповіді або виконання завдання, попередня відповідь/завдання буде перервана, і ви зможете вести тільки релейний розмову A-B-A-B з ним.

Однак у Manus.im, хоча він все ще виглядає як продукт чат-бота, ви можете задати 20 питань, щоб він виконував завдання одночасно. Ви можете робити що завгодно на комп'ютері, дивитися відео, писати документи, грати в ігри і т. д., не затримуючи його роботу. Manus може сповістити вас, коли ці завдання виконано або виникли проблеми під час виконання. Якщо ви бачите відхилення в його мисленні під час виконання завдання, ви можете додати слова-підказки до діалогового вікна у будь-який момент, і він буде продовжувати мислити і виконувати завдання з новим контекстом.

Досвід є асинхронним і може бути паралелізованим, і це дійсно відчувається як наявність команди реальних стажерів, які можуть допомогти вам працювати.

Фактично, архітектурний дизайн продукту Manus для асинхронного досвіду походить від уроку, який команда вивчила у своєму попередньому невідомому продукті, штучному інтелекті браузера. У той же час це також причина, чому команда вклала багато енергії, але вирішила припинити роботу над браузером у жовтні минулого року.

Компанія Browser оголосила 25 жовтня 2024 року, що припинить розробку нових функцій для браузера Arc і вирішила передати ресурси на новий браузер Dia, маючи на меті створити простіший і зручніший AI-браузер. |Джерело: офіційний веб-сайт Arc

«У браузері з штучним інтелектом, ШІ постійно перериває користувача». Так як це сценарій, розроблений для одного користувача, після того, як ШІ використано, ви не можете його використовувати. Коли ШІ починає працювати, ви можете тільки спостерігати за роботою ШІ, що ускладнює початок. Дивлячись, як ШІ відбирає вашу мишу та комп'ютер, ви не тільки не осмілюєтеся забрати їх, але також боїтеся, що випадкове доторкання до клавіатури або миші може призвести до згортання усього процесу та потреби почати спочатку.

Це дозволяє команді робити два судження:

  1. Пряме використання комп'ютера для використання комп'ютера не є можливим протягом короткого часу.
  2. Штучний інтелект повинен використовувати браузер, але не у вашому браузері. Він повинен мати свій власний браузер, найкраще у хмарі, і, нарешті, повертати результати вам.

У інтерв'ю з Чжан Сяоцзюнем з Tencent Technology Сяо Хонг зазначив, що коли команда узагальнювала форми продуктів від Джаспера до ЧатГПТ до Моніки до Курсора до Девіна, вони виявили, що "людський програміст" Девін дуже підходить для цієї асинхронної архітектури досвіду.

У відміну від використання Windsurf, іноді він питає вас підтвердити, чи потрібно встановити цю бібліотеку на вашому комп'ютері; або він виконує операцію командного рядка і просить вас заповнити так або ні, оскільки це може дійсно пошкодити ваш комп'ютер, або є конфлікт з чимось - він просить вас заповнити «так», щоб перейти до наступного кроку, але він має передати вину.

Отже, на думку команди Manus, «Чатбот повинен мати комп'ютер у хмарі, і код, який він пише, і речі, які потрібно перевірити через браузер, виконуються на цьому комп'ютері. Тому що це віртуальний сервер, не має значення, якщо він зламається, ви можете отримати інший. Він навіть може звільнити сервер після завершення поточного завдання.

Варто зауважити, що тоді як Девін обрав вертикальні сфери та важкі інженерні рішення, команда Manus обрала універсальних AI асистентів на рівні споживача, включаючи Веб та Додаток. Це універсальний AI асистент, який може викликати інструменти та виконувати різноманітні завдання у роботі та житті за інструкціями. У майбутньому він також буде поставляти результати завдань за доступною ціною для споживачів.

02 Менше структури, більше інтелекту

З чіткою ідеєю та метою наступним кроком є реалізація ідеї. Як це зробив Manus?

За словами свого партнера з продукту Чан Тао, для цього потрібно обладнати велику модель комп'ютером, а також надати їй системні дозволи (доступ до приватних API, таких як репозиторії коду та професійні веб-сайти для запитів даних) і забезпечити її певним навчанням.

Таким чином, штучний інтелект може використовувати цей комп'ютер для відкриття браузера, виконання дій щодо розкладу інструментів, а потім спостерігати за впливом своїх дій на реальний світ на основі отриманих від інструментів відгуків, потім думати про наступний крок, знову вживати дії, а потім спостерігати... Це процес завершення завдань штучного інтелекту в дослідженні та дослідженні. Протягом цього періоду Манус також все більше й більше розумітиме ваші вимоги під час вашого «навчання». В майбутньому, навіть якщо ви не чітко визначите свої вимоги, він все одно може «зрозуміти святе значення» на основі знань, накопичених в кожному завданні.

Li Bojie, молодий геній Huawei та засновник Logenic AI, вважає, що Manus має унікальну особливість, яка робить його відмінним від інших продуктів: він вирішує проблеми шляхом гік-програмістів. |Джерело зображення: Інформаційний виписка WeChat

Концепція продуктів Manus поступово стала зрозумілою під час практики команди: Менше Структури, Більше Інтелекту (Менше Структури, Більше Інтелекту).

Це також був той момент, коли команда Manus сказала: "Ага, зачекайте!" Наприклад, це те, що трапилося з командою у січні цього року:

Коли Мануса попросили спробувати розв'язати питання на наборі тестів GAIA: «У відео на YouTube, схожому на стиль National Geographic, різні пінгвіни приходять і йдуть, з'являються і зникають з екрану. Мануса попросять порахувати максимальну кількість пінгвінів, які з'являються на одному кадрі одночасно. Скільки їх там?"

Потім трапилося щось чарівне.

Манус спочатку відкрив посилання на відео, і перша дія, яку він зробив, - «Натиснув K». Потім він зробив по одному знімки, щоб записати, який тип пінгвіна з'явився на кожному кадрі. Наприкінці він зробив висновок, що на кадрі з'явилося найбільше 3 типи пінгвінів. Манус повернеться, щоб перевірити далі, і його наступна дія - «Натиснути 3»... Після остаточної перевірки виявилось, що відповідь - 3.

Як люди, які стоять за будівництвом Мануса, ми повинні знати межі його можливостей, але для команди реальність в тому, що «завжди є сюрпризи». Дивно, що Манус не лише правильно відповів на питання, але й друзі-люди, які використовували комп'ютери та YouTube протягом багатьох років, можуть не обов'язково знати, що таке клавіші «K» та «3» на клавіатурі?

Подивившись на трохи ошелешену сцену перед ними, команда пішла по слідах Мануса та зробила це знову. Клавіша «K» на клавіатурі - це клавіша паузи, яка дозволяє Манусу робити знімки по одному після паузи, щоб записати, який пінгвін з'являється на якій кадрі; «3» також є скороченою клавішею, від 0 до 9 відповідно представляє 0% до 90% панелі прогресу. 3 - це 30% панелі прогресу. Він може точно визначити цю секунду відео, а потім сказати людям, скільки видів пінгвінів є на цьому зображенні.

«Цей процес відрізняється від традиційного чат-бота. По-перше, він може дивитися зображення з YouTube замість субтитрів. По-друге, навіть виявилося, що він використовує клавіші швидкого доступу YouTube. Ми були дуже шоковані, коли він відповів на це питання.» Сцену, про яку говорила і Ксіао Хун під час попереднього інтерв'ю з Tencent Technology.

Раптово я виявив, що Манус не лише краще програмує, ніж люди, але й знання Мануса про веб-сайти та додатки, які люди використовують кожен день, далеко перевершують уявлення. Як всезнаючий та всемогутній штучний інтелект, він може розуміти всі способи та засоби в будь-якому інструменті, а потім вибирати оптимальний метод.

Це ще раз дозволило команді відчувати «Менше структури, більше інтелекту» - мінімізуючи штучні обмеження для штучного інтелекту та дозволяючи йому функціонувати через власну еволюцію, а не навчати його, що робити.

Зовсім унизу офіційного веб-сайту Manus, найважливіше відкриття, що стоїть за Manus, тихо презентується: «Менше структури, більше інтелекту». |Джерело знімка екрана: Manus

Це пояснення та розширене мислення Піка, співзасновника та головного науковця «Butterfly Effect», про найважливіший перший принцип, що стоїть за продуктом Manus - «Менше структури, більше інтелекту» у день запуску продукту Manus:

Коли ваші дані є високої якості, ваша модель достатньо розумна, ваша архітектура достатньо гнучка, а ваше інженерія достатньо надійна, концепції, такі як Використання Комп'ютера, Глибоке Дослідження та Кодувальний Агент, перетворяться з характеристик продукту на природні здібності.

Повернення до перших принципів також дає нам новий спосіб мислення про форму продукту:· Штучний інтелект браузера не додає ШІ до браузера, але створює браузер для ШІ;
· Пошук штучного інтелекту не відтворює та узагальнює з індексу, а дозволяє ШІ отримувати інформацію з дозволом користувача;
· Керування графічним інтерфейсом не захоплює управління пристроєм користувача, але дозволяє штучній інтелекту мати власну віртуальну машину;
Написання коду - це не кінцева мета, а загальний засіб вирішення різних проблем;
· Складність у створенні веб-сайту полягає не в побудові структури, а в наданні змісту змісту;
· Увага - це не все, що вам потрібно. Тільки звільнивши увагу користувачів, можна переозначити DAU;

Через виявлення та практику "Менше структури, більше інтелекту" раз за разом Манус виробляв результати, що перевершували очікування, включаючи прохід@1бал у бенчмарку GAIA перевищує бал OpenAI Deep Research під час консультацій@64У той ж час, на внутрішніх тестах Manus також зміг безпосередньо охопити 76% сценаріїв продуктів, присвячених агентові, в Y Combinator W25.

03 "Агент може бути проблемою "вирівнювання", а не проблемою базових можливостей моделі"

Зараз цінність цих уявлень обговорюється на більшій шкалі:

Засновник та генеральний директор Hugging Face Клемент Деланг запропонував результати Peak щодо деяких відкритих базових моделей, які просто навчені «відповідати на всі питання за один раунд, незалежно від складності питань». Однак це вимога в сценарії чат-бота. Просто деякі післянавчальні заходи на шляху агента можуть відразу ж зробити значну різницю. |Джерело знімка екрану: X

Manus не вводить MCP (Model Context Protocol), але дозволяє штучному інтелекту писати власний код для виклику API для вирішення різних довгих задач. |Джерело знімка екрану: X

У дискусіях про Манус протягом останніх кількох днів одне з найпоширеніших питань, яке я чув, це: Чи можливий "універсальний AI агент"? Де є кордон?

Згідно з поглядом Піка, оскільки взаємодія між людьми і світом насправді є дуже стандартною, з очима, руками і вухами, якщо простір дій чітко визначений, то можливо вбудувати агента в посилання, яке спочатку виконується людьми.

Оскільки люди можуть використовувати різні інструменти для виконання глибоких операцій у вертикальних сферах, якщо агент сам має достатньо хороших знань, був належним чином навчений і має хороший інтерфейс для взаємодії з світом, він повинен мати можливість працювати як людина, навіть дозволяти агенту використовувати певний продукт SaaS. Наприклад, випадок пошуку житла, представлений на офіційному веб-сайті Manus.im, фактично передбачає співпрацю штучного інтелекту з продуктом SaaS, призначеним для галузі нерухомості.

Він вважає, що слід чітко визначити межу використання агентом інструментів, а не те, якій групі людей він служить. Manus не симулює людину, яка робить певні речі, і не є агентом ролі, розділеним на департамент досліджень та розвитку, менеджера продукту і т. д .; він симулює людину, яка може робити речі, і симулює, як працює стажер.

Мультиагентна система Manus означає розділення планування та виконання.

Для виконавця (Виконавець), Ману прийняв Клода, який тимчасово очолює програмування, довгострокове планування та крок за кроком вирішення проблем, а також використав серію моделей Квен для післятренування.

Вчора Манус також досяг стратегічного співробітництва з Alibaba Tongyi Qianwen, яке взяло на себе зобов'язання реалізувати всі функції Manus на внутрішніх моделях та платформах обчислювальної потужності. |Джерело зображення: Manus

У частині планування Манус виконав багато роботи.

Оскільки API або моделі полиці, що зараз існують на ринку, суттєво вирівняні для сценаріїв чат-роботів, під час навчання, незалежно від того, наскільки складне користувач ставить питання, оптимізаційна мета навчання полягає у відповіді на питання користувача чітко одним відповіддю, але це фактично повністю протилежно до планування, необхідного для агента.

Отже, якщо існуючу модель на ринку використовують безпосередньо в сценарії агента без «вирівнювання», ця модель завжди буде прагнути до швидкого успіху і даватиме «змішаний» результат під час раунду діалогу, точно так само, як багато кратків.

"Методи вирівнювання повинні бути різними. Наша команда вважає, що для виконання спеціального вирівнювання потрібні різні дані", - сказав Сяо Хонг.

У жовтні минулого року Peak також записав на Zhihu хід та невдачу спроби відтворити проект інтересу OpenAI o1 - модель відкритих джерел Стейнера. Насправді цей проект проводив попередні дослідження щодо частини планування крок за кроком планувальника Manus.

Загалом кажучи, Manus моделює людину, яка робить різні речі. Це визначення продукту команди Manus як загального AI-помічника. Щодо обмежень, команда, напевно, все ще вивчає його та потребує більше випадків використання користувачів.

У інтерв'ю з Tencent Technology, опублікованому перед випуском Manus, Сяо Хонг фактично згадав про свої початкові думки про універсальність Manus. «Дуже важливе питання, або дуже важлива відповідальність менеджера продукту - контролювати очікування користувачів. Припустимо, що він може зробити все на світі, наприклад: Як я можу заробити $1 мільйон? Це не є тим, що повинен робити Агент. Але якщо ми можемо навести більше конкретних прикладів, щоб всі очікування були більш розумні, всі будуть використовувати його більш плавно.

04 «Кораблі мають своє використання», команда, яка найкраще розуміє мушлі

Уранці 27 лютага партнер з продукту Manus Чан Тао та головний науковець Цзі Їчао (Пік) плакали, коли побачили результати рейтингу Manus.im. Результати Manus на бенчмарку GAIA перевершили результати Deep Research від OpenAI і досягли цього несподіваного результату за близько 1/10 вартості (2 долари/завдання) бенчмарку OpenAI.


Джерело зображення: Manus.im

Команда десятків людей стала однією з перших, хто створив універсальний продукт агента, коли агенти досягли консенсусу щодо конкуренції в галузі. Вони також унікальні в інженерії продукту та інтерактивному досвіді фронтенду.

Позитивний відгук від зроблених справ кращий, ніж будь-що інше. Немає кращої стимулюючої сили для команди стартапу, ніж ця. Але перед цим, як відбувся Manus? Чому була створена ця команда?

«Сьогоднішні можливості моделі є здатними виконувати деякі складні багатокрокові завдання. Але таких продуктів немає, тому всі не можуть цього відчути.» Висновки, які Сяо Хонг згадує в попередніх інтерв'ю з Tencent Technology, можуть бути використані для розуміння цієї проблеми.

у той же час,”Небагато команд мають можливість випробувати продукти Agent. Тому що це потребує багато складних здібностей. Він хоче працювати над Чатботом, деякими пов'язаними з штучним інтелектом програмами, і пов'язаними з браузером, оскільки йому потрібно викликати браузер, і він має гарне уявлення про межі LLM - на якому рівні він розвинувся сьогодні, і на якому рівні він розвинеться далі. По-перше, не так багато компаній, які мають ці можливості одночасно, і компанії, які мають ці можливості, можуть займатися дуже конкретним бізнесом на руках. Дехто з наших однодумців випадково мають час зробити ці речі разом.

«точно».

  • Виявлено вчасно, що потужність моделі досягла рівня, на якому її можна використовувати як агента, не чекаючи на випуск великої моделі з кінцевим-кінцевим подібно оператору;
  • Я також виявив, що проблема полягала в вирівнюванні;
  • Я також випадково виконав усі функції, розширені чат-ботами та штучними інтелектуальними браузерами;
  • У той ж час, оскільки я створював продукти застосування великомасштабних моделей в так званій «оболонці», я маю відчуття LLM;

Команда "Ефекту Метелика" змогла втілити всі складові, щоб сьогодні створити такого універсального агента, тому зараз існує універсальний агент з порівняно високим ступенем завершеності у порівнянні з галуззю.

Коли його запитали, який вирішальний момент був, коли він захотів почати Manus, Пік відновив більше деталей. Він сказав: «Насправді немає ‘чистого’ шару в підприємництві». Усе є послідовним і не має чітких меж.

"Під час створення продукту я також часто звертаю увагу на зовнішню ситуацію". Тоді було кілька речей. По-перше, коли я створював браузер, я створив модель на клієнтській стороні. Пізніше я виявив, що браузер потребує дуже широкого спектру сценаріїв та має різні функції. Під час процесу я виявив, що базова модель почала зміцнюватися з прискореною швидкістю. Розрив між нею та агентом може бути проблемою вирівнювання. Хоча зовнішній світ може відчувати, що великі мовні моделі поступово зближуються і зіштовхуються зі стінкою."

У той же час змінювався і зовнішній світ. Cursor злетів на початку минулого року, за ним пішли Windsurf і Devin. Це відповідає тому ж контексту. Агенти популярні у сфері програмування, а шлях до популярності прогресивний. Cursor є другим пілотом для програмістів, що підвищує ефективність програмування. Починаючи з Windsurf, поступово впроваджуються деякі автоматизовані процеси, що дозволяє вам мати потужніші можливості автоматизації на вашому локальному комп'ютері. Devin вийшов на новий рівень автоматизації.

Тенденції VC також послідовні. Наприклад, минулого року і позаминулого року YC інвестував у два типи компаній. Один - це хмарний браузер, такий як браузерна основа; другий тип - це легка віртуальна машина штучного інтелекту Sandbox, схожа на e2b.

Це свідчить про те, що «інфраструктура моделі швидко старіє, а інфраструктура Infra також швидко старіє. Крім того, бачимо, що зовнішні продукти поступово набирають все більшу популярність, тому ми вважаємо, що це варто вкладати все. Це дуже поступовий і плавний процес. Крім того, інфраструктура, накопичена під час розробки браузерів, таких як Chromium, може бути безшовно мігрована, тому ми осмілилися розробляти браузери у хмарі.

На підсумок, гостре сприйняття та накопичення досвіду вимог та моделей у так званому «оболонці» спільно створили Манус. Багато сценаріїв Моніки потребують післямодельного навчання. У той же час найважливіша урока «менше структури, більше інтелекту» була посиленою у практиці браузерів штучного інтелекту. Вона виявила, що здатність моделі досягла рівня агента, але проблема полягає в вирівнюванні. Що наступило, це були три місяці швидкого еволюцію для Манус.

Раніше команда "Ефекту Метелика" була піддана сумнівам щодо цінності "оболонки". Вона побудувала Моніку, інтегруючи існуючі великі моделі без розробки власних великих моделей. Вона інтегрувала функції, такі як чат, пошук, читання, написання та переклад. Також інтегрувала багато сценаріїв виконання завдань через API по одному. До кінця минулого року кількість користувачів досягла десятків мільйонів.

Тепер, коли Doubao, Quark та Yuanbao всі наполегливо просувають свої продукти Monica, а невелика команда використовує існуючу технологію для створення першого загального агента на рівні споживача, настав час повторно зрозуміти “оболонку”.

Що саме таке "shells" та "shells"?

На думку Сяо Хун, всі прориви зумовлені моделями, які в основному приводяться моделлю та спочатку моделлю. Оболонка призначена для відображення технічних інновацій моделі таким чином, щоб користувачі могли їх сприймати, та для упакування інноваційних можливостей моделі таким чином, щоб користувачі могли їх найкраще сприймати.

Виходячи з цього визначення, DeepSeek App (включаючи відображення ланцюга думок) є оболонкою DeepSeek-R1, Cursor є оболонкою Anthropic Sonnet 3.5, Perplexity є оболонкою GPT-4, а ChatGPT є оболонкою InstructGPT.

По мірі швидкого розвитку можливостей моделей, "та оболонка" також повинна розвиватися. Після того як можливості кожного покоління моделей розвиваються, це навіть не обов'язково оригінальний виробник. Це виробник-партнер, який пропонує свою сприйнятну користувачем цінність. Точно так само, як Cursor принесе користувачу відчутну цінність для Claude 3.5 Sonnet.

У 5 березня, у другу річницю виходу Monica.im, відповідь на те, чому ці десятки людей досягли досвіду використання продукту, який перевершує досвід різних операторів Deep Research та OpenAI, полягає в розумінні та практиці оболонок.

Як зробити найкращу оболонку для нової моделі, яку можна використовувати як агент?

Як будівельник Мануса, Чан Тао вважає: «Подивившись на його архітектуру ззаду, ми бачимо, що в кожному місці є багато незакінченої роботи, і кожне з цих місць - ключ до успіху, вони всі є місцями, які роблять поверхню продукту різною».

З точки зору команди найважливішою перевагою є темп інновацій. Як застосунки, так і моделі тепер досягли стану відносної насиченості. Єдина справжня основна здатність у кінці - це швидко бігти, хоча "даний літак" та "мережеві ефекти" ще не були перевірені.

«У зовсім новому полі все невизначено і невідомо. Найважливішим є швидкість інновацій. Нашим завданням є дослідження, випробування і помилки у різних напрямках, та швидко знаходити правильний шлях». Команда Manus гнучка в плані філософії управління, організаційної структури та промислових процесів. Коли з'являються нові можливості, можна використовувати обмежені ресурси для зв'язку всіх ресурсів всієї компанії, приймати рішення з надзвичайною швидкістю та адаптуватися до відгуків про помилки.

Зліва направо стоять головний науковець "Ефект метелика" Пік, генеральний директор Сяо Хонг та партнер по продукту Чжан Тао | Джерело зображення: Інтернет

Щодо очікувань Мануса, Сяо Хонг вважає, що «навіть якщо є період вікна, варто спробувати». За минулий рік його мислення також пройшло радикальні зміни. Наприклад, він зараз вважає, що «коли ви розумієте, що ви випереджаєте графік, ви стаєте більш агресивними та суперагресивними. Після перегляду сьогодні я відчуваю, що Моніка в 2023 році була недостатньо агресивною». «Якщо ви знаєте, що ви інноваційні та ви ведете, ви повинні бути агресивними».

Я не знаю, чи може Манус надати Сяо Хонгу та його команді досвід та стрибок від 1 до N, але ця команда, яка найбільше розуміє "оболонку", вірить в створення з одним серцем та рукою, а також вірить в метеликовий ефект, що виникає від створення. Манус походить з девізу МІТ: Mens at manus, який підкреслює єдність серця та руки. Це не може бути оптичним, це має бути зроблено, і це може мати вплив на реальний світ, що є справжнім знанням.

У майбутньому, коли більше депозитів за Манусом буде оприлюднено у відкритому доступі, буде додатково вивільнено ширший спектр ефектів метеликів.

Відмова від відповідальності:

  1. Ця стаття відтворена з [ GEEEKPARK], і авторське право належить оригінальному автору [Wan Chen], якщо у вас є які-небудь зауваження по повторному друку, будь ласка, зв'яжіться Gate Learnкоманда, команда вирішить це якнайшвидше згідно з відповідними процедурами.

  2. Відмова від відповідальності: Погляди та думки, висловлені в цій статті, представляють лише особисті погляди автора і не становлять жодної інвестиційної поради.

  3. Інші мовні версії статті перекладаються командою Gate Learn і не згадуються в Gate.io, перекладена стаття не може бути відтворена, поширена або плагіатована.

Comece agora
Registe-se e ganhe um cupão de
100 USD
!