Cuộc chiến trình duyệt thứ ba đang âm thầm diễn ra. Nhìn lại lịch sử, từ Netscape và Internet Explorer của Microsoft vào những năm 1990 đến Firefox mã nguồn mở và Chrome của Google, cuộc chiến trình duyệt luôn là một biểu hiện tập trung của việc kiểm soát nền tảng và sự thay đổi mô hình công nghệ. Chrome đã củng cố vị trí thống trị của mình nhờ tốc độ cập nhật nhanh chóng và hệ sinh thái tích hợp, trong khi Google, thông qua sự độc quyền về tìm kiếm và trình duyệt, đã hình thành một vòng khép kín về truy cập thông tin.
Nhưng hôm nay, cảnh quan này đang rung chuyển. Sự gia tăng của các mô hình ngôn ngữ lớn (LLMs) đang cho phép ngày càng nhiều người dùng hoàn thành các nhiệm vụ mà không cần nhấp vào trang kết quả tìm kiếm, trong khi số lần nhấp vào trang web truyền thống đang giảm. Trong khi đó, tin đồn rằng Apple dự định thay thế công cụ tìm kiếm mặc định trong Safari càng đe dọa cơ sở lợi nhuận của Alphabet (công ty mẹ của Google), và thị trường đang bắt đầu thể hiện sự bất an về “chính thống của tìm kiếm.”
Trình duyệt cũng đang phải đối mặt với việc định hình lại vai trò của nó. Nó không chỉ là một công cụ để hiển thị các trang web, mà còn là một container cho nhiều khả năng, bao gồm nhập dữ liệu, hành vi người dùng và danh tính cá nhân. Trong khi các tác nhân AI rất mạnh mẽ, chúng vẫn phụ thuộc vào ranh giới tin cậy và sandbox chức năng của trình duyệt để hoàn thành các tương tác trang phức tạp, truy cập dữ liệu danh tính cục bộ và kiểm soát các phần tử trang web. Các trình duyệt đang phát triển từ các giao diện con người thành các nền tảng gọi hệ thống cho các tác nhân.
Trong bài viết này, chúng tôi khám phá xem liệu trình duyệt có còn cần thiết hay không. Chúng tôi tin rằng điều có thể thực sự làm rối loạn thị trường trình duyệt hiện tại không phải là một “Chrome tốt hơn”, mà là một cấu trúc tương tác mới: không chỉ hiển thị thông tin, mà còn khởi tạo nhiệm vụ. Các trình duyệt tương lai phải được thiết kế cho các tác nhân AI—có khả năng không chỉ đọc, mà còn viết và thực thi. Các dự án như Browser Use đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến các giao diện trực quan thành văn bản có cấu trúc có thể gọi bởi LLM, ánh xạ các trang thành lệnh và giảm đáng kể chi phí tương tác.
Các dự án lớn đã bắt đầu thử nghiệm: Perplexity đang xây dựng một trình duyệt gốc, Comet, thay thế kết quả tìm kiếm truyền thống bằng AI; Brave kết hợp bảo vệ quyền riêng tư với lý luận địa phương, sử dụng LLM để tăng cường khả năng tìm kiếm và chặn; và các dự án gốc crypto như Donut đang nhắm đến những điểm truy cập mới để AI tương tác với tài sản trên chuỗi. Một đặc điểm chung giữa các dự án này là nỗ lực của họ nhằm định hình lại lớp đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.
Đối với các doanh nhân, cơ hội nằm trong tam giác của đầu vào, cấu trúc và quyền truy cập đại lý. Là giao diện cho thế giới dựa trên đại lý trong tương lai, trình duyệt có nghĩa là những ai có thể cung cấp “các khả năng” có cấu trúc, có thể gọi và đáng tin cậy sẽ trở thành một thành phần của nền tảng thế hệ tiếp theo. Từ SEO đến AEO (Tối ưu hóa động cơ đại lý), từ lưu lượng truy cập trang đến việc gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đang được định hình lại. Cuộc chiến trình duyệt thứ ba đang diễn ra xung quanh “đầu vào” thay vì “hiển thị.” Chiến thắng không còn được xác định bởi ai thu hút được sự chú ý của người dùng, mà bởi ai kiếm được lòng tin của đại lý và giành được quyền truy cập.
Vào đầu những năm 1990, trước khi internet trở thành một phần của cuộc sống hàng ngày, Netscape Navigator đã xuất hiện, giống như một chiếc thuyền buồm mở ra cánh cửa vào thế giới kỹ thuật số cho hàng triệu người dùng. Mặc dù không phải là trình duyệt đầu tiên, nhưng nó là trình duyệt đầu tiên thực sự tiếp cận được đại chúng và hình thành trải nghiệm internet. Lần đầu tiên, mọi người có thể duyệt web một cách dễ dàng thông qua giao diện đồ họa, như thể cả thế giới bỗng chốc trở nên dễ tiếp cận.
Tuy nhiên, vinh quang thường ngắn ngủi. Microsoft nhanh chóng nhận ra tầm quan trọng của trình duyệt và quyết định ép buộc tích hợp Internet Explorer vào hệ điều hành Windows, biến nó thành trình duyệt mặc định. Chiến lược này, một “kẻ giết nền tảng” thực sự, đã trực tiếp làm suy yếu sự thống trị của Netscape trên thị trường. Nhiều người dùng không chủ động chọn IE; thay vào đó, họ chỉ đơn giản chấp nhận nó như là mặc định. Tận dụng khả năng phân phối của Windows, IE nhanh chóng trở thành nhà lãnh đạo ngành, trong khi Netscape rơi vào suy thoái.
Giữa những khó khăn, các kỹ sư của Netscape đã chọn một con đường cực đoan và lý tưởng — họ đã mở mã nguồn của trình duyệt và kêu gọi cộng đồng mã nguồn mở. Quyết định này giống như một “sự thoái vị của Macedonia” trong thế giới công nghệ, báo hiệu sự kết thúc của một kỷ nguyên cũ và sự trỗi dậy của các lực lượng mới. Mã nguồn đó sau này đã trở thành nền tảng của dự án trình duyệt Mozilla, ban đầu được đặt tên là Phoenix (biểu tượng cho sự tái sinh), nhưng sau một số tranh chấp về nhãn hiệu, nó cuối cùng được đổi tên thành Firefox.
Firefox không chỉ là một bản sao của Netscape. Nó đã có những bước đột phá trong trải nghiệm người dùng, hệ sinh thái plugin và bảo mật. Sự ra đời của nó đánh dấu chiến thắng của tinh thần mã nguồn mở và tiêm vào toàn ngành một sức sống mới. Một số người mô tả Firefox như là “người kế vị tinh thần” của Netscape, tương tự như cách Đế chế Ottoman kế thừa ánh hào quang đang phai nhạt của Byzantine. Mặc dù có phần phóng đại, sự so sánh này vẫn có ý nghĩa.
Tuy nhiên, trước khi Firefox chính thức ra mắt, Microsoft đã phát hành sáu phiên bản của Internet Explorer. Bằng cách tận dụng thời điểm ra mắt sớm và chiến lược kết hợp hệ thống, Firefox đã bị đặt vào vị trí bắt kịp ngay từ đầu, đảm bảo rằng cuộc đua này chưa bao giờ là một cuộc cạnh tranh ngang bằng bắt đầu từ cùng một vạch.
Cùng lúc đó, một người chơi sớm khác đã âm thầm bước vào sân khấu. Năm 1994, trình duyệt Opera ra đời tại Na Uy, ban đầu chỉ là một dự án thử nghiệm. Nhưng bắt đầu từ phiên bản 7.0 vào năm 2003, nó đã giới thiệu động cơ Presto tự phát triển, tiên phong hỗ trợ CSS, bố cục thích ứng, điều khiển bằng giọng nói và mã hóa Unicode. Mặc dù cơ sở người dùng của nó hạn chế, nhưng nó luôn dẫn đầu về mặt công nghệ trong ngành, trở thành “sở thích của những người đam mê.”
Cùng năm đó, Apple đã ra mắt trình duyệt Safari — một bước ngoặt có ý nghĩa. Vào thời điểm đó, Microsoft đã đầu tư 150 triệu đô la vào một Apple đang gặp khó khăn để duy trì một hình thức cạnh tranh và tránh sự giám sát của các cơ quan chống độc quyền. Mặc dù công cụ tìm kiếm mặc định của Safari từ rất sớm đã là Google, nhưng sự ràng buộc này với Microsoft biểu trưng cho những mối quan hệ phức tạp và tinh tế giữa các ông lớn internet: hợp tác và cạnh tranh, luôn đan xen.
Vào năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản ứng của thị trường thì không mấy nồng nhiệt. Firefox, mặt khác, đã steadily tăng thị phần của mình lên khoảng 20%, nhờ vào chu kỳ cập nhật nhanh hơn, cơ chế mở rộng thân thiện với người dùng hơn, và sức hấp dẫn tự nhiên đối với các nhà phát triển. Sự thống trị của IE bắt đầu lỏng lẻo, và cơn gió đã bắt đầu thay đổi.
Tuy nhiên, Google đã có một cách tiếp cận khác. Mặc dù họ đã lên kế hoạch cho trình duyệt của riêng mình từ năm 2001, nhưng phải mất đến sáu năm để thuyết phục CEO Eric Schmidt phê duyệt dự án. Chrome ra mắt vào năm 2008, được xây dựng trên dự án mã nguồn mở Chromium và động cơ WebKit được sử dụng bởi Safari. Nó đã bị chế giễu như một trình duyệt “cồng kềnh”, nhưng với sự chuyên môn sâu sắc của Google trong lĩnh vực quảng cáo và xây dựng thương hiệu, nó đã phát triển nhanh chóng.
Vũ khí chính của Chrome không phải là các tính năng của nó, mà là chu kỳ cập nhật thường xuyên (mỗi sáu tuần) và trải nghiệm thống nhất trên nhiều nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox, đạt 27% thị phần; sau sáu tháng, nó đã vượt qua IE, hoàn thành quá trình chuyển mình từ đối thủ thành nhà lãnh đạo thống trị.
Trong khi đó, internet di động của Trung Quốc đang hình thành hệ sinh thái riêng của nó. Trình duyệt UC của Alibaba đã gia tăng sự phổ biến vào đầu những năm 2010, đặc biệt ở các thị trường mới nổi như Ấn Độ, Indonesia và Trung Quốc. Với thiết kế nhẹ và các tính năng nén dữ liệu giúp tiết kiệm băng thông, nó đã thu hút người dùng trên các thiết bị giá rẻ. Đến năm 2015, thị phần trình duyệt di động toàn cầu của nó đã vượt quá 17%, và ở Ấn Độ, nó từng đạt tới 46%. Nhưng chiến thắng này không kéo dài lâu. Khi chính phủ Ấn Độ thắt chặt các đánh giá an ninh đối với các ứng dụng Trung Quốc, UC Browser buộc phải rời khỏi các thị trường chính, dần dần mất đi vinh quang trước đây.
Đến thập niên 2020, sự thống trị của Chrome đã được thiết lập vững chắc, với thị phần toàn cầu ổn định ở khoảng 65%. Đáng chú ý, mặc dù công cụ tìm kiếm của Google và trình duyệt Chrome đều thuộc về Alphabet, từ góc độ thị trường, chúng đại diện cho hai thế lực độc lập — cái trước kiểm soát khoảng 90% lưu lượng tìm kiếm toàn cầu, và cái sau đóng vai trò là “cửa sổ đầu tiên” mà hầu hết người dùng truy cập internet.
Để duy trì cấu trúc độc quyền kép này, Google đã không tiếc tiền. Vào năm 2022, Alphabet đã trả cho Apple khoảng 20 tỷ đô la chỉ để giữ Google làm công cụ tìm kiếm mặc định trong Safari. Các nhà phân tích đã chỉ ra rằng chi phí này tương đương với khoảng 36% doanh thu quảng cáo tìm kiếm mà Google kiếm được từ lưu lượng truy cập Safari. Nói cách khác, Google thực sự đang trả một “khoản phí bảo vệ” để bảo vệ rào cản của mình.
Nhưng thủy triều lại một lần nữa thay đổi. Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLMs), tìm kiếm truyền thống bắt đầu cảm nhận được tác động. Vào năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%. Mặc dù vẫn chiếm ưu thế, nhưng những vết nứt đã bắt đầu xuất hiện. Càng gây rối hơn là những tin đồn rằng Apple có thể ra mắt công cụ tìm kiếm được hỗ trợ AI của riêng mình. Nếu tìm kiếm mặc định của Safari chuyển sang hệ sinh thái của Apple, nó không chỉ định hình lại bối cảnh cạnh tranh mà còn có thể làm rung chuyển chính nền tảng lợi nhuận của Alphabet. Thị trường đã phản ứng nhanh chóng: giá cổ phiếu của Alphabet giảm từ 170 đô la xuống 140 đô la, phản ánh không chỉ sự hoảng loạn của nhà đầu tư mà còn là sự bất an sâu sắc về hướng đi tương lai của kỷ nguyên tìm kiếm.
Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa dựa trên quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến của các trình duyệt luôn là một cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Chiến trường luôn thay đổi, nhưng bản chất thì chưa bao giờ thay đổi: ai kiểm soát Gate là người định nghĩa tương lai.
Trong mắt các nhà đầu tư mạo hiểm, một cuộc chiến trình duyệt thứ ba đang dần diễn ra, được thúc đẩy bởi những yêu cầu mới mà mọi người đặt ra với các công cụ tìm kiếm trong kỷ nguyên của LLMs và AI. Dưới đây là chi tiết tài trợ của một số dự án nổi tiếng trong lĩnh vực trình duyệt AI.
Khi nói đến kiến trúc trình duyệt, cấu trúc truyền thống cổ điển được hiển thị trong sơ đồ dưới đây:
Yêu cầu được gửi qua HTTPS đến Google Front End gần nhất, nơi thực hiện giải mã TLS, lấy mẫu QoS và định tuyến địa lý. Nếu phát hiện lưu lượng bất thường (chẳng hạn như tấn công DDoS hoặc thu thập tự động), giới hạn tốc độ hoặc thách thức có thể được áp dụng ở lớp này.
Phần giao diện người dùng cần hiểu nghĩa của các từ mà người dùng đã nhập. Điều này bao gồm ba bước:
Công nghệ truy vấn của Google được biết đến với tên gọi là chỉ mục đảo ngược. Trong một chỉ mục tiến, bạn truy xuất một tệp tin dựa trên ID của nó. Nhưng vì người dùng không thể biết được các định danh của nội dung mong muốn trong hàng trăm tỷ tệp tin, Google sử dụng chỉ mục đảo ngược truyền thống, chỉ mục theo nội dung để xác định các tệp tin nào chứa các từ khóa tương ứng.
Tiếp theo, Google áp dụng lập chỉ mục vector để xử lý tìm kiếm ngữ nghĩa - tức là, tìm nội dung tương tự về ý nghĩa với truy vấn. Nó chuyển đổi văn bản, hình ảnh và các nội dung khác thành các vector nhiều chiều (embedding), sau đó tìm kiếm dựa trên độ tương đồng giữa các vector đó. Ví dụ, nếu người dùng tìm kiếm “cách làm bột pizza”, công cụ tìm kiếm có thể trả về kết quả liên quan đến “hướng dẫn chuẩn bị bột pizza”, vì hai nội dung này có ý nghĩa tương tự.
Thông qua lập chỉ mục đảo ngược và lập chỉ mục vector, khoảng hàng trăm ngàn trang web được lọc ra trong giai đoạn sàng lọc ban đầu.
Hệ thống thường sử dụng hàng nghìn tính năng nhẹ như BM25, TF-IDF và điểm chất lượng trang để lọc hàng trăm nghìn trang ứng viên xuống khoảng 1.000, hình thành một tập hợp ứng viên ban đầu. Những hệ thống như vậy được gọi chung là các động cơ gợi ý. Chúng dựa vào hàng triệu tính năng được tạo ra từ nhiều thực thể khác nhau, bao gồm hành vi người dùng, thuộc tính trang, ý định truy vấn và tín hiệu ngữ cảnh. Ví dụ, Google kết hợp lịch sử người dùng, phản hồi từ những người dùng khác, ngữ nghĩa trang và ý nghĩa truy vấn, đồng thời cũng xem xét các yếu tố ngữ cảnh như thời gian (thời gian trong ngày, ngày trong tuần) và các sự kiện bên ngoài như tin tức nóng hổi.
Tại giai đoạn truy xuất ban đầu, Google sử dụng các công nghệ như RankBrain và Neural Matching để hiểu ngữ nghĩa của các truy vấn và lọc ra những kết quả liên quan nhất từ các bộ tài liệu khổng lồ.
RankBrain, được Google giới thiệu vào năm 2015, là một hệ thống học máy được thiết kế để hiểu rõ hơn về ý nghĩa của các truy vấn người dùng, đặc biệt là những truy vấn chưa từng thấy trước đây. Nó chuyển đổi các truy vấn và tài liệu thành các đại diện vector và tính toán độ tương đồng của chúng để tìm ra các kết quả phù hợp nhất. Chẳng hạn, đối với truy vấn “cách làm bột bánh pizza”, ngay cả khi không có tài liệu nào chứa từ khóa chính xác, RankBrain vẫn có thể xác định nội dung liên quan đến “các kiến thức cơ bản về pizza” hoặc “chuẩn bị bột.”
Neural Matching, ra mắt vào năm 2018, được thiết kế để nắm bắt sâu sắc hơn mối quan hệ ngữ nghĩa giữa các truy vấn và tài liệu. Sử dụng các mô hình mạng nơ-ron, nó xác định các mối quan hệ không rõ ràng giữa các từ để khớp tốt hơn các truy vấn với nội dung web. Ví dụ, đối với truy vấn “tại sao quạt laptop của tôi lại ồn như vậy,” Neural Matching có thể hiểu rằng người dùng có thể đang tìm kiếm thông tin khắc phục sự cố liên quan đến quá nhiệt, bụi bẩn tích tụ hoặc sử dụng CPU cao—ngay cả khi những thuật ngữ đó không xuất hiện rõ ràng trong truy vấn.
Sau khi lọc ban đầu các tài liệu liên quan, Google áp dụng BERT (Bidirectional Encoder Representations from Transformers) để tinh chỉnh thứ hạng và đảm bảo rằng các kết quả liên quan nhất xuất hiện ở vị trí hàng đầu. BERT là một mô hình ngôn ngữ đã được huấn luyện trước dựa trên Transformers có khả năng hiểu các mối quan hệ ngữ cảnh của các từ trong câu.
Trong tìm kiếm, BERT được sử dụng để xếp hạng lại các tài liệu được lấy về ở các giai đoạn trước. Nó mã hóa đồng thời các truy vấn và tài liệu, tính toán điểm độ liên quan của chúng, và sau đó sắp xếp lại các tài liệu. Ví dụ, với truy vấn “đậu xe trên đồi mà không có lề đường,” BERT có thể diễn giải đúng nghĩa của “không có lề đường” và trả về các kết quả khuyên các tài xế nên quay bánh xe về phía bên đường, thay vì hiểu sai là một tình huống có lề đường.
Đối với các kỹ sư SEO, điều này có nghĩa là họ phải nghiên cứu kỹ lưỡng các thuật toán xếp hạng và thuật toán gợi ý máy học của Google để tối ưu hóa nội dung web một cách có mục tiêu, từ đó đạt được độ hiển thị cao hơn trong bảng xếp hạng tìm kiếm.
Đầu tiên, chúng ta cần làm rõ: tại sao trình duyệt dưới dạng một hình thức vẫn cần tồn tại? Có phải có một mô hình thứ ba ngoài các tác nhân AI và trình duyệt?
Chúng tôi tin rằng sự tồn tại ngụ ý tính không thể thay thế. Tại sao trí tuệ nhân tạo có thể sử dụng trình duyệt nhưng không thể thay thế hoàn toàn chúng? Bởi vì trình duyệt là một nền tảng phổ quát. Nó không chỉ là một điểm truy cập để đọc dữ liệu mà còn là một điểm truy cập chung để nhập dữ liệu. Thế giới không thể chỉ tiêu thụ thông tin - nó cũng phải sản xuất dữ liệu và tương tác với các trang web. Do đó, các trình duyệt tích hợp thông tin người dùng cá nhân sẽ tiếp tục tồn tại rộng rãi.
Điều quan trọng là: như một Cổng kết nối toàn cầu, trình duyệt không chỉ để đọc dữ liệu; người dùng thường cần tương tác với dữ liệu. Trình duyệt tự nó là một kho lưu trữ tuyệt vời để lưu trữ dấu vân tay của người dùng. Các hành vi của người dùng phức tạp hơn và các hành động tự động phải được thực hiện thông qua trình duyệt. Trình duyệt có thể lưu trữ tất cả các dấu vân tay hành vi của người dùng, thông tin đăng nhập và các thông tin riêng tư khác, cho phép gọi lại mà không cần tin cậy trong quá trình tự động hóa. Tương tác với dữ liệu có thể phát triển thành mẫu này:
Người dùng → gọi AI Agent → Trình duyệt.
Nói cách khác, phần duy nhất có thể được thay thế nằm trong xu hướng tự nhiên của thế giới—hướng tới trí tuệ cao hơn, cá nhân hóa và tự động hóa. Chắc chắn rằng, phần này có thể được xử lý bởi các đại lý AI. Nhưng chính các đại lý AI lại không phù hợp để mang nội dung người dùng cá nhân hóa, vì họ phải đối mặt với nhiều thách thức liên quan đến bảo mật dữ liệu và khả năng sử dụng. Cụ thể:
Trình duyệt là kho lưu trữ cho nội dung cá nhân hóa:
Quay trở lại chủ đề từ đầu, hành vi của chúng ta khi sử dụng trình duyệt có thể được chia thành ba loại: đọc dữ liệu, nhập dữ liệu và tương tác với dữ liệu. Các mô hình ngôn ngữ lớn (LLMs) đã thay đổi sâu sắc hiệu quả và phương pháp mà chúng ta đọc dữ liệu. Thói quen cũ của người dùng tìm kiếm trang web qua từ khóa hiện nay có vẻ lạc hậu và không hiệu quả.
Khi nói đến sự phát triển của hành vi tìm kiếm của người dùng - cho dù mục tiêu là để có được các câu trả lời tóm tắt hay để nhấp vào các trang web - nhiều nghiên cứu đã phân tích sự chuyển biến này.
Về mặt mẫu hành vi người dùng, một nghiên cứu năm 2024 cho thấy rằng tại Hoa Kỳ, trong số mỗi 1.000 truy vấn Google, chỉ có 374 truy vấn kết thúc bằng một cú nhấp chuột vào trang web mở. Nói cách khác, gần 63% là hành vi “không nhấp chuột”. Người dùng đã quen với việc nhận thông tin như thời tiết, tỷ giá hối đoái và thẻ kiến thức trực tiếp từ trang kết quả tìm kiếm.
Điều gì có thể thực sự kích hoạt một sự chuyển mình mạnh mẽ của các trình duyệt, tuy nhiên, là lớp tương tác dữ liệu. Trong quá khứ, mọi người tương tác với các trình duyệt chủ yếu bằng cách nhập từ khóa—mức độ hiểu biết tối đa mà chính trình duyệt có thể xử lý. Giờ đây, người dùng ngày càng ưa chuộng việc sử dụng ngôn ngữ tự nhiên đầy đủ để mô tả các tác vụ phức tạp, chẳng hạn như:
Ngay cả đối với con người, những nhiệm vụ như vậy đòi hỏi rất nhiều thời gian để truy cập nhiều trang web, thu thập thông tin và so sánh kết quả. Nhưng những Nhiệm vụ Tác động này đang dần được các đại lý AI đảm nhận.
Điều này cũng phù hợp với quỹ đạo của lịch sử: tự động hóa và trí tuệ. Mọi người mong muốn giải phóng đôi tay của mình, và các tác nhân AI sẽ không thể tránh khỏi việc được tích hợp sâu vào các trình duyệt. Các trình duyệt trong tương lai phải được thiết kế với đầy đủ tự động hóa trong tâm trí, đặc biệt là xem xét:
Chỉ khi đáp ứng cả hai yêu cầu thiết kế này, trình duyệt mới có thể trở thành những kênh ổn định cho các tác nhân AI thực hiện nhiệm vụ.
Tiếp theo, chúng ta sẽ tập trung vào năm dự án nổi bật—Browser Use, Arc (The Browser Company), Perplexity, Brave và Donut. Những dự án này đại diện cho những hướng phát triển trong tương lai cho sự tiến hóa của trình duyệt AI, cũng như tiềm năng của chúng trong việc tích hợp nguyên bản trong các ngữ cảnh Web3 và tiền điện tử.
Từ góc độ tâm lý người dùng, một cuộc khảo sát năm 2023 cho thấy 44% người tham gia cho rằng kết quả tự nhiên thường xuyên đáng tin cậy hơn các đoạn trích nổi bật. Nghiên cứu học thuật cũng đã phát hiện rằng trong các trường hợp gây tranh cãi hoặc thiếu một sự thật có thẩm quyền duy nhất, người dùng thích các trang kết quả chứa liên kết từ nhiều nguồn khác nhau.
Nói cách khác, trong khi một phần người dùng không hoàn toàn tin tưởng vào các bản tóm tắt do AI tạo ra, một tỷ lệ đáng kể hành vi đã chuyển sang “không nhấp”. Do đó, các trình duyệt AI vẫn cần khám phá đúng mô hình tương tác—đặc biệt là trong lĩnh vực đọc dữ liệu. Bởi vì vấn đề ảo giác trong các mô hình lớn vẫn chưa được giải quyết hoàn toàn, nhiều người dùng vẫn gặp khó khăn trong việc hoàn toàn tin tưởng vào các bản tóm tắt nội dung tự động. Trong khía cạnh này, việc nhúng các mô hình lớn vào trình duyệt không nhất thiết yêu cầu một sự chuyển biến mang tính phá cách. Thay vào đó, nó chỉ yêu cầu những cải tiến dần dần về độ chính xác và khả năng kiểm soát—một quá trình đã và đang diễn ra.
Đây chính xác là logic cốt lõi đứng sau khoản tài trợ khổng lồ mà Perplexity và Browser Use nhận được. Đặc biệt, Browser Use đã nổi lên như là cơ hội đổi mới đầy hứa hẹn thứ hai vào đầu năm 2025, với cả sự chắc chắn và tiềm năng tăng trưởng mạnh mẽ.
Browser Use đã xây dựng một lớp ngữ nghĩa thực sự, với trọng tâm chính là tạo ra một kiến trúc nhận dạng ngữ nghĩa cho thế hệ trình duyệt tiếp theo.
Browser Use đã tái định nghĩa “DOM = một cây nút cho con người nhìn” thành “Semantic DOM = một cây hướng dẫn cho LLMs đọc.” Điều này cho phép các tác nhân nhấp chuột, điền thông tin và tải lên một cách chính xác mà không phải phụ thuộc vào “tọa độ pixel.” Thay vì sử dụng OCR hình ảnh hoặc Selenium dựa trên tọa độ, phương pháp này đi theo hướng “văn bản có cấu trúc → gọi hàm,” làm cho việc thực thi nhanh hơn, tiết kiệm token và giảm thiểu lỗi. TechCrunch đã mô tả nó là “lớp keo cho phép AI thực sự hiểu các trang web.” Vào tháng Ba, Browser Use đã hoàn thành vòng hạt giống trị giá 17 triệu đô la, đặt cược vào đổi mới cơ bản này.
Đây là cách thức hoạt động:
Sau khi HTML được hiển thị, nó tạo thành một cây DOM tiêu chuẩn. Trình duyệt sau đó tạo ra một cây truy cập, cung cấp các nhãn “vai trò” và “trạng thái” phong phú hơn cho các trình đọc màn hình.
Blog chính thức mô tả quy trình này là “biến đổi giao diện website thành văn bản có cấu trúc mà LLM có thể phân tích.”
Hơn nữa, nếu tiêu chuẩn này được W3C chấp nhận, nó có thể giải quyết rất nhiều vấn đề về đầu vào của trình duyệt. Tiếp theo, chúng ta sẽ xem xét bức thư ngỏ và các nghiên cứu trường hợp từ The Browser Company để giải thích thêm lý do tại sao cách tiếp cận của họ là sai lầm.
Công ty Browser (công ty mẹ của Arc) đã tuyên bố trong thư ngỏ rằng trình duyệt Arc sẽ vào chế độ bảo trì thường xuyên, trong khi đội ngũ sẽ chuyển trọng tâm sang phát triển DIA, một trình duyệt hoàn toàn định hướng về AI. Trong thư, họ cũng thừa nhận rằng con đường thực hiện cụ thể cho DIA vẫn chưa được xác định. Đồng thời, đội ngũ đã phác thảo một số dự đoán về tương lai của thị trường trình duyệt.
Dựa trên những dự đoán này, chúng tôi tin rằng nếu cảnh quan trình duyệt hiện tại thực sự bị xáo trộn, thì chìa khóa nằm ở việc thay đổi phía đầu ra của tương tác.
Dưới đây là ba dự đoán về thị trường trình duyệt trong tương lai mà đội ngũ Arc đã chia sẻ.
https://browsercompany.substack.com/p/letter-to-arc-members-2025
Đầu tiên, nhóm Arc tin rằng các trang web sẽ không còn là giao diện chính cho tương tác. Thú thật, đây là một tuyên bố táo bạo và đầy thử thách, và cũng là lý do chính khiến chúng tôi vẫn hoài nghi về những suy nghĩ của người sáng lập họ. Theo quan điểm của chúng tôi, góc nhìn này đánh giá thấp vai trò của trình duyệt, và nó làm nổi bật vấn đề chính mà nhóm đã bỏ qua khi khám phá con đường trình duyệt AI.
Các mô hình lớn hoạt động xuất sắc trong việc nắm bắt ý định—ví dụ, hiểu các hướng dẫn như “giúp tôi đặt vé máy bay.” Tuy nhiên, chúng vẫn không đủ khi nói đến mật độ thông tin. Khi một người dùng cần thứ gì đó như bảng điều khiển, một cuốn sổ kiểu Bloomberg Terminal, hoặc một canvas trực quan như Figma, không gì có thể vượt qua một trang web được tinh chỉnh tốt với độ chính xác pixel. Công thái học của mỗi sản phẩm—biểu đồ, chức năng kéo và thả, phím tắt—không phải là trang trí bề ngoài, mà là những khả năng thiết yếu giúp nén nhận thức. Những khả năng này không thể được tái tạo bởi các tương tác hội thoại đơn giản. Lấy Gate.com làm ví dụ: nếu một người dùng muốn thực hiện một hành động đầu tư, chỉ dựa vào hội thoại AI là chưa đủ, vì người dùng phụ thuộc nhiều vào đầu vào có cấu trúc, độ chính xác và sự trình bày thông tin rõ ràng.
Lộ trình của đội ngũ Arc chứa một sai lầm cơ bản: nó không phân biệt rõ ràng rằng “tương tác” bao gồm hai chiều - đầu vào và đầu ra. Ở phía đầu vào, quan điểm của họ có một số giá trị trong một số tình huống, vì AI thực sự có thể cải thiện hiệu suất của các tương tác theo kiểu lệnh. Nhưng ở phía đầu ra, giả định của họ rõ ràng là không cân bằng, bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa. Ví dụ, Reddit có bố cục và kiến trúc thông tin độc đáo riêng của nó, trong khi AAVE có giao diện và cấu trúc hoàn toàn khác. Là một nền tảng đồng thời lưu trữ dữ liệu rất riêng tư và cung cấp các giao diện sản phẩm đa dạng, trình duyệt có khả năng thay thế hạn chế ở phía đầu vào, trong khi độ phức tạp và tính không chuẩn hóa của nó ở phía đầu ra càng làm cho việc phá vỡ trở nên khó khăn hơn.
Ngược lại, các trình duyệt AI hiện tại chủ yếu tập trung vào lớp “tóm tắt đầu ra”: tóm tắt các trang, trích xuất thông tin, tạo ra các kết luận. Điều này không đủ để đặt ra một thách thức cơ bản đối với các trình duyệt chính thống hoặc hệ thống tìm kiếm như Google - nó chỉ làm giảm phần thị trường cho các tóm tắt tìm kiếm.
Do đó, công nghệ duy nhất có thể thực sự làm lung lay thị phần 66% của Chrome không phải là “Chrome tiếp theo.” Để đạt được sự đột phá thực sự, mô hình kết xuất của các trình duyệt phải được cấu trúc lại một cách cơ bản để thích ứng với nhu cầu tương tác của kỷ nguyên AI Agent, đặc biệt là về thiết kế kiến trúc phía đầu vào. Đó là lý do tại sao chúng tôi thấy con đường kỹ thuật mà Browser Use đã chọn thuyết phục hơn nhiều - nó tập trung vào những thay đổi cấu trúc ở cơ chế nền tảng của các trình duyệt. Khi bất kỳ hệ thống nào đạt được thiết kế “nguyên tử” hoặc “modular”, khả năng lập trình và khả năng kết hợp phát sinh từ đó mở ra tiềm năng đột phá. Đây chính xác là hướng đi mà Browser Use đang theo đuổi ngày hôm nay.
Tóm lại, việc vận hành của các tác nhân AI vẫn phụ thuộc nhiều vào sự tồn tại của trình duyệt. Trình duyệt không chỉ là nơi lưu trữ chính cho dữ liệu cá nhân hóa phức tạp, mà còn là các giao diện hiển thị phổ quát cho các ứng dụng đa dạng, do đó sẽ tiếp tục đóng vai trò là Cổng kết nối cốt lõi cho sự tương tác trong tương lai. Khi các tác nhân AI trở nên ăn sâu vào trình duyệt để hoàn thành các nhiệm vụ cố định, chúng sẽ tương tác với dữ liệu người dùng và các ứng dụng cụ thể chủ yếu thông qua phía đầu vào. Vì lý do này, mô hình hiển thị hiện tại của trình duyệt cần phải được đổi mới để đạt được sự tương thích và khả năng thích ứng tối đa với các tác nhân AI—cuối cùng cho phép chúng nắm bắt các ứng dụng hiệu quả hơn.
Perplexity là một công cụ tìm kiếm AI nổi tiếng với hệ thống gợi ý của nó. Định giá mới nhất của nó đã tăng vọt lên 14 tỷ đô la, gần gấp năm lần so với 3 tỷ đô la vào tháng 6 năm 2024. Hiện tại nó xử lý hơn 400 triệu truy vấn tìm kiếm mỗi tháng. Chỉ riêng trong tháng 9 năm 2024, nó đã xử lý khoảng 250 triệu truy vấn, đánh dấu mức tăng trưởng gấp tám lần về lưu lượng tìm kiếm của người dùng so với năm trước, với hơn 30 triệu người dùng hoạt động hàng tháng.
Tính năng chính của nó là khả năng tóm tắt các trang web theo thời gian thực, mang lại lợi thế mạnh mẽ trong việc truy cập thông tin cập nhật. Đầu năm nay, Perplexity đã bắt đầu xây dựng trình duyệt gốc của riêng mình, Comet. Công ty mô tả Comet là một trình duyệt không chỉ “hiển thị” các trang web mà còn “nghĩ” về chúng. Chính thức, họ tuyên bố rằng nó sẽ nhúng công cụ trả lời của Perplexity sâu bên trong chính trình duyệt, theo cách tiếp cận “toàn bộ máy”, gợi nhớ đến triết lý của Steve Jobs: tích hợp sâu các nhiệm vụ AI ở cấp độ trình duyệt cơ bản, thay vì chỉ xây dựng các plugin ở thanh bên.
Với những câu trả lời ngắn gọn được hỗ trợ bởi tài liệu tham khảo, Comet nhằm mục đích thay thế các “mười liên kết xanh” truyền thống và cạnh tranh trực tiếp với Chrome.
Nhưng Perplexity vẫn cần giải quyết hai vấn đề cốt lõi: chi phí tìm kiếm cao và biên lợi nhuận thấp từ người dùng biên. Mặc dù Perplexity hiện đang dẫn đầu trong lĩnh vực tìm kiếm AI, Google đã công bố tại hội nghị I/O 2025 một cuộc đại tu thông minh quy mô lớn đối với các sản phẩm cốt lõi của mình. Đối với trình duyệt, Google đã ra mắt một trải nghiệm tab trình duyệt mới gọi là AI Model, tích hợp Overview, Deep Research và các khả năng Agentic trong tương lai. Toàn bộ sáng kiến được gọi là “Project Mariner.”
Google đang tích cực thúc đẩy quá trình chuyển đổi AI của mình, điều này có nghĩa là việc bắt chước các tính năng bề ngoài - chẳng hạn như Overview, Deep Research hoặc Agentics - sẽ khó mà tạo ra một mối đe dọa thực sự. Điều có thể thực sự thiết lập một trật tự mới giữa sự hỗn loạn là xây dựng lại kiến trúc trình duyệt từ đầu, nhúng sâu các mô hình ngôn ngữ lớn (LLMs) vào lõi trình duyệt, và thay đổi cơ bản các phương thức tương tác.
Brave là một trong những trình duyệt sớm nhất và thành công nhất trong ngành công nghiệp tiền điện tử. Được xây dựng trên kiến trúc Chromium, nó tương thích với các tiện ích từ Google Store. Brave thu hút người dùng với mô hình dựa trên quyền riêng tư và kiếm token thông qua việc duyệt web. Đường phát triển của nó cho thấy một tiềm năng tăng trưởng nhất định. Tuy nhiên, từ góc độ sản phẩm, trong khi quyền riêng tư thực sự quan trọng, nhu cầu vẫn tập trung trong các nhóm người dùng cụ thể. Đối với công chúng rộng rãi, nhận thức về quyền riêng tư vẫn chưa trở thành yếu tố quyết định chính. Do đó, việc cố gắng dựa vào tính năng này một mình để phá vỡ các ông lớn hiện có có khả năng sẽ không thành công.
Tính đến nay, Brave đã đạt 82,7 triệu người dùng hoạt động hàng tháng (MAU) và 35,6 triệu người dùng hoạt động hàng ngày (DAU), chiếm khoảng 1%–1,5% thị phần. Cơ sở người dùng của nó đã cho thấy sự tăng trưởng ổn định: từ 6 triệu vào tháng 7 năm 2019, lên 25 triệu vào tháng 1 năm 2021, lên 57 triệu vào tháng 1 năm 2023, và đến tháng 2 năm 2025, nó đã vượt qua 82 triệu. Tỷ lệ tăng trưởng hàng năm kép của nó vẫn ở mức hai chữ số.
Brave xử lý khoảng 1,34 tỷ truy vấn tìm kiếm mỗi tháng, chiếm khoảng 0,3% khối lượng của Google.
Brave đang có kế hoạch nâng cấp thành một trình duyệt AI ưu tiên quyền riêng tư. Tuy nhiên, việc hạn chế truy cập vào dữ liệu người dùng làm giảm mức độ tùy chỉnh có thể cho các mô hình lớn, điều này lại cản trở sự lặp lại sản phẩm nhanh chóng và chính xác. Trong kỷ nguyên Trình duyệt Agentic sắp tới, Brave có thể duy trì một thị phần ổn định trong các nhóm người dùng tập trung vào quyền riêng tư cụ thể, nhưng sẽ khó để trở thành một người chơi chiếm ưu thế. Trợ lý AI của nó, Leo, hoạt động giống như một cải tiến plugin—cung cấp một số khả năng tóm tắt nội dung, nhưng thiếu một chiến lược rõ ràng cho sự chuyển đổi hoàn toàn sang các đại lý AI. Sự đổi mới trong tương tác vẫn chưa đủ.
Gần đây, ngành công nghiệp tiền điện tử cũng đã có những bước tiến trong lĩnh vực Trình duyệt Agentic. Dự án giai đoạn đầu Donut đã huy động được 7 triệu đô la trong vòng gọi vốn trước hạt giống, do Hongshan (Sequoia Trung Quốc), HackVC và Bitkraft Ventures dẫn đầu. Dự án vẫn đang ở giai đoạn khái niệm ban đầu, với tầm nhìn đạt được “Khám phá - Quyết định - và Thực thi gốc Crypto” như một khả năng tích hợp.
Hướng đi cốt lõi là kết hợp các con đường thực thi tự động dựa trên tiền điện tử. Như a16z đã dự đoán, các agent có thể thay thế các công cụ tìm kiếm như là Cổng lưu lượng chính trong tương lai. Các doanh nhân sẽ không còn cạnh tranh dựa trên các thuật toán xếp hạng của Google, mà thay vào đó sẽ tranh giành lưu lượng và chuyển đổi đến từ việc thực thi của agent. Ngành công nghiệp đã đặt tên cho xu hướng này là “AEO” (Tối ưu hóa Đáp án / Động cơ Agent), hoặc thậm chí xa hơn, “ATF” (Hoàn thành Nhiệm vụ Agent)—nơi mà mục tiêu không còn là tối ưu hóa xếp hạng tìm kiếm, mà là phục vụ trực tiếp các mô hình thông minh có thể hoàn thành nhiệm vụ cho người dùng, chẳng hạn như đặt hàng, đặt vé, hoặc viết thư.
Trước hết, cần phải thừa nhận rằng: trình duyệt tự nó vẫn là “Gateway” lớn nhất chưa được cải cách trong thế giới internet. Với khoảng 2,1 tỷ người dùng máy tính để bàn và hơn 4,3 tỷ người dùng di động trên toàn cầu, nó phục vụ như một kênh chung cho việc nhập dữ liệu, hành vi tương tác và lưu trữ dấu vân tay cá nhân hóa. Lý do cho sự tồn tại của nó không phải là do quán tính, mà là bản chất kép vốn có của trình duyệt: nó vừa là điểm vào để đọc dữ liệu vừa là điểm ra cho các hành động ghi.
Do đó, đối với các doanh nhân, tiềm năng phá vỡ thực sự không nằm ở việc tối ưu hóa lớp “đầu ra trang”. Ngay cả khi một người có thể sao chép các chức năng tổng quan AI giống như Google trong một tab mới, thì đó vẫn chỉ là một phiên bản ở lớp plugin, không phải là một sự thay đổi mô hình cơ bản. Đột phá thực sự nằm ở “bên đầu vào” - cách để các tác nhân AI chủ động gọi sản phẩm của bạn để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ xác định xem một sản phẩm có thể nhúng vào hệ sinh thái tác nhân, thu hút lưu lượng truy cập và chia sẻ trong phân phối giá trị hay không.
Trong kỷ nguyên tìm kiếm, sự cạnh tranh là về số lần nhấp chuột; trong kỷ nguyên đại lý, nó là về các cuộc gọi.
Nếu bạn là một doanh nhân, bạn nên tái tưởng tượng sản phẩm của mình như một thành phần API—một thứ mà một tác nhân thông minh không chỉ có thể hiểu mà còn có thể gọi ra. Điều này yêu cầu bạn phải xem xét ba chiều ngay từ đầu trong thiết kế sản phẩm:
Khả năng của một tác nhân để kích hoạt một sản phẩm phụ thuộc vào việc cấu trúc thông tin của nó có thể được tiêu chuẩn hóa và trừu tượng hóa thành một sơ đồ rõ ràng hay không. Ví dụ, các hành động chính như đăng ký người dùng, đặt hàng, hoặc gửi bình luận có thể được mô tả thông qua một cấu trúc DOM ngữ nghĩa hoặc ánh xạ JSON không? Hệ thống có cung cấp một máy trạng thái để tác nhân có thể đáng tin cậy tái tạo quy trình làm việc của người dùng không? Các tương tác của người dùng trên trang có thể được lập trình không? Sản phẩm có cung cấp webhooks hoặc điểm cuối API ổn định không?
Đây chính là lý do tại sao Browser Use đã thành công trong việc huy động vốn—nó đã biến trình duyệt từ một trình hiển thị HTML phẳng thành một cây ngữ nghĩa có thể được gọi bởi các LLM. Đối với các doanh nhân, việc áp dụng triết lý thiết kế tương tự trong các sản phẩm web có nghĩa là chuẩn bị cho sự thích ứng có cấu trúc trong kỷ nguyên đại lý AI.
Để các đại lý hoàn thành giao dịch hoặc gọi các chức năng thanh toán và tài sản, họ cần một trung gian đáng tin cậy—bạn có thể trở thành trung gian đó không? Trình duyệt tự nhiên có khả năng đọc bộ nhớ cục bộ, truy cập ví, xử lý CAPTCHAs và tích hợp xác thực hai yếu tố. Điều này khiến chúng phù hợp hơn so với các mô hình lưu trữ đám mây để thực hiện các nhiệm vụ. Điều này đặc biệt đúng trong Web3, nơi các giao diện tương tác tài sản chưa được chuẩn hóa. Nếu không có “danh tính” hoặc “khả năng ký” thì một đại lý không thể tiến về phía trước.
Đối với các doanh nhân tiền điện tử, điều này mở ra một không gian trắng đầy tưởng tượng: “MCP (Nền tảng Đa khả năng) của thế giới blockchain.” Điều này có thể dưới dạng một lớp lệnh toàn cầu (cho phép các đại lý gọi Dapps), một bộ giao diện hợp đồng tiêu chuẩn, hoặc thậm chí là một ví cục bộ nhẹ + trung tâm danh tính.
Trong quá khứ, bạn phải chiến thắng thuật toán của Google; bây giờ bạn cần phải được nhúng trong chuỗi tác vụ của các tác nhân AI. Điều này có nghĩa là sản phẩm của bạn phải có độ phân granularity tác vụ rõ ràng: không phải là một “trang”, mà là một chuỗi các đơn vị khả năng có thể gọi. Điều này cũng có nghĩa là bắt đầu tối ưu hóa cho Tối ưu hóa Động cơ Tác nhân (AEO) hoặc thích ứng với Đáp ứng Tác vụ Tác nhân (ATF). Ví dụ, liệu quy trình đăng ký có thể được đơn giản hóa thành các bước có cấu trúc không? Liệu giá có thể được lấy qua một API không? Kho hàng có thể truy cập theo thời gian thực không?
Bạn thậm chí có thể cần phải thích ứng với các cú pháp gọi khác nhau giữa các khung LLM—vì OpenAI và Claude, chẳng hạn, có những sở thích khác nhau cho việc gọi hàm và sử dụng công cụ. Chrome là đầu cuối của thế giới cũ, không phải là Cổng vào của thế giới mới. Các dự án trong tương lai sẽ không xây dựng lại trình duyệt, mà thay vào đó sẽ làm cho trình duyệt phục vụ các tác nhân—xây dựng cầu nối cho thế hệ mới của “dòng hướng dẫn.”
Điều bạn cần xây dựng là “ngôn ngữ giao diện” qua đó các đại lý gọi thế giới của bạn.
Điều bạn cần để kiếm được là một vị trí trong chuỗi niềm tin của các hệ thống thông minh.
Những gì bạn cần xây dựng là một “lâu đài API” trong mô hình tìm kiếm tiếp theo.
Nếu Web2 thu hút sự chú ý của người dùng thông qua UI, thì thời đại Web3 + AI Agent sẽ nắm bắt ý định thực thi của đại lý thông qua các chuỗi cuộc gọi.
Nội dung này không cấu thành một đề nghị, yêu cầu, hoặc khuyến nghị. Bạn luôn nên tìm kiếm lời khuyên độc lập từ các chuyên gia trước khi đưa ra bất kỳ quyết định đầu tư nào. Xin lưu ý rằng Gate và/hoặc Gate Ventures có thể hạn chế hoặc cấm một phần hoặc tất cả các dịch vụ ở những khu vực bị hạn chế. Vui lòng đọc thỏa thuận người dùng áp dụng để biết thêm chi tiết.
Gate Ventures là chi nhánh đầu tư mạo hiểm của Gate, tập trung vào các khoản đầu tư vào cơ sở hạ tầng phi tập trung, hệ sinh thái và ứng dụng - những công nghệ sẽ định hình lại thế giới trong kỷ nguyên Web 3.0. Gate Ventures hợp tác với các nhà lãnh đạo ngành công nghiệp toàn cầu để trao quyền cho các đội nhóm và startup với tư duy sáng tạo và khả năng định nghĩa lại cách mà xã hội và tài chính tương tác.
Website: https://www.gate.com/ventures
Mời người khác bỏ phiếu
Nội dung