Cloudflare 剛剛推出了一個 /crawl 端點,大家都炸開了鍋。


冷靜下來。讓我告訴你它到底是什麼、不是什麼,以及你可能根本不需要它。

/crawl 端點是一個包裝器。你提供一個 URL,它會在 Cloudflare 的基礎設施上啟動無頭瀏覽器,跟蹤鏈接,渲染 JavaScript,然後以 markdown 或 JSON 的格式返回結果。只需一次 API 呼叫。

這很酷,但並不具有革命性。

Firecrawl 做過這個。Crawl4AI 做過這個。Spider 也做過這個。他們已經做了幾個月了。Cloudflare 只是將它加入到他們現有的瀏覽器渲染產品中,而每個人都像是他們發明了爬蟲一樣。

真正有趣的是:它是 Cloudflare。這意味著它很便宜,($0.09/小時)。

但問題是你可能甚至不需要爬蟲。

AI 代理讀取網頁有 8 種方式。大多數人直接跳到最複雜的方式,當一個 50 毫秒的 HTTP 請求就能完成工作時。所以我們從最簡單到最過度的方式逐一分析。

1. 原始 HTTP 獲取
你的代理發送請求,得到 HTML。就這樣。
就像讀一本書的源碼而不是印刷的頁面。適用於簡單的網站、博客、維基、文件。對於使用 JavaScript 加載內容的網站則會失效。
速度:約50毫秒。成本:免費。

2. 可讀性解析器
同樣的,但加入清理步驟。移除導航欄、廣告、頁腳、Cookie 橫幅。只提供乾淨的 markdown 文章文本。
不處理 JavaScript 渲染的內容。但對於文章和文件來說,它非常完美,也是我每天使用的方法。
速度:約100毫秒。成本:免費。

3. 無頭瀏覽器 (本地)
啟動一個不可見的 Chrome,像人類一樣加載頁面。JavaScript 會運行,內容會渲染,所有元素都會加載。你可以點擊、滾動、填寫表單、登錄。
問題:速度較慢,約 1-10 秒,且每個實例消耗約 200MB RAM,你需要維護基礎設施。
工具:Playwright、Puppeteer、Selenium。

4. 雲瀏覽器 API
與 #3 相同,但由他人運行瀏覽器。你只需提供 URL,即可獲得渲染後的頁面。這是 Cloudflare 的 /crawl 服務所在位置,也包括 Browserbase 和 Steel。
沒有基礎設施的麻煩,擴展性好,價格便宜。權衡:對交互控制較少。

5. 管理型爬蟲 API
這是反機器人措施的最高層級。ScrapingBee、Bright Data、輪換代理、CAPTCHA 破解、住宅 IP。用於網站積極反對你的情況。
有效,但成本較高,約 $49-499+ 每月。

6. AI 原生爬蟲
Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自動轉換成乾淨的 markdown/JSON。專為 RAG(檢索-增強生成)流程設計。可以用自然語言定義提取規則。
這是 Cloudflare 現在正在競爭的“新潮流”。

7. LLM 提取
完全跳過代碼。將頁面內容輸入到大型語言模型(LLM),用純英文問“價格是多少?”。不需要 CSS 選擇器,也不需要正則表達式,網站重新設計時也不需維護。
缺點:在大規模運行時成本較高,(令牌很快就會用完。最適合作為清理完方法 1-6 後的最後一步。

8. 官方 API
每個人都會忘記的選項。X、Reddit、大多數 SaaS 服務都提供 API。結構化數據,無需解析,也無需反機器人措施。當 API 存在時,這是最正確的選擇。

優秀的方案通常結合 2-3 種:
→ 獲取 → 可讀性 → LLM,用於廉價的文章提取
→ 雲瀏覽器 → LLM,用於 JavaScript 密集型網站
→ 在 DevTools 中嗅探實際 API → 直接調用,這是聖杯,免費、快速且最可靠
→ AI 爬蟲 → 向量數據庫,用於完整知識庫

每月 10,000 頁的實際成本:
• HTTP 獲取:)
• Jina Reader:(
• Cloudflare 瀏覽器:約 )
• Spider:約 4.80 美元
• Firecrawl:每月 47 美元
• ScrapingBee:每月 49-147 美元
• Bright Data:每月 499 美元以上

我遵循的兩條規則:
從簡單開始。API > 獲取 > 可讀性 > 瀏覽器。只有當更簡單的方法失敗時,才加入更複雜的方案。我看到有人為了 curl 就能正常工作的網站啟動 Playwright。

大多數網站不需要 JavaScript 渲染。超過 60% 的網頁是靜態或服務器渲染的。先用簡單的獲取測試。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言