Skyvern:視覺語義驅動的瀏覽器自動化革命
項目:用 AI 視覺取代 XPath 的瀏覽器 Agent
Skyvern 是 2026 年 AI Agent 領域最令人興奮的開源專案之一,在 GitHub 上累積 21,000+ 星標。其核心願景極其簡潔:讓 AI Agent 像人類一樣「看」網頁,而非依賴脆弱的 XPath 或 CSS 選擇器。
傳統的瀏覽器自動化工具(如 Selenium、Puppeteer)需要開發者精確指定每個按鈕、輸入框的 DOM 路徑。一旦網站改版,自動化腳本就會集體崩潰。Skyvern 透過結合大型語言模型(LLM)與計算機視覺(CV),讓 Agent 理解網頁的「語義結構」——它知道「這是一個登入表單」、「那是一個購物車按鈕」,即使頁面 HTML 完全重構,也能正確操作。
人物:Suchin Gururangan 與 YC 背景
Skyvern 的核心團隊來自 Y Combinator,Suchin Gururangan 與 Shuchir Jain 等創始人擁有深厚的 NLP 與系統工程背景。他們曾在 Allen Institute for AI(AI2)工作,參與過大規模語言模型的訓練與評估。這種學術 + 創業的雙重基因,讓 Skyvern 在技術深度與產品化之間取得了罕見的平衡。
技術:LLM + CV + Playwright + MCP
技術架構上,Skyvern 以 Playwright 為底層瀏覽器控制引擎,但在其上疊加了視覺語義層。當 Agent 需要點擊「加入購物車」時,Skyvern 會截圖並送入視覺語言模型(VLM),模型返回操作建議(如「在坐標 (x,y) 處點擊紅色按鈕」)。這種設計讓 Skyvern 能處理傳統自動化工具無法應對的動態網頁、SPA(單頁應用)與無障礙頁面。
更重要的是,Skyvern 提供了原生的 MCP(Model Context Protocol)Server,讓 Claude、Cursor、Windsurf 等主流 AI 工具可以直接控制瀏覽器。這意味著開發者可以用自然語言指令(如「幫我在亞馬遜上找到最便宜的藍牙耳機」)驅動複雜的跨站點操作。
商業:開源免費 + 企業級雲服務
Skyvern 採用經典的開源商業模式:核心框架免費,但提供 Skyvern Cloud 企業級托管服務,包括並發執行、審計日誌、SSO 整合與 SLA 保障。其定價基於操作次數,對於需要大規模網頁自動化的電商、金融與市場研究公司極具吸引力。
發展與機會
Skyvern 的下一步是「多 Agent 協作瀏覽」——讓多個 Skyvern 實例並行探索不同網站,並共享發現。這在價格比較、供應商審查與競爭情報收集場景中具有巨大價值。長遠來看,Skyvern 有機會成為「AI 互聯網」的基礎設施——當數十億個 Agent 需要瀏覽網頁時,Skyvern 的視覺語義技術將是不可或缺的翻譯層。