MultiOn:VLA 模型驅動的 UI 遺留系統征服者
項目:沒有 API 的世界,由 Agent 來連接
在企業 IT 環境中,存在著數以百萬計的「遺留系統」——老舊的 ERP、CRM、內部管理軟體,它們沒有現代 API,只有圖形用戶界面(GUI)。傳統的 RPA(機器人流程自動化)工具透過錄製滑鼠點擊與鍵盤輸入來操作這些系統,但極其脆弱,任何 UI 微調都會導致流程崩潰。
MultiOn 的願景是用 AI 徹底改變這一現狀。它採用 VLA(Vision-Language-Action)模型——一種能同時理解視覺畫面、自然語言指令並輸出精確操作(點擊、輸入、滾動)的多模態模型。這讓 MultiOn 的 Agent 可以像人類員工一樣「看著屏幕操作」,無需 API、無需 XPath、甚至無需事先知道軟體的界面結構。
人物:企業自動化的隱形冠軍
MultiOn 的創始團隊來自企業自動化與計算機視覺的交叉領域。不同於許多 Agent 新創聚焦消費者市場,MultiOn 從第一天就鎖定企業客戶。其團隊深刻理解遺留系統自動化的痛點——不是技術不夠先進,而是現有方案太脆弱。這種「問題驅動」而非「技術驅動」的產品哲學,讓 MultiOn 在企業市場迅速獲得 traction。
技術:VLA + 屏幕理解 + 強化學習
技術上,MultiOn 的 VLA 模型經過大規模屏幕操作數據的預訓練。它能將屏幕截圖轉化為語義描述(如「當前顯示的是 SAP 的發票錄入界面,游標在客戶編號欄位」),並根據自然語言目標(如「創建一張新發票」)生成操作序列。更進一步,MultiOn 採用強化學習進行後訓練,讓 Agent 在真實環境中透過試錯優化操作策略,逐漸適應特定企業軟體的怪癖與非標準行為。
商業:RPA 的 AI 原生替代方案
MultiOn 的商業模式直接對標 UiPath、Automation Anywhere 等傳統 RPA 巨頭,但強調「AI 原生」與「無需腳本」。其定價基於自動化任務的數量與複雜度,對於擁有大量遺留系統的銀行、保險、製造業客戶極具吸引力。據傳其 2026 年 ARR 已突破千萬美元級別,客戶包括多家財富 500 強企業。
發展與機會
MultiOn 的下一步是「跨應用流程自動化」——讓 Agent 能夠在多個遺留系統之間協調操作(如從 ERP 提取數據,在 Excel 中處理,再回填至 CRM)。這需要更深層的語義理解與錯誤恢復能力。長遠來看,MultiOn 有機會成為「企業 AI 勞動力」的基礎設施,讓每家公司的老舊軟體都能被現代 AI 無縫操控,釋放數萬億美元的生產力。