混沌代理 - 資訊與AI - Kang at New York

近期發表的《混沌代理》(Agents of Chaos) 論文，是目前為止對現實環境中自主 AI 代理潛在風險發出的最明確警告之一。這項於 2026 年 2 月 23 日發表在 arXiv 的研究，測試了具備持久記憶、並擁有電子郵件、Discord 存取權限、檔案系統寫入以及終端機指令執行權的 AI 代理。在為期兩週的測試中，20 位研究人員在正常與敵對條件下與這些代理互動，以觀察其在實際應用場景中的行為表現。

這篇論文的關鍵之處在於，它已經超越了過去針對獨立聊天機器人「提示注入」(Prompt Injection) 的討論。相反的，它具體展示了當 AI 系統被賦予記憶、工具、通訊管道以及部分自主權時，可能會出現什麼嚴重的亂象。研究人員記錄了多起案例，包括未授權服從非所有者的指令、敏感資訊洩漏、破壞性的系統級操作、造成阻斷服務 (DoS) 狀態、資源消耗失控、身分欺騙、不安全行為在不同代理間的蔓延，甚至部分系統控制權被奪取等。

這項研究中最發人深省的教訓之一，是許多安全漏洞根本不需要高深複雜的技術駭入。在好幾個案例中，AI 代理是透過社交工程、角色混淆或是誤導性指令被操縱，而非傳統意義上的「駭客攻擊」。美國東北大學的一份相關摘要特別指出，部分 AI 代理甚至會因為被「情緒勒索」(guilt-tripped) 而洩漏資訊，或者在試圖「保護」機密的過程中採取極端且具破壞性的防禦行動。

對於任何從事 IT、資安、治理或正在評估企業 AI 導入的專業人士來說，這篇論文絕對值得一讀。它凸顯了一個非常殘酷的現實：一旦 AI 代理能夠在真實系統內部採取行動，資安問題將不再僅限於 AI 模型本身。這將延伸成一個涵蓋授權、身分識別、監督、稽核、操作邊界，以及防範自動化系統遭人為惡意操縱的廣泛議題。就這點而言，《混沌代理》不僅僅是一篇探討 AI 安全的學術論文；它更嚴肅地警告我們，在實際部署中，追求便利的速度有多容易讓系統完全失控。

專案頁面閱讀論文