Tags发布时间Oct 22, 2025摘要作者ChenYu Wu, Yi Wang, Yang Liao 译者知道创宇404实验室翻译组 原文链接httpsarxiv.orghtml2510.15017v1 摘要 大型语言模型LLMs在多轮越狱攻击面前的脆弱性日益凸显在这类攻击中攻击者会通过迭代方式诱导模型产生有害行为以此绕过单轮安全过滤器现有防御手段主要依赖被动拒绝机制这种机制要么难以抵御适应性攻击者...来源安全文摘