萨塞克斯大学：2025年SCPGA：自认同CoT渐进式泛化攻击报告

发布者：wx****18

2025-11-18

5 MB 50 页

网络安全

文件列表：

萨塞克斯大学：2025年SCPGA：自认同CoT渐进式泛化攻击报告.pdf

下载文档

资源简介

报告由萨塞克斯大学何润培提出，揭示了一种新型大模型越狱技术。该方法利用模型间思维链（CoT）的兼容性，通过“种子诱导—强CoT生成—恶意嵌套”流程，实现跨模型、跨主题的自动化攻击。实验显示，SCPGA对Gemini 2.5 Pro、Qwen3等主流模型越狱成功率高达94%–97%，并可引发内容安全、工具滥用、系统泄露等多类风险。文章进一步提出基于微调审核模型的轻量防御方案，为LLM安全防护提供了新思路。

加载中...

本文档仅能预览20页

继续阅读请下载文档