OpenAI Codex Security 深度试用分析报告
OpenAI Codex Security 深度试用分析报告
作者:让天下没有难做的安全 | 发布时间:2026年3月9日 14:27
原文链接:微信公众号
目 录
一|产品背景
二|核心工作原理深度解析
2.1-威胁建模机制
2.2-扫描结果
2.3-沙盒验证技术细节
2.4-自动提交修复 PR
三|真实漏洞发现能力
四|与竞品对比
五|点评

Codex Security 是 OpenAI 上周五推出的基于 AI 的代码安全审计平台,目前处于Research Preview阶段。作为 Codex 产品套件的安全模块,解决软件开发 AI 化代码产出速度呈爆发式增长时期,安全审查三大核心痛点:
误报率居高不下(通常 50-70%),安全和业务团队大量时间浪费在误报上
缺乏上下文理解,只是简单标记低危和规则匹配的结果
修复建议脱离实际,生成的补丁往往无法直接合入
安多多首发该工具的深度试用报告,结论先行:
1工具对标的是 AWS Security Agent 而不是 Claude Code Security,是 SAST 环节的有效补充,融入 SDLC 流程效果极具想象力。
2独特之处在于先为每个仓库生成的Threat Model(威胁建模分析),理解项目的技术架构、信任边界和攻击面,然后在此基础上进行有针对性的漏洞挖掘。安全人员可以编辑和完善这个威胁模型,引导 AI 关注最相关的风险领域然后 PoC 验证。
3产品的核心价值在于:将安全检查自动化为一个基于 commit (卡增量)级别的持续监控流程,并提供从"发现问题"到"生成补丁"再到"创建 PR"的完整闭环处理能力。
· · ·
一、产品背景
Codex Security 并非凭空出现,它的前身是 OpenAI 于 2025 年 10 月 30 日发布的 Aardvark——一款由 GPT-5 驱动的智能安全研究助手,不对中国开放,2025年下半年持续私有 Beta 测试,精度提升,2026年3月正式更名为 Codex Security,以研究预览版面向公众推出。
AARDVARK — 漏洞发现智能体工作流程:从 Git 代码库到威胁建模、漏洞发现、验证沙盒、Codex 辅助修复,直至人工审核生成拉取请求
26 年 2 月份,Aardvark 就流传新增恶意软件分析功能,恶意软件分析模块引入了两步工作流程:用户上传包含恶意软件样本(最大 200MB)的 .zip 文件包,被暂存在 OpenAI 名为Sediment的内部系统中。之后Pro用户即可启动分析,并通过仪表盘跟踪分析任务,仪表盘会显示分析状态、结果、SHA256 哈希值、运行时间、提取的文件、结构化报告以及可下载的分析结果包。

OpenAI 最终尚未正式发布该功能,但能看出Codex security 并不仅仅是软件安全,未来可能同VirusTotal,CrowdStrike Falcon Sandbox产生二进制方向的竞争,OpenAI 正在构建一个涵盖从代码审查到恶意软件分类的完整生命周期的安全平台,有能力未来定位作为安全公司本身。
可能有感于竞对 Claude Code Security 发布引起的巨大反响,3 月份Aardvark 结束内测,正式改名推出为"Codex Security",关键性能指标是漏洞识别率 92%,杂音降低了 84%。严重性被高估的结果比例降低了 90% 以上,所有代码库的误报率也降低了 50% 以上。
二、核心工作原理深度解析
Codex Security 同 AI 原生安全工具一样,【RSAC 深度解读(二)】,AI 时代的代码安全、威胁建模和供应链安全的创新,不依赖传统的模糊测试(Fuzzing)或软件成分分析(SCA),而是利用大语言模型(LLM)驱动的代理推理和工具调用能力,模拟人类安全研究员的思维方式。其完整工作流分为四大阶段:
阶段 1 建模分析(Analyze)
全面扫描代码仓库、生成威胁建模对应的系统功能、信任边界、暴露面。
阶段 2 提交扫描(Commit Scanning)
逐个 commit 扫描已合并的代码,结合威胁建模结果上下文处理漏洞。使用时间越长,系统对特定代码库的理解越准确。
阶段 3 验证(Validation)
在仓库匹配的沙盒中尝试触发漏洞,确认可利用性,任务完成后容器被销毁。
阶段 4 修复(Patching)
集成 Codex 生成与项目意图一致的修复补丁,生成最小的可执行差异(diff),补丁不自动应用,供审查人员检查后合入 PR。
2.1 威胁建模机制
威胁模型是 Codex Security 的核心中枢,也是区别于所有传统工具的关键创新:系统自动分析代码库,创建威胁模型结果,提示模型总结架构、提取安全 sink 点,符合企业安全基线要求。
威胁建模包含项目概述、威胁模型、信任边界、攻击面、攻击路径、漏洞定级。有趣的是用户可以编辑威胁建模结果,让下一步的 code reveiw 和补丁验证更符合企业的安全基线规范。

威胁建模界面 — 以 xbow 项目为例
2.2 扫描结果
用户可以上调或下调严重性级别,并在文本框中填写调整原因(如"该仓库为内部工具,无外部攻击面")。这些反馈会被用于改进未来扫描的准确性,体现了产品"人机协同"的设计理念——AI 做初步判断,人类专家做最终判断。

扫描结果界面 — 支持人工调整严重性级别提供反馈
2.3 沙盒验证技术细节
验证环节是 Codex Security 实现低误报率的关键技术,对疑似漏洞创建完全隔离的沙盒环境,执行命令/测试触发漏洞,沙盒验证将误报降至极低水平。验证失败仅表示当前尝试未能重现,发现将被标记为"未验证",日志保留供工程师进一步调查。
2.4 自动提交修复 PR

自动生成PR — 从发现问题到提交补丁的完整闭环
· · ·
三、真实漏洞发现能力
实际运行在安多多环境,使用效果超出预期,通过基线数据,发现了 java、go 大量项目真实风险,涉及注入、硬编码、dos、逻辑风险、权限风险、空指针引用,pr 请求完整无误一次合入。
OpenAI 官方提到在过去的 30 天里扫描了测试组外部仓库中的超过 120 万次提交,发现了 792 个验证和 10561 高危漏洞,严重问题出现在扫描提交的不到 0.1% 中,官方博客中披露了 Codex Security 发现的开源项目漏洞(已获得 14 个 CVE):
项目
漏洞类型
CVE 编号
GnuTLS
certtool 堆缓冲区溢出
CVE-2025-32990
GnuTLS
SCT 扩展解析堆缓冲区越界读取
CVE-2025-32989
GnuTLS
otherName SAN 导出双重释放
CVE-2025-32988
GOGS
2FA 绕过
CVE-2025-64175
GOGS
未授权绕过
CVE-2026-25242
Thorium
路径遍历(任意写入)
CVE-2025-35430
Thorium
LDAP 注入
CVE-2025-35431
Thorium
未认证 DoS & 邮件滥用
CVE-2025-35432
Thorium
密码更改后会话未轮换
CVE-2025-35433
Thorium
禁用 TLS 验证
CVE-2025-35434
Thorium
DoS
CVE-2025-35435
OpenSSH
gpg-agent 栈缓冲区溢出
CVE-2026-24881
GnuPG
TPM2 PKDECRYPT 栈缓冲区溢出
CVE-2026-24882
GnuPG
CMS/PKCS7 AES-GCM 栈缓冲区溢出
CVE-2025-15467
涉及的知名项目包括:OpenSSH、GnuTLS、GOGS、Thorium、libssh、PHP、Chromium 等。
· · ·
四、与竞品对比
去年谷歌发布CodeMender 的 AI 代理通过自动创建和应用高质量的安全补丁,然后 AWS 的 SA 发布,继而Anthropic 推出了 Claude Code Security,与 Codex Security 形成直接竞争。AI 巨头在安全领域正面交锋是好事:
对比维度
Codex Security
Claude Code Security
AWS Security Agent
底层模型
GPT-5-Codex
Claude Opus 4.6
基于 Amazon Bedrock
核心理念
深度代码审计
全栈安全分析
全生命周期防护
发布时间
2026年3月6日
2026年2月23日
2025年12月2日
前身
Aardvark(2025.10)
Frontier Red Team
NA
验证机制
沙盒隔离验证
多阶段自证 + 沙箱
按需自动化渗透测试
已发现 CVE
14 个
500+ 个漏洞
未公开
误报过滤
>50%
>90%
显著减少
目标用户
ChatGPT 企业/商业版
Claude 企业/团队版
AWS 企业客户
补丁机制
Codex 集成生成 PR
Claude 自动生成补丁
自动提交 PR
定价
首月免费
研究预览免费
预览期免费
· · ·
五、点评
优点
安全的未来是上下文,威胁模型机制让扫描真正理解"系统在做什么",Codex Security 不是取代现有 SAST 工具,定位是补充,通过语义层面的 LLM 推理和自动验证来减少误报,解决的挑战不在于缺乏漏洞报告,而在于低质量干扰报告太多。对于企业甲方拿来即用说清代码风险和怎么修复,避免带病上线是明确的内部需求。
工具支持任何编程语言,不受预定义规则集限制,并且不需要编译构建,可根据仓库和提交 commit直接生成结果,验证阶段如需要,会在容器内尝试构建。
发现 → 验证 → 修补 → PR,全链路自动化,检测能力取决于模型对特定语言/框架的推理能力上限,随着AI大模型进化,比国内现在补丁式的 skills成章法。
缺点
扫描需要上传到 OpenAI,存在隐私风险,ChatGPT Business 套餐才会自动禁用用在训练模型。
扫描速度取决于仓库大小、构建时间和验证工作量,大的项目需要数天,后续增量扫描通常更快。
目前仅支持通过 Codex Cloud 连接 GitHub 仓库,而不是本地扫描。
Codex Security 标志着代码安全审计正式进入 AI Agent 安全时代。AI 安全审计是必然趋势,代表了最前沿的实践,理解代码"在做什么",而非"是什么样子",沙盒验证将误报降至历史最低,生成可直接合并的修复 PR,利用让 AI 像经验丰富的安全研究员一样思考、验证和修复形成了新的 SDLC 工作范式。
安多多根据用户的痛点需求,也在进行 AWS Security Agent相关的投入,欢迎沟通交流。
【RSAC 深度解读(二)】,AI 时代的代码安全、威胁建模和供应链安全的创新
RSAC 2026 创新沙盒深度解读(一):OpenClaw时代怎么做Agentic AI 安全
安多多-Wiz级多云安全平台,资产真实风险一张图看清,正式开放使用
微信客服:anduoduo2025

构建纵深防御体系是个复杂的工程,安多多团队把资深的安全运营经验转为平台工具化,使用 AI+云方能防患未然。
阅读原文或者访问 https://www.anduoduo.cloud 即可直接使用。