安多多云安全平台 · 技术文章

我所知道的英伟达是怎么做内部安全的

作者: 让天下没有难做的安全发布时间: 2025年11月17日 16:45

我所知道的英伟达是怎么做内部安全的作者：让天下没有难做的安全发布时间：2025年11月17日 16:45 原文链接：微信公众号英伟达在上海有 SOC 的 7\ 24 安全团队，安全运营中心的工具和SOAR的本地化流程符合《中国网络安全法》，日常做工作包含监控、检测和应急响应，维护Kubernetes、AI workload 的防御策略，保护的对象是混合

我所知道的英伟达是怎么做内部安全的

作者：让天下没有难做的安全 | 发布时间：2025年11月17日 16:45

原文链接：微信公众号

英伟达在上海有 SOC 的 7*24 安全团队，安全运营中心的工具和SOAR的本地化流程符合《中国网络安全法》，日常做工作包含监控、检测和应急响应，维护Kubernetes、AI workload 的防御策略，保护的对象是混合云训练数据、模型和推理节点。

安多多关注AI+多云安全的PMF阶段种子需求，科普这家全球市值最高公司的内部工作，欢迎大家讨论。

防护的对象

Nvidia 的市值超过苹果、微软、谷歌、亚马逊，是聚焦于AI、云计算、半导体和数字生态的巨头。在大国竞争中，芯片扮演着至关重要的角色，行业谈论黄仁勋的领导的企业文化有介绍，英伟达的安全实践更值得大家深入了解。

英伟达的业务远不止卖显卡，芯片这么简单，它是一家平台级公司：还有笔记本、工业汽车网、网络服务、AI 相关的软件服务，对外提供的 gpu 云和数据中心 GDC CLOUD。

有硬件，有软件，有云服务，这种多样化的系统基础设施需要采用不同的安全解决方案。

英伟达内部并没有标新立异，安全方法论遵循DevSecOps、安全左移理论。

对待 AI 和安全结合的态度是：把安全作为数据问题，使用AI分析数据，提效自动化决策。

组织架构和文化

22 年是安全分水岭，之前是偏重内部芯片的安全，安全建设文化是柔性的。22 年LAPSUS$ 勒索黑客公布了18.9G 容量的资料，40万份文件和员工信息，其中包括英伟达下一代显卡40系的信息和DLSS专利源码细节，引起内部停工2天，目的是要价 100 万美元和勒索英伟达放开英伟达3000系列显卡挖矿限制，然后找了微软、duo security 和 AI 方向的大牛做安全，加班不少。

产品安全总体负责

安全是软件研发部门的子团队，英伟达汇报体系强调是方向负责制，不是金字塔，类似于多个圆柱形的直接大群汇报，安全之前直接向黄仁勋汇报，现在首席信息官也管，每个业务部分的副总裁是落地各自的安全水平。

在产品立项初期，安全工程师就参与进产品和工程团队组成虚拟安全团队，向业务研发负责人汇报。同 QA、法务、隐私一起推动开发团队的流程、培训、威胁建模。直接参与到研发流程中的特点在于安全与业务的深度融合，安全不再是业务发展的约束，而是成为了业务创新的驱动力。

具体的产品安全职责有:

在 IaaS 层面关注虚拟机平台和容器的隔离、CPU 架构层面的安全控制设计，还有常规的 Unix（英伟达有自己操作系统Cumulus）和 web 安全。

在 PaaS 层面关注 k8s 环境安全，容器编排，管道流水线的安全工具集成。

SaaS 层面关注 AI 应用套件的安全开发和部署、认证授权、联邦身份协议，还有机器学习模型的安全防护。

供应链安全方面，英伟达的技术栈比较分散，内部主要使用Oracle、GCP、AWS和Azure等云平台，研发有TeamCity, GitLab, Jenkins, Azure, Google Cloud 及内部自研方案，开发语言C、C++、Java、Golang、Python都有，芯片方面因为安全逐步放弃 C 。安全容许业务部门创建和运行自己的安全门禁策略。跨不同业务部门使用的多种CI/CD工具链，部署 SAST、DAST 和SCA 和开源漏洞扫描器。

漏洞管理公告方面，主要是PSIRT机制，在 25 年 10 月份规范了 cve 漏洞安全公告，可以访问github.com/NVIDIA/product-security?tab=readme-ov-file，运行机制良好。

系统芯片安全方面属于业务团队自己的安全研发设计环节，做可信固件，重点建设 RISC-V 架构、信任根和安全处理器和安全设计硬件，开发使用硬件安全方法实现可信平台的基础设施。对外通过BlueField DPU和DOCA软件呈现硬件信任根。

英伟达通过Intigriti 和白帽子联系，对英伟达资产公开致谢（不欢迎中国黑客），对英伟达的产品和 AI 相关的漏洞奖励计划是私密的。认为在 AI 时代，CISO 更要关注黑客社区。

NVIDIA 芯片的后门这个事情不是安全技术，这里不讨论了。

AI安全方面

专职安全架构师负责对AI产品进行安全威胁建模，全程支持对 AI 工具的正确和安全辅导，芯片涉及芯片安全架构、安全标准和密码学，需要扎实的威胁模型和缓解技术方面。

SOC团队：十年前开始做AI安全运营

SOC 团队在黄仁勋对整个公司 AI 转型的要求下，早就重视 AI和机器学习的结合，认为安全也是一种数据，从边界到硬盘、到 CPU、到 GPU，处理数据不同影响安全效果，特别强调使用AI工具增强产品安全性和机器学习在威胁检测中的应用。

早期一个实践是各种各样的日志，通过算法而不是正则来实现字段的对接，还有通过机器学习评分来识别异常的方案，去除比如员工使用 vpn、周末办公的降噪误报。

安全同数据分析团队紧密合作做 SIEM 、EDR和身份安全（安全团队有数据没技术，安全团队缺技术）

红队：跨职能的攻防团队

由逆向挖洞、模拟演练，AI、学术界、数据科学家组成的跨职能团队，目的是避免人工智能时代的技术、模型声誉和合规风险。

具体的工作负责识别和验证嵌入式固件、硬件和关键系统软件中的漏洞，打破NVIDIA CC、ARM TEE、Intel SGX/TDX的隔离机制，识别 AI 系统的风险，发现漏洞后还得负责和开发团队合作进行修复。

英伟达 AI 红队12 人，最新的成果是大语言模型 (LLM) 的安全评估和保护，开源了garak 作为 LLM 漏洞扫描器。

A diagram of the three core components in garak, reading ‘Probe’, ‘Generator’, and ‘Detector’.

基础网络安全与SRE合作

身份和访问安全的基础建设归属于 SRE 团队，比如mTLS 、SPIFFE、Vault、AWS/Azure/Google Secret Manager、K8s Secrets 、Istio这些零信任架构的实施、运营由可靠性团队执行。

网络安全SRE还做一件事情是持续风险评估，避免防御边界的突破，威胁事件出现后，牵头负责安全事件管理、分类、复盘分析和故障恢复，兜底 mttr 指标。

安全产品技术

1、NeMo Guardrails：AI安全围栏

类似可编程的AI安全SDK，允许开发者在应用程序代码和LLM之间添加安全护栏，支持包括LLM 输入输出检查、幻觉检测、内容安全、越狱检测和注入攻击检测等。

2、Morpheus SDK：GPU加速的AI安全平台

Morpheus SDK平台本质不是一个AI安全解决方案，而是想让所有的安全方案都能被赋能的AI 平台，是一款 GPU 加速的端到端 AI 框架，使开发人员能够创建针对海量流式网络安全数据进行过滤、处理和分类的优化应用程序。利用 AI实时检测、预防和响应网络威胁，在钓鱼检测，设备行为指纹方面是强项，内部也在使用。

3、BlueField DPU：硬件级安全基础

NVIDIA BlueField 是每个 AI 的基础安全组件，其上的DOCA Argus 框架利用先进的内存取证技术实时监控威胁，提供运行时威胁检测，是 agentless 方案。DPU 技术做网络层面的隔离、加密和检测。SuperNICs提供的硬件加速线速IPsec/TLS加密确保了数据在传输过程中的安全性。

4. NGC Catalog：AI软件供应链安全

AI 的微服务在英伟达系统称为NIM，打包到NIM运行时容器中的模型通过签名校验和 jfrog 的供应链安全扫描，保障镜像没有未经授权的篡改和无开源组件漏洞。对政府交付的 AI 产品使用经过裁剪和加固的基础镜像构建，通过DISA STIG和FedRAMP认证。

NGC扫描图像的示例结果显示，操作系统软件包中存在两个高危漏洞。

NVIDIA NGC Catalog作为AI软件、模型和工具的中心平台，其安全性是英伟达关注的重点。NGC Catalog中的所有容器镜像都经过Anchore Enterprise 提供的CVE扫描，以及恶意软件、加密密钥和开放端口等检测。

构建纵深防御体系是个复杂的体系，安多多团队把资深的安全运营经验转为平台工具化，使用AI+云方能防患未然，访问 https://www.anduoduo.net 即可直接使用。

安多多对甲方客户的8个要求：发挥运营治理价值

安多多-Wiz级多云安全平台，资产真实风险一张图看清，正式开放使用

帮助文档：安多多云安全平台帮助中心https://lv8u92t29eh.feishu.cn/docx/MHnKdjZKgoZzpsxAsYcc5hAenzg?from=from\_copylink
微信群聊和微信客服: anduoduo2025