安多多云安全平台 · 技术文章

我所知道的英伟达是怎么做内部安全的

作者: 让天下没有难做的安全
我所知道的英伟达是怎么做内部安全的 作者:让天下没有难做的安全 发布时间:2025年11月17日 16:45 原文链接:微信公众号 英伟达在上海有 SOC 的 7\ 24 安全团队,安全运营中心的工具和SOAR的本地化流程符合《中国网络安全法》,日常做工作包含监控、检测和应急响应,维护Kubernetes、AI workload 的防御策略,保护的对象是混合

我所知道的英伟达是怎么做内部安全的

作者:让天下没有难做的安全 | 发布时间:2025年11月17日 16:45

原文链接:微信公众号

英伟达在上海有 SOC 的 7*24 安全团队,安全运营中心的工具和SOAR的本地化流程符合《中国网络安全法》,日常做工作包含监控、检测和应急响应,维护Kubernetes、AI workload 的防御策略,保护的对象是混合云训练数据、模型和推理节点。

安多多关注AI+多云安全的PMF阶段种子需求,科普这家全球市值最高公司的内部工作,欢迎大家讨论。

防护的对象

Nvidia 的市值超过苹果、微软、谷歌、亚马逊,是聚焦于AI、云计算、半导体和数字生态的巨头。在大国竞争中,芯片扮演着至关重要的角色,行业谈论黄仁勋的领导的企业文化有介绍,英伟达的安全实践更值得大家深入了解。

英伟达的业务远不止卖显卡,芯片这么简单,它是一家平台级公司:还有笔记本、工业汽车网、网络服务、AI 相关的软件服务,对外提供的 gpu 云和数据中心 GDC CLOUD。

有硬件,有软件,有云服务,这种多样化的系统基础设施需要采用不同的安全解决方案。

英伟达内部并没有标新立异,安全方法论遵循DevSecOps、安全左移理论。

对待 AI 和安全结合的态度是:把安全作为数据问题,使用AI分析数据,提效自动化决策。

组织架构和文化

图片

22 年是安全分水岭,之前是偏重内部芯片的安全,安全建设文化是柔性的。22 年LAPSUS$ 勒索黑客公布了18.9G 容量的资料,40万份文件和员工信息,其中包括英伟达下一代显卡40系的信息和DLSS专利源码细节,引起内部停工2天,目的是要价 100 万美元和勒索英伟达放开英伟达3000系列显卡挖矿限制,然后找了微软、duo security 和 AI 方向的大牛做安全,加班不少。

产品安全总体负责

安全是软件研发部门的子团队,英伟达汇报体系强调是方向负责制,不是金字塔,类似于多个圆柱形的直接大群汇报,安全之前直接向黄仁勋汇报,现在首席信息官也管,每个业务部分的副总裁是落地各自的安全水平。

在产品立项初期,安全工程师就参与进产品和工程团队组成虚拟安全团队,向业务研发负责人汇报。同 QA、法务、隐私一起推动开发团队的流程、培训、威胁建模。直接参与到研发流程中的特点在于安全与业务的深度融合,安全不再是业务发展的约束,而是成为了业务创新的驱动力。

具体的产品安全职责有:

在 IaaS 层面关注虚拟机平台和容器的隔离、CPU 架构层面的安全控制设计,还有常规的 Unix(英伟达有自己操作系统Cumulus) 和 web 安全。

在 PaaS 层面关注 k8s 环境安全,容器编排,管道流水线的安全工具集成。

SaaS 层面关注 AI 应用套件的安全开发和部署、认证授权、联邦身份协议,还有机器学习模型的安全防护。

供应链安全方面,英伟达的技术栈比较分散,内部主要使用Oracle、GCP、AWS和Azure等云平台,研发有TeamCity, GitLab, Jenkins, Azure, Google Cloud 及内部自研方案,开发语言C、C++、Java、Golang、Python都有,芯片方面因为安全逐步放弃 C 。安全容许业务部门创建和运行自己的安全门禁策略。跨不同业务部门使用的多种CI/CD工具链,部署 SAST、DAST 和SCA 和开源漏洞扫描器。

漏洞管理公告方面,主要是PSIRT机制,在 25 年 10 月份规范了 cve 漏洞安全公告,可以访问github.com/NVIDIA/product-security?tab=readme-ov-file,运行机制良好。

系统芯片安全方面属于业务团队自己的安全研发设计环节,做可信固件,重点建设 RISC-V 架构、信任根和安全处理器和安全设计硬件,开发使用硬件安全方法实现可信平台的基础设施。对外通过BlueField DPU和DOCA软件呈现硬件信任根。

英伟达通过Intigriti 和白帽子联系,对英伟达资产公开致谢(不欢迎中国黑客),对英伟达的产品和 AI 相关的漏洞奖励计划是私密的。认为在 AI 时代,CISO 更要关注黑客社区。

NVIDIA 芯片的后门这个事情不是安全技术,这里不讨论了。

AI安全方面

专职安全架构师负责对AI产品进行安全威胁建模,全程支持对 AI 工具的正确和安全辅导,芯片涉及芯片安全架构、安全标准和密码学,需要扎实的威胁模型和缓解技术方面。

图片

SOC团队:十年前开始做AI安全运营

SOC 团队在黄仁勋对整个公司 AI 转型的要求下,早就重视 AI和机器学习的结合,认为安全也是一种数据,从边界到硬盘、到 CPU、到 GPU,处理数据不同影响安全效果,特别强调使用AI工具增强产品安全性和机器学习在威胁检测中的应用。

早期一个实践是各种各样的日志,通过算法而不是正则来实现字段的对接,还有通过机器学习评分来识别异常的方案,去除比如员工使用 vpn、周末办公的降噪误报。

安全同数据分析团队紧密合作做 SIEM 、EDR和身份安全(安全团队有数据没技术,安全团队缺技术)

红队:跨职能的攻防团队

由逆向挖洞、模拟演练,AI、学术界、数据科学家组成的跨职能团队,目的是避免人工智能时代的技术、模型声誉和合规风险。

具体的工作负责识别和验证嵌入式固件、硬件和关键系统软件中的漏洞,打破NVIDIA CC、ARM TEE、Intel SGX/TDX的隔离机制,识别 AI 系统的风险,发现漏洞后还得负责和开发团队合作进行修复。

图片

英伟达 AI 红队12 人,最新的成果是大语言模型 (LLM) 的安全评估和保护,开源了garak 作为 LLM 漏洞扫描器。

A diagram of the three core components in garak, reading ‘Probe’, ‘Generator’, and ‘Detector’.

基础网络安全与SRE合作

身份和访问安全的基础建设归属于 SRE 团队,比如mTLS 、SPIFFE、Vault、AWS/Azure/Google Secret Manager、K8s Secrets 、Istio这些零信任架构的实施、运营由可靠性团队执行。

网络安全SRE还做一件事情是持续风险评估,避免防御边界的突破,威胁事件出现后,牵头负责安全事件管理、分类、复盘分析和故障恢复 ,兜底 mttr 指标。

安全产品技术

1、NeMo Guardrails:AI安全围栏

类似可编程的AI安全SDK,允许开发者在应用程序代码和LLM之间添加安全护栏,支持包括LLM 输入输出检查、幻觉检测、内容安全、越狱检测和注入攻击检测等。

图片

2、Morpheus SDK:GPU加速的AI安全平台

Morpheus SDK平台本质不是一个AI安全解决方案,而是想让所有的安全方案都能被赋能的AI 平台,是一款 GPU 加速的端到端 AI 框架,使开发人员能够创建针对海量流式网络安全数据进行过滤、处理和分类的优化应用程序。利用 AI实时检测、预防和响应网络威胁,在钓鱼检测,设备行为指纹方面是强项,内部也在使用。

3、BlueField DPU:硬件级安全基础

NVIDIA BlueField 是每个 AI 的基础安全组件,其上的DOCA Argus 框架利用先进的内存取证技术实时监控威胁,提供运行时威胁检测 ,是 agentless 方案。DPU 技术做网络层面的隔离、加密和检测。SuperNICs提供的硬件加速线速IPsec/TLS加密确保了数据在传输过程中的安全性。

图片

4. NGC Catalog:AI软件供应链安全

AI 的微服务在英伟达系统称为NIM,打包到NIM运行时容器中的模型通过签名校验和 jfrog 的供应链安全扫描,保障镜像没有未经授权的篡改和无开源组件漏洞。对政府交付的 AI 产品使用经过裁剪和加固的基础镜像构建,通过DISA STIG和FedRAMP认证。

NGC扫描图像的示例结果显示,操作系统软件包中存在两个高危漏洞。

NVIDIA NGC Catalog作为AI软件、模型和工具的中心平台,其安全性是英伟达关注的重点。NGC Catalog中的所有容器镜像都经过Anchore Enterprise 提供的CVE扫描,以及恶意软件、加密密钥和开放端口等检测。

图片

构建纵深防御体系是个复杂的体系,安多多团队把资深的安全运营经验转为平台工具化,使用AI+云方能防患未然,访问 https://www.anduoduo.net 即可直接使用。

安多多对甲方客户的8个要求:发挥运营治理价值

安多多-Wiz级多云安全平台,资产真实风险一张图看清,正式开放使用