零信任架构——默认不信任任何人，每次请求都验证

宝软数字 · 产品深度解读 · 2025-09-04

"城堡加护城河"的安全模型已经死了。在这个模型下，安全的重心是建一堵足够高的墙——防火墙、VPN、内网隔离。一旦攻击者翻过了墙（或者更有可能是，内部人员的凭证被盗），内网就是"默认信任"的游乐场。零信任架构（Zero Trust Architecture, ZTA）的核心原则，就是用一句话推翻这个假设：永远不信任，始终验证。本文深入拆解EIOS如何将零信任原则落地到企业AI平台的每一个环节——从用户登录的持续验证，到Agent工具调用的实时授权，再到微服务之间mTLS的强制双向认证。

零信任的核心假设——为什么不信任内网

零信任的根本出发点来自对真实安全事件的分析。根据Verizon的数据泄露调查报告，约34%的数据泄露涉及内部人员（恶意或疏忽），约70%的网络攻击在突破外围后在内网横向移动。传统的VPN接入模式放大了这个风险——VPN通常授予接入者"整个内网"的访问权限，一个被钓鱼的VPN凭证等于给了攻击者全公司网络的钥匙。

零信任架构直接推翻了两个经典假设。第一个，"内网是安全的"——在零信任中，没有"内网"和"外网"的概念，所有网络位置都是不可信的。第二个，"一次认证，全程信任"——在零信任中，认证不是"进门"就完成了的，而是持续进行的。每次API请求、每次数据库查询、每次Agent工具调用，都需要独立的认证和授权评估。这不是理论演绎，而是有具体工程实现的——EIOS的零信任架构建立在五个支柱上：身份认证、设备信任、网络微分段、持续验证、最小权限策略。

需要强调的是，零信任不是一个产品，买一个"零信任解决方案"不会让你立刻零信任。零信任是一种架构理念，需要渗透到系统设计的每一个层面。EIOS的零信任实践是从数据库连接、微服务通信、Agent工具链三个维度同步推进的，每个维度有不同的实施方法，但都遵循同一个核心原则。

NIST SP 800-207零信任架构定义："零信任提供了一组概念和思想，旨在在面临网络被视作已被攻陷的情况下，将信息系统和服务中的不确定性最小化，同时限制对每个访问请求执行精确的、最小权限的决策。"——注意，零信任并不声称网络是不可攻破的，它的出发点是"假设网络已经被攻破，如何限制损害"。这是一个非常有价值的视角转换——由"防止入侵"转向"假设已被入侵，如何最小化影响"。

第一支柱：身份认证——不是一次性的门禁

零信任的身份认证与传统的"登录一次、长期有效"完全不同。核心区别在于令牌的生命周期和验证频率。在EIOS中，身份认证是一个分层的持续过程。

第一层是初始认证——用户通过用户名密码+第二因子（TOTP或WebAuthn）完成身份证明。这一步产生两个令牌：一个短期JWT（Access Token，15分钟有效期）和一个Refresh Token（7天有效期，存储在httpOnly Cookie中）。关键设计是Access Token的15分钟有效期——不是技术的限制（技术上完全可以给24小时），而是安全的考量。如果Access Token被窃取，攻击者最多只有15分钟的窗口可以利用。15分钟后，Access Token过期，攻击者需要Refresh Token来获取新Token——但Refresh Token使用了Token轮换机制（每次使用后旧Token立即失效），所以如果合法用户在攻击者之后尝试刷新，系统会检测到重放攻击。

第二层是持续验证——Access Token不仅仅是一个"通行证"，每次API请求还会经过策略决策点（PDP）的评估。PDP不仅验证令牌的有效性，还评估当前的上下文风险：用户的IP地址是否与前一次请求的一致？用户的地理位置是否发生了物理上不可能的变化（如5分钟前在北京，现在在纽约）？用户当前时间是否在其正常工作时间内？请求的API路径是否在其角色的权限范围内？任何异常都可能导致令牌被标记为高风险，触发额外的验证步骤（如要求重新输入第二因子）。

第三层是会话绑定——令牌不是"无状态的"。每个Access Token在签发时绑定了签发时的设备指纹（User-Agent、屏幕分辨率、时区、Canvas指纹等），在验证时会检查当前请求的设备指纹是否与签发时一致。如果某个令牌从Chrome浏览器切换到了Python脚本，系统会标记为"设备变更"并触发重新认证。

工程挑战：持续验证的最大挑战是延迟。每次API请求都做一次策略评估，如果策略引擎响应慢，会直接影响用户体验。我们的方案是将策略评估分层——快速检查（令牌有效性、设备指纹匹配）在API网关的中间件中完成（延迟<1ms），慢速检查（地理位置分析、行为异常检测）异步执行，先放行请求再根据异步结果决定是否撤销令牌。这是一种"乐观放行+事后撤销"的模式——在保证安全性的同时不影响正常用户的体验。技术上通过Kafka发送令牌风险事件，安全引擎消费事件并决定是否将令牌加入黑名单。

第二支柱：设备信任——不是所有设备生而平等

零信任的安全决策不仅考虑"谁在请求"，还要考虑"用什么设备在请求"。一个通过公司MDM管理的、有全盘加密的、操作系统已打补丁的笔记本电脑，和一台公共网吧的Windows XP机器，不应该被同等对待。

EIOS的设备信任系统通过设备评分来实现差异化信任。每次用户登录时，前端JavaScript收集设备的多维度信息：操作系统类型和版本、浏览器类型和版本、是否有屏幕锁定、是否检测到虚拟机环境、是否有已知的恶意浏览器扩展、TLS指纹（JA3/JA4）是否正常等。这些信息送往后端的设备评分引擎，输出一个0-100的信任分数。

设备评分直接影响访问权限。分数在80-100的设备（如公司配发的、有MDM管理的设备）享受完整的访问权限。分数在50-79的设备（如个人设备但系统较新、安全配置良好）可以访问非敏感功能，但无法查看机密级别的数据和执行高风险操作。分数低于50的设备（如旧系统、检测到代理或虚拟环境、TLS指纹异常）只能访问基本信息，所有写入操作和Agent调用都被拒绝。对于企业内部部署场景，EIOS支持与客户的MDM系统（如Microsoft Intune、Jamf）集成，直接获取设备的合规状态作为评分的基准。

隐私考量：设备指纹收集必须在用户的明确同意下进行，且数据仅用于安全评估，不会用于任何商业目的。我们严格遵循数据最小化原则——只收集安全评估必需的信息，且设备指纹数据在30天后自动清除。在企业版中，设备评分策略可由客户的安全团队自定义——比如某企业可能允许所有iOS设备（因为iOS沙箱机制更强），但只允许特定Windows版本。

第三支柱：网络微分段——即使内网也彼此不信任

零信任的网络层核心是微分段——即使两个服务在同一个VPC、同一个Kubernetes集群中，它们之间也不默认互信。每一对服务之间的通信都必须有明确的、经过审批的策略允许。

EIOS的微服务网络策略建立在三层控制之上。第一层是Kubernetes NetworkPolicy，定义了Pod级别的网络访问规则。策略的默认模式是"拒绝所有"——一个Pod刚创建时，它的入站和出站流量全部被拒绝，然后通过NetworkPolicy逐步开放必要的通信路径。例如，API服务的NetworkPolicy只允许来自ingress-nginx Pod的入站流量（且仅限于TCP 3000端口），以及出站到PostgreSQL Pod（TCP 5432）、Redis Pod（TCP 6379）、Neo4j Pod（TCP 7687）的流量。任何未在NetworkPolicy中明确列出的通信都被CNI插件（Calico）在网络层丢弃。

第二层是mTLS加密和身份验证。NetworkPolicy只控制了"谁能和谁通信"，但一个恶意的Pod完全可以在被允许通信后发送恶意数据。mTLS提供第二层保障——每个服务拥有由内部CA签发的X.509证书，双向TLS握手确保通信双方的身份真实。证书中的SAN（Subject Alternative Name）字段包含了服务的SPIFFE ID（如spiffe://eios.isoftbao.com/namespace/production/service/api），作为服务身份的全局唯一标识。

第三层是应用层授权。即使网络策略允许、mTLS验证通过，服务之间的通信还需要经过应用级的授权。例如，报表服务需要查询数据库中的用户数据——它通过了NetworkPolicy和mTLS，但如果报表服务的角色不应该能读取PII字段，数据库代理层（PgBouncer的扩展）会在SQL解析后检查查询是否涉及受限字段，并在应用层拒绝。

三层控制的必要性：有人会问：三层是不是过度设计？考虑这个场景——Agent服务被远程代码执行漏洞攻破（CVE级别的高危漏洞），攻击者在Agent Pod内获得了Shell。如果只有NetworkPolicy，攻击者可以直接访问数据库Pod（因为NetworkPolicy允许Agent访问数据库）。有了mTLS，攻击者还需要伪造Agent的证书——这是可能的但需要额外的步骤。有了应用层授权，即使攻击者成功连接到数据库，他的查询仍会被字段级权限策略拦截。这就是纵深防御在微分段中的体现——每一层都是独立的防线，突破一层不代表全盘失守。

第四支柱：持续验证——信任的时效性

零信任的核心突破之一是信任是有有效期的。传统模型中，用户登录后获得的信任几乎是永久的——直到令牌过期（通常是数小时或数天）。零信任的理念是：每次请求都应该基于实时上下文重新评估信任。

EIOS的持续验证引擎基于行为基线来检测异常。系统为每个用户和每个Agent建立了行为基线——正常的登录时间窗口、正常的地理位置范围、正常的数据访问模式、正常的API调用频率。当用户的当前行为偏离基线超过设定阈值时，系统触发风险响应。举几个实际的例子：某个Sales部门的用户突然尝试访问财务数据——这不是他正常的数据访问模式，系统要求额外的审批；某个Agent在过去1小时内发起了500次文件读取操作，而它的历史平均是20次——系统降低该Agent的信任等级，要求后续操作需要人工审批；某个Admin用户在凌晨3点从从未出现过的IP地址登录——系统自动要求重新进行完整的MFA认证，并通知安全管理员。

这个系统的技术实现分为两层。实时层通过Redis的滑动窗口和布隆过滤器做快速异常检测——延迟控制在5ms以内，不影响API响应时间。准实时层通过Flink流处理做更复杂的行为分析——延迟在秒级，但可以做时间序列分析、聚类检测等更复杂的算法。实时层的检测结果直接影响当前请求的授权决策；准实时层的检测结果用于更新用户/Agent的信任分数，影响后续请求。

平衡假阳性和假阴性：行为分析的永恒挑战是误报率。太敏感，正常用户频繁被要求额外验证，体验极差；太宽松，真正的攻击行为被放过。我们的方案是动态阈值——系统的敏感度根据全局风险等级自动调整。正常情况下，行为分析处于"标准灵敏度"；当检测到全局性的攻击活动（如多个用户同时报告可疑行为，或WAF拦截量突然上升），系统自动转入"高灵敏度"模式，所有用户的信任阈值收紧。这就像机场安检——平日里正常通过，接到情报后全面升级。

第五支柱：最小权限——你只需要刚好够用的权限

最小权限原则（Principle of Least Privilege）是零信任的最终落脚点——经过身份验证、设备评估、网络控制、持续验证后，最终决定"这个请求能不能做这件事"的，是权限策略。最小权限的核心是：只授予完成当前任务所必需的最小权限，不多也不少。

EIOS使用OPA（Open Policy Agent）作为统一的策略引擎。所有授权决策——用户能不能访问这个API、Agent能不能调用这个工具、服务能不能查询这个数据表——都经过OPA评估。策略用Rego语言编写，这是一种专门为策略评估设计的声明式语言。一条典型的策略规则如下：一个用户要读取某个项目的文档，需要满足的条件是——用户是该项目的成员（角色检查），且用户当前的设备信任分数高于60（设备检查），且用户在正常工作时间内（时间检查），且文档没有被标记为"审批中"（资源状态检查）。每次请求都必须同时满足所有这些条件，而不是"登录过了"就都放行。

Agent的工具权限是零信任中最独特的应用场景。传统API权限是"用户能不能调用这个API"——这是一个相对静态的判断。但Agent的工具调用涉及更多维度：Agent本身有没有权限调用这个工具？当前对话的上下文符不符合调用这个工具的条件？工具的参数是否在合理范围内？有没有出现权限提升的尝试？OPA的策略规则需要同时考虑用户身份、Agent角色、对话上下文和历史行为基线。这在实现上要求策略引擎能访问多个数据源——用户数据库、Agent配置、会话上下文、行为基线——策略评估时动态拉取所需数据，而不是把所有数据都预加载到策略引擎中。

策略即代码：OPA策略存储在Git仓库中，通过CI/CD自动部署。每次策略变更需要经过Code Review——这和代码变更的流程完全一样。策略变更有完整的Git历史，任何时候可以回溯。这种"策略即代码"的做法确保了安全策略的可追溯性和可审计性——当出现安全事故时，你可以精确地知道当时生效的策略是什么，以及它是谁批准的。此外，策略变更会触发自动化测试——使用Rego的单元测试框架验证策略变更不会意外放行不该放行的操作，也不会意外阻断正常操作。

零信任的代价——不只是技术问题

诚实地说，零信任不是免费的。每次请求都做多层次的验证，必然带来延迟和复杂度的增加。EIOS的零信任架构使单次API请求增加了约8-15ms的额外延迟（主要来自策略评估和上下文检查）。对于总响应时间约120ms的典型API请求，这是约7-12%的开销。在吞吐量方面，策略引擎（OPA）在单实例下可以处理约12000次/秒的策略评估——对于EIOS的流量规模而言完全足够。

但零信任更大的代价在运维复杂度上。传统安全模型下，加一个微服务只需要配一个端口；零信任下，需要定义NetworkPolicy、签发mTLS证书、配置OPA策略、设置监控告警。这些都需要自动化——手动管理是不可持续的。我们花了约3个月的时间搭建了这些自动化基础设施（cert-manager、OPA Operator、NetworkPolicy Generator），才让零信任的新服务上线从"半天的手动配置"降低到"5分钟的自动编排"。

评判：零信任是否值得？答案是明确的——对于处理企业核心数据的AI平台，零信任是必需品而非奢侈品。一次数据泄露的代价（包括直接的经济损失、品牌损害、合规处罚、客户流失）远远超过零信任的建设和运维成本。EIOS选择在平台早期就引入零信任，而不是等到"规模大了再补"——早期的架构决策成本远低于后期的重构成本。这是"今日之工，明日之基"的典型体现。

想让零信任保护您的企业AI平台？

预约安全架构师深度技术交流

🔍 预约交流