AI会不会乱做决策？——安全边界+人工审核全方案

宝软数字 · FAQ知识库 · 2025-09-17

这是企业引入AI时最深层的恐惧——"万一它自作主张，把我们的大客户得罪了怎么办？""投资决策让AI做，出了事谁负责？""它会不会在某一天突然失控？"这些担忧完全合理。我们的答案是：EIOS不是让AI替代人类决策，而是让AI在安全边界内辅助人类决策。本文完整拆解我们如何确保AI始终可控。

问题一：EIOS如何防止AI越权操作？

答：我们设计了"三道围栏"，确保AI无法越雷池一步。

第一道围栏——权限围栏：每个Agent嵌入了该用户的实时权限上下文。当销售员小李对Agent说"帮我查看所有客户的合同信息"，Agent查询的是RBAC和行级权限后确定的"小李权限范围内的客户"——可能只是他负责的华东区、近6个月有过交易的客户，而不是全公司所有客户。权限检查发生在每次数据库查询前、每个API调用前，不是"登录时验一次就完了"。

第二道围栏——操作分级：我们将所有可能的操作分为四个等级——Level 0（只读）：查询数据、生成报告，无需审批；Level 1（建议）：给出方案建议但不执行，如"建议将A产品的安全库存从100件调整为150件"，需用户确认后才写入系统；Level 2（执行）：直接写入数据，如创建CRM工单、发起OA审批，需用户审批后Agent代为执行；Level 3（关键）：涉及资金、合同的重大操作，强制多人会签，且需要二级审批。管理员可以为每个Agent独立设定其可以执行的操作级别。

第三道围栏——速率围栏：当Agent在短时间内尝试执行超出常规模式的操作时（如连续创建50个采购订单），系统自动触发速率限制——冻结Agent操作权限，要求管理员审核确认后才恢复。这防止了由于Prompt理解错误或模型幻觉导致的批量操作失控。

设计哲学：Agent默认只有"建议权"，"执行权"需要管理员明确授予并有审批流程背书。

问题二：AI给出错误建议怎么办？有过滤机制吗？

答：有，而且不止一层。我们称之为"置信度漏斗"。

大模型的"幻觉"问题是行业共性挑战——模型会自信满满地给出一个看起来合理但实际错误或虚构的答案。在"推荐一个生日礼物"这类低风险场景中，这或许无伤大雅。但在"审核一笔50万元的付款申请"这类高风险场景中，一个幻觉可能造成严重的业务损失。

EIOS的"置信度漏斗"包含三层过滤：

漏斗第一层——知识库锚定：当Agent被问到需要专业知识的问题时，系统不会直接把问题丢给大模型。它会先从你的企业知识库中用向量检索召回最相关的内容片段（通常是Top 5-10条），将这些片段与用户的原始问题拼接，再一起发送给模型。这意味着模型给出的回答是"基于你们公司材料"的——它是在解读你的文档，而不是从训练记忆中"回忆"一个可能已经过时或不相关的答案。

漏斗第二层——置信度评估：系统会对模型的输出质量进行评估。对于关键场景（财务、法务、合规），我们配置了两个独立的评估维度：事实一致性（回答中的陈述是否可以在知识库中找到原文支撑）和逻辑一致性（推理链条是否存在矛盾或跳跃）。如果任一评估低于阈值，输出会被标记为"待审核"并附带风险提示。

漏斗第三层——多模型交叉验证：对于极高风险场景（如合同条款修改建议），可以同时调用两个不同的大模型（如Claude和GPT-4）对同一问题给出判断。如果两者结论一致，自动通过；如果出现分歧，系统将两份答案和分歧点一并提交给人工决策者。这种"AI分歧即升级"的机制，实际上是用模型的差异来暴露不确定性。

问题三：人工审核是怎么嵌入的？会不会变成摆设？

答：人工审核不是"建议你看一下"的弱提醒，而是硬性阻断+强制确认。

很多系统的人工审核是一个容易被忽略的标记或一封可能不被打开的通知邮件——这实际上等于没有审核。EIOS的做法是：

阻断式审核：当Agent的输出被标记为"待审核"时，该结果不会被投递给最终用户，而是进入审核队列。在审核完成前，业务流程处于等待状态。审核人在企业微信/钉钉/飞书中收到一条带操作按钮的通知——"同意"或"驳回并说明原因"。这种设计确保了审核不会因为"没看到通知"而被跳过。

上下文完整传递：审核人看到的不是一条孤立的"请审核"，而是一个完整的审核界面——原始问题、Agent的答案、风险标注（哪些部分置信度低、为什么）、引用的知识库原文、相似历史案例及其审核结果。审核人不需要去翻找上下文，所有决策所需信息已经在屏幕上了。

审核效率：我们对人工审核的效率做了大量优化。目标是让审核人能在30秒内完成一次常规审核——看结论是否正确、看风险标注、点击"同意"或"驳回"。对于需要深究的复杂案例，审核界面提供了"深入分析"模式，可展开完整的推理链路和数据来源。

审核责任追溯：每一次审核操作（同意/驳回/超时自动驳回）都完整记录在审计日志中——谁、什么时间、审核了什么、做了什么决定、有没有填写驳回原因。这份记录在合规审计和法律追责场景中至关重要。

问题四：如果我在执行中途发现AI做错了，能立刻叫停吗？

答：能。而且是即时生效，不是"发送取消请求后等5分钟"。

EIOS提供了三级中断机制：

用户级中断：在对话界面，用户可以随时点击"停止生成"按钮或按Esc键，Agent立即停止当前输出。对于正在执行的多步骤任务（如"帮我生成本月所有客户的账单并发送"），中断后系统会弹出一个确认框，列出已完成和未完成的步骤，用户可以选择"撤销全部已完成操作"或"仅停止后续操作"。

管理员级中断：管理员可以在管理后台的"实时监控"面板中看到所有正在执行的Agent任务列表。对于任何任务，管理员都可以点击"强制终止"。终止后，该任务的所有已执行但未确认的操作（如已草拟但未发送的邮件、已创建但未提交的审批）会被自动撤销。

系统级中断：当系统检测到严重异常（如Agent在1分钟内尝试了超过正常水平10倍的操作），自动触发熔断机制——该Agent的所有运行中任务被强制暂停，管理员收到紧急通知。这是一个兜底的安全网，我们不希望它被触发，但它必须在。

此外，每个Agent可配置最大执行步数（默认20步，超出自动停止并汇报）和最大执行时长（默认5分钟，超时自动终止）。这两个参数防止了Agent陷入死循环或无限递归。

问题五：AI会学习员工的错误行为吗？

答：不会。EIOS的Agent不会从员工交互中"学习"并改变行为。

这是一个需要特别澄清的误解。很多企业管理者担心"如果员工都用Agent做低质量的应付工作，Agent会不会'学坏'？"答案是：EIOS不会从用户交互中进行强化学习或在线学习。

Agent的行为由三个因素决定：系统Prompt（由管理员在后台配置，版本化管理，任何修改都有审计记录）、知识库内容（由管理员审核后发布）、底层模型的推理能力。用户的使用行为不会反馈回任何模型参数——他们的操作日志只用于审计和管理分析，不参与模型训练。

如果管理员希望"教"Agent某件事（如"以后遇到某类问题应该优先查财务部2025年新发布的报销标准"），应该通过更新知识库内容或调整系统Prompt来实现，而不是期望Agent自己从使用中学习。这种"显式可控"的设计，确保了Agent的行为永远在管理员的掌控之中。

问题六：出事了谁负责？法律责任怎么界定？

答：这是一个需要坦诚回答的问题。目前的法律框架下，AI不是法律主体——所有由AI辅助或执行的决策，最终责任人仍然是做出该决策的人类或组织。

这正是我们在设计上坚持"人工始终是最终决策者"的原因。EIOS的角色定位是：

信息处理辅助者：帮你汇总数据、检索信息、生成草案——这些事情AI可以做得比人快很多，但不会替你做决策。

合规性检查者：对照规则检查决策是否符合规定——如某笔付款是否超过了审批权限、某个合同的条款是否与标准模板有差异。AI告诉你"这里可能有问题"，但决定"这个问题是否可以接受"的是人。

质量把关者：在AI辅助场景中，所有AI生成的输出都必须有人工的审核和确认。合同草案需要法务审核，财务报告需要财务经理审核，质检报告需要质检主管审核。AI缩短了"从零到草案"的时间，但没有缩短"从草案到终稿"的审核责任。

在合同中，我们明确约定了宝软数字的责任范围——保证软件功能符合约定规格、保证数据安全、保证系统可用性。对于因AI建议导致的业务损失，我们的责任上限以合同金额为限。这不是推卸责任，而是因为AI辅助决策的质量不仅取决于技术，也取决于企业自身的审核流程和管理制度。

从我们服务的实际案例来看，严格执行人工审核流程的客户，未发生过因AI错误建议导致的实质性业务损失。而那些把AI输出直接当最终结果使用的客户，遇到过问题——这正是我们不推荐的做法，也是审核机制存在的意义。

担心安全问题？

下载完整版AI安全治理白皮书，了解40余项安全控制措施的详细实现

🔍 下载安全治理白皮书