AI技术选型是CTO职业生涯中最高风险的决策之一。选错了框架,可能三年后整个团队都得推倒重来;选对了供应商,能让团队专注于业务创新而不是维护基础设施。但AI领域技术迭代以周为单位——今天的最佳实践,三个月后可能就是反面教材。
以下20个问题,是宝软数字EIOS技术团队在评估过47个AI平台、32个大模型和19个向量数据库后,提炼出的CTO选型核心问题清单。这些问题不给你标准答案(因为你的场景独一无二),但保证你不会漏掉关键维度。
模型选型 5问
架构设计 5问
安全合规 4问
成本控制 3问
团队能力 3问
第一维度:模型选型(5问)
Q1
开源模型还是商业API?
为什么关键:决定了数据主权、成本结构和技术依赖度三个根本问题。
选型指南:如果业务场景涉及敏感数据(金融、医疗、政务),优先考虑私有化部署的开源模型。如果追求最快的上线速度和最低的初始投入,商业API是更务实的选择。注意:不存在"两者兼得"的方案——任何声称"既开源又API"的混合方案都意味着你在两边都做出了妥协。宝软数字的建议是:核心业务用私有化部署,非核心场景(如内部知识问答、会议纪要总结)用API。
Q2
单个大模型还是多模型协同?
为什么关键:决定了架构复杂度、维护成本和故障域。
选型指南:单一模型简单但脆弱——任何一个场景的性能瓶颈都会拖垮全局。多模型协同灵活但运维复杂——你需要一个模型路由层来决定"哪个问题交给哪个模型"。2026年的实践趋势是:一个主力模型 + 两到三个专项模型(如专门做代码生成的、专门做多语种翻译的)。超过5个模型的协同系统,维护成本指数级上升。
Q3
模型的推理延迟能满足业务SLA吗?
为什么关键:AI应用的用户体验由响应时间决定,而响应时间由模型推理速度决定。
选型指南:不要只看模型官方宣称的"每秒生成XX tokens"。用你的实际业务数据(典型输入长度、典型输出长度、并发量)做基准测试。记住:P95延迟比平均值重要十倍——5%的用户在忍受5秒以上的等待,这5%往往是你最活跃的用户。如果推理延迟超过SLA阈值,考虑模型量化(INT8/INT4)、推测解码(Speculative Decoding)或切换到更小的专用模型。
Q4
模型的上下文窗口够用吗?如何管理长上下文?
为什么关键:上下文窗口决定了AI能"记住"多少信息,直接影响复杂任务的表现。
选型指南:不要被"百万Token上下文"的营销数字迷惑。上下文窗口越大,推理成本越高(注意力机制的复杂度是O(n²)),而且模型在长上下文的中间部分容易出现"迷失"现象。更务实的策略是:用RAG(检索增强生成)把上下文控制在8K-32K Token以内,而不是无限制地塞入所有历史信息。
Q5
模型的更新频率和向后兼容性如何?
为什么关键:商业API模型每2-4周就有新版本,每次更新可能改变输出风格甚至准确性。
选型指南:要求供应商提供固定版本(Pinned Version)的能力,而不是只能用"latest"。在CI/CD中加入模型回归测试——每次模型版本更新后,自动运行一套固定测试集(至少500条),对比输出质量。如果供应商不给版本锁定能力,你的生产系统就是架在一个随时可能变化的底座上。
第二维度:架构设计(5问)
Q6
AI能力应该嵌入现有系统还是独立部署?
为什么关键:决定了集成模式、数据流方向和故障隔离范围。
选型指南:理想架构是独立的AI服务层,通过API/消息队列与现有系统解耦,而不是在ERP或CRM内部嵌入AI代码。独立部署意味着你可以独立扩缩容、独立升级模型、独立做故障隔离。共享数据库是反模式——AI服务应该有自己的状态存储(向量数据库、特征存储),而不是直接读写业务数据库。
Q7
RAG架构还是微调(Fine-tuning)?还是两者结合?
为什么关键:决定了知识更新速度、维护成本和模型行为的可控性。
选型指南:绝大多数企业场景(85%以上),RAG优于微调。RAG的好处是知识更新即时生效(更新文档即可)、可解释性强(可以溯源到具体文档片段)、成本低。微调适用于需要模型学习特定风格或领域术语的场景。一个常见的错误是过早微调——先用RAG跑三个月,收集真实场景中的失败案例,再决定是否需要微调。
Q8
Agent架构如何设计?多少个Agent?如何协作?
为什么关键:Agent的数量和协作模式决定了系统的智能上限和维护下限。
选型指南:从3-5个Agent开始(不是30个)。每个Agent有明确的职责边界:一个负责理解意图、一个负责检索知识、一个负责执行业务操作。Agent之间通过结构化的任务描述通信,而不是自由对话。宝软数字EIOS平台内置的Agent协作框架经过127个客户场景验证——超过8个Agent的系统,协调开销会超过分工收益。
Q9
向量数据库选哪个?什么时候需要图数据库?
为什么关键:向量数据库是RAG的基石,选错了会影响检索质量和扩展性。
选型指南:百万级向量以内,Milvus和Qdrant都是成熟选择。如果有复杂的实体关系查询需求(如"查找和张三同部门且审批过同一类合同的所有人"),需要引入图数据库(Neo4j)做知识图谱增强。不要试图用向量数据库解决图查询问题——它们的设计目标根本不同。
Q10
如何做模型效果评估和A/B测试?
为什么关键:没有评估就没有优化方向,没有A/B就没有信心上线。
选型指南:建立一个离线评估集(至少500条覆盖所有业务场景的真实数据)和一套在线A/B框架。离线评估用来自动化回归测试,在线A/B用来验证用户体验和业务指标。特别注意:AI的A/B测试不能只看点击率——必须看任务完成率、用户修改率等深度指标。
第三维度:安全合规(4问)
Q11
数据会离开企业内网吗?
为什么关键:这是安全合规的第一道红线——对于金融、医疗等行业,数据出境即违规。
选型指南:如果使用商业API,确认数据处理的物理位置、传输加密、存储策略。如果数据绝对不能离开内网,必须选择可在私有化环境部署的模型方案。注意:即使使用了"数据不用于训练"的API条款,数据在推理过程中仍然经过了第三方服务器,这在某些行业仍然构成合规风险。
Q12
如何防止Prompt注入和越狱攻击?
为什么关键:Prompt注入是2026年OWASP Top 10 for LLM排名第一的安全威胁。
选型指南:多层防护:输入过滤(检测和清洗恶意Prompt)→ 权限控制(AI不能做当前用户没有权限的操作)→ 输出审核(对敏感输出进行二次校验)→ 审计日志(所有AI交互完整记录)。任何单层防护都不够,但四层叠加能将风险降低到可接受水平。
Q13
模型的训练数据是否有版权和隐私风险?
为什么关键:用了侵权数据训练的模型,企业用户可能承担连带责任。
选型指南:要求供应商提供训练数据来源的合规声明,并确认有版权侵权赔偿条款。对于开源模型,审查其训练数据卡片(Data Card)。如果供应商回避这个问题,这是一个重大的红旗信号。
Q14
AI系统的可审计性如何?
为什么关键:当AI做出一个有争议的决策时,你必须能解释它为什么这么做。
选型指南:完整的审计链包括:输入数据来源 → 检索到的上下文片段 → 模型的原始输出 → 后处理步骤 → 最终呈现给用户的结果。如果任何一个环节不可追溯,整个系统就是"黑箱"。这在金融风控和医疗诊断等场景中是完全不可接受的。
第四维度:成本控制(3问)
Q15
推理成本会随业务量线性增长还是可以优化?
为什么关键:很多AI项目的单位经济学在POC阶段看起来很好,但放量100倍后就崩溃了。
选型指南:在第3个月、第6个月和第12个月分别做一次成本弹性测试。关键优化杠杆:Prompt压缩(减少20-40%的Token数)、语义缓存(相似问题直接返回缓存结果)、模型蒸馏(用大模型训练小模型)、批处理(夜间批量处理非实时任务)。
Q16
GPU资源是自建还是用云?混合方案怎么搭?
为什么关键:GPU是AI项目最大的单笔基础设施支出,选错模式可能浪费40%的预算。
选型指南:基准负载(如夜间批处理、内部测试环境)用自建或包年GPU实例确保成本可预测。峰值负载(如双十一促销期间的AI客服)用按量付费的云GPU弹性扩容。一个关键数据:如果你的GPU利用率低于40%,自建GPU就是在烧钱。
Q17
有没有隐性成本?
为什么关键:看得见的成本只是冰山一角,隐性成本才是吞噬预算的主力。
选型指南:最常见的四大隐性成本:数据标注持续投入(占总成本的15-30%)、模型维护人力(至少1个全职ML工程师)、安全合规审计(每次3-10万)、每次模型更新的回归测试。把这些都纳入TCO计算,你的预算数字通常会膨胀40-60%。
第五维度:团队能力(3问)
Q18
现有团队的能力缺口在哪里?
为什么关键:AI项目失败的第一大原因不是技术选错,而是团队不具备操作和维护所选技术的能力。
选型指南:企业AI团队需要四种角色:AI应用开发(熟悉Prompt工程、RAG、Agent框架)、ML工程(模型部署、推理优化、监控)、数据工程(ETL、特征工程、数据质量)、领域专家(提供业务规则和质量标准)。评估现有团队覆盖了几种角色,缺失的通过招聘、培训还是外包来补。
Q19
供应商锁定(Vendor Lock-in)的风险有多大?
为什么关键:如果你所有的Prompt、Agent逻辑都和某个供应商的API深度绑定,换供应商的成本可能比重做还高。
选型指南:使用模型抽象层(如LangChain、EIOS SDK),将业务逻辑与具体模型API解耦。确保你的Prompt模板、RAG管道、评估框架都是供应商无关的。每年做一次"更换模型供应商"的演练——如果真的需要切换,你需要在多长时间内完成?如果答案是"超过一个月",你的锁定风险就太高了。
Q20
供应商的长期稳定性和支持能力如何?
为什么关键:2026-2026年间,中国AI创业公司关闭率超过40%。选择了一个明天可能不存在的供应商,等于给项目埋了一颗定时炸弹。
选型指南:评估供应商的三道保险:公司运营年限(<2年的需要额外审慎)、融资情况和现金流健康度、是否有开源替代方案作为退出路径。宝软数字成立超过15年,服务超过500家企业客户,EIOS平台的每一个核心能力都有对应的开源替代方案文档——这是我们对客户的技术承诺。
第六维度:选型决策与持续验证
回答完20个问题后,你会面对一个可能相互矛盾的答案集合——某个方案在模型能力上得分最高,但安全合规有短板;某个方案成本最优,但团队不具备维护能力。如何做出最终决策?
选型决策四步法
- 强制排名:五个维度中,哪两个是你企业的"非妥协项"?例如金融企业可能将安全合规和模型准确性列为非妥协项,成本效率可以适当妥协。
- 最小可行性验证:对排名前三的方案,用你们的真实业务场景做一次72小时的快速POC。测试的不是Demo数据,而是你们最棘手的三个真实业务问题。
- 退出成本估算:对首选方案做一个"如果一年后需要换方案,需要多少时间和金钱"的估算。如果退出成本超过初始投入的50%,这个方案有严重的锁定风险。
- 决策记录(ADR):将最终决策的理由、放弃的方案、已知的风险写成一份架构决策记录。这不是走形式——未来当有人质疑"为什么当初选了A而不是B"时,这份记录能救你的命。
选型不是一劳永逸
AI技术栈每半年会有一次重大变化。选型决策的有效期建议设定为12个月——12个月后,即使不换方案,也应该重新跑一遍20问的评估流程。你可能会发现,一年前的最优解已经被新方案超越,或者你的需求已经变化,原来的选择不再是正确的。持续验证比你想象的重要得多——宝软数字的客户中,有超过30%在18个月内调整了至少一个核心组件的选型。
CTO选型红宝书原则:永远选择一个你能够独立维护的方案,即使它比"最佳方案"差10%。因为一旦出问题,你是那个凌晨三点被叫醒的人,不是供应商的销售。