在AI领域有一句流传甚广的格言:"垃圾进,垃圾出"(Garbage In, Garbage Out)。但这句话低估了问题的严重性——在AI项目中,不只是"垃圾出"那么简单,糟糕的数据会导致模型产生系统性的偏见、幻觉和安全漏洞。宝软数字的数据显示,企业AI项目失败的根因中,数据问题占比高达41%,远超模型选型错误(23%)和架构设计缺陷(18%)。
以下10个确认项,必须在AI项目正式启动开发之前全部通过。每延迟一天处理数据问题,后续需要付出三天的代价来修复。这不是估算,而是从多个延期项目中统计出来的实际比例。
第一部分:数据基础(4项)
数据是否真实存在且可访问?
听起来像是废话,但宝软数字在项目启动会上问出"数据在哪里"时,遇到过太多令人意外的回答:"在几个Excel里"、"在某个离职员工的电脑上"、"应该有,我再问问"。这不是笑话,而是真实发生过的对话。
就绪标准:
- 数据源已明确标识(系统名、数据库名、表名、字段名)
- 数据可以通过API或数据库连接被程序化访问(不是手动导出Excel)
- 已完成一次测试读取,确认连接通畅且数据可读取
- 数据源有明确的负责人和备份联系人(防止唯一知情人休假或离职)
数据量是否足够支撑AI训练或RAG检索?
数据量的"足够"取决于你的AI应用类型。一个粗略但实用的参考标准:
- RAG知识库:至少500篇文档,覆盖80%以上的常见用户问题。如果文档少于100篇,RAG的检索质量会严重下降。
- 分类/识别模型微调:每个类别至少500个样本,且类别间数量尽量平衡(最大不超过3:1)。
- 生成式模型微调:至少5000条高质量的输入-输出对,且覆盖各种边界场景。
就绪标准:实际可用的数据量已达到最低要求的1.5倍(留出测试集和验证集)。
数据质量是否达标?
数据质量是AI项目中最耗时的环节。在开始编码之前,必须对数据做以下四个维度的质量评估:
- 完整性:关键字段的空值率。如果核心业务字段(如客户名称、产品编码、金额)空值率超过5%,需要先补齐。
- 一致性:同一实体在不同系统中的表述是否一致。例如"上海宝软信息技术有限公司"可能在CRM中是"上海宝软",在ERP中是"宝软信息",在合同中又是"宝软"。这些不一致会让AI困惑。
- 准确性:随机抽取200条数据人工核查,错误率不应超过3%。
- 时效性:数据的最后更新日期。超过一年未更新的数据可能已经与实际业务脱节。
就绪标准:四个维度全部达到上述阈值,且有数据质量报告作为证据。
数据的格式和结构是否适合AI处理?
这是技术人员最常忽略但影响最大的问题。AI系统对数据格式有特殊要求:
- 文档格式:PDF扫描件(图片型PDF)需要先做OCR识别,准确率应在95%以上。Word文档中的表格、图片中的文字需要特殊提取。
- 结构化数据:JSON/CSV格式最优。Excel中的合并单元格、多行表头、颜色编码("红色表示已过期")都需要预处理。
- 多语言/特殊字符:确认字符编码为UTF-8。检查是否存在乱码、特殊符号、不规范的换行符。
就绪标准:已完成一次端到端的格式转换和验证,确认AI系统可以正常读取和解析所有数据。
第二部分:数据标注与治理(3项)
需要标注的数据是否已制定标注规范?
如果你计划微调模型,数据标注是绕不开的一步。标注质量直接决定模型的上限。在启动标注之前必须完成:
- 标注规范文档:明确定义每个标签的含义、标注边界(比如"客户投诉"和"客户咨询"的区分标准)、标注优先级。包含至少10个正例和10个反例。
- 标注一致性验证:让两个标注员独立标注同一批50条数据,计算Cohen's Kappa系数。如果低于0.7,说明标注规范不够清晰,需要修订。
- 标注平台和流程:已选定标注工具(自建或采购),标注任务分配和质检流程已定义。
数据隐私和合规是否有保障?
这是数据准备中最容易引发法律风险的环节。在AI项目启动前必须确认:
- PII(个人可识别信息)已脱敏:姓名、身份证号、手机号、邮箱、地址、银行卡号——这些在进入AI处理管道之前必须做脱敏或匿名化处理。
- 数据使用授权:训练数据的使用是否在用户授权范围内?如果你收集数据时的隐私政策没有提到"用于AI训练",现在使用可能构成违规。
- 数据分类分级:按照《数据安全法》完成了数据分类分级,确认AI项目所涉及的数据中没有"核心数据"或需要特殊保护的"重要数据"。
- 跨境数据传输:如果数据会流经境外服务器(使用海外AI API时),确认这符合行业监管要求。
是否有数据版本管理和变更追踪机制?
数据是会变化的——业务规则调整、系统升级、新数据源接入,都可能改变数据结构或内容。如果AI系统不知道数据已经变了,就会出现"用昨天的规则处理今天的数据"的问题。
- 数据版本标记:每次数据更新都有唯一的版本号和时间戳。
- Schema变更通知:数据库表结构变更时,AI团队能在变更上线前收到通知。
- 数据回滚能力:如果新版本数据导致AI质量下降,可以在4小时内回滚到上一个稳定版本。
第三部分:数据持续供给(3项)
数据更新的频率和延迟能满足AI的SLA吗?
AI模型不是"训练一次管三年"的系统。业务数据在持续变化,AI的知识也需要持续更新。不同场景对数据新鲜度有不同要求:
- 实时场景(客服、推荐、风控):数据延迟不超过5分钟。需要CDC(Change Data Capture)或消息队列实现近实时同步。
- 准实时场景(报表、周报生成):数据延迟不超过1小时。T+1的批处理通常可以满足。
- 离线场景(月度分析、年度总结):每日更新即可。
就绪标准:已搭建数据同步管道(ETL/ELT),在实际数据量下完成了一次端到端的同步测试,确认延迟和吞吐量满足要求。
数据管道是否有容错和监控能力?
数据管道是AI系统的"血管"。血管堵了,整个系统就缺血。数据管道必须具备以下能力:
- 异常检测:数据量突然暴跌、数据格式变化、延迟飙升——这些异常必须在5分钟内触发告警。
- 自动重试:临时故障(网络抖动、数据库连接超时)应自动重试,无需人工介入。
- 死信队列(DLQ):无法自动修复的数据应进入死信队列,保留原始数据等待人工处理,不能静默丢弃。
- 监控仪表盘:管道各环节的处理量、延迟、错误率一目了然。
是否有明确的数据Owner和SLA协议?
最后一个确认项不是技术问题,而是管理问题——但它的重要性不亚于前9项。当AI系统因为数据问题出现故障时,谁是第一响应人?
- 数据Owner明确:每个数据源都有明确的责任人(不是"IT部门",而是具体的姓名)。
- 数据SLA协议:数据Owner与AI团队之间有书面的数据服务级别协议,包含数据可用性、更新频率、质量标准和故障响应时间。
- 升级路径:当数据Owner在约定时间内未响应时,升级路径和替代联系人已明确。
- 变更通知流程:业务系统变更(如ERP升级、数据库迁移)会提前至少1周通知AI团队进行兼容性评估。
第四部分:数据就绪度自评与行动计划
自评计分规则
对以上10个确认项逐项评估状态:就绪(2分)、部分就绪(1分)、未就绪(0分)。满分20分。
结果解读
- 16-20分(数据就绪):可以启动AI项目。数据基础扎实,建议直接进入MVP开发阶段。
- 12-15分(基本就绪):可以先启动MVP但需要并行补齐数据短板。建议MVP选择数据条件最好的业务场景。
- 8-11分(部分就绪):建议用2-4周时间优先解决得分最低的3个确认项,再启动开发。仓促上马失败的概率超过60%。
- 低于8分(尚未就绪):不建议启动AI项目开发。先集中精力做数据基础建设,4-6周后重新评估。
第五部分:数据准备的常见陷阱与规避
宝软数字在127个项目中观察到五个反复出现的数据准备陷阱:
陷阱一:把"有数据"等同于"数据可用"
数据在数据库里不等于数据可用。数据库中的字段可能大部分为空、格式不统一、存在大量历史遗留的脏数据。一个客户在启动项目时声称"我们有5年的交易数据",结果发现前3年的数据因为系统迁移丢失了关键字段。教训:在声称"有数据"之前,先抽样验证数据的完整性。
陷阱二:低估数据标注的工作量
微调模型需要高质量标注数据。一个常见错误是以为"用ChatGPT帮我标注就行了"。AI辅助标注可以提高效率,但最终的质量审核必须人工完成。经验法则:标注500条高质量数据至少需要1个全职人员2周时间。
陷阱三:忽略数据的时间敏感性
业务规则会变。两年前的合同模板、一年前的定价策略、半年前的组织架构——如果RAG知识库中包含这些过时信息,AI会自信地输出过时答案。建立知识库文档的"有效期"字段和定期审查机制。
第六部分:数据就绪后的第一步
数据准备就绪后,建议的第一步不是开始写Prompt或调模型,而是先构建一套数据质量监控仪表盘。因为数据质量会随着时间推移而退化——新数据源的接入、业务规则的变更、系统升级——这些都可能悄悄地降低数据质量。如果在AI上线后再发现数据问题,排查和修复的成本会高出5倍以上。
一个基础的数据质量监控仪表盘应至少覆盖:数据新鲜度(最后更新时间)、数据量波动(日环比异常检测)、关键字段空值率、数据格式异常告警。这四类监控只需要1-2天就可以搭建起来,但能为后续的AI开发节省数周的排查时间。