实用清单

数据准备就绪清单——AI项目启动前10个确认

宝软数字 EIOS 企业AI平台2025-12-15约3600字

在AI领域有一句流传甚广的格言:"垃圾进,垃圾出"(Garbage In, Garbage Out)。但这句话低估了问题的严重性——在AI项目中,不只是"垃圾出"那么简单,糟糕的数据会导致模型产生系统性的偏见、幻觉和安全漏洞。宝软数字的数据显示,企业AI项目失败的根因中,数据问题占比高达41%,远超模型选型错误(23%)和架构设计缺陷(18%)。

以下10个确认项,必须在AI项目正式启动开发之前全部通过。每延迟一天处理数据问题,后续需要付出三天的代价来修复。这不是估算,而是从多个延期项目中统计出来的实际比例。

铁律:10个确认项中,任何一项状态为"未就绪",AI项目开发工作不应启动。先用时间把数据地基打牢,而不是在流沙上建高楼。
数据准备就绪检查10项总览
图1:AI项目数据准备就绪10项检查总览 — 从数据发现到持续供给的全流程

第一部分:数据基础(4项)

1

数据是否真实存在且可访问?

听起来像是废话,但宝软数字在项目启动会上问出"数据在哪里"时,遇到过太多令人意外的回答:"在几个Excel里"、"在某个离职员工的电脑上"、"应该有,我再问问"。这不是笑话,而是真实发生过的对话。

就绪标准:

  • 数据源已明确标识(系统名、数据库名、表名、字段名)
  • 数据可以通过API或数据库连接被程序化访问(不是手动导出Excel)
  • 已完成一次测试读取,确认连接通畅且数据可读取
  • 数据源有明确的负责人和备份联系人(防止唯一知情人休假或离职)
就绪:4项全部满足
部分就绪:满足2-3项
未就绪:满足<2项
2

数据量是否足够支撑AI训练或RAG检索?

数据量的"足够"取决于你的AI应用类型。一个粗略但实用的参考标准:

  • RAG知识库:至少500篇文档,覆盖80%以上的常见用户问题。如果文档少于100篇,RAG的检索质量会严重下降。
  • 分类/识别模型微调:每个类别至少500个样本,且类别间数量尽量平衡(最大不超过3:1)。
  • 生成式模型微调:至少5000条高质量的输入-输出对,且覆盖各种边界场景。

就绪标准:实际可用的数据量已达到最低要求的1.5倍(留出测试集和验证集)。

数据量级评估参考标准
图2:不同AI应用类型的数据量级最低要求参考表
3

数据质量是否达标?

数据质量是AI项目中最耗时的环节。在开始编码之前,必须对数据做以下四个维度的质量评估:

  • 完整性:关键字段的空值率。如果核心业务字段(如客户名称、产品编码、金额)空值率超过5%,需要先补齐。
  • 一致性:同一实体在不同系统中的表述是否一致。例如"上海宝软信息技术有限公司"可能在CRM中是"上海宝软",在ERP中是"宝软信息",在合同中又是"宝软"。这些不一致会让AI困惑。
  • 准确性:随机抽取200条数据人工核查,错误率不应超过3%。
  • 时效性:数据的最后更新日期。超过一年未更新的数据可能已经与实际业务脱节。

就绪标准:四个维度全部达到上述阈值,且有数据质量报告作为证据。

4

数据的格式和结构是否适合AI处理?

这是技术人员最常忽略但影响最大的问题。AI系统对数据格式有特殊要求:

  • 文档格式:PDF扫描件(图片型PDF)需要先做OCR识别,准确率应在95%以上。Word文档中的表格、图片中的文字需要特殊提取。
  • 结构化数据:JSON/CSV格式最优。Excel中的合并单元格、多行表头、颜色编码("红色表示已过期")都需要预处理。
  • 多语言/特殊字符:确认字符编码为UTF-8。检查是否存在乱码、特殊符号、不规范的换行符。

就绪标准:已完成一次端到端的格式转换和验证,确认AI系统可以正常读取和解析所有数据。

数据质量四维评估模型
图3:数据质量四维评估模型 — 完整性/一致性/准确性/时效性

第二部分:数据标注与治理(3项)

5

需要标注的数据是否已制定标注规范?

如果你计划微调模型,数据标注是绕不开的一步。标注质量直接决定模型的上限。在启动标注之前必须完成:

  • 标注规范文档:明确定义每个标签的含义、标注边界(比如"客户投诉"和"客户咨询"的区分标准)、标注优先级。包含至少10个正例和10个反例。
  • 标注一致性验证:让两个标注员独立标注同一批50条数据,计算Cohen's Kappa系数。如果低于0.7,说明标注规范不够清晰,需要修订。
  • 标注平台和流程:已选定标注工具(自建或采购),标注任务分配和质检流程已定义。
6

数据隐私和合规是否有保障?

这是数据准备中最容易引发法律风险的环节。在AI项目启动前必须确认:

  • PII(个人可识别信息)已脱敏:姓名、身份证号、手机号、邮箱、地址、银行卡号——这些在进入AI处理管道之前必须做脱敏或匿名化处理。
  • 数据使用授权:训练数据的使用是否在用户授权范围内?如果你收集数据时的隐私政策没有提到"用于AI训练",现在使用可能构成违规。
  • 数据分类分级:按照《数据安全法》完成了数据分类分级,确认AI项目所涉及的数据中没有"核心数据"或需要特殊保护的"重要数据"。
  • 跨境数据传输:如果数据会流经境外服务器(使用海外AI API时),确认这符合行业监管要求。
7

是否有数据版本管理和变更追踪机制?

数据是会变化的——业务规则调整、系统升级、新数据源接入,都可能改变数据结构或内容。如果AI系统不知道数据已经变了,就会出现"用昨天的规则处理今天的数据"的问题。

  • 数据版本标记:每次数据更新都有唯一的版本号和时间戳。
  • Schema变更通知:数据库表结构变更时,AI团队能在变更上线前收到通知。
  • 数据回滚能力:如果新版本数据导致AI质量下降,可以在4小时内回滚到上一个稳定版本。
数据标注与治理流程
图4:数据标注与治理全流程 — 标注规范/质量检验/隐私脱敏/版本管理

第三部分:数据持续供给(3项)

8

数据更新的频率和延迟能满足AI的SLA吗?

AI模型不是"训练一次管三年"的系统。业务数据在持续变化,AI的知识也需要持续更新。不同场景对数据新鲜度有不同要求:

  • 实时场景(客服、推荐、风控):数据延迟不超过5分钟。需要CDC(Change Data Capture)或消息队列实现近实时同步。
  • 准实时场景(报表、周报生成):数据延迟不超过1小时。T+1的批处理通常可以满足。
  • 离线场景(月度分析、年度总结):每日更新即可。

就绪标准:已搭建数据同步管道(ETL/ELT),在实际数据量下完成了一次端到端的同步测试,确认延迟和吞吐量满足要求。

9

数据管道是否有容错和监控能力?

数据管道是AI系统的"血管"。血管堵了,整个系统就缺血。数据管道必须具备以下能力:

  • 异常检测:数据量突然暴跌、数据格式变化、延迟飙升——这些异常必须在5分钟内触发告警。
  • 自动重试:临时故障(网络抖动、数据库连接超时)应自动重试,无需人工介入。
  • 死信队列(DLQ):无法自动修复的数据应进入死信队列,保留原始数据等待人工处理,不能静默丢弃。
  • 监控仪表盘:管道各环节的处理量、延迟、错误率一目了然。
数据管道监控架构
图5:AI数据管道监控架构 — CDC/消息队列/异常检测/死信队列
10

是否有明确的数据Owner和SLA协议?

最后一个确认项不是技术问题,而是管理问题——但它的重要性不亚于前9项。当AI系统因为数据问题出现故障时,谁是第一响应人?

  • 数据Owner明确:每个数据源都有明确的责任人(不是"IT部门",而是具体的姓名)。
  • 数据SLA协议:数据Owner与AI团队之间有书面的数据服务级别协议,包含数据可用性、更新频率、质量标准和故障响应时间。
  • 升级路径:当数据Owner在约定时间内未响应时,升级路径和替代联系人已明确。
  • 变更通知流程:业务系统变更(如ERP升级、数据库迁移)会提前至少1周通知AI团队进行兼容性评估。
数据Owner与SLA管理框架
图6:数据治理组织架构 — 数据Owner/SLA协议/升级路径/变更通知

第四部分:数据就绪度自评与行动计划

自评计分规则

对以上10个确认项逐项评估状态:就绪(2分)、部分就绪(1分)、未就绪(0分)。满分20分。

结果解读

第五部分:数据准备的常见陷阱与规避

宝软数字在127个项目中观察到五个反复出现的数据准备陷阱:

陷阱一:把"有数据"等同于"数据可用"

数据在数据库里不等于数据可用。数据库中的字段可能大部分为空、格式不统一、存在大量历史遗留的脏数据。一个客户在启动项目时声称"我们有5年的交易数据",结果发现前3年的数据因为系统迁移丢失了关键字段。教训:在声称"有数据"之前,先抽样验证数据的完整性。

陷阱二:低估数据标注的工作量

微调模型需要高质量标注数据。一个常见错误是以为"用ChatGPT帮我标注就行了"。AI辅助标注可以提高效率,但最终的质量审核必须人工完成。经验法则:标注500条高质量数据至少需要1个全职人员2周时间。

陷阱三:忽略数据的时间敏感性

业务规则会变。两年前的合同模板、一年前的定价策略、半年前的组织架构——如果RAG知识库中包含这些过时信息,AI会自信地输出过时答案。建立知识库文档的"有效期"字段和定期审查机制。

第六部分:数据就绪后的第一步

数据准备就绪后,建议的第一步不是开始写Prompt或调模型,而是先构建一套数据质量监控仪表盘。因为数据质量会随着时间推移而退化——新数据源的接入、业务规则的变更、系统升级——这些都可能悄悄地降低数据质量。如果在AI上线后再发现数据问题,排查和修复的成本会高出5倍以上。

一个基础的数据质量监控仪表盘应至少覆盖:数据新鲜度(最后更新时间)、数据量波动(日环比异常检测)、关键字段空值率、数据格式异常告警。这四类监控只需要1-2天就可以搭建起来,但能为后续的AI开发节省数周的排查时间。

数据就绪度自评:统计10项中状态为"就绪"的数量。8项以上为数据就绪,可以启动AI项目。6-7项为基本就绪,可以先启动MVP但需要并行补齐数据短板。5项以下不建议启动——数据问题会在开发过程中持续拖慢进度和降低质量。