数据准备就绪清单——AI项目启动前10个确认

在AI领域有一句流传甚广的格言："垃圾进，垃圾出"（Garbage In, Garbage Out）。但这句话低估了问题的严重性——在AI项目中，不只是"垃圾出"那么简单，糟糕的数据会导致模型产生系统性的偏见、幻觉和安全漏洞。宝软数字的数据显示，企业AI项目失败的根因中，数据问题占比高达41%，远超模型选型错误（23%）和架构设计缺陷（18%）。

以下10个确认项，必须在AI项目正式启动开发之前全部通过。每延迟一天处理数据问题，后续需要付出三天的代价来修复。这不是估算，而是从多个延期项目中统计出来的实际比例。

铁律：10个确认项中，任何一项状态为"未就绪"，AI项目开发工作不应启动。先用时间把数据地基打牢，而不是在流沙上建高楼。

数据准备就绪检查10项总览 — 图1：AI项目数据准备就绪10项检查总览 — 从数据发现到持续供给的全流程

第一部分：数据基础（4项）

数据是否真实存在且可访问？

听起来像是废话，但宝软数字在项目启动会上问出"数据在哪里"时，遇到过太多令人意外的回答："在几个Excel里"、"在某个离职员工的电脑上"、"应该有，我再问问"。这不是笑话，而是真实发生过的对话。

就绪标准：

数据源已明确标识（系统名、数据库名、表名、字段名）
数据可以通过API或数据库连接被程序化访问（不是手动导出Excel）
已完成一次测试读取，确认连接通畅且数据可读取
数据源有明确的负责人和备份联系人（防止唯一知情人休假或离职）

就绪：4项全部满足

部分就绪：满足2-3项

未就绪：满足<2项

数据量是否足够支撑AI训练或RAG检索？

数据量的"足够"取决于你的AI应用类型。一个粗略但实用的参考标准：

RAG知识库：至少500篇文档，覆盖80%以上的常见用户问题。如果文档少于100篇，RAG的检索质量会严重下降。
分类/识别模型微调：每个类别至少500个样本，且类别间数量尽量平衡（最大不超过3:1）。
生成式模型微调：至少5000条高质量的输入-输出对，且覆盖各种边界场景。

就绪标准：实际可用的数据量已达到最低要求的1.5倍（留出测试集和验证集）。

数据质量是否达标？

数据质量是AI项目中最耗时的环节。在开始编码之前，必须对数据做以下四个维度的质量评估：

完整性：关键字段的空值率。如果核心业务字段（如客户名称、产品编码、金额）空值率超过5%，需要先补齐。
一致性：同一实体在不同系统中的表述是否一致。例如"上海宝软信息技术有限公司"可能在CRM中是"上海宝软"，在ERP中是"宝软信息"，在合同中又是"宝软"。这些不一致会让AI困惑。
准确性：随机抽取200条数据人工核查，错误率不应超过3%。
时效性：数据的最后更新日期。超过一年未更新的数据可能已经与实际业务脱节。

就绪标准：四个维度全部达到上述阈值，且有数据质量报告作为证据。

数据的格式和结构是否适合AI处理？

这是技术人员最常忽略但影响最大的问题。AI系统对数据格式有特殊要求：

文档格式：PDF扫描件（图片型PDF）需要先做OCR识别，准确率应在95%以上。Word文档中的表格、图片中的文字需要特殊提取。
结构化数据：JSON/CSV格式最优。Excel中的合并单元格、多行表头、颜色编码（"红色表示已过期"）都需要预处理。
多语言/特殊字符：确认字符编码为UTF-8。检查是否存在乱码、特殊符号、不规范的换行符。

就绪标准：已完成一次端到端的格式转换和验证，确认AI系统可以正常读取和解析所有数据。

第二部分：数据标注与治理（3项）

需要标注的数据是否已制定标注规范？

如果你计划微调模型，数据标注是绕不开的一步。标注质量直接决定模型的上限。在启动标注之前必须完成：

标注规范文档：明确定义每个标签的含义、标注边界（比如"客户投诉"和"客户咨询"的区分标准）、标注优先级。包含至少10个正例和10个反例。
标注一致性验证：让两个标注员独立标注同一批50条数据，计算Cohen's Kappa系数。如果低于0.7，说明标注规范不够清晰，需要修订。
标注平台和流程：已选定标注工具（自建或采购），标注任务分配和质检流程已定义。

数据隐私和合规是否有保障？

这是数据准备中最容易引发法律风险的环节。在AI项目启动前必须确认：

PII（个人可识别信息）已脱敏：姓名、身份证号、手机号、邮箱、地址、银行卡号——这些在进入AI处理管道之前必须做脱敏或匿名化处理。
数据使用授权：训练数据的使用是否在用户授权范围内？如果你收集数据时的隐私政策没有提到"用于AI训练"，现在使用可能构成违规。
数据分类分级：按照《数据安全法》完成了数据分类分级，确认AI项目所涉及的数据中没有"核心数据"或需要特殊保护的"重要数据"。
跨境数据传输：如果数据会流经境外服务器（使用海外AI API时），确认这符合行业监管要求。

是否有数据版本管理和变更追踪机制？

数据是会变化的——业务规则调整、系统升级、新数据源接入，都可能改变数据结构或内容。如果AI系统不知道数据已经变了，就会出现"用昨天的规则处理今天的数据"的问题。

数据版本标记：每次数据更新都有唯一的版本号和时间戳。
Schema变更通知：数据库表结构变更时，AI团队能在变更上线前收到通知。
数据回滚能力：如果新版本数据导致AI质量下降，可以在4小时内回滚到上一个稳定版本。

数据标注与治理流程 — 图4：数据标注与治理全流程 — 标注规范/质量检验/隐私脱敏/版本管理

第三部分：数据持续供给（3项）

数据更新的频率和延迟能满足AI的SLA吗？

AI模型不是"训练一次管三年"的系统。业务数据在持续变化，AI的知识也需要持续更新。不同场景对数据新鲜度有不同要求：

实时场景（客服、推荐、风控）：数据延迟不超过5分钟。需要CDC（Change Data Capture）或消息队列实现近实时同步。
准实时场景（报表、周报生成）：数据延迟不超过1小时。T+1的批处理通常可以满足。
离线场景（月度分析、年度总结）：每日更新即可。

就绪标准：已搭建数据同步管道（ETL/ELT），在实际数据量下完成了一次端到端的同步测试，确认延迟和吞吐量满足要求。

数据管道是否有容错和监控能力？

数据管道是AI系统的"血管"。血管堵了，整个系统就缺血。数据管道必须具备以下能力：

异常检测：数据量突然暴跌、数据格式变化、延迟飙升——这些异常必须在5分钟内触发告警。
自动重试：临时故障（网络抖动、数据库连接超时）应自动重试，无需人工介入。
死信队列（DLQ）：无法自动修复的数据应进入死信队列，保留原始数据等待人工处理，不能静默丢弃。
监控仪表盘：管道各环节的处理量、延迟、错误率一目了然。

是否有明确的数据Owner和SLA协议？

最后一个确认项不是技术问题，而是管理问题——但它的重要性不亚于前9项。当AI系统因为数据问题出现故障时，谁是第一响应人？

数据Owner明确：每个数据源都有明确的责任人（不是"IT部门"，而是具体的姓名）。
数据SLA协议：数据Owner与AI团队之间有书面的数据服务级别协议，包含数据可用性、更新频率、质量标准和故障响应时间。
升级路径：当数据Owner在约定时间内未响应时，升级路径和替代联系人已明确。
变更通知流程：业务系统变更（如ERP升级、数据库迁移）会提前至少1周通知AI团队进行兼容性评估。

数据Owner与SLA管理框架 — 图6：数据治理组织架构 — 数据Owner/SLA协议/升级路径/变更通知

第四部分：数据就绪度自评与行动计划

自评计分规则

对以上10个确认项逐项评估状态：就绪（2分）、部分就绪（1分）、未就绪（0分）。满分20分。

结果解读

16-20分（数据就绪）：可以启动AI项目。数据基础扎实，建议直接进入MVP开发阶段。
12-15分（基本就绪）：可以先启动MVP但需要并行补齐数据短板。建议MVP选择数据条件最好的业务场景。
8-11分（部分就绪）：建议用2-4周时间优先解决得分最低的3个确认项，再启动开发。仓促上马失败的概率超过60%。
低于8分（尚未就绪）：不建议启动AI项目开发。先集中精力做数据基础建设，4-6周后重新评估。

第五部分：数据准备的常见陷阱与规避

宝软数字在127个项目中观察到五个反复出现的数据准备陷阱：

陷阱一：把"有数据"等同于"数据可用"

数据在数据库里不等于数据可用。数据库中的字段可能大部分为空、格式不统一、存在大量历史遗留的脏数据。一个客户在启动项目时声称"我们有5年的交易数据"，结果发现前3年的数据因为系统迁移丢失了关键字段。教训：在声称"有数据"之前，先抽样验证数据的完整性。

陷阱二：低估数据标注的工作量

微调模型需要高质量标注数据。一个常见错误是以为"用ChatGPT帮我标注就行了"。AI辅助标注可以提高效率，但最终的质量审核必须人工完成。经验法则：标注500条高质量数据至少需要1个全职人员2周时间。

陷阱三：忽略数据的时间敏感性

业务规则会变。两年前的合同模板、一年前的定价策略、半年前的组织架构——如果RAG知识库中包含这些过时信息，AI会自信地输出过时答案。建立知识库文档的"有效期"字段和定期审查机制。

第六部分：数据就绪后的第一步

数据准备就绪后，建议的第一步不是开始写Prompt或调模型，而是先构建一套数据质量监控仪表盘。因为数据质量会随着时间推移而退化——新数据源的接入、业务规则的变更、系统升级——这些都可能悄悄地降低数据质量。如果在AI上线后再发现数据问题，排查和修复的成本会高出5倍以上。

一个基础的数据质量监控仪表盘应至少覆盖：数据新鲜度（最后更新时间）、数据量波动（日环比异常检测）、关键字段空值率、数据格式异常告警。这四类监控只需要1-2天就可以搭建起来，但能为后续的AI开发节省数周的排查时间。

数据就绪度自评：统计10项中状态为"就绪"的数量。8项以上为数据就绪，可以启动AI项目。6-7项为基本就绪，可以先启动MVP但需要并行补齐数据短板。5项以下不建议启动——数据问题会在开发过程中持续拖慢进度和降低质量。

第一部分：数据基础（4项）

数据是否真实存在且可访问？

数据量是否足够支撑AI训练或RAG检索？

数据质量是否达标？

数据的格式和结构是否适合AI处理？

第二部分：数据标注与治理（3项）

需要标注的数据是否已制定标注规范？

数据隐私和合规是否有保障？

是否有数据版本管理和变更追踪机制？

第三部分：数据持续供给（3项）

数据更新的频率和延迟能满足AI的SLA吗？

数据管道是否有容错和监控能力？

是否有明确的数据Owner和SLA协议？

第四部分：数据就绪度自评与行动计划

自评计分规则

结果解读

第五部分：数据准备的常见陷阱与规避

陷阱一：把"有数据"等同于"数据可用"

陷阱二：低估数据标注的工作量

陷阱三：忽略数据的时间敏感性

第六部分：数据就绪后的第一步

数据地基不牢，AI大楼必倒