2025-11-29 实操教程 EIOS

数据准备清单——AI上线前必须做好的7件事

有一句在AI圈广为流传的话："垃圾进，垃圾出（Garbage In, Garbage Out）"。AI模型再先进，如果喂给它的数据是脏的、乱的、缺失的，它的输出就会像是一个看了错误地图的导航——它很自信，但方向全错。

根据我们对近百个AI项目的分析，数据准备阶段往往占据了项目总时间的40%-60%。这听起来很多，但跳过这一步的代价更大——一个基于错误数据做出错误分析的AI系统，比没有AI系统更危险。因为它给了你错误的信心。

本文列出AI上线前必须做好的7项数据准备工作，每项附带具体操作方法和验收标准。

一、数据盘点：你到底有哪些数据？

这是最基础但最容易被跳过的一步。很多企业以为自己知道有哪些数据，直到开始盘点才发现真相——数据分散在ERP、CRM、Excel、纸质档案、微信聊天记录、甚至某些老员工的脑袋里。

具体操作方法：制作一张"数据资产清单"表格，列出所有业务系统中存储的数据类型。字段包括：数据名称（如"客户基本信息""销售订单""库存变动记录"）、存储位置（系统名称+表名/文件名）、更新频率（实时/每日/每月）、负责人（谁在维护这些数据）、数据格式（结构化/非结构化）、AI相关度（高/中/低——判断这些数据对AI决策是否有用）。

验收标准：完成所有核心业务系统的数据盘点，至少覆盖财务、销售、客户、供应链、人力资源五大领域。每个领域至少识别出3-5个关键数据集。

二、数据质量评估：你的数据到底有多"脏"？

盘点完数据后，要诚实面对数据质量问题。常见的数据质量问题包括：重复数据（同一个客户在系统里出现了三次，三次名字略有不同）、缺失数据（订单表里"客户来源"字段有30%是空的）、不一致数据（同一个产品在ERP里叫"A型钢材"，在CRM里叫"A级钢"）、过期数据（两年前的供应商联系方式还在用）、错误数据（销售金额多了一个零，可能是录入错误）。

具体操作方法：对每个关键数据集运行质量检查。检查维度：完整性（非空字段比例）、唯一性（重复记录比例）、一致性（跨系统同一字段的值是否一致）、时效性（数据更新时间是否在规定范围内）、准确性（抽样人工核验）。

验收标准：核心数据集的关键字段完整性达到95%以上，关键数据表无重复记录，跨系统核心字段一致性达到90%以上。

三、数据清洗：脏数据不配进AI

评估完成后，接下来是清洗。数据清洗是一个体力活，但它决定了AI大脑的"智商"。

清洗优先级：不是所有脏数据都需要立即清洗。按两个标准排优先级——这个数据对AI决策的重要性（高优先）和这个数据的脏乱程度（严重优先）。如果一个数据集对AI完全不重要，可以暂时搁置。

具体操作：统一命名规范——制定企业内部的数据标准（如客户名称用全称不用简称、产品编号用统一编码、日期格式统一为YYYY-MM-DD）；去重合并——用工具或脚本识别重复记录，保留最完整的一条；补全缺失——对关键字段的缺失值，能补的补（从其他系统或人工确认），不能补的标注"未知"；修正错误——人工抽查10%的样本，发现错误模式后批量修正。

验收标准：重点数据集的错误率低于1%，核心字段无系统性缺失。

四、数据集成：让数据之间能对话

这是AI项目最重要的数据准备工作。AI的价值很大程度上来自"跨系统洞察"——把财务数据和销售数据放在一起分析，把客户数据和交付数据放在一起对比。但如果这些数据在各自的系统里互不相通，AI的视野就是碎片化的。

具体操作：确认所有核心系统是否提供API接口或数据库访问权限；建立数据集成方案——是通过API实时调用，还是通过数据库视图每日同步，还是通过中间数据仓库；建立统一的数据字典——确保"客户ID""产品编号""部门代码"等关键标识在不同系统间含义一致；做一次端到端的数据流转测试——从系统A取一条数据，经过集成层，确认AI能正确识别和使用。

验收标准：至少完成2-3个核心系统之间的数据打通，AI能够在一个查询中同时访问来自不同系统的数据。

五至七：安全、权限与更新机制

第五件事：数据安全与权限控制

AI系统会访问大量的企业数据，这意味着数据安全的风险面扩大了。你需要做：数据分级——明确哪些数据是公开的、哪些是内部使用的、哪些是高度敏感的；访问控制——AI系统应该只访问它需要的数据，而不是所有数据（最小权限原则）；审计日志——AI对数据的每一次访问和输出都应该被记录，便于事后追溯；敏感信息脱敏——如身份证号、手机号等在AI输出中自动遮盖。

第六件事：数据更新与同步机制

AI的数据如果是一个月前的版本，它的分析和建议就是基于过时信息的。你需要建立数据更新机制：确定每个数据集的更新频率（实时、每小时、每天、每周）；建立数据同步失败的告警机制（如果数据超过24小时没有更新，相关责任人和AI系统使用者都会收到提醒）；定期做数据新鲜度检查（每周抽查关键数据集的最后更新时间）。

第七件事：数据质量持续监控

数据准备不是一次性的，而是持续的。你需要：设置关键数据质量指标（完整率、准确率、及时率）的监控面板；建立数据质量异常的预警机制；指定数据质量的责任人（不是IT部门，而是数据的"产地"部门——谁产生数据谁负责质量）；每月做一次数据质量回顾。

六、数据准备的常见陷阱与应对

陷阱一：追求完美数据。有些企业觉得"等我们把数据弄完美了再上AI"，结果是永远等不到那一天。数据永远有瑕疵。AI可以处理一定程度的数据不完美——只要不是系统性的严重错误。80分的数据就足以开始，边用边改进。

陷阱二：只清洗不治理。洗了一次数据，两周后又脏了——因为产生数据的源头没有改变。数据治理比数据清洗更重要。从源头建立规范——录入时有格式校验、系统间有统一标准、变更有审批流程。

陷阱三：IT部门独自负责数据准备。IT部门可以执行数据清洗的技术工作，但他们不知道业务上什么是"正确的数据"。一个订单金额到底是应该含税还是不含税——IT不知道，只有业务部门知道。数据准备必须是IT和业务部门的联合行动。

补充提醒：数据准备的"二八法则"。在数据准备中，80%的价值来自20%的数据。你不必对所有数据一视同仁地投入精力。集中火力在"对AI决策最重要的20%数据"上——通常是财务报表、客户订单、库存记录和合同信息。这些核心数据的质量提升，会直接影响AI输出的质量和可信度。而一些边缘数据（如三年前的员工培训记录）即便质量不佳，对AI的日常使用影响也不大。识别你的"关键20%"，把80%的数据准备资源投入其中。

另外，数据准备过程中有一个容易被忽略的环节：业务规则的文档化。AI需要理解的不只是"数据是什么"，还包括"数据背后的业务逻辑"。比如'毛利率'这个字段，AI能查到数字，但它需要你告诉它：毛利率低于多少算异常？不同产品线的毛利率基准是否不同？季节性因素是否影响毛利率的判断？这些业务规则不在数据库里，而在老员工的经验里。在数据准备阶段，花半天时间与业务骨干一起，把最核心的5-10条业务判断规则写在文档里，对AI的实际表现会有质的提升。

项数据准备工作

40-60%

项目时间占比

95%

关键字段完整率目标

大核心业务领域

"数据准备是AI项目中最不性感的环节。没有人会在会议上为'我们完成了数据清洗'而鼓掌。但没有这个环节，后面的所有鼓掌都不会发生。"