数据治理通过结构化的流程来处理遗留系统,这些流程在现代化与实用性之间取得平衡,从而应对其独特的挑战。遗留系统通常缺乏对现代治理要求的内置支持,例如数据沿袭跟踪、访问控制或元数据管理。为了管理这一点,团队通常首先清点遗留数据源,记录其结构,并映射数据如何在旧系统和新基础设施之间流动。例如,使用平面文件存储的遗留大型机可能需要自定义脚本来提取元数据或执行保留策略,而数十年历史的数据库可能需要包装器才能与现代审计工具集成。 目标是在最大限度减少中断的同时,确保符合当前的治理标准。
一个关键策略是实施中间层或适配器,以将遗留系统与治理框架桥接起来。开发人员可能会构建 API 以将遗留数据暴露给集中式治理工具,在集成点应用标记或分类规则,或使用中间件来记录访问事件。例如,基于 COBOL 的工资系统可以用 REST API 包装,该 API 在允许查询之前强制执行基于角色的访问控制。 这避免了代价高昂的重写,同时启用了审计跟踪等治理功能。团队还可以优先考虑增量更新,例如向遗留文件传输添加加密或将基本元数据字段改造到旧数据库中,而不是尝试一步到位地进行完全现代化。
具体示例包括使用 ETL 管道将遗留数据迁移到受治理的存储(例如,将 VSAM 文件移动到带有标记的云数据湖),或者实施代理服务来拦截和验证对遗留 API 的请求。在一个真实的案例中,一家金融机构使用读时模式方法,通过在摄取期间创建元数据目录和访问策略,将治理规则应用于 Hadoop 中非结构化的遗留数据。 使用遗留系统的开发人员应专注于创建隔离边界(例如用于测试治理更改的数据沙箱)并自动执行以前存在的手动流程的合规性检查。 重点是尊重技术债务的实用解决方案,同时防止遗留系统成为治理盲点。