TPC-DS 基准测试通过模拟决策支持工作负载(涉及复杂的查询和大规模数据处理)来评估大数据系统。它对零售公司的数据生态系统进行建模,包括销售、库存和客户互动,以测试系统处理分析任务的能力。该基准测试结合了真实的模式、多样化的查询模式和并发用户模拟,以衡量查询响应时间、吞吐量和可伸缩性等性能指标。这使其成为评估专为数据仓库、商业智能或高级分析设计的系统的综合工具。
TPC-DS 使用星型模式,其中包含事实表(例如,销售额、退货额)和维度表(例如,客户、产品)来复制真实世界的数据关系。它包括 99 个 SQL 查询,涵盖联接、聚合和窗口函数等操作,旨在对系统的不同方面进行压力测试。例如,查询 19 涉及多表联接和大型聚合以分析销售趋势,而查询 72 使用子查询和相关聚合来评估客户行为。此外,该基准测试还包含数据维护任务,例如加载新数据或更新现有记录,以评估系统如何在分析工作负载的同时处理 ETL(提取、转换、加载)工作流。通过模拟多个用户同时提交查询来测试并发性,从而确保系统可以在实际需求下进行扩展。
开发人员可以使用 TPC-DS 通过运行基准测试并测量总执行时间或每小时查询数等指标来比较 Hadoop、Spark 或基于云的数据仓库等系统。例如,一个团队可能会通过针对 10 TB 数据集运行所有 99 个查询并将结果与竞争系统进行比较来测试 Spark 集群的性能。基准测试的标准化数据生成工具可确保一致性,从而可以跨平台进行公平比较。虽然 TPC-DS 没有强制规定特定的硬件配置,但它提供了用于可重现测试的指南,从而帮助团队优化硬件、软件或查询执行计划。通过关注真实世界的场景,它可以帮助识别瓶颈(例如,缓慢的联接操作或资源争用),并验证查询优化器或存储层中的改进。