问答题
在(1)~(2)中填写恰当内容(从候选答案中选择一个正确选项,将该选项编号填入答题纸对应栏内)。 针对事件1,要进行数据仓库复杂查询的基准评测,应该选用______基础测试标准。 A.TPCA B.TPCE C.TPCH D.TPCM 针对事件1,要更关注大数据规模下,关系型数据库的性能表现,应该选用______基础测试标准进行测试。 A.TPC AS B.TPC DS C.TPC HS D.TPC MS
【正确答案】正确答案:第一问,TPC-H基准测试是由TPC-D(由TPC组织于1994年指定的标准,用于决策支持系统方面的测试基准)发展而来的。TPC-H用3NF实现了一个数据仓库,共包含8个基本关系,其数据量可以设定1G~3T不等。TPC-H基准测试包括22个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间。TPC-H基准测试的度量单位是每小时执行的查询数(QphH@size),其中H表示每小时系统执行复杂查询的平均次数,size表示数据库规模的大小,它能够反映出系统在处理查询时的能力。TPC-H是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。因此C选项正确。 第二问,TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。TPC-DS的这个特点跟大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。因此B选项正确。