東莞網(wǎng)站設(shè)計報價天津百度網(wǎng)站排名優(yōu)化
目前,在Hive/Spark上運行TPC-DS Benchmark主要是通過早期由Hortonworks維護的一個項目:hive-testbench 來完成的。本文我們以該項目為基礎(chǔ)介紹一下具體的操作步驟。不過,該項目僅支持生成ORC和TEXT格式的數(shù)據(jù),如果需要Parquet格式,請參考此文《在Hive/Spark上執(zhí)行TPC-DS基準(zhǔn)測試 (Parquet格式)》。
備注:本文使用的Hive/Spark環(huán)境為AWS EMR,版本:6.11。本文操作須在EMR Master節(jié)點上執(zhí)行!因為腳本中會使用到hdfs、beeline等命令行工具。
1. 前置條件
hive-testbench是在TPC-DS的官方工具包基礎(chǔ)上開發(fā)的,所以它的編譯和安裝與TPC-DS官方工具包的編譯和安裝類似,在build前需要安裝gcc
和maven
,安裝后執(zhí)行如下命令進行build:
sudo yum -y install git
git clone https://github.com/hortonworks/hive-testbench.g