大数据快速运算（共享）: 4.10 操作Hive数据集

4.10 操作Hive数据集

Spark SQL操作Hive数据集

主要讲述Spark SQL操作Hive数据集。Spark SQL支持访问Hive数据仓库，然后在Spark引擎中进行统计分析。

（1）准备环境，将MySQL驱动包拷贝到Spark安装路径下的Jars目录下，将hive-site.xml配置文件复制到Spark的配置文件目录中；

（2）在Hive中创建数据库和数据表，并向该数据表插入数据；

（3） Spark SQL操作Hive数据库，查看当前数据仓库中是否存在person表；

（4）向Hive表写入数据，并执行相关指令查看数据表中的数据，发现数据已经成功插入到Hive表中。

Last modified: Friday, 29 October 2021, 10:28 AM