4.10 操作Hive数据集

Spark SQL操作Hive数据集

主要讲述Spark SQL操作Hive数据集。Spark SQL支持访问Hive数据仓库,然后在Spark引擎中进行统计分析。

(1) 准备环境,将MySQL驱动包拷贝到Spark安装路径下的Jars目录下,将hive-site.xml配置文件复制到Spark的配置文件目录中;

(2) Hive中创建数据库和数据表,并向该数据表插入数据;

(3) Spark SQL操作Hive数据库,查看当前数据仓库中是否存在person表;

(4) Hive表写入数据,并执行相关指令查看数据表中的数据,发现数据已经成功插入到Hive表中。

 

Last modified: Friday, 29 October 2021, 10:28 AM