- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkSQL预研
说明
本文档不涉及Spark SQL使用的具体操作演示讲解,文档内容格式没有做标准化,不作为正式文档对外发布。本文档会随着对SparkSQL研究的深入持续更新。
文档内容大部分是基于官方文档的理解翻译,如有错误之处,请不吝赐教。
参考官网地址:/sql/
Java API
SparkConf sparkConf = new SparkConf().setAppName(JavaSparkSQL);
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
SQLContext sqlContext = new SQLContext(ctx);
Spark SQL CLI
描述
Sparksql cli 是一个转换工具,在本地模式下,它会将通过命令行的输入转换为Hive metastore service来运行。特别注意:spark sql cli 无法与Thrift JDBC server连接。只能通过beeline方式连接。
启动Spark SQL CLI
将hive的配置文件hive-site.xml放到$spark_home的conf/下。
在spark的spark-env.sh中加入如下配置
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.0/etc/hadoop
启动命令:./bin/spark-sql启动。
Spark-shell on yarn
命令:./bin/spark-shell --master yarn-client --executor-memory 1g --num-executors 10
注意:这里的–master必须使用yarn-client模式,如果指定yarn-cluster,则会报错:
Error: Cluster deploy mode is not applicable to Spark shells.
因为spark-shell作为一个与用户交互的命令行,必须将Driver运行在本地,而不是yarn上。
其中的参数与提交Spark应用程序到yarn上用法一样。
在RM管理界面可以看到spark-sql作为一个长服务的任务运行这yarn上。
Spark-sql on yarn
运行这个命令之前,需要把hive-site.xml放入$spark_home/conf下,把mysql-connector-java-5.1.15-bin.jar放入$spark_home/lib下。
命令:./bin/spark-sql --master yarn-client --executor-memory 1g --num-executors 10
Spark-submit whith hive提交作业
./bin/spark-submit --class testHive.SparkSQLHiveOnYarn --master yarn-cluster /tmp/sparksql.jar
--master 参数需指定为yarn-cluster才能使用yarn分布式资源。
--master 参数值为local[*]时为本地模式执行,此时不会被yarn管理。
说明一下上面使用spark-submit提交的命令:
--master yarn-cluster //指定以yarn-cluster模式运行,关于yarn-cluster和yarn-client的区别,在之前的文章中提到过
--driver-memory 4G //指定Driver使用的内存为4G,
//如果太小的话,会报错:Exception: java.lang.OutOfMemoryError thrown from the UncaughtExceptionHandler in thread “Driver”
--driver-java-options “-XX:MaxPermSize=1G” //指定Driver程序JVM参数
–files $HIVE_HOME/conf/hive-site.xml //将Hive的配置文件添加到Driver和Executor的classpath中
--jars $HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar,…. //将Hive依赖的jar包添加到Driver和Executor的classpath中
//需要依赖的jar包有:mysql-connector-java-5.1.15-bin.jar、datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10
文档评论(0)