SparkSQL预研讲述.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkSQL预研 说明 本文档不涉及Spark SQL使用的具体操作演示讲解,文档内容格式没有做标准化,不作为正式文档对外发布。本文档会随着对SparkSQL研究的深入持续更新。 文档内容大部分是基于官方文档的理解翻译,如有错误之处,请不吝赐教。 参考官网地址:/sql/ Java API SparkConf sparkConf = new SparkConf().setAppName(JavaSparkSQL); JavaSparkContext ctx = new JavaSparkContext(sparkConf); SQLContext sqlContext = new SQLContext(ctx); Spark SQL CLI 描述 Sparksql cli 是一个转换工具,在本地模式下,它会将通过命令行的输入转换为Hive metastore service来运行。特别注意:spark sql cli 无法与Thrift JDBC server连接。只能通过beeline方式连接。 启动Spark SQL CLI 将hive的配置文件hive-site.xml放到$spark_home的conf/下。 在spark的spark-env.sh中加入如下配置 export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.0/etc/hadoop 启动命令:./bin/spark-sql启动。 Spark-shell on yarn 命令:./bin/spark-shell --master yarn-client --executor-memory 1g --num-executors 10 注意:这里的–master必须使用yarn-client模式,如果指定yarn-cluster,则会报错: Error: Cluster deploy mode is not applicable to Spark shells. 因为spark-shell作为一个与用户交互的命令行,必须将Driver运行在本地,而不是yarn上。 其中的参数与提交Spark应用程序到yarn上用法一样。 在RM管理界面可以看到spark-sql作为一个长服务的任务运行这yarn上。 Spark-sql on yarn 运行这个命令之前,需要把hive-site.xml放入$spark_home/conf下,把mysql-connector-java-5.1.15-bin.jar放入$spark_home/lib下。 命令:./bin/spark-sql --master yarn-client --executor-memory 1g --num-executors 10 Spark-submit whith hive提交作业 ./bin/spark-submit --class testHive.SparkSQLHiveOnYarn --master yarn-cluster /tmp/sparksql.jar --master 参数需指定为yarn-cluster才能使用yarn分布式资源。 --master 参数值为local[*]时为本地模式执行,此时不会被yarn管理。 说明一下上面使用spark-submit提交的命令: --master yarn-cluster //指定以yarn-cluster模式运行,关于yarn-cluster和yarn-client的区别,在之前的文章中提到过 --driver-memory 4G //指定Driver使用的内存为4G, //如果太小的话,会报错:Exception: java.lang.OutOfMemoryError thrown from the UncaughtExceptionHandler in thread “Driver” --driver-java-options “-XX:MaxPermSize=1G” //指定Driver程序JVM参数 –files $HIVE_HOME/conf/hive-site.xml //将Hive的配置文件添加到Driver和Executor的classpath中 --jars $HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar,…. //将Hive依赖的jar包添加到Driver和Executor的classpath中 //需要依赖的jar包有:mysql-connector-java-5.1.15-bin.jar、datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档