CarbonData集群模式体验

  • 时间:
  • 浏览:1

可能引入了Kettle的库,而该库还要在运行的服务器上读取可是我 配置文件(如kettle.properties),什么都还要做有另一个 配置。亲戚亲戚朋友前面可能将kettle 派发到各个节点了,现在把路径要告诉Carbon,通过如下的最好的措施 :

csv文件需可是我.csv 为后缀,可是我还要带有header。当然,可能你生成的csv文件那末header,也可以通过在load data时指定FIELDHEADER来完成。

现在可以执行打包指令了:

另外随便说说CarbonData 也提供了标准的Spark SQL API(Datasource)方便你导入数据,参看

可能你可能有可能可以可是我 人产生csv相关的数据,则可以忽略本节。

下载有另一个 jar包:

这里也介绍另外并全是最好的措施 ,以从ES导出数据为csv为例:

,不过是采用spark-shell local模式的。我这里在实际集群环境做了下测试,可是我记录了下过程,希望对亲戚亲戚朋友有所帮助。

截止到本文章发出,CarbonData 明确支持的Spark版本是 1.5.2(默认) 以及 1.6.1。 而相应的,hadoop版本有2.2.0 和 2.7.2,理论上大次要2.0 可是我的hadoop版本应该全是兼容的。

可是我就运行起来了,进入spark shell。

可是我 表信息,索引信息全是处在该目录的。可能写入权限过低,load数据的可是我,会突然出现 如下的异常:

可能下次你在启动spark-shell可能提交新的应用时,还要保持可是我 路径(storePath)的不变,可是我会突然出现 表不处在的哪几个的问题报告 。类似:

。内部人员本质也是帮你把数据转化成csv可是我再导入的:

hive-site.xml文件一般会配置有另一个 目录:

可是我将你的Hive 的hive-site.xml 文件拷贝到你的SPAKR_HOME/conf 目录下。conf 目录会被自动打包发送到集群上。另外并全是取舍是在提交的可是我通过--files 指定hive-site.xml文件也是OK的,亲戚亲戚朋友推荐第并全是最好的措施 。

可是我将修改后的配置上传到hdfs上。假设路径是: 

貌似不支持float,还要用double类型。

CarbonContext 的第3个参数是主存储路径,确保你设置的目录,spark-shell 启动账号是具有写入权限。通常我会做如下操作:

配置完成后检查下,确保carbondata-kettle下有个.kettle 的隐藏目录,该目录有kettle.properties文件。各个Slave节点全是加载该配置文件

可能可是我 目录在Slave节点不处在,你进入Spark 各个节点(Executor)的日志,可以看一遍很明显的错误,提示 kettle.properties 找只有。 而更明显的哪几个的问题报告 是,数据载入会不成功。

你还要确保你会是还要运行的tcp连接运行对着有另一个 目录相应的权限。可能权限过低,tcp连接运行会较为明显的告诉你哪几个的问题报告 所在,什么都关注下命令行的输出即可。

Note:Thrift 主可是我用来编译carbon-format模块用的,后面 全是可是我 thrift文件,还要生成java文件。可是我 可是我 版本应该也是可以的,比如我用的可是我0.9版本

什么都--jars 一共有3个包:

可是我就可以指定hadoop 2.6.0 编译了。不过可是我 是可选项,如前所述,理论上大次要版本全是兼容的。

理论上hive-site.xml的配置里可能有哪几个信息了,不过也可以显示设置下。

到目前为止 CarbonContext 可能设置完毕,可以往后面 装载数据了。现阶段,CarbonData 支持CSV数据直接装载进CarbonData。

接着将可是我 包派发到各个Slave节点上(hadoop集群上),假定最后的目录是:

我编译过什么都次,都没遇到啥哪几个的问题报告 。可能有哪几个的问题报告 ,不妨留言给我。可是我 可是我你应该得到了carbondata的jar包了:

首先下载有另一个 mysql-connector,倒入你准备提交Spark任务的机器上(有SPARK_HOME的机器上)的某个目录,比如我这里是:

CarbonData 现阶段依赖于Kettle 以及 Hive Metastore。 依赖于Kettle 是可能可是我 数据处置逻辑Kettle可能有实现(譬如多tcp连接运行等),而使用Hive Metastore 则是可能用Hive的人多。后面 考虑会去除哪几个依赖,当还要体验搞笑的话,还要额外做些配置。

官方提供了有另一个 快速上手的

可能现阶段CarbonData 依赖于Hive/Kettle,什么都还要做可是我 额外配置,自身的配置可能足够简单,只还要个storePath。在集群环境里,亲戚亲戚朋友还还要注意权限相关的哪几个的问题报告 。

在 SPARK_HOME/lib 下还有有另一个 datanucleus开头的包,亲戚亲戚朋友也通过--jars 参数上加

可是我专门写过一篇CarbonData的文章;由CarbonData想到了存储和计算的关系。可惜碍于时间哪几个的问题报告 到现在才刚开始真正的尝试。

打开pom.xml文件,可是我找到<profiles>标签,可是我加入

原本你就生成了有另一个 csv格式的数据