1. kudu 部署指南(centos)
1. 安装 lsb 依赖
先安装 lsb 依赖:sudo rpm redhat-lsb
2. 安装 kudu
推荐手动安装,因为 cloudera 的源非常不稳定,在 kudu 下载页面 下载以下四个安装包:
1 | kudu-client0-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el6.x86_64.rpm |
在集群中的一台机器安装 master 和 t-server,其余只安装 t-server。
3. 创建 kudu 文件夹
根据空间考虑 kudu 位置:sudo mkdir -p /data8/kudu && sudo chown kudu:kudu /data8/kudu
4. 配置文件设置
master 和 server 的配置文件设置。
master 设置
1 | --fs_wal_dir=/data8/kudu/master |
t-server 设置
1 | --fs_wal_dir=/data8/kudu/tserver |
5. 启动 kudu
1 | sudo service kudu-master start |
6. 安装 kudu-python 模块
一定要确保 pip 是最新版本!!!,并且 Cython 已经安装好,安装 kudu-python 的 1.2.0
版本。
1 | sudo pip install --upgrade pip |
7. kudu 部署参考资料
- http://kudu.apache.org/docs/installation.html#install_packages
- http://www.cnblogs.com/zlslch/p/7607700.html
- kudu python 使用教程(最新)
- kudu python 教程
- 程序园:Kudu Configuration Reference
- hadoop生态圈列式存储系统—kudu介绍及安装配置
- Install kudu on Ubuntu
2. kudu 的 Python 客户端使用
在 Python 下连接使用 Kudu 的方法少得可怜,并且也并非官方宣传的那般快速。
1 | import kudu |
参考资源
- python中使用kudu:https://kudu.apache.org/docs/developing.html#_kudu_python_client
理解kudu与impala之间的联系:https://blog.csdn.net/cdxxx5708/article/details/79074489 - kudu踩坑:https://www.2cto.com/kf/201707/653572.html
- https://blog.cloudera.com/blog/2016/01/interactive-analytics-on-dynamic-big-data-in-python-using-kudu-impala-and-ibis/