# 学习资源
# 学习网站
# Hadoop实操
- Impala合并小文件
- 如何使用Impala合并小文件 (opens new window)
- set NUM_NODES=1;
- 新建一个临时表,然后插入原表数据到临时表,然后在设置NUM_NODES ,在插入回去。
- 如何使用Impala合并小文件 (opens new window)
- 负载均衡
- 资源控制
- 客户端连接
# 推荐博客
实时性和完整性兼得,使用 Kudu 和 Impala 实现透明的分层存储管理 - 知乎 (opens new window)
Impala+Kudu兼顾OLTP和OLAP能力 (opens new window)
- Impala类似于Hive
- Impala更关注即席查询SQL的快速解析
- 长时间执行、较复杂的sql,hive更合适
- Impala吃内存,官方推荐内存1285G以上
- Hive稳定性好,对机器要求低
- Impala与kudu深度继承
- Kudu定义:
- Kudu是围绕Hadoop生态圈建立存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。
- 大部分场景和Hbase类似,降低了随机读写性能,提高了扫描性能
- 区别于Hbase,kudu优势?
- 快速OLAP类查询处理速度
- 与MR、spark高度兼容
- 与Impala深度继承,kudu+impala具有更好性能
- Kudu继承于CDH
- 高可用
- 支持结构化数据,纯粹列式存储
- Kudu+Impala对我们意味着什么
- Kudu+Impala为实时数据仓库存储提供了良好的解决方案
- 良好的Scan性能
回顾·基于Impala平台打造交互查询系统 (opens new window)
# 源码解析
# 开源动态
# Bloom Filter
[IMPALA-3741] Push bloom filters to Kudu scanners - ASF JIRA (opens new window)
[KUDU-2483] Scan tablets with bloom filter - ASF JIRA (opens new window)
# 大厂实践
# 神策数据
付力力: 基于Impala构建实时用户行为分析引擎 (opens new window)
日均十亿级别的数据如何做到秒导、秒查 (opens new window)
分析型数据仓库中读写分离的实现 (opens new window)