# 学习资源

学习网站
- Hadoop实操
推荐博客
源码解析
开源动态
- Bloom Filter
大厂实践
- 神策数据
- 网易

# 学习网站

# Hadoop实操

Impala合并小文件
1. 如何使用Impala合并小文件 (opens new window)
  1. set NUM_NODES=1;
  2. 新建一个临时表，然后插入原表数据到临时表，然后在设置NUM_NODES ，在插入回去。
负载均衡
1. 如何使用Nginx实现Impala负载均衡 (opens new window)
资源控制
1. 如何启用Impala的动态资源池 (opens new window)
2. Impala动态资源池及放置规则使用 (opens new window)
客户端连接
1. 如何使用java代码通过JDBC连接Impala(附Github源码) (opens new window)

# 推荐博客

实时性和完整性兼得，使用 Kudu 和 Impala 实现透明的分层存储管理 - 知乎 (opens new window)
Impala+Kudu兼顾OLTP和OLAP能力 (opens new window)
1. Impala类似于Hive
2. Impala更关注即席查询SQL的快速解析
3. 长时间执行、较复杂的sql，hive更合适
4. Impala吃内存，官方推荐内存1285G以上
5. Hive稳定性好，对机器要求低
6. Impala与kudu深度继承
7. Kudu定义：
  1. Kudu是围绕Hadoop生态圈建立存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。
  2. 大部分场景和Hbase类似，降低了随机读写性能，提高了扫描性能
8. 区别于Hbase，kudu优势？
  1. 快速OLAP类查询处理速度
  2. 与MR、spark高度兼容
  3. 与Impala深度继承，kudu+impala具有更好性能
  4. Kudu继承于CDH
  5. 高可用
  6. 支持结构化数据，纯粹列式存储
9. Kudu+Impala对我们意味着什么
  1. Kudu+Impala为实时数据仓库存储提供了良好的解决方案
  2. 良好的Scan性能
回顾·基于Impala平台打造交互查询系统 (opens new window)

# 源码解析

# 开源动态

# Bloom Filter

[IMPALA-3741] Push bloom filters to Kudu scanners - ASF JIRA (opens new window)

[KUDU-2483] Scan tablets with bloom filter - ASF JIRA (opens new window)

# 大厂实践

# 神策数据

付力力: 基于Impala构建实时用户行为分析引擎 (opens new window)

日均十亿级别的数据如何做到秒导、秒查 (opens new window)

分析型数据仓库中读写分离的实现 (opens new window)

# 网易

Impala在网易大数据的优化和实践-InfoQ (opens new window)

← Impala Kudu →