# 学习资源

# 学习网站

# Hadoop实操

  1. Impala合并小文件
    1. 如何使用Impala合并小文件 (opens new window)
      1. set NUM_NODES=1;
      2. 新建一个临时表,然后插入原表数据到临时表,然后在设置NUM_NODES ,在插入回去。
  2. 负载均衡
    1. 如何使用Nginx实现Impala负载均衡 (opens new window)
  3. 资源控制
    1. 如何启用Impala的动态资源池 (opens new window)
    2. Impala动态资源池及放置规则使用 (opens new window)
  4. 客户端连接
    1. 如何使用java代码通过JDBC连接Impala(附Github源码) (opens new window)

# 推荐博客

  1. 实时性和完整性兼得,使用 Kudu 和 Impala 实现透明的分层存储管理 - 知乎 (opens new window)

  2. Impala+Kudu兼顾OLTP和OLAP能力 (opens new window)

    1. Impala类似于Hive
    2. Impala更关注即席查询SQL的快速解析
    3. 长时间执行、较复杂的sql,hive更合适
    4. Impala吃内存,官方推荐内存1285G以上
    5. Hive稳定性好,对机器要求低
    6. Impala与kudu深度继承
    7. Kudu定义:
      1. Kudu是围绕Hadoop生态圈建立存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。
      2. 大部分场景和Hbase类似,降低了随机读写性能,提高了扫描性能
    8. 区别于Hbase,kudu优势?
      1. 快速OLAP类查询处理速度
      2. 与MR、spark高度兼容
      3. 与Impala深度继承,kudu+impala具有更好性能
      4. Kudu继承于CDH
      5. 高可用
      6. 支持结构化数据,纯粹列式存储
    9. Kudu+Impala对我们意味着什么
      1. Kudu+Impala为实时数据仓库存储提供了良好的解决方案
      2. 良好的Scan性能
  3. 回顾·基于Impala平台打造交互查询系统 (opens new window)

    1. image
    2. image
    3. image
    4. image
    5. image
    6. image
    7. image
    8. image
    9. image
    10. image

# 源码解析

# 开源动态

# Bloom Filter

[IMPALA-3741] Push bloom filters to Kudu scanners - ASF JIRA (opens new window)

[KUDU-2483] Scan tablets with bloom filter - ASF JIRA (opens new window)

# 大厂实践

# 神策数据

付力力: 基于Impala构建实时用户行为分析引擎 (opens new window)

日均十亿级别的数据如何做到秒导、秒查 (opens new window)

分析型数据仓库中读写分离的实现 (opens new window)

# 网易

Impala在网易大数据的优化和实践-InfoQ (opens new window)