Skip to content

什么是 ClickHouse

Click Stream

DataWare House

概述

ClickHouse 是一个开源的列式数据库管理系统,主要用于在线分析处理(OLAP)查询。由 Yandex 于 2016 年开源,ClickHouse 以其高性能、高并发性和实时数据分析能力而著称,广泛应用于大数据分析、实时数据流处理、监控和日志分析等场景。

特点

1. 列式存储

ClickHouse 采用列式存储,这使得它在处理大规模数据分析查询时非常高效。相比于行存储,列式存储可以更好地利用 CPU 缓存,并且只读取查询所需的列,从而减少了 I/O 操作。

2. 高性能

ClickHouse 能够在大型数据集上快速执行复杂的查询,得益于其以下特性:

  • 数据压缩:通过高效的压缩算法,减少存储空间和 I/O 负载。
  • 向量化执行:批量处理数据,充分发挥现代 CPU 的向量化计算能力。
  • 单指令多数据(SIMD)优化:利用 CPU 的 SIMD 指令集,加速数据处理。

3. 分布式架构

ClickHouse 支持分布式部署,可以将数据分片存储在多个节点上,并行处理查询,从而提高数据处理能力和系统吞吐量。

4. 实时数据插入和查询

ClickHouse 支持实时数据插入,并能够在数据写入的同时进行查询。这使得它非常适合于实时数据分析和监控。

5. 兼容 SQL

ClickHouse 兼容 SQL 标准,用户可以使用熟悉的 SQL 语法进行数据查询和管理。同时,ClickHouse 也扩展了一些功能,以支持高效的 OLAP 查询。

应用场景

1. 日志分析

ClickHouse 常用于处理和分析日志数据,例如 Web 服务器日志、应用程序日志和监控日志。通过实时插入和高效查询功能,用户可以快速获取所需的分析结果。

2. 用户行为分析

对于需要分析用户行为的大型互联网公司,ClickHouse 提供了高性能的数据处理能力,能够处理海量点击流数据、用户行为数据等。

3. 实时监控

在系统监控和运维中,ClickHouse 可以处理实时采集的数据,并提供实时查询和可视化支持,帮助运维人员快速定位问题。

4. 数据仓库

ClickHouse 作为数据仓库,可以存储和分析企业大数据,支持复杂的 OLAP 查询,帮助企业做出数据驱动的决策。

总结

ClickHouse 是一个强大且高效的列式数据库管理系统,专为 OLAP 查询设计。其高性能、分布式架构和实时数据处理能力,使其在大数据分析领域得到了广泛应用。无论是日志分析、用户行为分析、实时监控还是数据仓库,ClickHou

https://xie.infoq.cn/article/37886f3baca09057580bdd5aa

内存的限制。 一些参数默认是根据物理内存自动计算的。再容器中存在问题, 容器中查看的是实体机的内容,不是容器启动时限制的内存。再计算内存分配时产生混淆问题。

max_memory_usage_soft_limit max_server_memory_usage merges_mutations_memory_usage_soft_limit