在 cassandra 中选择不同计数的方法是啥?

Posted

技术标签:

【中文标题】在 cassandra 中选择不同计数的方法是啥?【英文标题】:What are the ways to select distinct count in cassandra?在 cassandra 中选择不同计数的方法是什么? 【发布时间】:2020-01-28 08:01:21 【问题描述】:

我需要在 cassandra 的表中选择不同的计数。

据我了解,cassandra 不支持直接不同计数,甚至不支持像 rdbms 这样的嵌套查询。

select count(*) from (select distinct key_part_one from ***_composite) as count;

SyntaxException:第 1:21 行在输入 '(' 处没有可行的替代方案 (select count(*) from [(]...)

获取途径有哪些。我是否可以直接从 cassandra 获取或需要使用任何插件工具/语言?

下面是我的创建表语句。

CREATE TABLE nishant_ana.ais_profile_table (
    profile_key text,
    profile_id text,
    last_update_day date,
    last_transaction_timestamp timestamp,
    last_update_insertion_timestamp timeuuid,
    profile_data blob,
    PRIMARY KEY ((profile_key, profile_id), last_update_day)
) WITH CLUSTERING ORDER BY (last_update_day DESC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = 'keys': 'ALL', 'rows_per_partition': 'NONE'
    AND comment = ''
    AND compaction = 'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'
    AND compression = 'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

我刚刚开始使用 cassandra。

【问题讨论】:

【参考方案1】:

在 Cassandra 中,您只能执行 select distinct partition_key from ...

如果你需要这样的东西,你可以使用 Spark + Spark Cassandra Connector - 它会工作,但不要指望真正的实时答案,因为它需要从所有节点读取必要的数据,然后计算答案。

【讨论】:

以上是关于在 cassandra 中选择不同计数的方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

Cassandra,运行子查询的有效方法是啥

布隆过滤器在 cassandra 中的作用是啥?

有没有办法在 cassandra 中过滤计数器列?

如何在 hbase 表中获取计数记录?查询记录的最快方法是啥?

cassandra中多表ACID事务的解决方法是啥

将数据加载到 Cassandra 列族的最快方法是啥