从ES数据库中随机抽样10%的数据

Posted Lana啦啦啦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从ES数据库中随机抽样10%的数据相关的知识,希望对你有一定的参考价值。

如果数据量比较小,从 Elasticsearch 数据库中随机抽取 10% 的数据,可以使用以下步骤来实现:

  1. 使用 Elasticsearch 的 Search API 搜索数据库中的数据。
  2. 使用 QueryBuilder 构建查询语句,并指定要查询的索引和类型。
  3. 在查询中添加一个随机排序的子句,例如:
queryBuilder.addSort(new FieldSortBuilder("_doc").order(SortOrder.ASC).sortMode(SortMode.RANDOM));

  1. 使用 SearchResponse 执行查询,并使用 SearchHits 获取查询结果。
  2. 使用 SearchHits 的 getTotalHits 方法计算总共有多少文档符合查询条件。
  3. 计算出 10% 的数量,并使用 SearchHits 的 getHits 方法获取查询结果,只取前 10% 个文档即可。
    以下是一个示例方法,该方法可以实现上述步骤:
public List<Map<String, Object>> sampleData(String index, String type, int sampleSize) 
    // 1. 使用 Elasticsearch 的 Search API 搜索数据库中的数据
    SearchRequest searchRequest = new SearchRequest(index);
    searchRequest.types(type);

    // 2. 使用 QueryBuilder 构建查询语句,并指定要查询的索引和类型
    QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();

    // 3. 在查询中添加一个随机排序的子句
    queryBuilder.addSort(new FieldSortBuilder("_doc").order(SortOrder.ASC).sortMode(SortMode.RANDOM));

    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(queryBuilder);
    searchRequest.source(searchSourceBuilder);

    // 4. 使用 SearchResponse获取前10%的数据
    //todo

如何处理大量数据的情况

如果要处理的数据量很大,可能会对 Elasticsearch 的性能造成压力。 为了解决这个问题,可以使用 Elasticsearch 的 Scroll API。

Scroll API 可以用来执行批量查询,它会在内部使用滚动查询,允许在一个查询中搜索大量的数据,并将结果分批返回。这样,您就可以在单个查询中处理大量的数据,而不会对 Elasticsearch 造成太大的压力。

下面是一个示例方法,该方法使用 Scroll API 来实现随机抽样:

public List<Map<String, Object>> sampleDataWithScroll(String index, String type, int sampleSize) 
    List<Map<String, Object>> result = new ArrayList<>();

    // 1. 使用 Elasticsearch 的 Search API 搜索数据库中的数据
    SearchRequest searchRequest = new SearchRequest(index);
    searchRequest.types(type);

    // 2. 使用 QueryBuilder 构建查询语句,并指定要查询的索引和类型
    QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();

    // 3. 在查询中添加一个随机排序的子句
    queryBuilder.addSort(new FieldSortBuilder("_doc").order(SortOrder.ASC).sortMode(SortMode.RANDOM));

    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(queryBuilder);
    searchRequest.source(searchSourceBuilder);

    // 4. 使用 SearchResponse 执行查询
    SearchResponse searchResponse = client.search(searchRequest);

    // 5. 使用 SearchHits 获取查询结果
    SearchHits hits = searchResponse.getHits();

    // 6. 使用 SearchHits 的 getTotalHits 方法计算总共有多少文档符合查询条件
    long totalHits = hits.getTotalHits();

    // 7. 计算出 10% 的数量
    int sampleCount = (int) (totalHits * sampleSize);

    // 8. 设置滚动参数
    String scrollId = searchResponse.getScrollId();
    searchRequest.scroll(TimeValue.timeValueMinutes(1));

    while (result.size() < sampleCount) 
	    searchResponse = client.searchScroll(new SearchScrollRequest(scrollId).scroll(TimeValue.timeValueMinutes(1)));
	    hits = searchResponse.getHits();
	
	    // 9. 使用 SearchHits 的 getHits 方法获取查询结果,只取前 10% 个文档
	    for (int i = 0; i < hits.getHits().length && result.size() < sampleCount; i++) 
	        result.add(hits.getAt(i).getSourceAsMap());
	    
	
	    // 10. 更新滚动 ID
	    scrollId = searchResponse.getScrollId();
	


以上是关于从ES数据库中随机抽样10%的数据的主要内容,如果未能解决你的问题,请参考以下文章

Hive实现从表中随机抽样得到一个不重复的数据样本

随机分组和随机抽样的区别

[ python知识 ] 关于随机抽样函数random

在PostgreSQL中,如何根据分类列中每个级别的比例从表中随机抽样?

随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下

R语言:随机抽样(sample函数)