C# 查询大型数据集

Posted dotNET跨平台

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了C# 查询大型数据集相关的知识,希望对你有一定的参考价值。

LINQ 语法非常好,但其作用是什么?我们只要查看源数组,就可以看出需要的结果,为什么要查询这种一眼就能看出结果的数据源呢?有时查询的结果不那么明显,在下面的示例中,就创建了一个非常大的数字数组,并用 LINQ 查询它。

(1) 与以前一样,创建项目时,Visual Studio  会自动在Program.cs 中包含 Linq 名称空间。

using System;
using System.Collections.Generic; 
using System.Linq;
using System.Text;

(2) 在 Main() 方法中添加如下代码:

static void Main(string[] args)

        int[] numbers = GenerateLotsOfNumbers(12345678);
         var queryResults =
             from n in numbers 
             where n < 1000 
             select n
           ;




         Console.WriteLine("Numbers less than 1000:"); 
           foreach (var item in queryResults)
           
              Console.WriteLine(item);
           
           Console.Write("Program finished, press Enter/Return to continue:"); 
           Console.ReadLine();

(3)添加如下方法,生成一个随机数列表:

private static int[] GenerateLotsOfNumbers(int count)

   Random generator = newRandom(0); 
   int[] result = new int[count]; 
   for (int i = 0; i < count; i++)
   
       result[i] = generator.Next();
   
   return result;

(4)编译并执行程序。结果是一个小于 1000 的数字列表,如下所示:

Numbers less than 1000:
714
24
677
350
257
719
584
Program finished, press Enter/Return to continue:

示例的说明

与前面一样,第一步是引用 System.Linq 名称空间,这是在创建项目时由 Visual Studio  自动引用的:

using System.Ling;

接着创建一些数据,本例中是创建并调用 GenerateLotsOfNumbers() 方法:

int[] numbers = GenerateLotsOfNumbers(12345678);
private static int[] GenerateLotsOfNumbers(int count)

    Random generator = new Random(0); 
    int[] result = new int[count]; 
    for (int i = 0; i < count; i++)
    
        result[i] = generator.Next();
    
    return result;

这不是一个小数据集,数组中有1200万个数字!需要修改传送给GenerateLotsOfNumbers() 方法的 size 参数,生成数量不同的随机数,看看这会对查询结果有什么景响。这里的 size 参数12 345 678非常大,足以生成一些小于1 000的随机数,从而获得为第一个查询显示的结果。

数值应随机分布在有符号的整数范围内(从 0 到超过 20 亿)。用种子值 0 创建随机数生成器,可以确保每次创建相同的随机数集合,这是可以重复的,所以会获得与此处相同的查询结果,但在尝试一些查询之前,并不知道查询结果是什么。而LINQ 使这些查询很容易编写。

查询语句本身类似于前面用于 names 数组的查询,也是选择满足条件的数字(这里是数字小于1 000):

var queryResults =
    from n in numbers 
    where n < 1000 
    select n

这次不需要 orderby 子句,但处理时间略长(对于这个查询,处理时间的变化不太明显,但下一个示例会改变选择条件,处理时间的变化就比较明显了)。

用 foreach 语句输出查询的结果,与前面的示例相同:

Console.WriteLine("Numbers less than 1000:");
foreach (var item in queryResults) 
      Console.WriteLine(item);

同样,将结果输出到控制台上,并读取一个字符以暂停输出:

Console.Write("Program finished, press Enter/Return to continue:");
Console.ReadLine();

使用 LINQ,可以很容易地修改查询条件,以便演示数据集的不同特性。但是,根据查询返回的结果数,每次都输出所有的结果是没有意义的。

 微信公众号 

DotNet讲堂

以上是关于C# 查询大型数据集的主要内容,如果未能解决你的问题,请参考以下文章

在大型数据集上使用 JOIN 运行 SQL 查询

在 Django 中,如何优雅地将查询集过滤器添加到大型组或对象的所有成员?

C# 中使用HttpClient读取大型Json数据集

使用 C# 到 FTP 文件到大型机,包括数据集 - 将 FTP 脚本翻译成 FtpWebRequest 代码

MYSQL数据库,怎样查询一个时间范围内,每个时间点内的数据?

大型数据集上的 MongoDB 子文档查询性能