数据分析人必掌握的数据库语言-SQL指南第六期

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析人必掌握的数据库语言-SQL指南第六期相关的知识,希望对你有一定的参考价值。

参考技术A

本篇文章继续围绕SQL的语法重点为大家介绍 连接 高级连接 的使用,以及 使用连接的注意事项



SQL最强大的功能之一就是能在数据查询的执行中 连接(join)表 。连接是利用SQL的SELECT语句能执行的最重要的操作,很好地理解连接及其语法是学习SQL的极为重要的一点。在能够有效地使用连接前,我们必须了解 关系表 以及 关系数据库 设计的一些基础知识。下面的介绍并不能涵盖这一主题的所有内容,但作为入门已经够了。


连接

理解关系表,最好是来看个例子。

有一个包含产品目录的数据库表,其中每类物品占一行。

对于每一种物品,要存储的信息包括产品描述、价格,以及生产该产品的供应商。

现在有同一供应商生产的多种物品,那么在何处存储供应商名、地址、联系方法等供应商信息呢?将这些数据与产品信息分开存储的理由是:

同一供应商生产的每个产品,其供应商信息都是相同的,对每个产品重复此信息既浪费时间又浪费存储空间;

如果供应商信息发生变化,例如供应商迁址或电话号码变动,只需修改一次即可;

如果有重复数据(即每种产品都存储供应商信息),则很难保证每次输入该数据的方式都相同。不一致的数据在报表中就很难利用。

关键是, 相同的数据出现多次不是一件好事 ,这是关系数据库设计的基础。

关系表的设计就是要 把信息分解成多个表 一类数据一个表 。各表通过某些共同的值互相关联(所以才叫关系数据库)。在这个例子中可建立两个表:一个存储供应商信息,另一个存储产品信息。Vendors表包含所有供应商信息,每个供应商占一行,具有唯一的标识。此标识称为 主键 (primary key),可以是供应商ID或任何其他唯一值。Products表只存储产品信息,除了存储供应商ID(Vendors表的主键)外,它不存储其他有关供应商的信息。Vendors表的主键将Vendors表与Products表关联,利用供应商ID能从Vendors表中找出相应供应商的详细信息。

这样做的 好处 是:

供应商信息不重复,不会浪费时间和空间;

如果供应商信息变动,可以只更新Vendors表中的单个记录,相关表中的数据不用改动;

由于数据不重复,使得处理数据和生成报表更简单。

总之,关系数据可以有效地存储,方便地处理。因此,关系数据库的可伸缩性远比非关系数据库要好。


为什么使用连接

连接将数据分解为多个表实现 更有效 地存储、 更方便 地处理,且 可伸缩性更好

可伸缩性:能够适应不断增加的工作量而不失败。

连接作为一种机制,能在一条SELECT语句中用来关联表。使用特定的语法,可连接多个表返回一组输出。


创建连接

分析 :上述SELECT语句中与之前的语句相同,都是指定检索的列, 区别 在于该语句指定的两列(prod_name,prod_price)在一个表中,而第一列(vend_name)在另一个表中。

FROM子句也有所区别。该FROM子句列出了两个表:Vendors,Products。这两个表由SELECT语句的WHERE子句连接。WHERE子句指示DBMS将Vendors表中的vend_id与Products表中的vend_id匹配起来。

这里使用了 完全限定列名 将Vendors.vend_id和Products.vend_id两列匹配。最终输出了两个不同表中的数据。



高级连接部分将介绍 如何使用表别名,另外的一些连接 ,以及 如何对被连接的表使用聚集函数


使用表别名

之前的文章已经给大家介绍了如何使用别名引用被检索的表列。

SQL还可以 给表名起别名 ,目的是:

缩短SQL语句。

允许在一条SELECT语句中多次使用相同的表。

分析 :上述语句中的FROM子句的三个表都有别名。如此 省略了许多字符 。表别名还可以用于SELECT的列表、ORDER BY子句以及其他语句部分。

需要注意的是: 表别名只在查询执行中使用 。与列别名不同,表别名不返回到客户端。


使用不同类型的连接

接下来将给大家介绍四种其他类型的连接: 自连接 自然连接 内连接 外连接

①自连接

分析: 这是使用了 子查询 的方案。对内部的SELECT语句做了一个简单的检索,返回Jim Jones工作公司的cust_name。该数据用于外部查询的WHERE子句中,以检索出为该公司工作的所有雇员。

下面看看使用了 连接 的方案。

分析:上述语句需要的两个表实际上是相同的表,所以Customers表在FROM子句中出现了两次。但这对于Customers的引用具有歧义,因为没有指示DBMS引用的是哪个Customers表。

于是需要使用表别名解决该问题。Customers表 第一次出现为别名c1 第二次为c2 ,然后再将这些别名用作表名。如SELECT语句使用c1前缀明确给出所需列的全名。如果不这么做,DBMS将返回错误,因为名为cust_id、cust_name、cust_contact的列各有两个。DBMS不知需要哪一列,即使它们都是同一列。

WHERE首先连接两个表,再按第二个表中的cust_contact过滤数据,返回所需的数据。


②自然连接

内连接 返回所有的数据,其中 相同的列可多次出现 。而 自然连接排除多次出现 ,使每一列只返回一次。

一般通过对一个表使用通配符(SELECT *),而对其他的列使用明确的子集来实现自然连接。

分析: 上述语句中,通配符只对第一个表使用,而所有其他列都明确列出来,所以没有出现重复的列被检索出来。


③内连接

目前为止使用的连接称为等值连接,是基于两个表之间的相等测试。该连接也称为内连接。

对该种连接还可以使用不同的语法,明确指定连接的类型。

分析 :该语句中的SELECT与之前的区别在于FROM 子句。此处两个表之间的关系是以 INNER JOIN 指定的部分FROM子句,因此需要使用特定的 ON子句 而不是WHERE子句。但传递给ON的实际条件与WHERE相同。


④外连接

许多连接将一个表中的行与另一个表中的行相关联,但有时候 需要包含没有关联的行 。例如,可能需要使用连接完成以下工作:

对每个顾客下的订单进行计数,包括那些至今尚未下订单的顾客;

列出所有产品以及订购数量,包括没有人订购的产品;

计算平均销售规模,包括那些至今尚未下订单的顾客。

在上述例子中,连接包含了那些在相关表中没有关联行的行。这种连接称为外连接,外连接分为 左外连接 右外连接

左外连接:取左边的表的全部,而右边的表按照条件显示,不符合条件的显示NULL。

右外连接:取右边的表的全部,而左边的表按照条件显示,不符合条件的显示NULL。

下面先给出一个简单的 内连接 ,再给出 左外连接 ,大家对比着理解。

分析 :两个语句都使用了 JOIN 关键字来指定连接类型,与内连接不同的是,左外连接包括没有关联行的行。因此在使用JOIN语法时,还需使用RIGHT或LEFT关键字来指定包括其所有行的表(RIGHT指出的是OUTER JOIN右边的表,而LEFT指出的是OUTER JOIN左边的表)。

上述左外连接语句使用了LEFT OUTER JOIN 从FROM子句左边的表(Customers)中选择所有行。

若要从右边的表选择所有行,即使用 右外连接 ,则语句如下:

注意 :两种基本的外连接形式,左外连接和右外连接。两者的唯一差别是所关联的表的顺序。

此外,还有一种外连接,即 全外连接 。该连接检索两个表中的所有行并关联可关联的行。与左外连接或右外连接包含一个表的不关联的行不同,全外连接包含两个表的不关联的行。


自连接、自然连接、内连接和外连接的区别

①自连接: 通常用于 两张结构和数据内容完全一样的表 ,在做数据处理时,对它们分别 重命名 来加以区分,然后再进行关联。

②自然连接 :特点是要求两个关系表中进行连接的必须是 相同属性列 (名字相同),无需添加连接条件,且 在结果中消除了重复的属性列

③内连接 :与自然连接相似,区别在于内连接 不要求两属性列同名 ,可以用 using或on 来指定某两列字段相同的连接条件。

④外连接 :可以解决自然连接时某些属性不同导致这些元组被舍弃的问题,起到了 保留要舍弃的结果 的作用。


使用带聚集函数的连接

之前给大家介绍过使用 聚集函数 来汇总数据,殊不知这些函数也可以与连接一起使用。

分析: 上述语句使用了 COUNT函数 。该语句使用INNER JOIN将Customers和Orders表相互关联。GROUP BY子句按顾客分组,因此,函数调用COUNT(Orders.order_num)对每个顾客的订单计数,将其作为num_ord返回。

分析: 上述语句使用 左外连接 包含所有顾客,包括了那些没有任何订单的顾客。



WHERE子句的重要性

需记住的是,在一条SELECT语句中连接几个表时,相应的关系是在运行中构造的,因为在数据库表中的定义没有指示DBMS如何对表进行连接的内容。

要连接多个表,需要将它们并列于from之后, 关键 是要设置WHERE子句,确保它们之间的 关联关系 必须给出,否则,查询结果会成为笛卡尔积。

笛卡尔积:由没有连接条件的表关系返回的结果为笛卡儿积。

分析 :上述语句输出的结果便是 笛卡尔积 。返回的数据用每个供应商匹配了每个产品,包括了供应商不正确的产品(即使该供应商没有产品)。


连接及其使用的要点

注意所使用的连接类型。一般我们使用内连接,但使用外连接也有效。

关于确切的连接语法,应该查看具体的文档,看相应的DBMS支持何种语法(大多数DBMS使用这两课中描述的某种语法)。

保证使用正确的连接条件(不管采用哪种语法),否则会返回不正确的数据。

应该总是提供连接条件,否则会得出笛卡儿积。

在一个连接中可以包含多个表,甚至可以对每个连接采用不同的连接类型。虽然这样做是合法的,一般也很有用,但应该在测试它们前分别测试每个连接。这会使故障排除更为简单。

以上就是本次介绍的连接和高级连接啦~

下一期将给大家介绍 组合查询 插入数据 更新和删除数据。

我们下期见!

C语言拓展第六期:格式化输出

前边我们学习了不同种类的数据类型,为了将这些数据输出到终端我们学习了printf函数。但前边的学习更多的是简单的套用,并没有理解printf语句里每个部分的含义。于是我们有了今天的学习内容——C语言的格式化输出。在学习了本节内容后,你就可以按照自己的想法来输出各种格式的语句了。




printf函数是一个可变参数函数也就是说printf函数的参数的个数和类型都是可变的,每一个参数的输出格式都有属于自己的格式声明。格式声明由“%”和格式字符组成,如“%d%f”,其作用是将输出的数据转换为指定的格式然后输出。

printf("%d\n",5);

C语言拓展第六期:格式化输出

                        

5”意为输出的数据为5%d为以十进制整数形式输出,执行‘\n’使输出控制移到下一行的开头。其中"%d\n"称为格式控制字符串,由“格式声明”和“普通字符”组成。普通字符是指在输出时需要在输出的时候原样输出的字符。


printf("单词car中的字母的数量为 %d \n",3);


C语言拓展第六期:格式化输出

“单词car中的字母的数量为      %d  \n”这里边的汉字和空格、换行符等就属于普通字符。“,”后面的部分叫做“输出表列”,输出表列中是程序需要的一些数据,可以是变量、常量或表达式。要想将“输出表列”中的参数进行输出,格式控制字符串中必然有一个格式声明与之对应,第一个格式声明对应第一个参数、第二个格式声明对应第二个参数、以此类推。

C的学习过程中我们可能不仅仅会看到%d%f%c,还可能看到%e%o%x%12d等等一系列奇怪的格式声明。它们究竟代表什么意思?


%d 表示十进制、有符号的形式输出 int 类型的整数。
printf("%d\n%d\n",5,-16);


C语言拓展第六期:格式化输出
%u 表示十进制、无符号的形式输出 int 类型的整数。
printf("%u\n%u\n",5,-16);


C语言拓展第六期:格式化输出

这时我们发现在输入为正数的时候程序正常输出正数,但是在输入为负数的时候,输出变为了一个十分奇怪的数。它似乎是一个随机产生的很大的数。其实不然,多次试验过后你会发现——如果是-x的话,输出 4294967496-x。在学习了补码等相关知识后就会明白为什么会输出这样一个数了,现在我们先知道结果就好了。我们已经尝试了不按照格式随意输入数据,得到的结果与我们预期相差甚远。有了这次的教训我们以后一定要在输入输出的时候注意——格式声明要和参数相对应。

对于整型数据:

%hd%d%ld 分别表示以十进制、有符号的形式输出 shortintlong 类型的整数。

 %hu%u%lu 分别表示以十进制、无符号的形式输出 shortintlong 类型的整数

对于字符型数据:

%c用来表示一个字符

printf("%c\n",'A');


C语言拓展第六期:格式化输出

有些比较调皮的同学可能还会用一些不符合要求的输入数据去尝试,来观察电脑的反映。这时候如果你去输入一个整数,比如“36”和“122”。

       printf("%c\n%c\n",36,122);

C语言拓展第六期:格式化输出


这时候你会发现输入的是数字,输出的却可能是字母或符号。这是因为如果输入的整数在0~127范围内,输出时系统会将该数作为ASCII码转换成相应的字符。如果整数比较大,则把它的最后一个字节的信息以字符形式输出。

      

printf("%c\n%c\n",121,377);

C语言拓展第六期:格式化输出

%c格式输出时,只考虑一个字节,377的最后一个字节中的信息是01111001,即十进制的121,这也是“y”的ASCII代码。

想了解更多关于 ASCII 的内容,这里我们引用了百度百科的内容: https://baike.baidu.com/item/ASCII/309296?fromtitle=ascii
%E 7%A0%8 1%E8%A1%A8&fromid=19660475&fr=aladdin
除了以上两种格式符之外还有很多对应其他数据格式的格式符,
%s——用来输出一个字符串

   

 printf("%s\n","FUNQU KE TANG");


C语言拓展第六期:格式化输出

%f——用来输出实数

   

 printf("%f\n",5.0);


C语言拓展第六期:格式化输出

这里输出的数据不指定长度,实数部分全部输出,小数部分只输出6位。

如果想更改小数的位数,可以通过在%.n”的方式来更改。

     

 printf("%.3f\n",56.7896);


C语言拓展第六期:格式化输出

这里的n就是保留小数的位数,保留的时候对后边的数据采取四舍五入的保留方法。

如果想对数据的宽度做出调整呢,只需要按照“%m.n”的格式来输入格式符就可以了,其中m是数据的宽度,也就是列数,n依旧是保留小数的位数。我们举个例子大家就明白了。

    

 printf("%10.2f\n",213.5);


C语言拓展第六期:格式化输出


2”的前边还有四个“空格”。这里我们看到输出结果是右对齐的,在程序中默认的输出结果是右对齐的,如果想要左对齐只需要在“m”前边加上个“-”。

      

printf("%-10.2f\n",213.5);


C语言拓展第六期:格式化输出


加上“-”也就是减号后数据就左对齐了。相应的“+”是右对齐,但是由于默认的也是右对齐,我们一般就将这个“+”省略了。

   

 printf("%+10.2f\n",213.5);


这时的结果是这样的。

C语言拓展第六期:格式化输出


最后一个我们要介绍的是使用科学计数法来输出数据。格式也很简单“%e”或“%E两者唯一的区别就是输出时表示科学计数法中的“e”是大写还是小写。

printf("%E\n",213.5);


printf("%e\n",213.5);



 

其他的格式符还有诸如八进制的“%o”、十六进制的“%x”等使用方式和上面介绍的差不多,理解其原理之后,稍稍修改一下代码便可以轻松使用。我们这里便不再一一赘述了。

 


以上是关于数据分析人必掌握的数据库语言-SQL指南第六期的主要内容,如果未能解决你的问题,请参考以下文章

第六期 OSI七层简述和基础知识英语翻译

CAAI-AIDL 第六期《自然语言处理》∣ 讲师:韦福如 微软亚洲研究院自然语言计算组资深研究经理

挨踢部落坐诊第六期:机器学习如何判断突发情况?

CSDN 第六期编程竞赛做题记录

CSDN 第六期编程竞赛做题记录

CSDN 第六期编程竞赛做题记录