MySQL之DDL表创建及DML数据处理操作
Posted 蚂蚁小哥
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MySQL之DDL表创建及DML数据处理操作相关的知识,希望对你有一定的参考价值。
一:DDL创建数据库基本介绍
存储数据是处理数据的第一步 。只有正确地把数据存储起来,我们才能进行有效的处理和分析。那么,怎样才能把用户各种经营相关的、纷繁复杂的数据,有序、高效地存储起来呢? 在MySQL中,一个完整的数据存储过程总共有 4 步,分别是。我们要先创建一个数据库,而不是直接创建数据表,因为从系统架构的层次上看,MySQL数据库系统从大到小依次是 数据库服务器、数据库、数据表 、数据表的行与列。 MySQL数据库服务器之前已经安装。所以,我们就从创建数据库开始。
1:标识符命名规则
①:数据库名、表名不得超过30个字符,变量名不得超过29个字符
②:必须只能包含 A–Z, a–z, 0–9, _ 共63个字符
③:数据库名、表名、字段名等对象名中间不得包含空格
④:同一个MySQL软件中,数据库不能同名;同一个库中,表不能重名;同一个表中,字段不能重名
⑤:必须保证你的字段没有和保留字、数据库系统或常用方法冲突。如果坚持使用,请在SQL语句中使用``(着重号)引起来
⑥:保持字段名和类型的一致性:在命名字段并为其指定数据类型的时候一定要保证一致性,
假如数据类型在一个表里是整数,那在另一个表里可就别变成字符型了,这样可能造成问题,如外键的创建时类型不一样
2:MySQL中的数据类型
二:DDL创建和管理数据库
1:创建数据库
基础语法:CREATE DATABASE [IF NOT EXISTS] 数据库名字 [库选项]
IF NOT EXISTS:代表如果数据库不存在则创建数据库,存在则不再执行此语句
库选项:用来约束数据库,分为2个选项
字符集设定:CHARSET/CHARACTER SET 指明这个库具体的字符集,常用GBK和UTF8
校对集设定:COLLATE 指定具体的校队集(数据比较规则)
注:不能使用系统关键字和保留字,如必须使用请加着重号
例:
①:创建数据库
CREATE DATABASE `dbtest`
②:创建数据库并指定字符集和校对集
CREATE DATABASE `dbtest` CHARACTER SET UTF8 COLLATE utf8_general_ci
③:判断数据库是否存在,不存在则创建数据库(推荐)
CREATE DATABASE IF NOT EXISTS `dbtest` CHARACTER SET UTF8 COLLATE utf8_general_ci
执行示例的其中一个后:
①:在数据库系统(DBMS)中增加了相对于的库信息
②:会在MySQL数据文件夹下:Data目录下创建一个对应的数据库名文件夹
③:会在当前的文件夹下创建一个opt文件用来保存库选项
2:查询/使用数据库
# 以刚才创建的 dbtest 数据库为例 # 查询当前所有的数据库 SHOW DATABASES; ##
# 模糊查询数据库
SHOW DATABASES LIKE \'pattern\' ## # 查询当前正在使用的数据库 SELECT DATABASE(); ## # 查看指定库下的所有表 SHOW TABLES FROM dbtest; ## # 查看数据库创建信息 SHOW CREATE DATABASE dbtest; + | Database | Create Database | + | dbtest | CREATE DATABASE `dbtest` | + SHOW CREATE DATABASE dbtest\\G ## 竖直显示 *************************** 1. row *************************** Database: dbtest Create Database: CREATE DATABASE `dbtest` # 使用/切换数据库 USE 数据库名; 注意:要操作表格和数据之前必须先说明是对哪个数据库进行操作(就是先USE 数据库名), 否则就要对所有对象加上“数据库名.”。
3:修改数据库
①:修改数据库名字,但是不建议修改,以防保证数据问题,具体修改库名 RENAME DATABASE TO 新数据库名称 注:这个语法在MySQL5.1.7中被添加进来,到了5.1.23又去掉了。据说有可能丢失数据。 若真的要用或者有的数据库管理工具存在此功能,其实它是因为先把数据备份,创建新的数据库,再把数据复制进去 ②:修改库选项的字符集和校对集,但是如果数据库里面有存在的表数据等等,不建议修改,,以防字符集不统一 基础语法:ALTER DATABASE 数据库名 [库选项] 库选项: charset/character set[=] 字符集 collate 校对集 示例: SHOW CREATE DATABASE dbtest; + | Database | Create Database | + | dbtest | CREATE DATABASE `dbtest` | + 修改字符集 ALTER DATABASE dbtest CHARSET=GBK COLLATE gbk_chinese_ci; SHOW CREATE DATABASE dbtest; + | Database | Create Database | + | dbtest | CREATE DATABASE `dbtest` | +
4:删除数据库
基础语法:DROP DATABASE [ IF EXISTS ] 数据库名 方式1:删除指定的数据库,不存在则出现问题 DROP DATABASE dbtest 方式2:删除指定的数据库,不存在此数据库则跳过不执行 DROP DATABASE IF EXISTS dbtest
三:DDL创建数据库表和管理表
1:创建数据库表(第一种 基本 方式)
基本语法: CREATE TABLE [IF NOT EXISTS] [数据库名.]表名( 字段1, 数据类型 [约束条件] [默认值] [字段备注信息], 字段1, 数据类型 [约束条件] [默认值] [字段备注信息], 字段1, 数据类型 [约束条件] [默认值] [字段备注信息], ... [表约束条件] )[表字符集] [表校对集] [表存储引擎];
注:【表字符集】【表校对集】【表存储引擎】统称表选项 参数介绍: [IF NOT EXISTS]:
若当前数据库中不存在要创建的数据表,则创建数据表;反之存在要创建的数据表,则忽略不创建数据表 [表字符集]:charset/character set 具体字符集;保证表中数据存储的字符集 [表校对集]:collate 具体的校对集 [表存储引擎]:engine 具体存储引擎innodb和myisam 注:在创建数据表的时候必须指明当前的库使用 USE 库名,就是说在那个表下创建数据表 创建表举例(标准,可能有一些关键字不怎么熟悉,后面包括后面文章会介绍): CREATE TABLE IF NOT EXISTS dbtest.student( sid INT(4) PRIMARY KEY AUTO_INCREMENT COMMENT "主键ID", sname VARCHAR(6) NOT NULL COMMENT "姓名", ssex ENUM(\'男\',\'女\') DEFAULT \'男\' COMMENT "性别", sage INT(4) COMMENT "年龄" )CHARACTER SET UTF8 COLLATE utf8_general_ci ENGINE INNODB; 创建表举例(基本方式,这种建表方式肯定不合规的,后面优化): CREATE TABLE IF NOT EXISTS dbtest.student( sid INT, sname VARCHAR(6), ssex ENUM(\'男\',\'女\'), sage TINYINT );
2:创建数据库表(第二种 子查询 方式)
基本语法: CREATE TABLE [IF NOT EXISTS] [数据库名.]表名 AS subquery; 介绍: 此方式可以自定义选择子查询中的字段来创建table2后, 子查询中对应字段数据也一并转移至table2中
注意:只是复制数据,而具体的约束是无法复制的 创建表举例: CREATE TABLE IF NOT EXISTS dbtest.teacher AS SELECT tid,tname,tsex,tage,taddress FROM demo_school.teacher
3:创建数据库表(第三种 复制表结构 方式 )
基本语法: CREATE TABLE [IF NOT EXISTS] [数据库名.]表名1 LIKE [数据库名.]表名2; 介绍: 此方式参照已有 表名2 的结构定义,来创建新的 表名1,不会将 表名2 中数据拿过来。 创建表举例: CREATE TABLE IF NOT EXISTS dbtest.teacher_new LIKE demo_school.teacher
4:查询数据库表及表结构
在MySQL中创建好数据表之后,可以查看数据表的结构。MySQL支持使用 DESCRIBE / DESC 语句查看数据表结构,也支持使用 SHOW CREATE TABLE 语句查看数据表结构。使用SHOW CREATE TABLE语句不仅可以查看表创建时的详细语句,还可以查看存储引擎和字符编码。
①:查看创建的数据库表 Ⅰ:查询当前库的所有表 SHOW TABLES; mysql> SHOW TABLES + | Tables_in_dbtest | + | student | | teacher | | teacher_new | + Ⅱ:模糊查询当前库里的部分表 SHOW TABLE LIKE \'pattern\'; mysql> SHOW TABLES LIKE \'tea%\'; + | Tables_in_dbtest (tea%) | + | teacher | | teacher_new | + Ⅲ:查询表的创建语句 SHOW CREATE TABLE [数据库名.]表名 mysql> SHOW CREATE TABLE dbtest.student; + | Table | Create Table | + | student | CREATE TABLE `student` ( `sid` int(4) NOT NULL AUTO_INCREMENT COMMENT \'主键ID\', `sname` varchar(6) NOT NULL COMMENT \'姓名\', `ssex` enum(\'男\',\'女\') DEFAULT \'男\' COMMENT \'性别\', `sage` tinyint(3) unsigned NOT NULL COMMENT \'年龄\', PRIMARY KEY (`sid`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 | + 注: \'\\g\'也可以代表 \';\' 分号 而 \'\\G\' 则会把查询的数据样式进行一个改变 mysql> SHOW CREATE TABLE dbtest.student\\G *************************** 1. row *************************** Table: student Create Table: CREATE TABLE `student` ( `sid` int(4) NOT NULL AUTO_INCREMENT COMMENT \'主键ID\', `sname` varchar(6) NOT NULL COMMENT \'姓名\', `ssex` enum(\'男\',\'女\') DEFAULT \'男\' COMMENT \'性别\', `sage` tinyint(3) unsigned NOT NULL COMMENT \'年龄\', PRIMARY KEY (`sid`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 ②:查看创建的数据库表结构的三种方式(下面三种方式一样) Ⅰ:DESC [数据库名.]表名 (推荐) Ⅱ:DESCRIBE [数据库名.]表名 Ⅲ:SHOW COLUMNS FROM [数据库名.]表名 mysql> DESCRIBE dbtest.student; +-------+---------------------+------+-----+---------+----------------+ | Field | Type | Null | Key | Default | Extra | +-------+---------------------+------+-----+---------+----------------+ | sid | int(4) | NO | PRI | NULL | auto_increment | | sname | varchar(6) | NO | | NULL | | | ssex | enum(\'男\',\'女\') | YES | | 男 | | | sage | tinyint(3) unsigned | NO | | NULL | | +-------+---------------------+------+-----+---------+----------------+ 注:表结构字段说明: Field:字段名 Type:列类型,字段类型,数据类型 Null:列属性YES代表可为空,反之该列数据不可为空 Key:索引:索引类型PRI主键或UNI唯一等等 Default:列属性,默认值,不写默认NULL Extra:扩充额外的包括自增长写在里面
③:【补充】查询当前数据表状态:
SHOW TABLE STATUS LIKE \'表名\'\\G
其实我们创建完数据库表后我们可以到对应数据库文件下查看我们创建的表结构
存储引擎是myisam, 在data目录下会看到3类文件:.frm、.myi、.myd (1)*.frm (2)*.MYD (3)*.MYI 存储引擎是InnoDB, 在data目录下会看到2类文件:.frm、.ibd (1)*.frm (2)*.ibd
补充说明INT设置显示宽度问题:MySQL在执行建表语句时,将我们student表中的sid字段的类型设置为int(4),这里的4实际上是int类型指定的显示宽度,默认的显示宽度为11。也可以在创建数据表的时候指定数据的显示宽度。不过在MySQL 8.x版本中,不再推荐为INT类型指定显示长度,并在未来的版本中可能去掉这样的语法。(具体的在后面的数据类型介绍有说明)
5:修改数据库表的表选项(字符集、校对集、存储引擎)
基本语法: ALTER TABLE [数据库名.]表名 表选项 [=] 值 修改表选项【表字符集】【表校对集】【表存储引擎】: ALTER TABLE dbtest.studentCHARACTER SET gbk COLLATE gbk_chinese_ci ENGINE INNODB; 查询创建表信息:SHOW CREATE TABLE student\\G 截取最后一行:) ENGINE=InnoDB DEFAULT CHARSET=gbk
6:修改数据库表字段(增删改操作)
注意:在使用 ALTER TABLE 进行表的基本修改操作时,在执行操作过程之前,应该确保对数据进行完整的备份 ,因为数据库的改变是无法撤销 的,如果添加了一个不需要的字段,可以将其删除;如果删除了一个需要的列,该列下面的所有数据都将会丢失。
基本语法: Ⅰ:新增字段: ALTER TABLE [数据库名.]表名 ADD [COLUMN] 字段名 数据类型 [列属性] [字段备注信息] [FIRST|AFTER 位置] Ⅱ:修改字段: ALTER TABLE [数据库名.]表名 MODIFY [COLUMN] 字段名1 数据类型 [列属性] [字段备注信息] [FIRST|AFTER 字段名2] 说明:可以通过此种方式修改列的约束 Ⅲ:重命名字段: ALTER TABLE [数据库名.]表名 CHANGE [COLUMN] 旧名 新名 数据类型 [列属性] [字段备注信息] [FIRST|AFTER 位置] Ⅳ:删除字段: ALTER TABLE [数据库名.]表名 DROP [COLUMN] 字段名 参数说明: FIRST:指明当前字段在表字段的最前面,设置FIRST则后面不需要跟具体字段 AFTER:指明当前要操作的字段在哪个字段后面,默认在最后
举例说明: ①:为student表添加 address VARCHAR(50) NOT NULL,并设置在ssex字段后面 ALTER TABLE dbtest.student ADD address VARCHAR(50) NOT NULL COMMENT "地址信息" AFTER ssex ②:修改student表的 address 字段的字符串长度为100,并且修改到 sage字段后面 ALTER TABLE dbtest.student MODIFY address VARCHAR(100) NOT NULL COMMENT "地址信息" AFTER sage ③:修改 address 字段名为 saddress ALTER TABLE dbtest.student CHANGE address saddress VARCHAR(100) NOT NULL COMMENT "地址信息" ④:删除字段 saddress ALTER TABLE dbtest.student DROP saddress;
7:重命名数据库表
基本语法:
Ⅰ:使用RENAME方式
RENAME TABLE [数据库名.]旧表名 TO [数据库名.]新表名
Ⅱ:使用 ALTER 里的 RENAME 方式
ALTER TABLE [数据库名.]旧表名 RENAME TO [数据库名.]新表名
基本示例:
RENAME TABLE dbtest.student TO dbtest.student_new;
8:删除数据库表
在MySQL中,当一张数据表没有与其他任何数据表形成关联关系时,可以将当前数据表直接删除。会执行以下步骤:数据和结构都被删除;所有正在运行的相关事务被提交;所有相关索引被删除。
注意:操作将把表的定义和表中的数据一起删除,并且MySQL在执行删除操作时,不会有任何的确认信息提示,因此执行删除操时应当慎重。在删除表前,最好对表中的数据进行备份 ,这样当操作失误时可以对数据进行恢复,以免造成无法挽回的后果
基本语法:
DROP TABLE [IF EXISTS] 数据表1 [, 数据表2, …, 数据表n];
IF EXISTS含义:如果当前数据库中存在相应的数据表,则删除数据表;如果当前数据库中不存
在相应的数据表,则忽略删除语句,不再执行删除数据表的操作。
注:DROP TABLE语法一旦执行成功则不能回滚。
9:清空数据库表数据
TRUNCATE TABLE语句会执行以下步骤:删除表中所有的数据;释放表的存储空间
基本语法:
TRUNCATE TABLE 数据表;
注:TRUNCATE语句不能回滚,而使用 DELETE 语句删除数据,可以回滚
补充事务的基本操作:
# 事务自动提交设置为手动提交
SET AUTOCOMMIT = FALSE
# 事务提交操作
COMMITTED
# 事务回滚操作
ROLLBACK
10:MySQL8新特性(DDL操作原子化)
在MySQL8.0版本中,InnoDB表的DDL(数据库操作和数据库表操作)支持事务完整性,即DDL操作要么成功要么回滚。DDL操作回滚日志写入到data dictionary数据字典表mysql.innodb_ddl_log(该表是隐藏的表,通过show tables无法看到)中,用于回滚操作。通过设置参数,可将DDL操作日志打印输出到MySQL错误日志中。
举例:现在有一张demoA表 MySQL5.7版本中执行: DROP TABLE demoA,demoB 这时会报找不到demoB表,但是demoA表则已被删除 MySQL8.0版本中执行: DROP TABLE demoA,demoB 这时会报找不到demoB表,则回滚程序不会删除demoA表
11:MySQL8新特性(计算列)
什么叫计算列呢?简单来说就是某一列的值是通过别的列计算得来的。例如,a列值为1、b列值为2,c列不需要手动插入,定义a+b的结果为c的值,那么c就是计算列,是通过别的列计算得来的。在MySQL 8.0中,CREATE TABLE 和 ALTER TABLE 中都支持增加计算列。
# 创建数据库表 CREATE TABLE IF NOT EXISTS db_test.employee ( id INT ( 4 ) PRIMARY KEY AUTO_INCREMENT COMMENT \'编号\', name VARCHAR ( 5 ) NOT NULL COMMENT \'姓名\', salary DECIMAL ( 6, 1 ) DEFAULT 0 COMMENT \'基本工资\', bonus DECIMAL ( 6, 1 ) DEFAULT 0 COMMENT \'员工奖金\', sum_salary DECIMAL ( 6, 1 ) GENERATED ALWAYS AS (salary + bonus) VIRTUAL COMMENT \'工资总和\' )CHARACTER SET UTF8 COLLATE utf8_general_ci ENGINE INNODB; # 添加一条数据,执行完后,当前行的sum_salary字段的值为 salary+bonus的结果 INSERT INTO db_test.employee(name, salary, bonus) VALUES (\'张三\', 2000.0, 2500.0);
四:DML新增表数据和管理表数据
在DML中对数据表里的数据进行操作时是可以使用事务来控制是否提交或者回滚操作
1:基本建表语句
# 创建数据库
CREATE DATABASE IF NOT EXISTS `db_test` CHARACTER SET UTF8 COLLATE utf8_general_ci
# 创建数据库表
CREATE TABLE IF NOT EXISTS db_test.teacher (
tid INT ( 4 ) PRIMARY KEY AUTO_INCREMENT COMMENT \'编号\',
tname VARCHAR ( 5 ) NOT NULL COMMENT \'姓名\',
tsex ENUM ( \'男\', \'女\' ) DEFAULT \'男\' COMMENT \'性别\',
tage TINYINT UNSIGNED COMMENT \'年龄\',
tsalary DECIMAL ( 6, 1 ) DEFAULT 0 COMMENT \'工资 最高99999.9\',
taddress VARCHAR ( 10 ) COMMENT \'住址\'
) CHARACTER SET UTF8 COLLATE utf8_general_ci ENGINE INNODB;
2:INSERT插入数据
Ⅰ:按照表的字段默认顺序插入一条数据
语法:INSERT INTO [数据库名.]表名 VALUES (val1, val2...)
注意:
值列表中需要为表的每一个字段指定值,并且值的顺序必须和数据表中字段定义时的顺序相同
示例:添加一条数据
INSERT INTO db_test.teacher VALUES (1, \'张三\', \'男\', 23, 3500.00, \'安徽六安\');
Ⅱ:为表的指定字段插入一条数据
语法:INSERT INTO [数据库名.]表名(col1,[col2, ... coln]) VALUES (val1, [val2, ... valn]);
注意:
为表的指定字段插入数据,就是在INSERT语句中只向部分字段中插入值,而其他字段的值为表定义时的默认值
但在INSERT子句中随意列出列名,但是一旦列出,VALUES中要插入的value1,....valuen
需要与column1,...columnn列一一对应。如果类型不同,将无法插入,并且MySQL会产生错误。
示例:为表的指定字段添加一条数据(为指定tid字段,因为tid有主键自增长,后面介绍)
INSERT INTO db_test.teacher(tname, tsex, tage, tsalary, taddress)
VALUES (\'李四\', \'男\', 22, 3000.00, \'安徽合肥\');
Ⅲ:同时插入多条记录
语法①:INSERT INTO [数据库名.]表名 VALUES
(val1, [val2, ... valn]), (val1, [val2, ... valn]), ... (val1, [val2, ... valn]);
语法②:INSERT INTO [数据库名.]表名(col1,[col2, ... coln]) VALUES
(val1, [val2, ... valn]), (val1, [val2, ... valn]), ... (val1, [val2, ... valn]);
示例:为表的指定字段添加多条数据
INSERT INTO db_test.teacher(tname, tsex, tage, tsalary, taddress) VALUES
(\'王二\', \'男\', 22, 3500.00, \'安徽合肥\'),(\'麻子\', \'男\', 23, 3000.00, \'安徽六安\');
说明:
使用INSERT同时插入多条记录时,MySQL会返回一些在执行单行插入时没有的额外信息,这些信息的含义如下:
①:Records:表明插入的记录条数。
②:Duplicates:表明插入时被忽略的记录,原因可能是这些记录包含了重复的主键值。
③:Warnings:表明有问题的数据值,例如发生数据类型转换。
注意:
一个同时插入多行记录的INSERT语句等同于多个单行插入的INSERT语句,但是多行的INSERT语句在处理
过程中效率更高 。因为MySQL执行单条INSERT语句插入多行数据比使用多条INSERT语句快,所以在插入
多条记录时最好选择使用单条INSERT语句的方式插入。
Ⅳ:将查询结果插入到表中
INSERT还可以将SELECT语句查询的结果插入到表中,此时不需要把每一条记录的值一个一个输入,只需
要使用一条INSERT语句和一条SELECT语句组成的组合语句即可快速地从一个或多个表中向一个表中插入多行。
语法:INSERT INTO [数据库名.]目标表名 (col1,[col2, ... coln])
SELECT (col1 [, col2, ... coln]) FROM 源表名 [WHERE条件]
示例:在demo_school数据库里的teacher表中查询tid为1和2的数据插入
INSERT INTO db_test.teacher(tname, tsex, tage, tsalary, taddress)
SELECT tname, tsex, tage, tsalary, taddress FROM demo_school.teacher WHERE tid IN(1,2)
注意:
①:在 INSERT 语句中加入子查询。
②:不必书写 VALUES 子句。
③:子查询中的值列表应与 INSERT 子句中的列名对应。
提示:
①:VALUES 也可以写成 VALUE ,但是VALUES是标准写法。
②:字符和日期型数据应包含在单引号中。
3:UPDATE更新数据 / DELETE删除数据
更新基本语法: UPDATE [数据库名.]表名 SET 字段名1=修改值1, 字段名2=修改值2 [WHERE条件] 示例:更新tid为3数据,tname="王彦" 和 tage = 28 UPDATE db_test.teacher SET tname="王彦" , tage = 28 WHERE tid = 3 删除基本语法: DELETE FROM [数据库名.]表名 [WHERE条件] 示例:删除tid为5,6的数据 DELETE FROM db_test.teacher WHERE tid IN(5, 6)
提示:更新删除建议添加 WHERE 条件,以免删除或更新全部数据造成损失
五:补充校对集问题(具体参考)
校对集是用来数据比较的,其实我们一般不设置校对集的话,对于数据的排序是不区分大小写的,如果是数据区分大小写排序的话在创建库或创建表的时候就明确校对集
校对集的3种格式
_bin(binary):取出二进制一位一位比较,区分大小写
_cs(case sensitive):大小写敏感,区分大小写
_ci(case insensitice):大小写不敏感,不区分大小写
注:大部分默认的都是_ci的比较模式
==》模糊查询支持的校对集:SHOW COLLATION LIKE \'%utf8_ge%\';
==》查询支持的校对集:SHOW COLLATION;
(这里我就显示部分常用的校对集)
+--------------------------+----------+-----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+--------------------------+----------+-----+---------+----------+---------+
| gb2312_chinese_ci | gb2312 | 24 | Yes | Yes | 1 |
| gb2312_bin | gb2312 | 86 | | Yes | 1 |
| gbk_chinese_ci | gbk | 28 | Yes | Yes | 1 |
| gbk_bin | gbk | 87 | | Yes | 1 |
| utf8_general_ci | utf8 | 33 | Yes | Yes | 1 |
| utf8_bin | utf8 | 83 | | Yes | 1 |
| latin7_estonian_cs | latin7 | 20 | | Yes | 1 |
| latin7_general_ci | latin7 | 41 | Yes | Yes | 1 |
| latin7_bin | latin7 | 79 | | Yes | 1 |
| utf8mb4_general_ci | utf8mb4 | 45 | Yes | Yes | 1 |
| utf8mb4_bin | utf8mb4 | 46 | | Yes | 1 |
| ... | ... | ...| ... | ... | ... |
+--------------------------+----------+-----+---------+----------+---------+
222 rows in set (0.00 sec)
注:我在MySQL5.7版本中查询出222条校对集,这根据不同的数据库版本会有不同条数的校对集
注:Default代表默认的校对集,若设置数据库表为utf8mb4字符集,那么它默认校对集为utf8mb4_general_ci
创建校对集为 utf8mb4_bin 的数据库表: CREATE TABLE IF NOT EXISTS db_test.test_bin( `name` varchar(10) DEFAULT NULL ) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin ENGINE INNODB; 创建校对集为 utf8mb4_general_ci 的数据库表: CREATE TABLE IF NOT EXISTS db_test.test_ci( `name` varchar(10) DEFAULT NULL ) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci ENGINE INNODB; 插入数据: INSERT INTO db_test.test_bin VALUES(\'a\'),(\'A\'),(\'b\'),(\'B\'),(\'c\'),(\'C\'); INSERT INTO db_test.test_ci VALUES(\'a\'),(\'A\'),(\'b\'),(\'B\'),(\'c\'),(\'C\'); 查询数据: SELECT * FROM db_test.test_bin ORDER BY `name`; SELECT * FROM db_test.test_ci ORDER BY `name`;
六:MySQL约束
1:约束的概述
数据完整性(Data Integrity)是指数据的精确性(Accuracy)和可靠性(Reliability)。它是防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而提出的。
为了保证数据的完整性,SQL规范以约束的方式对表数据进行额外的条件限制 Ⅰ:从以下四个方面考虑: ①:实体完整性(Entity Integrity) :例如,同一个表中,不能存在两条完全相同无法区分的记录 ②:域完整性(Domain Integrity) :例如:年龄范围0-120,性别范围“男/女” ③:引用完整性(Referential Integrity) :例如:员工所在部门,在部门表中要能找到这个部门 ④:用户自定义完整性(User-defined Integrity) :例如:用户名唯一、密码不能为空等,本部门经理的工资不得高于
本部门职工的平均工资的5倍。 Ⅱ:约束的作用范围(可从两种方式): 列级约束:将此约束声明在对应字段的后面 表级约束:在表中所有字段都声明完后,在所有字段的后而声明的约束
注:约束可以为单列约束,也可以多个字段组成的多列约束 Ⅲ:约束分类(后面依次介绍) ①:NOT NULL ②:UNIQUE ③:PRIMARY KEY ④:FOREIGN KEY ⑤:CHECK ⑥:DEFAULT Ⅳ:查看指定表上的约束 #information_schema数据库名(系统库) #table_constraints表名称(专门存储各个表的约束) SELECT * FROM information_schema.table_constraints WHERE table_name = \'表名称\';
关于DESC查询表中Key字段介绍:
①:如果Key是空的, 那么该列值的可以重复, 表示该列没有索引, 或者是一个非唯一的复合索引的非第一列
②:如果键是PRI,则列是主键或多列主键中的列之一
③:如果键是UNI,则该列是唯一索引的第一列;唯一索引允许多个空值,但可以通过检查Null字段来判断该列是否允许空
④:如果键为MUL,则该列是非唯一索引的第一列,其中允许在列中多次出现重复值
2:非空约束(NOT NULL)
就是限制指定的字段下不可以添加空值(NULL)
关键字:NOT NULL 特点: ①:[默认]所有的类型的值都可以是NULL,包括INT、FLOAT等数据类型 ②:非空约束只能出现在表对象的列上,只能某个列单独限定非空,不能组合非空 ③:一个表可以有多个列都分别设置了非空 ④:空字符串\'\'不等于NULL,0也不等于NULL 建表时设置非空约束: CREATE TABLE IF NOT EXISTS 表名称( 字段1 数据类型 COMMENT \'未指定非空约束NOT NULL\', 字段2 数据类型 NOT NULL COMMENT \'指定非空约束NOT NULL\') 建表后设置非空约束(就是表字段的更新): 注:我们要删除就直接使用下面语法把 NOT NULL 剔除就等于删除 ALTER TABLE 表名 MODIFY 表字段 数据类型 NOT NULL 示例语句: CREATE TABLE IF NOT EXISTS teacher( tid INT NOT NULL COMMENT \'老师ID\', tname VARCHAR(10) NOT NULL COMMENT \'老师姓名\', tsalary DECIMAL(10,2) COMMENT \'老师工资\')
3:唯一性约束(UNIQUE)
就是限定指定字段列值不可以存在重复的数据,但是NULL数据除外(因为它不参与比较)
关键字:UNIQUE 特点: ①:同一个表可以有多个唯一约束。 ②:唯一约束可以是某一个列的值唯一,也可以多个列组合的值唯一。 ③:唯一性约束允许列值为空。 ④:在创建唯一约束的时候,如果不给唯一约束命名,就默认和列名相同。 ⑤:MySQL会给唯一约束的列上默认创建一个唯一索引。 建表时指定唯一约束: CREATE TABLE IF NOT EXISTS 表名称( 字段1 数据类型 COMMENT \'字段1未设置唯一约束\', 字段2 数据类型 UNIQUE COMMENT \'字段2设置唯一约束\', 字段3 数据类型 UNIQUE KEY COMMENT \'字段3设置唯一约束\', 字段4 数据类型 COMMENT \'字段4未设置唯一约束\', 字段5 数据类型 COMMENT \'字段5未设置唯一约束\', [CONSTRAINT 约束名称] UNIQUE KEY(字段名) COMMENT \'设置指定字段名称设置唯一约束\', [CONSTRAINT 约束名称] UNIQUE KEY(字段4,字段5) COMMENT \'设置字段4和字段5为复合唯一索引\') 单列唯一约束示例: CREATE TABLE IF NOT EXISTS demo_unique1( id INT COMMENT \'id字段\', name VARCHAR(10) UNIQUE COMMENT \'姓名\', email VARCHAR(50) UNIQUE KEY COMMENT \'邮箱\', CONSTRAINT demo_unique_id UNIQUE KEY(id)); SELECT * FROM information_schema.table_constraints WHERE table_name = \'demo_unique1\'; +------------------+-----------------+---------------+------------+------------+---------------+ |CONSTRAINT_CATALOG|CONSTRAINT_SCHEMA|CONSTRAINT_NAME|TABLE_SCHEMA|TABLE_NAME |CONSTRAINT_TYPE| +------------------+-----------------+---------------+------------+------------+---------------+ |def |testys |name |testys |demo_unique1|UNIQUE | |def |testys |email |testys |demo_unique1|UNIQUE | |def |testys |demo_unique_id |testys |demo_unique1|UNIQUE | +------------------+-----------------+---------------+------------+------------+---------------+
-- 注:可以使用 DESC demo_unique1 来查看Key列里面的UNI,当出现UNI则可能是单列唯一约束,也可能是多列唯一约束
多列唯一约束示例: CREATE TABLE IF NOT EXISTS demo_unique2( name VARCHAR(10) COMMENT \'姓名\', card VARCHAR(18) COMMENT \'身份证信息\', CONSTRAINT demo_unique_nc UNIQUE KEY(name,card)); SELECT * FROM information_schema.table_constraints WHERE table_name = \'demo_unique2\'; +------------------+-----------------+---------------+------------+------------+---------------+ |CONSTRAINT_CATALOG|CONSTRAINT_SCHEMA|CONSTRAINT_NAME|TABLE_SCHEMA|TABLE_NAME |CONSTRAINT_TYPE| +------------------+-----------------+---------------+------------+------------+---------------+ |def |testys |demo_unique_nc |testys |demo_unique2|UNIQUE | +------------------+-----------------+---------------+------------+------------+---------------+ 说明:唯一单列约束在插入数据时可以插入多条NULL数据,但是数据不可以重复; 唯一多列约束在插入数据时可以插入组合列为NULL,但是当组合列里面都存在数据时则不可以重复, 注意:可以插入 INSERT INTO demo_unique2 VALUES(\'张三\',\'123\'),(\'张三\',NULL),(\'张三\',NULL),(NULL,\'123\'),(NULL,\'123\'); 注意:不可再次插入 INSERT INTO demo_unique2 VALUES(\'张三\',\'123\'); 报错信息:ERROR 1062 (23000): Duplicate entry \'张三-123\' for key \'demo_unique_nc\' 删除唯一约束: ①:添加唯一性约束的列上也会自动创建唯一索引。 ②:删除唯一约束只能通过删除唯一索引的方式删除。(DROP INDEX) ③:删除时需要指定唯一索引名,唯一索引名就和唯一约束名一样。 ④:如果创建唯一约束时未指定名称,如果是单列,就默认和列名相同;如果是组合列, 那么默认和括号内排在第一个的列名相同。也可以自定义唯一性约束名 ALTER TABLE demo_unique1 DROP INDEX `name` ALTER TABLE demo_unique1 MODIFY `name` VARCHAR(10) UNIQUE KEY ALTER TABLE demo_unique1 ADD CONSTRAINT name_unique UNIQUE KEY(`name`); 注意:因为唯一约束创建后会字段创建唯一索引,所以可以通过 SHOW INDEX FROM 表名称; 查看表的索引
4:主键约束(PRIMARY KEY)
主要就是标识表中的一行记录是唯一的
关键字:PRIMARY KEY 特点: ①:主键约束相当于唯一约束+非空约束的组合,主键约束列不允许重复,也不允许出现NULL值。 ②:一个表最多只能有一个主键约束,建立主键约束可以在列级别创建,也可以在表级别上创建。 ③:主键约束对应着表中的一列或者多列(复合主键)。 ④:如果是多列组合的复合主键约束,那么这些列都不允许为空值,并且组合的值不允许重复。 ⑤:MySQL的主键名总是PRIMARY,就算自己命名了主键约束名也被自动置为PRIMARY。 ⑥:当创建主键约束时,系统默认会在所在的列或列组合上建立对应的主键索引 (能够根据主键查询的,就根据主键查询,效率更高) 如果删除主键约束了,主键约束对应的索引就自动删除了。(不推荐) ⑦:不要修改主键字段的值。因为主键是数据记录的唯一标识,如果修改了主键的值,就有可能会破坏数据的完整性。 建表时指定主键约束(注:使用表级方式设置名称是无效的) CREATE TABLE IF NOT EXISTS 表名称( 字段1 数据类型 PRIMARY KEY COMMENT \'字段1设置主键约束\', 字段2 数据类型 COMMENT \'字段2\') CREATE TABLE IF NOT EXISTS 表名称( 字段1 数据类型 COMMENT \'字段1\', PRIMARY KEY(字段1) COMMENT \'设置字段1为主键约束\') CREATE TABLE IF NOT EXISTS 表名称( 字段1 数据类型 COMMENT \'字段1\', 字段2 数据类型 COMMENT \'字段2\', PRIMARY KEY(字段1,字段2) COMMENT \'设置字段1和字段2为复合唯一索引\') 举例示例: CREATE TABLE IF NOT EXISTS demo_primary1( `id` INT PRIMARY KEY COMMENT \'ID,指定主键\', `name` VARCHAR(18) COMMENT \'姓名\'); CREATE TABLE IF NOT EXISTS demo_primary2( `id` INT COMMENT \'ID\', `name` VARCHAR(18) COMMENT \'姓名\', PRIMARY KEY(id)); CREATE TABLE IF NOT EXISTS demo_primary3( name VARCHAR(10) COMMENT \'姓名\', card VARCHAR(18) COMMENT \'身份证信息\', PRIMARY KEY(`name`,`card`)); MySQL5.7下: INSERT INTO demo_primary3 VALUES(\'张三\',\'123\'),(\'张三\',NULL); Records: 2 Duplicates: 0 Warnings: 1 一条警告,虽然插入了,但是把空默认置为空字符串\'\' MySQL8.0下: INSERT INTO demo_primary3 VALUES(\'张三\',\'123\'),(\'张三\',NULL); ERROR 1048 (23000): Column \'card\' cannot be null 插入失败;card字段不可为NULL 查询主键约束设置情况(因为主键只能设置一次,所以查询哪个表都是一样的): SELECT * FROM information_schema.table_constraints WHERE table_name = \'demo_primary3\'; +------------------+-----------------+---------------+------------+-------------+---------------+ |CONSTRAINT_CATALOG|CONSTRAINT_SCHEMA|CONSTRAINT_NAME|TABLE_SCHEMA|TABLE_NAME |CONSTRAINT_TYPE| +------------------+-----------------+---------------+------------+-------------+---------------+ |def |testys |PRIMARY |testys |demo_primary3|PRIMARY KEY | +------------------+-----------------+---------------+------------+-------------+---------------+ 查询表结构:(注:在Key列标注 PRI 则为主键,若一个Key列存在多个PRI,那么这表是组合主键) DESC demo_primary2; +-------+-------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------+-------------+------+-----+---------+-------+ | id | int(11) | NO | PRI | NULL | | | name | varchar(18) | YES | | NULL | | +-------+-------------+------+-----+---------+-------+ 删除主键约束: ALTER TABLE demo_primary1 DROP PRIMARY KEY ALTER TABLE demo_primary1 MODIFY id INT PRIMARY KEY ALTER TABLE demo_primary1 ADD PRIMARY KEY(id); 说明:删除主键约束,不需要指定主键名,因为一个表只有一个主键,删除主键约束后,非空还存在。
5:自增列(AUTO_INCREMENT)
其实自增长就是对某个字段依次累加,如1,2,3...这种,不会存在重复
关键字:AUTO_INCREMENT 特点: ①:一个表最多只能有一个自增长列 ②:当需要产生唯一标识符或顺序值时,可设置自增长 ③:自增长只能设置在主键列或唯一键列上 ④:自增约束的列的数据类型必须是整数类型 ⑤:如果自增列指定了0和null,会在当前最大值的基础上自增;如果自增列手动指定了具体值,直接赋值为具体值。 建表时指定自增约束: CREATE TABLE IF NOT EXISTS demo_auto1( id INT PRIMARY KEY AUTO_INCREMENT COMMENT \'主键ID自增长\', name VARCHAR(10) COMMENT \'姓名\'); CREATE TABLE IF NOT EXISTS demo_auto2( id INT PRIMARY KEY COMMENT \'主键ID\', card INT UNIQUE KEY AUTO_INCREMENT COMMENT \'卡号自增长\'); 查询创建表的结构 DESC demo_auto1; +-------+-------------+------+-----+---------+----------------+ | Field | Type | Null | Key | Default | Extra | +-------+-------------+------+-----+---------+----------------+ | id | int(11) | NO | PRI | NULL | auto_increment | | name | varchar(10) | YES | | NULL | | +-------+-------------+------+-----+---------+----------------+ DESC demo_auto2; +-------+---------+------+-----+---------+----------------+ | Field | Type | Null | Key | Default | Extra | +-------+---------+------+-----+---------+----------------+ | id | int(11) | NO | PRI | NULL | | | card | int(11) | NO | UNI | NULL | auto_increment | +-------+---------+------+-----+---------+----------------+ 其实我们可以在建表后再指定自增长 语法:ALTER TABLE 表名称 MODIFY 字段名 数据类型 AUTO_INCREMENT; 删除自增长(剔除AUTO_INCREMENT): 对有自增长的列执行:ALTER TABLE 表名称 MODIFY 字段名 数据类型;
指定自增长从指定数开始地址(可以重置自增长为0)
语法:ALTER TABLE 表名 AUTO_INCREMENT = 指定当前要从哪个数递增; 针对demo_auto1测试: INSERT INTO demo_auto1 VALUES(1,\'张三\'),(2,\'李四\'),(3,\'王五\'),(6,\'麻子\'); INSERT INTO demo_auto1 (`name`) VALUES(\'小武\'),(\'大壮\'); DELETE FROM demo_auto1 WHERE id in(7,8) INSERT INTO demo_auto1 (`name`) VALUES(\'小武\'),(\'大壮\'); 为什么会出现这种情况? 在MySQL 8.0之前,自增主键AUTO_INCREMENT插入数据后会自动计算max(primary key)+1,在MySQL重启后,会重 置AUTO_INCREMENT=max(primary key)+1,这种现象在某些情况下会导致业务主键冲突或者其它难以发现的问题。 在MySQL 5.7系统中,对于自增主键的分配规则,是由InnoDB数据字典内部一个 计数器 来决定的,而该计数器只在 内存中维护 ,并不会持久化到磁盘中。当数据库重启时,该计数器会被初始化 MySQL 8.0将自增主键的计数器持久化到 重做日志 中。每次计数器发生改变,都会将其写入重做日志中。 如果数据库重启,InnoDB会根据重做日志中的信息来初始化计数器的内存值。
6:外键约束(FOREIGN KEY)
主要就是限制某个表的某个字段的完整性,保证主表中某个字段在从表是存在的;假设一个辅导员有多个学生,这时学生表中对应的辅导员信息在辅导员表里必须有对应的部分。
关键字:FOREIGN KEY 主表和从表/父表和子表关系 主表(父表):被引用的表,被参考的表;有个从表引用主表中的某个字段 从表(子表):引用别人的表,参考别人的表;从表的某个字段引用了父表的字段 示例:假设现在有个teacher老师表和一个student学生表,老师和学生假设是一对多关系,一个老师教多个学生 示例:这大数据技术之HiveDDL数据定义DML数据操作
文章目录
1 DDL 数据定义
1.1 创建数据库
CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];
(1)创建一个数据库,数据库在HDFS上的默认存储路径是
/user/hive/warehouse/*.db
。hive (default)> create database db_hive; OK Time taken: 0.12 seconds
(2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)
hive (default)> create database db_hive; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists hive (default)> create database if not exists db_hive; OK Time taken: 0.044 seconds
(3)创建一个数据库,指定数据库在HDFS上存放的位置
hive (default)> create database db_hive2 location '/db_hive2.db'; OK Time taken: 0.07 seconds
1.2 查询数据库
1. 显示数据库
(1)显示数据库hive (default)> show databases; OK database_name db_hive db_hive2 default Time taken: 0.054 seconds, Fetched: 3 row(s)
(2)过滤显示查询的数据库
hive (default)> show databases like 'db_hive*'; OK database_name db_hive db_hive2 Time taken: 0.036 seconds, Fetched: 2 row(s)
2. 查看数据库详情
(1)显示数据库信息hive (default)> desc database db_hive; OK db_name comment location owner_name owner_type parameters db_hive hdfs://hadoop102:8020/user/hive/warehouse/db_hive.db Tom USER Time taken: 0.057 seconds, Fetched: 1 row(s)
(2)显示数据库详细信息,extended
hive (default)> desc database extended db_hive; OK db_name comment location owner_name owner_type parameters db_hive hdfs://hadoop102:8020/user/hive/warehouse/db_hive.db Tom USER Time taken: 0.074 seconds, Fetched: 1 row(s)
3. 切换当前数据库
hive (default)> use db_hive; OK Time taken: 0.057 seconds hive (db_hive)>
1.3 修改数据库
用户可以使用 ALTER DATABASE命令为某个数据库的 DBPROPERTIES 设置键 -值对属性值来描述这个数据库的属性信息。
hive (db_hive)> alter database db_hive > set dbproperties('createtime'='20210828'); OK Time taken: 0.101 seconds
在hive中查看修改结果
hive (db_hive)> desc database extended db_hive; OK db_name comment location owner_name owner_type parameters db_hive hdfs://hadoop102:8020/user/hive/warehouse/db_hive.db Tom USER {createtime=20210828} Time taken: 0.072 seconds, Fetched: 1 row(s)
1.4 删除数据库
(1)删除空数据库
hive (db_hive)> drop database db_hive2; OK Time taken: 0.095 seconds
(2)如果删除的数据库不存在,最好采用 if exists判断数据库是否存在
hive (db_hive)> drop database db_hive2; FAILED: SemanticException [Error 10072]: Database does not exist: db_hive2 hive (db_hive)> drop database if exists db_hive2; OK Time taken: 0.025 seconds
(3)如果数据库不为空,可以采用 cascade 命令,强制删除
hive (db_hive)> drop database db_hive; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.) hive (db_hive)> drop database db_hive cascade; OK Time taken: 0.364 seconds
1.5 创建表
1. 建表语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path] [TBLPROPERTIES (property_name=property_value, ...)] [AS select_statement]
2. 字段解释说明
(1)CREATE TABLE:创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常,用户可以用 IF NOT EXISTS 选项来忽略这个异常。(2) EXTERNAL 关键字:可以让用户创建一个外部表,在建表的同时,可以指定一个指向实际数据的路径( LOCATION ),在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
(3)COMMENT :为表和列添加注释。
(4)PARTITIONED BY:创建分区表。
(5)CLUSTERED BY:创建分桶表。
(6)SORTED BY:不常用,对桶中的一个或多个列另外排序。
(7)ROW FORMAT
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, …)]
用户在建表的时候可以自定义SerDe 或者使用自带的 SerDe 。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED ,将会使用自带的 SerDe 。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive 通过 SerDe 确定表的具体的列的数据。
SerDe 是 Serialize/Deserilize 的简称, hive 使用 Serde 进行行对象的序列与反序列化。(8)STORED AS:指定存储文件类型
常用的存储文件类型:SEQUENCEFILE (二进制序列文件)、 TEXTFILE (文本)、 RCFILE (列
式存储格式文件)
如果文件数据是纯文本,可以使用STORED AS TEXTFILE 。如果数据需要压缩,使用 STORED
AS SEQUENCEFILE 。(9)LOCATION :指定表在 HDFS 上的存储位置。
(10)AS :后跟查询语句 根据查询结果创建表 。
(11)LIKE:允许用户复制现有的表结构,但是不复制数据。
1.5.1 管理表
1. 理论
默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive 会(或多或少地)控制着数据的生命周期。 Hive 默认情况下会将这些表的数据存储在由配置hive.metastore.warehouse.dir
(例如,/user/hive/warehouse
) 所定义的目录的子目录下。当我们删除一个管理表时,Hive 也会删除这个表中数据。 管理表不适合和其他工具共享数据。
2. 案例实操
由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。 因此, Hive 中不建议对数据的改写,所有的数据都是在加载的时候确定好的。 而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO … VALUES 添加数据,使用 UPDATE … SET 修改数据。(1)普通创建表
hive (default)> create table if not exists student( > id int, name string > ) > row format delimited fields terminated by '\\t' > stored as textfile > location '/user/hive/warehouse/student'; OK Time taken: 0.397 seconds
(2)根据查询结果创建表(查询的结果会添加到新创建的表中)
hive (default)> create table if not exists student2 as select id, name from student;
(3)根据已经存在的表结构创建表
hive (default)> create table if not exists student3 like student; OK Time taken: 0.145 seconds
(4)查询表的类型
hive (default)> desc formatted student2; Table Type: MANAGED_TABLE
1.5.2 外部表
1. 理论
因为表是外部表,所以 Hive并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据,不过描述表的元数据信息会被删除掉。2. 管理表和外部表的使用场景
每天将收集到的网站日志定期流入HDFS 文本文件。在外部表(原始日志表)的基础上做大量的统计分析,用到的中间表、结果表使用内部表存储,数据通过 SELECT+INSERT 进入内部表。3. 案例实操
创建学生表
student:1001 ss1 1002 ss2 1003 ss3 1004 ss4 1005 ss5 1006 ss6 1007 ss7 1008 ss8 1009 ss9 1010 ss10 1011 ss1 1012 ss12 1013 ss13 1014 ss14 1015 ss15 1016 ss16
(1)上传数据到HDFS
hive (default)> dfs -mkdir /student; hive (default)> dfs -put /opt/module/hive-3.1.2/data/student.txt /student;
(2)创建表并载入数据
hive (default)> create external table if not exists student( > id int, > name string > ) > row format delimited fields terminated by '\\t'; OK Time taken: 0.091 seconds hive (default)> load data inpath '/student/student.txt' into table default.student; Loading data to table default.student OK Time taken: 0.419 seconds
(3)查看表的类型
hive (default)> desc formatted student; Table Type: EXTERNAL_TABLE
(4)删除外部表
hive (default)> drop table student; OK Time taken: 0.168 seconds
外部表删除后,hdfs中的数据还在,但是 metadata中 dept的元数据已被删除。
1.5.3 管理表与外部表的互相转换
(1)查询表的类型
hive (default)> desc formatted student2; Table Type: MANAGED_TABLE
(2)修改内部表 student2为外部表
hive (default)> alter table student2 set tblproperties('EXTERNAL'='TRUE'); OK Time taken: 0.174 seconds
(3)查询表的类型
Table Type: EXTERNAL_TABLE
(4)修改外部表 student2为内部表
hive (default)> alter table student2 set tblproperties('EXTERNAL'='FALSE'); OK Time taken: 0.153 seconds
(5)查询表的类型
Table Type: MANAGED_TABLE
注意:(‘EXTERNAL’=‘TRUE’)和 (‘EXTERNAL’=‘FALSE’)为固定写法,区分大小写
1.6 修改表
1. 重命名表
(1)语法ALTER TABLE table_name RENAME TO new_table_name
(2)实操案例
hive (default)> alter table student2 rename to student4; OK Time taken: 0.258 seconds
2. 增加/修改/替换列信息
更新列
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
增加和替换列
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
ADD
是代表新增一字段,字段位置在所有列后面(partition列前),REPLACE
则是表示替换表中所有字段。(1)查询表结构
hive (default)> desc dept; OK col_name data_type comment deptno int dname string loc int Time taken: 0.099 seconds, Fetched: 3 row(s)
(2)添加列
hive (default)> alter table dept add columns(deptdesc string); OK Time taken: 0.138 seconds
(3)查询表结构
hive (default)> desc dept; OK col_name data_type comment deptno int dname string loc int deptdesc string Time taken: 0.056 seconds, Fetched: 4 row(s)
(3)更新列
hive (default)> alter table dept change column deptdesc desc string; OK Time taken: 0.192 seconds
(3)查询表结构
hive (default)> desc dept; OK col_name data_type comment deptno int dname string loc int desc string Time taken: 0.064 seconds, Fetched: 4 row(s)
(3)替换列
hive (default)> alter table dept replace columns(deptno string, dname string, loc string); OK Time taken: 0.149 seconds
(3)查询表结构
hive (default)> desc dept; OK col_name data_type comment deptno string dname string loc string Time taken: 0.064 seconds, Fetched: 3 row(s)
1.7 删除表
hive (default)> drop table dept; OK Time taken: 1.901 seconds
2 DML 数据操作
2.1 数据导入
1. 向表中装载数据(load)
hive> load data [local] inpath ' 数据的 path ' overwrite into table student [partition (partcol1=val1,…)];
(1)load data:表示加载数据
(2)local:表示从本地加载数据到 hive表,否则从 HDFS加载数据到 hive表
(3)inpath: 表示加载数据的路径
(4)overwrite: 表示覆盖表中已有数据,否则表示追加
(5)into table: 表示加载到哪张表
(6)student:表示具体的表
(7)partition:表示上传到指定分区2. 实操案例
(1)创建一张表hive (default)> create table student(id string, name string) > row format delimited fields terminated by '\\t'; OK Time taken: 0.878 seconds
(2)加载本地文件到 hive
hive (default)> load data local inpath '/opt/module/hive-3.1.2/data/student.txt' into table student; Loading data to table default.student OK Time taken: 2.725 seconds
(3)加载 HDFS文件到 hive中
hive (default)> dfs -put /opt/module/hive-3.1.2/data/student.txt /student; hive (default)> load data inpath '/student' into table student; Loading data to table default.student OK Time taken: 0.712 seconds
(4)加载数据覆盖表中已有的数据
hive (default)> dfs -put /opt/module/hive-3.1.2/data/student.txt /student; hive (default)> load data inpath '/student/student.txt' overwrite into table student; Loading data to table default.student OK Time taken: 0.501 seconds
3. 通过查询语句向表中插入数据(Insert)
(1)创建一张表hive (default)> create table student_par(id int, name string) > row format delimited fields terminated by '\\t'; OK Time taken: 0.225 seconds
(2)基本插入数据
hive (default)> insert into table student_par > values(1, 'liubai'), (2, 'junmo');
(3)基本模式插入(根据单张表查询结果)
hive (default)> insert overwrite table student_par > select id, name from student where month='201609';
insert into::以追加数据的方式插入到表或分区,原有数据不会删除
insert overwrite:会覆盖表中已存在的数据
注意:insert不支持插入部分字段(4)多表(多分区)插入模式(根据多张表查询结果)
hive (default)> from student > insert overwrite table student partition(month='201707') > select id, name where month='201709' > insert overwrite table student partition(month='201706') > select id, name where month='201709';
4. 查询语句中创建表并加载数据( As Select)
根据查询结果创建表(查询的结果会添加到新创建的表中)hive (default)> create table if not exists student3 > as select id, name from student;
5. 创建表时通过 Location指定加载数据路径
(1)上传数据到 hdfs 上hive (default)> dfs -put /opt/module/hive-3.1.2/data/student.txt /student;
(2)创建表,并指定在 hdfs 上的位置
hive (default)> create external table if not exists student5( > id int, name string > ) > row format delimited fields terminated by '\\t' > location '/student'; Time taken: 0.111 seconds
(3)查询数据
hive (default)> select * from student5; OK student5.id student5.name 1001 ss1 1002 ss2 1003 ss3 1004 ss4 1005 ss5 1006 ss6 1007 ss7 1008 ss8 1009 ss9 1010 ss10 1011 ss11 1012 ss12 1013 ss13 1014 ss14 1015 ss15 1016 ss16 Time taken: 0.275 seconds, Fetched: 16 row(s)
6. Import数据到指定 Hive表中
注意: 先用 export导出后,再将数据导入。hive (default)> import table student2 from > '/student'; Copying data from hdfs://hadoop102:8020/student/data Copying file: hdfs://hadoop102:8020/student/data/student.txt Loading data to table default.student2 OK Time taken: 1.234 seconds
2.2 数据导出
1. Insert 导出
(1)将查询的结果导出到本地hive (default)> insert overwrite local directory '/opt/module/hive-3.1.2/data/student' > select * from student;
(2)将查询的结果格式化导出到本地
hive (default)> insert overwrite local directory > '/opt/module/hive-3.1.2/data/student' > row format delimited fields terminated by '\\t' > select * from student;
(3)将查询的结果导出到 HDFS上 (没有 local)
hive (default)> insert overwrite directory '/student' > row format delimited fields terminated by '\\t' > select * from student;
2. Hadoop 命令导出到本地
hive (default)> dfs -get /user/hive/warehouse/student/student.txt /opt/module/hive-3.1.2/data/student;
3. Hive Shell 命令导出
基本语法:hive -f/-e 执行语句或者脚本 > file[Tom@hadoop102 hive-3.1.2]$ bin/hive -e 'select * from default.student;' > /opt/module/hive-3.1.2/data/student/student2.txt;
4. Export导出到 HDFS上
export和 import主要用于 两个 Hadoop平台集群之间 Hive表迁移。hive (default)> export table default.student to > '/student'; OK Time taken: 1.434 seconds
5. 清除表中数据(truncate)
注意:Truncate只能删除管理表,不能删除外部表中数据hive (default)> truncate table student; OK Time taken: 0.353 seconds
参考:
https://www.bilibili.com/video/BV1EZ4y1G7iL?spm_id_from=333.788.b_636f6d6d656e74.11以上是关于MySQL之DDL表创建及DML数据处理操作的主要内容,如果未能解决你的问题,请参考以下文章