如何用python实现对数据库的整理

Posted 2023-02-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何用python实现对数据库的整理相关的知识，希望对你有一定的参考价值。

先花点时间来说说一个程序怎么和数据库进行交互
1.和数据库建立连接
2.执行sql语句,接收返回值
3.关闭数据库连接
使用mysqldb也要遵循上面的几步.让我们一步步的进行.

1、MySQL数据库要用MySQLdb模块,但Python用来链接MySQL的第三方库MySQLdb不支持Python3.x

特别说明：我在我的电脑上实验时，我的python是2.7.2版本，安装对应版本的MySQLdb之后直接可以运行，并与数据库连接成功，所以如果大家
也像我一样顺利的话，下面的就不需要看了，直接跳过，看第2点如何执行sql语句即可！如果安装之后出现异常，可以参考一下下面的解决办法。

连接的关键是安装MySQLdb模块要下载与Python相对应的版本：

下载好后安装，它会自动检测到计算机Python的安装路径，并自动填写模块解压路径（我的是：D:\\ProgramFiles\\ActivePython 2.6.6.17\\Lib\\site-packages\\）。

但解压完成后并不能使用，还要修改MySQLdb模块下的一些文件：

①.在MySQLdb目录下（我的是：D:\\ProgramFiles\\ActivePython 2.6.6.17\\Lib\\site-packages\\MySQLdb）找到__init__.py：

注释第34、35行的from setsimport ImmutableSet、class DBAPISet(ImmutableSet):，在后面添加class DBAPISet(frozenset):

# from sets import ImmutableSet

# class DBAPISet(ImmutableSet):

class DBAPISet(frozenset):

②.打开converters.py：

注释第37行的from sets import BaseSet, Set，将第45行的return Set([ i for i in
s.split(\',\') ifi ])中的Set改为set；同样将第129行的Set:
Set2Str,中的Set改为set（不要修改Set2Str），到这里就修改完毕了

2.建立数据库连接
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")
　
比较常用的参数包括
host: 连接的数据库服务器主机名，默认为本地主机(localhost)。

user:数据库登陆名.默认是当前用户.
passwd:数据库登陆的秘密.默认为空.
db:要使用的数据库名.没有默认值.
port:MySQL服务使用的TCP端口.默认是3306.
conn连接有两个重要的方法commit【提交新增和修改】,rollback【撤销新增或修改】

3、执行数据库操作
n=cursor.execute(sql,param)
我们要使用连接对象获得一个cursor对象,接下来,我们会使用cursor提供的方法来进行工作.
这些方法包括两大类:1.执行命令,2.接收返回值
cursor用来执行命令的方法:
　 callproc(self, procname, args):用来执行存储过程,接收的参数为存储过程名和参数列表,返回值为受影响的行数
　 execute(self, query, args):执行单条sql语句,接收的参数为sql语句本身和使用的参数列表,返回值为受影响的行数
　 executemany(self, query, args):执行单挑sql语句,但是重复执行参数列表里的参数,返回值为受影响的行数
　 nextset(self):移动到下一个结果集
　 cursor用来接收返回值的方法:
　 fetchall(self):接收全部的返回结果行.
　 fetchmany(self, size=None):接收size条返回结果行.如果size的值大于返回的结果行的数量,则会返回cursor.arraysize条数据.
　 fetchone(self):返回一条结果行.
　 scroll(self, value, mode=\'relative\'):移动指针到某一行.如果mode=\'relative\',则表示从当前所在行移动value条,如果mode=\'absolute\',则表示从结果集的第一行移动value条.
下面的代码是一个完整的例子.
#使用sql语句,这里要接收的参数都用%s占位符.要注意的是,无论你要插入的数据是什么类型,占位符永远都要用%s
sql="insert into cdinfo values(%s,%s,%s,%s,%s)"
#param应该为tuple或者list
param=(title,singer,imgurl,url,alpha)
#执行,如果成功,n的值为1
n=cursor.execute(sql,param)
#再来执行一个查询的操作
cursor.execute("select * from cdinfo")
#我们使用了fetchall这个方法.这样,cds里保存的将会是查询返回的全部结果.每条结果都是一个tuple类型的数据,这些tuple组成了一个tuple
cds=cursor.fetchall()
#因为是tuple,所以可以这样使用结果集
print cds[0][3]
#或者直接显示出来,看看结果集的真实样子
print cds
#如果需要批量的插入数据,就这样做
sql="insert into cdinfo values(0,%s,%s,%s,%s,%s)"
#每个值的集合为一个tuple,整个参数集组成一个tuple,或者list
param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2))
#使用executemany方法来批量的插入数据.这真是一个很酷的方法!
n=cursor.executemany(sql,param)
需要注意的是(或者说是我感到奇怪的是),在执行完插入或删除或修改操作后,需要调用一下
conn.commit()方法进行提交.这样,数据才会真正保存在数据库中.我不清楚是否是我的mysql设置问题,总之,今天我在一开始使用的时候,
如果不用commit,那数据就不会保留在数据库中,但是,数据确实在数据库呆过.因为自动编号进行了累积,而且返回的受影响的行数并不为0.

4、关闭数据库连接
需要分别的关闭指针对象和连接对象.他们有名字相同的方法
cursor.close()
conn.close()
5、

5 编码（防止乱码）

需要注意的点：

1 Python文件设置编码 utf-8 （文件前面加上 #encoding=utf-8)
2 MySQL数据库charset=utf-8
3 Python连接MySQL是加上参数 charset=utf8
4 设置Python的默认编码为 utf-8 (sys.setdefaultencoding(utf-8)

#encoding=utf-8 import sys import MySQLdb reload(sys) sys.setdefaultencoding(\'utf-8\') db=MySQLdb.connect(user=\'root\',charset=\'utf8\')

注：MySQL的配置文件设置也必须配置成utf8

6.模块功能演示
#!/usr/bin/python
import MySQLdb

Con= MySQLdb.connect(host=\'localhost\',user=\'root\',passwd=\'root\',db=\'abc\')

cursor =con.cursor()

sql ="select * from myt"

cursor.execute(sql)

row=cursor.fetchone()

print row

cursor.close()

con.close()

执行以下SQL语句获取返回值：
//获取连接的游标
cursor=conn.cursor()
//查询
sql = "select * from 【table】"
//新增
sql = "insert into 【table】(字段,字段) values(值，值)"
//修改
sql = "update 【table】 set 字段 =‘值’where 条件 "
//删除
sql = "delete from 【table】where 条件"
cursor.execute(sql)

返回值
cur.execute(\'select * from tables\')
其返回值为SQL语句得到的行数，如：2L，表示2行。
然后，可以从该对象的fetchone或fetchall方法得到行信息。

获取行信息
指针对象的fetchone()方法，是每次得到一行的tuple返回值：
引用
>>> row=cur.fetchone()
>>> print row
(\'user1\', \'52c69e3a57331081823331c4e69d3f2e\', 1000L, 1000L, \'/home/FTP/user1\',\'\')

指针对象的fetchall()方法，可取出指针结果集中的所有行，返回的结果集一个元组(tuples)：
引用
>>> cur.scroll(0,\'absolute\')
>>> row=cur.fetchall()
>>> print row
((\'user1\', \'52c69e3a57331081823331c4e69d3f2e\', 1000L, 1000L,
\'/home/FTP/user1\',\'\'), (\'user2\', \'7e58d63b60197ceb55a1c487989a3720\',
1000L, 1000L,\'/home/FTP/user2\', None))

移动指针
当使用fetchone()方法是，指针是会发生移动的。所以，若不重置指针，那么使用fetchall的信息将只会包含指针后面的行内容。
手动移动指针使用：
cur.scroll(int,parm)
含义为：
引用
int：移动的行数，整数；在相对模式下，正数向下移动，负值表示向上移动。
parm：移动的模式，默认是relative，相对模式；可接受absoulte，绝对模式。

修改数据
修改数据，包括插入、更新、删除。它们都是使用指针对象的execute()方法执行：
cur.execute("insert into table (row1, row2) values (\'111\', \'222\')")
cur.execute("update table set row1 = \'test\' where row2 = \'row2\' ")
cur.execute("delete from table where row1 = \'row1\' ")

因单引号“\'”用于SQL语句中的标识，所以，python中的字符串需使用双引号括住。
此外，也可以使用python的“格式化字符串”写法，简化命令，例如：
cur.execute("update table set row1 = \'%s\' where row2 = \'%s\' "%(\'value1\',\'value2\'))

※请注意，\'%s\'的单引号是SQL语句的间隔符，\'value1\'的单引号是python的字符串间隔符，其含义是不同的。是否需要间隔符，以及使用双引号还是单引号作为间隔，需根据其含义决定。例如，还有：
cur.execute("update FTPUSERS set passwd=%s where userid=\'%s\' "%("md5(\'123\')",\'user2\'))

这里，paswd=%s是因SQL的md5()函数是不需要单引号间隔的；"md5(\'123\')"是python的字符串中含有单引号，所以用双引号括住。

提交修改
一般情况下，MySQLdb模块会自动提交修改。但我们在更新数据后，手动运行一次：
conn.commit()

关闭数据库连接
需要分别的关闭指针对象和连接对象.他们有名字相同的方法
cursor.close()
conn.close() 参考技术A MySQL 的 Binlog 记录着 MySQL 数据库的所有变更信息，了解 Binlog 的结构可以帮助我们解析Binlog，甚至对 Binlog 进行一些修改，或者说是“篡改”，例如实现类似于 Oracle 的 flashback 的功能，恢复误删除的记录，把 update 的记录再还原回去等。本文将带您探讨一下这些神奇功能的实现，您会发现比您想象地要简单得多。本文指的 Binlog 是 ROW 模式的 Binlog，这也是 MySQL 8 里的默认模式，STATEMENT 模式因为使用中有很多限制，现在用得越来越少了。
Binlog 由事件（event）组成，请注意是事件（event）不是事务（transaction），一个事务可以包含多个事件。事件描述对数据库的修改内容。
现在我们已经了解了 Binlog 的结构，我们可以试着修改 Binlog 里的数据。例如前面举例的 Binlog 删除了一条记录，我们可以试着把这条记录恢复，Binlog 里面有个删除行（DELETE_ROWS_EVENT）的事件，就是这个事件删除了记录，这个事件和写行（WRITE_ROWS_EVENT）的事件的数据结构是完全一样的，只是删除行事件的类型是 32，写行事件的类型是 30，我们把对应的 Binlog 位置的 32 改成 30 即可把已经删除的记录再插入回去。从前面的 “show binlog events” 里面可看到这个 DELETE_ROWS_EVENT 是从位置 378 开始的，这里的位置就是 Binlog 文件的实际位置（以字节为单位）。从事件（event）的结构里面可以看到 type_code 是在 event 的第 5 个字节，我们写个 Python 小程序把把第383（378+5=383）字节改成 30 即可。当然您也可以用二进制编辑工具来改。
找出 Binlog 中的大事务
由于 ROW 模式的 Binlog 是每一个变更都记录一条日志，因此一个简单的 SQL，在 Binlog 里可能会产生一个巨无霸的事务，例如一个不带 where 的 update 或 delete 语句，修改了全表里面的所有记录，每条记录都在 Binlog 里面记录一次，结果是一个巨大的事务记录。这样的大事务经常是产生麻烦的根源。我的一个客户有一次向我抱怨，一个 Binlog 前滚，滚了两天也没有动静，我把那个 Binlog 解析了一下，发现里面有个事务产生了 1.4G 的记录，修改了 66 万条记录！下面是一个简单的找出 Binlog 中大事务的 Python 小程序，我们知道用 mysqlbinlog 解析的 Binlog，每个事务都是以 BEGIN 开头，以 COMMIT 结束。我们找出 BENGIN 前面的 “# at” 的位置，检查 COMMIT 后面的 “# at” 位置，这两个位置相减即可计算出这个事务的大小，下面是这个 Python 程序的例子。
切割 Binlog 中的大事务
对于大的事务，MySQL 会把它分解成多个事件（注意一个是事务 TRANSACTION，另一个是事件 EVENT），事件的大小由参数 binlog-row-event-max-size 决定，这个参数默认是 8K。因此我们可以把若干个事件切割成一个单独的略小的事务
ROW 模式下，即使我们只更新了一条记录的其中某个字段，也会记录每个字段变更前后的值，这个行为是 binlog_row_image 参数控制的，这个参数有 3 个值，默认为 FULL，也就是记录列的所有修改，即使字段没有发生变更也会记录。这样我们就可以实现类似 Oracle 的 flashback 的功能，我个人估计 MySQL 未来的版本从可能会基于 Binlog 推出这样的功能。
了解了 Binlog 的结构，再加上 Python 这把瑞士军刀，我们还可以实现很多功能，例如我们可以统计哪个表被修改地最多？我们还可以把 Binlog 切割成一段一段的，然后再重组，可以灵活地进行 MySQL 数据库的修改和迁移等工作。本回答被提问者采纳

以上是关于如何用python实现对数据库的整理的主要内容，如果未能解决你的问题，请参考以下文章

如何用python实现两个文件重复数据筛选并统计

如何用python更新mysql数据库数据