pandas中DataFrame的查询方法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas中DataFrame的查询方法相关的知识,希望对你有一定的参考价值。
参考技术A 行选择---data[1:5]---基于位置列选择---data['lab1','lab2']---基于标签
且行、列不能同时选择
loc的列选择是基于标签
iloc的列选择是基于位置的
data_fecha.iloc[:,[1,2]].head()
如何使用 pymysql 将 mySQL 查询结果存储到 pandas DataFrame 中?
【中文标题】如何使用 pymysql 将 mySQL 查询结果存储到 pandas DataFrame 中?【英文标题】:How to store mySQL query result into pandas DataFrame with pymysql? 【发布时间】:2018-04-29 22:00:58 【问题描述】:我正在尝试使用 pymysql
将 mySQL 查询结果存储在 pandas DataFrame 中,并且在构建数据框时遇到错误。发现了一个类似的问题here 和here,但似乎有pymysql
特定的错误被抛出:
import pandas as pd
import datetime
import pymysql
# dummy values
connection = pymysql.connect(user='username', password='password', databse='database_name', host='host')
start_date = datetime.datetime(2017,11,15)
end_date = datetime.datetime(2017,11,16)
try:
with connection.cursor() as cursor:
query = "SELECT * FROM orders WHERE date_time BETWEEN %s AND %s"
cursor.execute(query, (start_date, end_date))
df = pd.DataFrame(data=cursor.fetchall(), index = None, columns = cursor.keys())
finally:
connection.close()
返回:AttributeError: 'Cursor' object has no attribute 'keys'
如果我放弃 index
和 columns
参数:
try:
with connection.cursor() as cursor:
query = "SELECT * FROM orders WHERE date_time BETWEEN %s AND %s"
cursor.execute(query, (start_date, end_date))
df = pd.DataFrame(cursor.fetchall())
finally:
connection.close()
返回ValueError: DataFrame constructor not properly called!
提前致谢!
【问题讨论】:
【参考方案1】:为此使用Pandas.read_sql():
query = "SELECT * FROM orders WHERE date_time BETWEEN ? AND ?"
df = pd.read_sql(query, connection, params=(start_date, end_date))
【讨论】:
pandas.read_sql() 通常运行良好。但是,如果命令是执行需要更新表(并提交表的更新行)的存储过程怎么办?在那种情况下,如何确保提交完成? pd.read_sql 是否允许提交? @Nodame,您可以先使用 sqlalchemy 调用存储过程,然后使用 pd.read_sql 读取结果 由于 pymysql Connection 不继承自任何 schlalchemy 类,pymysql 连接如何与 pandas read_sql 一起工作?【参考方案2】:试试这个:
import pandas as pd
import pymysql
mysql_connection = pymysql.connect(host='localhost', user='root', password='', db='test', charset='utf8')
sql = "SELECT * FROM `brands`"
df = pd.read_sql(sql, mysql_connection, index_col='brand_id')
print(df)
【讨论】:
【参考方案3】:感谢您建议使用 pandas.read_sql()。它也适用于执行存储过程!我在 MSSQL 2017 环境下测试过。
下面是一个例子(希望对其他人有所帮助):
def database_query_to_df(connection, stored_proc, start_date, end_date):
# Define a query
query ="SET NOCOUNT ON; EXEC " + stored_proc + " ?, ? " + "; SET NOCOUNT OFF"
# Pass the parameters to the query, execute it, and store the results in a data frame
df = pd.read_sql(query, connection, params=(start_date, end_date))
return df
【讨论】:
以上是关于pandas中DataFrame的查询方法的主要内容,如果未能解决你的问题,请参考以下文章