Zeppelin：如何使用 sql 读取 DataFrame

Posted 2023-03-23

技术标签:

【中文标题】Zeppelin：如何使用 sql 读取 DataFrame【英文标题】：Zeppelin: how to read a DataFrame with sql 【发布时间】：2019-01-26 18:59:19 【问题描述】：

我必须将 python 与 Zeppelin 一起使用。我很新，我只在 Zeppelin 中找到有关 pyspark 的材料。我想用python导入一个dataframe，然后通过sql访问：

%python    
import pandas as pd #To work with dataset
import numpy as np #Math library     
#Importing the data
df_credit = pd.read_csv("../data.csv",index_col=0)

如果我尝试：

%python
from sqlalchemy import create_engine
engine = create_engine('sqlite://')
df_credit.to_sql('mydatasql',con=engine)

然后访问它，即：

%sql select Age, count(1) from mydatasql where Age < 30 group by Age order by Age

我收到错误：“找不到表或视图”

我认为问题在于 %sql 无法读取使用 %python 创建的变量，但我不确定。

【问题讨论】：

【参考方案1】：

试试%python.sql解释器。你必须安装pandasql 包。查看此link 了解更多信息。

【讨论】：

以上是关于Zeppelin：如何使用 sql 读取 DataFrame的主要内容，如果未能解决你的问题，请参考以下文章

使用 spark-csv 在 zeppelin 中读取 csv 文件

apache zeppelin 使用 pyspark 读取 csv 失败

Zeppelin 无法读取本地文件系统的文件路径

Zeppelin：使用 SQL 查询数据并使用它的最佳方法是啥？

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

Apache Zeppelin 如何可视化来自 Hbase 的数据？