4.DataFrame

Posted traditional

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4.DataFrame相关的知识,希望对你有一定的参考价值。

快速开始

技术分享图片

 

 

 

基本概念

 

‘‘‘
在使用 DataFrame 时,需要了解三个对象上的操作:Collection(DataFrame) ,Sequence,Scalar
Collection(DataFrame)表示表结构(或者二维结构)
Sequence表示列(一维结构)
Scalar表示标量
要注意的是,这些对象仅在使用 Pandas 数据创建后会包含实际数据
而在 ODPS 表上创建的对象中并不包含实际的数据,
而仅仅包含对这些数据的操作,实质的存储和计算会在 ODPS 中进行。
‘‘‘
# 创建DataFrame
‘‘‘
通常情况下,你唯一需要直接创建的 Collection 对象是 DataFrame,这一对象用于引用数据源
可能是一个 ODPS 表, ODPS 分区,Pandas DataFrame或sqlalchemy.Table(数据库表)
用这几种数据源时,相关的操作相同,这意味着你可以不更改数据处理的代码
仅仅修改输入/输出的指向, 便可以简单地将小数据量上本地测试运行的代码迁移到 ODPS 上,
而迁移的正确性由 PyODPS 来保证。
创建 DataFrame 非常简单,只需将 Table 对象、 pandas DataFrame 对象或者 sqlalchemy Table 对象传入即可。
‘‘‘

 技术分享图片

# 列类型
‘‘‘
DataFrame包括自己的类型系统,在使用Table初始化的时候,ODPS的类型会被进行转换。
这样做的好处是,能支持更多的计算后端。 
目前,DataFrame的执行后端支持ODPS SQL、pandas以及数据库(mysql和Postgres)。
PyODPS DataFrame 包括以下类型
int8,int16,int32,int64,float32,float64,boolean,string,decimal,datetime,list,dict
ODPS的字段和DataFrame的类型映射关系如下:
‘‘‘
ODPS类型       DataFrmae类型
bigint   int64
  float64
  string
  datetime
  boolean
  decimal
 

 
dict<key_type, value_type>


以上是关于4.DataFrame的主要内容,如果未能解决你的问题,请参考以下文章

Pandas入门4 -- DataFrame类及创建

pyspark案例系列4-dataframe输出到单个文件夹的解决方案

大数据清洗4(pandas-DataFrame常用操作)

[Spark][Python]DataFrame select 操作例子

微信小程序代码片段

VSCode自定义代码片段——CSS选择器