python 将yaml文件中定义的过滤器应用于PySpark数据帧

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 将yaml文件中定义的过滤器应用于PySpark数据帧相关的知识,希望对你有一定的参考价值。

#!/usr/bin/env python

import yaml
from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext()
sqlContext = SQLContext(sc)

# create dataframe
df = sqlContext.createDataFrame([
    ("Mary", 15),
    ("John", 18),
    ("Alex", 30),
], ["name", "age"])

# read rules from yaml file
# - 'age > 15 or name != "Mary"'
# - 'name != "Alex"'
with open('test.yaml', 'rb') as f:
    rules = yaml.load(f)

# apply filters
for rule in rules:
    df = df.filter(rule)

print df.collect()

以上是关于python 将yaml文件中定义的过滤器应用于PySpark数据帧的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Google App Engine 的 app.yaml 文件中配置 servlet 过滤器?

将 YAML 文件中的列表传递给 python

SpringBoot中yaml文件配置属性

怎样使用jinja2生成yaml文件

Python 脚本部署和发布 Django 应用程序的示例代码及注释

使用Python操作yaml库第2部