如何使用 Pyspark 提取 Azure Application Insights 事件?

Posted

技术标签:

【中文标题】如何使用 Pyspark 提取 Azure Application Insights 事件?【英文标题】:How to extract Azure Application Insights Events using Pyspark? 【发布时间】:2021-09-24 10:21:04 【问题描述】:

我正在尝试使用 Pyspark (Azure Databricks) 中的以下代码以结构化格式捕获 Azure Application Insights 事件 -

import requests
import json

appId = "..."
appKey = "..."

query = """traces | where timestamp > ago(1d) | order by timestamp"""
params = "query": query
headers = 'X-Api-Key': appKey
url = f'https://api.applicationinsights.io/v1/apps/appId/query'
response = requests.get(url, headers=headers, params=params)
logs = json.loads(response.text)

json = json.dumps(logs)

jsonRDD = sc.parallelize([json])
df = spark.read.option('multiline', "true").json(jsonRDD)

display(df) 

但是,由于某种原因,这仅返回 json 结构。如何将其转换为结构化或表格格式?

请帮忙!

【问题讨论】:

我尝试以不同的方式进行操作,但效果很好。不过感谢您的帮助。 您也可以将其发布为帮助其他社区成员的答案。 【参考方案1】:

registerTempTable 在 spark 2.0 中一直是 deprecated。请改用createOrReplaceTempView

df = spark.read.option('multiline', "true").json(jsonRDD)
df.createOrReplaceTempView("df");
query= spark.sql("SELECT timestamp FROM traces)

PySpark SQL 还提供了一种读取 JSON 文件的方法,方法是使用 spark.sql(“load JSON to temporary view”) 直接从读取文件创建临时视图

spark.sql("CREATE OR REPLACE TEMPORARY VIEW zipcode USING json OPTIONS" + 
      " (path 'resources/zipcodes.json')")
spark.sql("select * from zipcode").show()

可以参考How to parse nested JSON objects in spark sql?和PySpark Read JSON file into DataFrame

【讨论】:

以上是关于如何使用 Pyspark 提取 Azure Application Insights 事件?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Azure 存储目录作为流数据源执行 PySpark Stream

如何从 Databrick/PySpark 覆盖/更新 Azure Cosmos DB 中的集合

使用 pyspark 在 azure synapse studio 中获取文件的完整路径

如何在 PySpark 中提取对长度敏感的特征而不使用 .toPandas() hack?

如何使用 pyspark 从 aws 胶水的时间戳中提取年份

如何从 pyspark.sql.function 中提取值?