在databricks中使用cobrix处理大型机文件-Pyspark python 3

Posted

技术标签:

【中文标题】在databricks中使用cobrix处理大型机文件-Pyspark python 3【英文标题】:Processing a mainframe file using cobrix in databricks - Pyspark python 3 【发布时间】:2020-01-16 15:40:06 【问题描述】:

有谁知道如何将 cobrix 集成到 azure databricks - pyspark 用于处理大型机文件,具有 comp-3 列(Python 3)

请在下面的链接中找到详细的问题。 https://github.com/AbsaOSS/cobrix/issues/236#issue-550885564

【问题讨论】:

【参考方案1】:

要使第三方或本地构建的代码可用于集群上运行的笔记本和作业,您可以安装一个库。库可以用 Python、Java、Scala 和 R 编写。您可以上传 Java、Scala 和 Python 库,并指向 PyPI、Maven 和 CRAN 存储库中的外部包。

安装第三方库的步骤:

第 1 步: 创建 Databricks 集群。

第二步:选择创建的集群。

步骤 3: 选择库 => 安装新的 => 选择库源 = "Maven" => 坐标 => 搜索包 => 选择 Maven 中心 => 搜索所需的包。示例:(spark-cobol, cobol-parser, scodec) => 选择需要的版本 => 安装

更多详情请参考“Azure Databricks - libraries”和“Cobrix: A Mainframe Data Source for Spark SQL and Streaming”。

希望这会有所帮助。如果您有任何进一步的疑问,请告诉我们。

【讨论】:

以上是关于在databricks中使用cobrix处理大型机文件-Pyspark python 3的主要内容,如果未能解决你的问题,请参考以下文章

将大型数据框导出到 Power BI 可以使用的单个文件的最佳方式

在 Pyspark Databricks 中处理 1000 个 JSON 文件

无法使用 pySpark 从 Databricks 在 Cosmos DB/documentDB 中写入数据帧

Databricks:writeStream 不处理数据

如何在 Databricks 笔记本的 Python 单元中使 DataFrame 可见?

Spark Databricks 本地文件 API