如何使用上下文表作为模式将文本文件保存到配置单元
Posted
技术标签:
【中文标题】如何使用上下文表作为模式将文本文件保存到配置单元【英文标题】:how to save a text file to hive using table of context as schema 【发布时间】:2017-07-26 11:17:34 【问题描述】:我有许多文本格式(word 和 pdf)的项目报告。这些文件包含我要提取的数据;比如引用、关键词、提到的名字......
我想用 Apache spark 处理这些文件并将结果保存到 hive, 使用数据框的力量(使用上下文表作为架构)可以吗?
您能否与我分享有关如何处理这些文件的任何想法?
【问题讨论】:
你能澄清一下“作为模式的上下文表”是什么意思吗? 文档的字幕(如简介、摘要、参考书目、......) 【参考方案1】:据我了解,您需要使用Tika 解析文件并按照here 的描述手动创建自定义架构。
如果这有帮助,请告诉我。干杯。
【讨论】:
以上是关于如何使用上下文表作为模式将文本文件保存到配置单元的主要内容,如果未能解决你的问题,请参考以下文章