如何将文件从windows os复制到cloudera?我还想将 .csv 文件导入配置单元,我该怎么做?
Posted
技术标签:
【中文标题】如何将文件从windows os复制到cloudera?我还想将 .csv 文件导入配置单元,我该怎么做?【英文标题】:How to copy a file fron windows os to cloudera ? I also want to import the .csv file in to the hive, how can i do that? 【发布时间】:2014-04-24 21:19:43 【问题描述】:如何将文件从 windows 操作系统复制到 cloudera ?我还想将 .csv 文件导入配置单元,我该怎么做?请帮我完成它。
【问题讨论】:
【参考方案1】:要将文件导入 Linux,您需要将其通过 ftp 传输到 CentOS CLoudera 机器或挂载文件共享并从那里复制。
打开 CentOS/Cloudera 框后,您可以打开 Web 浏览器并登录 Cloudera Manager 和 Hue,这是 Hive/Pig 等的用户界面。顶部有图标,左起第三个是 Beeswax/Hive .单击该图标并从那里开始。
在 Cloudera 框中获得文件后,您的另一个选择是使用找到的 Hadoop fs 命令 HERE 特别是 copyFromLocal
要将文件加载到 Hive 中,您可以执行以下两项操作之一。将其加载到单个大型暂存字段中,然后使用偏移量将其解析为您想要的字段,如下所示:
LOAD DATA INPATH '/user/xyz/Inbound/files/target.csv' INTO TABLE 'myTable'
这会将整个记录加载到单个字段中。然后您将在加载后执行以下操作。
INSERT OVERWRITE TABLE myTable SELECT
regexp_extract(col_value, '^(?:([^,]*)\,?)(1)', 1) New_Field_name1
regexp_extract(col_value, '^(?:([^,]*)\,?)(5)', 1) New_Field_name2
......
FROM myTable;
语法看起来很有挑战性,但还不错,您只需阅读HiveQL Hue 还允许您将 CSV 加载到各个字段中,但您必须自己添加字段名称。不过我以前从来没有这样做过。
【讨论】:
以上是关于如何将文件从windows os复制到cloudera?我还想将 .csv 文件导入配置单元,我该怎么做?的主要内容,如果未能解决你的问题,请参考以下文章
如何以超级用户身份将文件从 google cloud shell 环境复制到虚拟机?
如何将文件从加密的 S3 存储桶复制到 Google Cloud Storage?
如何在使用 gsutil 保留 ACL 的同时将文件从 Google Cloud Storage 存储桶 1 复制到存储桶 2
将文件从 S3 存储桶复制到 Google Cloud Storage