使用 bash 脚本在数百万列中子集列

Posted

技术标签:

【中文标题】使用 bash 脚本在数百万列中子集列【英文标题】:subset columns among millions of columns with bash script 【发布时间】:2016-02-16 23:23:23 【问题描述】:

我有一张巨大的桌子,有 13 行和超过 1 亿列。我将从这些列中选择 1000 万列。而且我知道要选择的列的索引。我可以通过 bash 脚本实现这个目标吗?

欢迎提出任何建议。

【问题讨论】:

【参考方案1】:

是的。 awksort 和各种其他基本 UNIX 命令具有列选择功能。根据您的表格格式,参数化正则表达式可能是最有效的解决方案。

详细信息取决于您所需的输入和输出格式。数据行的大小表明流水线应用程序而不是逐行处理器。

我希望这能让你开始编写代码。

【讨论】:

我没明白。列索引不连续。如何从另一个文件中读取列索引以将其作为数组传递给 awk 命令,然后只打印迭代数组中的数字? 请将细化的要求编辑到原始问题中。几个小时后,我会在用餐休息时间解决这个问题。

以上是关于使用 bash 脚本在数百万列中子集列的主要内容,如果未能解决你的问题,请参考以下文章

JavaScript 基础知识

JavaScript 之基础知识

在数百万的谷歌三星和LG手机中发现的高通芯片漏洞,已修补

JavaScript总结

用于将日期和时间列转换为 .csv 中的 unix 时间戳的 Bash 脚本

BASH - 如何从 CSV 文件中的列中提取数据并将其放入数组中?