使用 bash 脚本在数百万列中子集列
Posted
技术标签:
【中文标题】使用 bash 脚本在数百万列中子集列【英文标题】:subset columns among millions of columns with bash script 【发布时间】:2016-02-16 23:23:23 【问题描述】:我有一张巨大的桌子,有 13 行和超过 1 亿列。我将从这些列中选择 1000 万列。而且我知道要选择的列的索引。我可以通过 bash 脚本实现这个目标吗?
欢迎提出任何建议。
【问题讨论】:
【参考方案1】:是的。 awk、sort 和各种其他基本 UNIX 命令具有列选择功能。根据您的表格格式,参数化正则表达式可能是最有效的解决方案。
详细信息取决于您所需的输入和输出格式。数据行的大小表明流水线应用程序而不是逐行处理器。
我希望这能让你开始编写代码。
【讨论】:
我没明白。列索引不连续。如何从另一个文件中读取列索引以将其作为数组传递给 awk 命令,然后只打印迭代数组中的数字? 请将细化的要求编辑到原始问题中。几个小时后,我会在用餐休息时间解决这个问题。以上是关于使用 bash 脚本在数百万列中子集列的主要内容,如果未能解决你的问题,请参考以下文章