LInux之Join命令

Posted MrDoghead

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LInux之Join命令相关的知识,希望对你有一定的参考价值。

介绍

在Linux中,如果你想要把两个文件按照列合并起来,比如一个文件存有一列学号一列姓名,另一个文件存有一列学号一列成绩,这个时候使用join命令就可以快速合并两个文件,不需要额外花时间写脚本。

用法

看一下官方文档

$ join --help

Usage: join [OPTION]... FILE1 FILE2
For each pair of input lines with identical join fields, write a line to
standard output.  The default join field is the first, delimited
by whitespace.  When FILE1 or FILE2 (not both) is -, read standard input.

  -a FILENUM        also print unpairable lines from file FILENUM, where
                      FILENUM is 1 or 2, corresponding to FILE1 or FILE2
  -e EMPTY          replace missing input fields with EMPTY
  -i, --ignore-case  ignore differences in case when comparing fields
  -j FIELD          equivalent to '-1 FIELD -2 FIELD'
  -o FORMAT         obey FORMAT while constructing output line
  -t CHAR           use CHAR as input and output field separator
  -v FILENUM        like -a FILENUM, but suppress joined output lines
  -1 FIELD          join on this FIELD of file 1
  -2 FIELD          join on this FIELD of file 2
  --check-order     check that the input is correctly sorted, even
                      if all input lines are pairable
  --nocheck-order   do not check that the input is correctly sorted
  --header          treat the first line in each file as field headers,
                      print them without trying to pair them
      --help     display this help and exit
      --version  output version information and exit

实例

先创建两个演示文件,待合并

 $ cat file1
1   Alice
2   Bob
3   cheryl
4   Doghead
 $ cat file2
1   60.0
2   70.0
3   80.0
4   90.0

然后使用join,一步到位

 $ join file1 file2
1 Alice 60.0
2 Bob 70.0
3 cheryl 80.0
4 Doghead 90.0

join默认以第一列为匹配列,也可以自己指定,例如指定第二列

$ join -j 2 file1 file2

甚至可以分别指定两个文件的不同列作为匹配,例如指定第一个文件的第一列和第二个文件的第一列(这个例子中匹配别的列没有结果)

 $ join -1 1 -2 1 file1 file2
1 Alice 60.0
2 Bob 70.0
3 cheryl 80.0
4 Doghead 90.0

当须要将多个格式同样的文件join到一起(join接受的是两个文件的指令),此时我们可以使用管道和字符“-"来实现
例如,join四个文件

join file1 file2 | join - file3 | join - file4 

最后,注意join需要有指定的对应列,实际使用中需要根据数据形式来灵活使用。

以上是关于LInux之Join命令的主要内容,如果未能解决你的问题,请参考以下文章

spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)(代码片段

linux打开终端如何启动scala,如何在终端下运行Scala代码片段?

sql sql join片段

谢烟客---------Linux之bash脚本编程---if补充和for循环

linux中怎么查看mysql数据库版本

Linux命令篇之cut命令和join命令