Shell脚本 数据清洗

Posted 四季信风

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Shell脚本 数据清洗相关的知识,希望对你有一定的参考价值。

需要做的任务是将上图类似的格式的文件进行处理,将年月日小时分别提取出来放到每行的行尾(上图已清洗好)

自己的思路是先用cut命令将每行的年月日小时提取出来,分别给一个变量,然后再循环利用sed命令将年月日小时复制到行尾

实现起来感觉有问题,因为sed命令不熟,sed -i不知道能不能实现

简单了解一下sed

sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法
sed命令行格式为:
         sed [-nefri] ‘command’ 输入文本        

常用选项:
        -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到萤幕上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
        -e∶直接在指令列模式上进行 sed 的动作编辑;
        -f∶直接将 sed 的动作写在一个档案内, -f filename 则可以执行 filename 内的sed 动作;
        -r∶sed 的动作支援的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
        -i∶直接修改读取的档案内容,而不是由萤幕输出。       

常用命令:
        a   ∶新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
        c   ∶取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
        d   ∶删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
         i   ∶插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
         p  ∶列印,亦即将某个选择的资料印出。通常 p 会与参数 sed -n 一起运作~
         s  ∶取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!

举例:(假设我们有一文件名为ab)
     删除某行
     [root@localhost ruby] # sed \'1d\' ab              #删除第一行 
     [root@localhost ruby] # sed \'$d\' ab              #删除最后一行
     [root@localhost ruby] # sed \'1,2d\' ab           #删除第一行到第二行
     [root@localhost ruby] # sed \'2,$d\' ab           #删除第二行到最后一行

  显示某行
.    [root@localhost ruby] # sed -n \'1p\' ab           #显示第一行 
     [root@localhost ruby] # sed -n \'$p\' ab           #显示最后一行
     [root@localhost ruby] # sed -n \'1,2p\' ab        #显示第一行到第二行
     [root@localhost ruby] # sed -n \'2,$p\' ab        #显示第二行到最后一行

  使用模式进行查询
     [root@localhost ruby] # sed -n \'/ruby/p\' ab    #查询包括关键字ruby所在所有行
     [root@localhost ruby] # sed -n \'/\\$/p\' ab        #查询包括关键字$所在所有行,使用反斜线\\屏蔽特殊含义

  增加一行或多行字符串
     [root@localhost ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
     [root@localhost ruby] # sed \'1a drink tea\' ab  #第一行后增加字符串"drink tea"
     Hello!
     drink tea
     ruby is me,welcome to my blog. 
     end
     [root@localhost ruby] # sed \'1,3a drink tea\' ab #第一行到第三行后增加字符串"drink tea"
     Hello!
     drink tea
     ruby is me,welcome to my blog.
     drink tea
     end
     drink tea
     [root@localhost ruby] # sed \'1a drink tea\\nor coffee\' ab   #第一行后增加多行,使用换行符\\n
     Hello!
     drink tea
     or coffee
     ruby is me,welcome to my blog.
     end

  代替一行或多行
     [root@localhost ruby] # sed \'1c Hi\' ab                #第一行代替为Hi
     Hi
     ruby is me,welcome to my blog.
     end
     [root@localhost ruby] # sed \'1,2c Hi\' ab             #第一行到第二行代替为Hi
     Hi
     end

  替换一行中的某部分
  格式:sed \'s/要替换的字符串/新的字符串/g\'   (要替换的字符串可以用正则表达式)
     [root@localhost ruby] # sed -n \'/ruby/p\' ab | sed \'s/ruby/bird/g\'    #替换ruby为bird
   [root@localhost ruby] # sed -n \'/ruby/p\' ab | sed \'s/ruby//g\'        #删除ruby

     插入
     [root@localhost ruby] # sed -i \'$a bye\' ab         #在文件ab中最后一行直接输入"bye"
     [root@localhost ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
     bye

     删除匹配行

      sed -i \'/匹配字符串/d\'  filename  (注:若匹配字符串是变量,则需要“”,而不是‘’。记得好像是)

      替换匹配行中的某个字符串

      sed -i \'/匹配字符串/s/替换源字符串/替换目标字符串/g\' filename

 

发现sed用来替换文件内容更合适,所以此方法行不通,换种方法:

  将年、月、日、小时分别导出为一个文件,然后用paste命令进行拼接,之后再>>添加进一个文本文档中

构建脚本将年月日小时分别倒入相应文档

利用paste进行拼接后加到是s1.ext文件中

查看是s1.ext文档内容,可以看到完成预定的任务

 

以上是关于Shell脚本 数据清洗的主要内容,如果未能解决你的问题,请参考以下文章

数据清洗一:

通过脚本(awk,grep)清洗实体类数据,存入数据库

通过脚本(awk,grep)清洗实体类数据,存入数据库

记一次python清洗疫情历史数据

kettle - 清洗 mongodb 数据案例

kettle - 清洗 mongodb 数据案例