2017-10-9linux文本处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2017-10-9linux文本处理相关的知识,希望对你有一定的参考价值。

文本处理:cat、tac、more、less、head、tail, cut, sort, uniq, grep

正则表达式

管道和重定向: > < >> <<

用户,组,权限


查看文本:cat, tac, more, less, head, tail

cat(concatenate):连接并显示

-n:显示行号 -E:显示行结束符(对于linux而言,文本文件的行结束符shi$,windows的行结束符是$/n)      

tac:连接和显示(倒着)


分屏查看:more(向后翻,翻到文件尾部自动退出)  less(前后都可翻,翻到文件尾部不会自动退出,只能输入q退出)


head:查看前n行 tail:查看后n行   都支持-n显示行号

tail -f:查看文件尾部,不退出,等待显示后续追加至此文件的新内容


文本处理:cut、join、sed、awk

cut:切割

-d:指定分隔符,默认是空格 -f:指定要显示的字段, -f 1,3 -f 1-3

例如:cut -d: -f 1,7 file   显示文件以:为分隔符的第1和第7部分


文本排序:sort(sort与cut不会影响源文件的数据,只是显示在屏幕上)默认是按照Ascll升序排序

-n:按照数值大小排序 -r:逆序,降序 -t:制定分隔符 -k:指定要显示的字段 -u: 排序后相同的行只显示一次sort -u相当于uniq -f: 排序时忽略字符大小写

uniq: -c: 显示文件中行重复的次数 -d: 只显示重复的行


文本统计:wc (word count)

-l:多少行 -w:多少个单词 -c:多少个字符 -L:最长一行包含多少个字符


字符处理命令:tr---转换或删除字符

例如: tr ‘a-z‘ ‘A-Z‘ < /etc/passwd   把文件中的a-z换成大写A-Z

-d: 删除出现在字符集中的所有字符


本文出自 “11254884” 博客,请务必保留此出处http://11264884.blog.51cto.com/11254884/1971027

以上是关于2017-10-9linux文本处理的主要内容,如果未能解决你的问题,请参考以下文章

NLP文本特征处理&文本数据增强

NLP初识:文本预处理

文本聚类——文本预处理

英文文本挖掘预处理流程总结

白话自然语言处理(2)——文本分类

用于文本处理的 Python 或 Java(文本挖掘、信息检索、自然语言处理)[关闭]