正则表达式是我们认识世界的哲学

Posted 果子学生信

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式是我们认识世界的哲学相关的知识,希望对你有一定的参考价值。

首先我回答了一个学员的提问,

然后我为了使代码更加简洁,问了洲更一个问题,

如何获取括号中的内容,但不要返回括号。

我为什么这么问,因为我知道perl语言里面的正则表达式是可以实现这个功能的,而我曾经学过两个星期的perl语言。

这是他的回答,大概时间就是1个小时之内,包括了写帖子的过程。所以江湖人称“日更小王子”,更新速度极快。

看了回答,深刻的理解了这句话,

正则表达式是我们认识世界的哲学

决定把代码再精简一点。

观察之后总结模式

string = "Homo sapiens intraflagellar transport 80 homolog (Chlamydomonas) (IFT80), mRNA"

以这个为例,他里面有两个括号,我们要观察他,然后再把它抽象模式化。

  • 我们必须到找到一对括号,而且这个括号需要在逗号之前。

  • 因为括号是元字符,需要斜杠来转译,而斜杠也是元字符,需要另外一个斜杠来转译。
    现在这个模式可以写成这个样子

pattern = "\\(\\),"

那么找到了括号,这个括号里面是要有东西的,内容就是大小写字母和数字的结合[A-Za-z0-9],而且数量不限,所以,这个模式就变成了这样,* 符号代表是0或者多个

pattern = "\\([A-Za-z0-9]*\\),"

其中,我们想要把括号中的内容[A-Za-z0-9]*单独提取出来,那么需要给他增加一对括号,我们的模式就定型了

pattern = "\\(([A-Za-z0-9]*)\\),"

测试结果

现在可以测试一下stringr包中的str_view函数可以可视化匹配的结果

str_view(string,pattern)

使用str_match函数来匹配

str_match(string,pattern)

我们需要的括号内的内容在第二列,如果str_match中没有额外的括号,结果只会是一列

str_match(string,pattern)[,2]

[1] "IFT80"

既然我们明确地定义了做一件事情的步骤,那么我们就可以批量做。

library(dplyr)
library(stringr)
probeGenesymbol <- GPL4381 %>% 
  # 增加一个新的列gene_symbol,这个列获取了括号中的内容
  mutate(gene_symbol = str_match(.$GB_DEFINITION,pattern)[,2]) %>%
  # 过滤掉gene_symbol为空的行
  filter(gene_symbol != "") %>% 
  # 选出需要的列
  select(ID,gene_symbol,GB_DEFINITION)

现在这个代码足够简洁,更重要的是,我们升级了匹配模式,正则表达式就像眼睛一样,戴不戴世界就在那里,不增不减,但是戴上后,细节更多了,此时我们获得了跟多的结果,总共11399行。

既然开始接触字符串的处理以及正则表达式,我会系统地学习一下R语言的爬虫,把这两者更好地结合起来。


以上是关于正则表达式是我们认识世界的哲学的主要内容,如果未能解决你的问题,请参考以下文章

如何理解“哲学家们只是用不同的方式解释世界,而问题在于改变世界”?

哲学初步认识5

哲学专业学啥课程

西方哲学通史随想

西方哲学通史随想

关于哲学的演讲