10 正则表达式应用

Posted 蟹黄小笼包

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了10 正则表达式应用相关的知识,希望对你有一定的参考价值。

name-date.txt 在文档最后

所有文件为:

 
1、使用正则表达式将如下文字中合法的邮件地址输出。

“工作邮箱是:abc@123.com,生活中经常使用邮箱 abc@.com,个人邮箱:Python@123.com,工作顺利...”

 

# 按照邮件地址的格式(用户名@域名.后缀)来编写正则表达式

# 该正则表达式中包含了四个部分:

# 1. 用户名:由一个或多个字母、数字、下划线、点、减号组成,且必须以字母或数字开头(用于描述用户名的部分用小括号括起来)

# 2. @符号:该部分只包含一个@符号

# 3. 域名:由一个或多个字母、数字、下划线、点组成,且必须以字母或数字开头(用于描述域名的部分用小括号括起来)

# 4. 后缀:由一个或多个字母组成,且必须以字母开头(用于描述后缀的部分用小括号括起来)

# 在线正则表达式测试 https://tool.oschina.net/regex/?optionGlobl=global(所有邮箱可参考这个网址到这个撒哈拉沙漠输入邮箱地址可以 。查找出所有合法正确的邮件地址)

 

 # 方法①
 import os
 import re
 
 text = "工作邮箱是:abc@123.com,生活中经常使用邮箱 abc@.com,个人邮箱:Python@123.com,工作顺利..."
 # 使用正则表达式查找所有合法的邮件地址
 email_addresses = re.findall(r\'\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]2,\\b\', text)
 # 输出查找到的邮件地址
 print("合法的邮件地址:", email_addresses)

 

 

 

 

 

 # 方法②
 import re
 
 # 定义一个用于匹配邮件地址的正则表达式模式
 pattern = r\'\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]2,\\b\'
 # 定义要搜索的文本
 text = "工作邮箱是:abc@123.com,生活中经常使用邮箱 abc@.com,个人邮箱:Python@123.com,工作顺利..."
 # 使用findall()函数在文本中搜索所有符合正则表达式模式的字符串
 results = re.findall(pattern, text)
 # 输出所有匹配到的邮件地址
 for result in results:
     print(result)

 

 
2. 网页中有一段字符串为:’sp>chl>个人信息 1811 * * * *589</h1><span>姓名:DingY,电话1871****111</span></p 使用正则表达式元成如下要求。

①提取宇符串中<span>标签里的内谷。

②提取其中所有的手机号。

 import re
 
 # 定义字符串
 s = \'p<h1>个人信息 18111234589</h1><span>姓名:DingY,电话187111001111</span></p\'
 # 获取<span>标签内的所有数据
 info = re.search(r\'(?<=<span>).*(?=</span>)\', s)
 print("span标签内的所有数据:")
 print(info.group(0))
 # 提取所有手机号码
 phone = re.findall(r\'1[34578]\\d9\', s, re.S)
 print("所有的手机号码:", phone)

 
 
 3、文档中有一个记事本文件,文件名为out_2021.03.24.txt,使用正则表达式读取文件名中的日期时间信息,并找出这一天是周几。将文件改名为out_YYYY-MM-DD-W.txt (其中YYYY:四位的年,MM:两位的月份,DD:两位的日,W:一位的周几,并假设周一为一周第一天)。
 filename = "out_2021.03.24.txt"
 # 匹配年月日信息
 pattern = re.compile(r"out_(\\d4)\\.(\\d2)\\.(\\d2)\\.txt")
 match = pattern.match(filename)
 if match:
     # 获取年月日信息
     year = match.group(1)
     month = match.group(2)
     day = match.group(3)
     print("读取文件名中的日期时间信息:")
     print(f"year: year, month: month, day: day")
     # 计算这一天是周几
     date = datetime.date(int(year), int(month), int(day))
     print(f"weekday(这一天是周几): date.strftime(\'%w\')")
     # 构造新的文件名
     new_filename = f"out_year-month-day-date.strftime(\'%w\').txt"
     # 修改文件名,新的文件名将会替代原来的文件名,并保存在当前目录下
     os.rename(filename, new_filename)
     print("修改后的文件名将会保存到当前目录下")

注意:先创建文件名为out_2021.03.24.txt文件

 

其中YYYY:四位的年,MM:两位的月份,DD:两位的日,W:一位的周几,并假设周一为一周第一

修改后的文件名将会替换并保存到当前目录下out_YYYY-MM-DD-W.txt,

运行代码的时候把红色框框中文件删除再运行,否则会报错

 
 

运行结果

 

 
 
 
输出日期的方法
  输出日期的方法
 # import os
 # import re
 # from datetime import datetime
 
 # 定义文件名
 # filename = "out_2021.03.24.txt"
 
 # 使用正则表达式解析文件名中的日期时间信息
 # result = re.match(r\'out_(\\d4)\\.(\\d2)\\.(\\d2)\\.txt\', filename)
 
 # 将解析后的年、月、日信息转换为 datetime 对象
 # date = datetime.strptime(f"result.group(1)-result.group(2)-result.group(3)", "%Y-%m-%d")
 
 # 输出这一天是周几
 # print(date.strftime("%A"))

 
 
 
4、已有文件内容如附件个人信息所示,请使用正则表达式实现如下要求:

①提取所有日期

②提取所有 1996 年以前出生的信息

③重新排版,日期规范为“yyyy年M月d日”

④把所有1996年以前出生的年份改为1996

⑤提取生日格式:张伟的生日是11月15号

 import re
 
 name_date = ""
 with open(\'name-date.txt\', encoding=\'UTF-8\') as f:
     for l in f:
         name_date += "".join(l.split("\\n")) + "\\n"
 date = re.findall("\\d4[年.-]?\\d1,2[月.-]?\\d1,2\\S?", name_date)
 # print(\'所有日期:\')
 # print(date)
 
 #  重新排版, 日期规范 为“yyy年M月d日”
 formatted_dates = re.sub("\\s*(\\S+)\\s+(\\d4)[年.-]?(\\d1,2)[月.-]?(\\d1,2)\\S?", r"\\1 \\t \\2年\\3日\\4日\\n", name_date)
 # print(\'\\n重新排版后日期规范为:\')
 # print(formatted_dates)
 
 #     提取所有 1996 年以前出生的学生
 born_before_1996 = re.findall("\\S+\\s+1\\d2[0-5][年.-]?\\d1,2[月.-]?\\d1,2\\S?", name_date)
 # print(\'\\n1996年以前出生的信息:\')
 # print(born_before_1996)
 
 # 把所有1996年以前出生的年份改为1996
 birth_year_replace_pattern = re.compile(r\'(19\\d2)年\')
 replaced_text = birth_year_replace_pattern.sub(\'1996年\', name_date)
 # print(\'\\n把所有1996年以前出生的年份改为1996:\')
 # print(replaced_text)
 # 提取生日格式
 # ① 由于 name_date.txt没有"张伟的生日是11月15号“匹配不到,所以可以把原文本“ 张伟 1996.11.15””改为“ 张伟 1996.8.24”
 pattern = r\'(\\w+)\\s*:\\s*(\\d4).(\\d1,2).(\\d1,2)\'
 match = re.search(pattern, \'张伟: 1996.11.15\')
 if match:
     [name, year, month, day] = match.groups()
 # 转化为11月15日格式
 
 birthday_str = f\'month月day日\'
 # print(\'名字:\', name)
 # print(\'生日:\', birthday_str)
 
 # ② 可以直接创建文本内容 :text = "张伟的生日是11月15号"进行提取生日格式。
 text = "张伟的生日是11月15号"
 # 使用 findall() 方法搜索正则表达式的匹配项
 matches = re.findall(r\'(\\d1,2)月(\\d1,2)号\', text)
 # print(\'\\n张伟的生日:\')
 # print(matches)
 
 print(\'所有日期:\')
 print(date)
 print(\'\\n重新排版后日期规范为:\')
 print(formatted_dates)
 print(\'\\n1996年以前出生的信息:\')
 print(born_before_1996)
 print(\'\\n把所有1996年以前出生的年份改为1996:\')
 print(replaced_text)
 print(\'名字:\', name)
 print(\'生日:\', birthday_str)
 print(\'\\n张伟的生日:\')
 print(matches)
 #@hfl
输出结果为:
所有日期:
[\'1996.11.15\', \'1993年10月21日\', \'1996年07月24日\', \'1996.3.21\', \'1996.12.0\', \'1996年07月05日\', \'1996.1.28\', \'1996年02月24日\', \'1996.5.28\', \'1996.10.26\', \'1993年1月6日\', \'1996.5.21\', \'1996年05月01日\', \'1996年04月14日\', \'1996.8.13\', \'1998年1月5日\', \'1996年08月21日\', \'1996年03月07日\', \'1996年03月18日\', \'1996年12月18日\', \'1995年5月7日\']

重新排版后日期规范为:
张伟      1996年11日15日
王伟      1993年10日21日
王芳      1996年07日24日
李伟      1996年3日21日
王秀英      1996年12日0日
李秀英      1996年07日05日
李娜      1996年1日28日
张秀英      1996年02日24日
刘伟      1996年5日28日
张敏      1996年10日26日
李静      1993年1日6日
张丽      1996年5日21日
王静      1996年05日01日
王丽      1996年04日14日
李强      1996年8日13日
张静      1998年1日5日
李敏      1996年08日21日
王敏      1996年03日07日
王磊      1996年03日18日
李军      1996年12日18日
刘洋      1995年5日7日
   


1996年以前出生的信息:
[\'王伟      1993年10月21日\', \'李静      1993年1月6日\', \'刘洋   1995年5月7日\']

把所有1996年以前出生的年份改为1996:
 张伟         1996.11.15
   王伟      1996年10月21日   
 王芳         1996年07月24日   
   李伟       1996.3.21  
   王秀英        1996.12.0  
   李秀英     1996年07月05日    
   李娜       1996.1.28   
   张秀英        1996年02月24日
    刘伟     1996.5.28
      张敏      1996.10.26
  李静      1996年1月6日    
   张丽        1996.5.21
    王静  1996年05月01日
    王丽   1996年04月14日  
   李强  1996.8.13   
   张静          1996年1月5日
    李敏    1996年08月21日
   王敏      1996年03月07日    
   王磊     1996年03月18日    
  李军         1996年12月18日  
    刘洋   1996年5月7日   

名字: 张伟
生日: 11月15日

张伟的生日:
[(\'11\', \'15\')]

name-date.txt

张伟         1996.11.15
   王伟      1993年10月21日   
 王芳         1996年07月24日   
   李伟       1996.3.21  
   王秀英        1996.12.0  
   李秀英     1996年07月05日    
   李娜       1996.1.28   
   张秀英        1996年02月24日
    刘伟     1996.5.28
      张敏      1996.10.26
  李静      1993年1月6日    
   张丽        1996.5.21
    王静  1996年05月01日
    王丽   1996年04月14日  
   李强  1996.8.13   
   张静          1998年1月5日
    李敏    1996年08月21日
   王敏      1996年03月07日    
   王磊     1996年03月18日    
  李军         1996年12月18日  
    刘洋   1995年5月7日   

 

 

 

以上是关于10 正则表达式应用的主要内容,如果未能解决你的问题,请参考以下文章

MySQL 正则表达式(REGEXP)之管道“|”的应用

大于 1.18.10 的版本号的正则表达式 [重复]

爬虫入门-5-1.正则表达式在爬虫中的应用

如何在字符串列中应用正则表达式替换

将多个正则表达式应用于 DataTable 列

Oracle 正则表达式替换为条件