python提取指定字符中间的内容?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python提取指定字符中间的内容?相关的知识,希望对你有一定的参考价值。
如图想提取第三对#号之间的内容,请问Python如何实现。
规率很明显,用split把字符串,切开就行了
参考技术A 用正则表达式,(注意区分贪婪模式和非贪婪模式)爬虫的话beautifulsoup,方法的话可以用findall 参考技术B 解题思路是用正则表达式匹配带@的单词。第一:正则表达式匹配 @ 开头,后面跟随多个英文字母,匹配到字符串后,把 @ 替换为空,就可以得到用户名.
第二:正则表达式用零宽断言,首先匹配一个位置,它前面是 @,后面是字母: 参考技术C
txt='#Zaiji Yuan# #1324156# #a lgor ithm; power ; sys tem; genetic; restoration; scheme; skeleton;#'
print(txt.strip('#').split('# #')[2])
C# 正则表达式提取指定文本内的内容
直接上代码和如何使用
/// <summary>
/// 截取字符串中开始和结束字符串中间的字符串
/// </summary>
/// <param name="source">源字符串</param>
/// <param name="startStr">开始字符串</param>
/// <param name="endStr">结束字符串</param>
/// <returns>中间字符串</returns>
public string SubstringSingle(string source, string startStr, string endStr)
Regex rg = new Regex("(?<=(" + startStr + "))[.\\\\s\\\\S]*?(?=(" + endStr + "))", RegexOptions.Multiline | RegexOptions.Singleline);
return rg.Match(source).Value;
/// <summary>
/// (批量)截取字符串中开始和结束字符串中间的字符串
/// </summary>
/// <param name="source">源字符串</param>
/// <param name="startStr">开始字符串</param>
/// <param name="endStr">结束字符串</param>
/// <returns>中间字符串</returns>
public List<string> SubstringMultiple(string source, string startStr, string endStr)
Regex rg = new Regex("(?<=(" + startStr + "))[.\\\\s\\\\S]*?(?=(" + endStr + "))", RegexOptions.Multiline | RegexOptions.Singleline);
MatchCollection matches = rg.Matches(source);
List<string> resList=new List<string>();
foreach (Match item in matches)
resList.Add(item.Value);
return resList;
用法如下:
string html="这里 Html 文本内容省略";
var text1 = regex.SubstringSingle(html, "<div id=\\"pagelet_timeline_main_column\\">", "<div id=\\"pagelet_sidebar\\"");
var text2 = regex.SubstringMultiple(html, "<div class=\\"_4-u2 _4-u8\\">", "<div class=\\"_1dnh\\">");
具体去自己体会吧,个人觉得很实用,这里是写成了扩展方法来调用的。
/// <summary>
/// 去除转义字符
/// </summary>
/// <param name="str"></param>
/// <returns></returns>
public static string RemoveEscapeChar(this string str,int re=0)
if (string.IsNullOrWhiteSpace(str))
return "";
if (re == 1) //不替换特殊字符
return str;
if (re == 2) //不移除空格
return str.Replace("\\n", "").Replace("\\t", "").Replace("\\r", "");
return str.Replace("\\n", "").Replace("\\t", "").Replace("\\r", "").Replace(" ", "").Trim();
上面是去除页面中转义字符,换行符的一个扩展方法,去除后再配合正则来进行筛选很实用,我个人主要用在对请求得到的html 指定内容进行提取。
2020年1月15号补充:
在使用的过程中难免会遇到一些正则表达式的特殊符号例如下面这个文本
oL[289]( x[/42.934715] y[/31.199666] z[/-0.929894] u[/-0.20919151978424] v[/-0.04218084669353] w[/0.97696452557019] )
我们要提取出 [ ] 中的内容,那么在写的时候就要加上转义了,如下代码我分别提取文本中的x,y,z,u,v,w中的值 使用 \\\\ 进行特殊符号转义
string temp_x = SubstringSingle(str, "x\\\\[/", "\\\\]");
string temp_y = SubstringSingle(str, "y\\\\[/", "\\\\]");
string temp_z = SubstringSingle(str, "z\\\\[/", "\\\\]");
string temp_u = SubstringSingle(str, "u\\\\[/", "\\\\]");
string temp_v = SubstringSingle(str, "v\\\\[/", "\\\\]");
string temp_w = SubstringSingle(str, "w\\\\[/", "\\\\]");
这些就是需要注意的地方了,所以当你在提取时候如果有正则中特殊字符记得转义哈,不然会匹配不到的哦!
————————————————
版权声明:本文为CSDN博主「Syspan」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_40729514/article/details/95986966
以上是关于python提取指定字符中间的内容?的主要内容,如果未能解决你的问题,请参考以下文章