python 信息标记与提取方法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 信息标记与提取方法相关的知识,希望对你有一定的参考价值。
参考技术A @[toc]信息标记的三种形式:XML、JSON、YAML
eXtensible Markup Language
XML实例
javascript Object Notation
有类型的键值对 key:value
JSON实例
YAML Ain't Markup Language
无类型键值对 key:value
YAML实例
| 表示整块数据 # 表示注释
XML:最早的通用的信息标记语言,可扩展性好,但繁琐。 Internet上的信息交互与传递
JSON:信息有类型,适合程序处理(js),较XML简洁。移动应用云端和节点的信息通信,无注释。
YAML:信息无类型,文本信息比例最高,可读性好。各类系统的配置文件,有注释易读
实例:提取html中所有URL链接
思路:1)搜索到所有的<a>标签
2)解析<a>标签格式,提取href后的链接内容
以上是关于python 信息标记与提取方法的主要内容,如果未能解决你的问题,请参考以下文章
python网络爬虫与信息提取——1.requests库入门