python 信息标记与提取方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 信息标记与提取方法相关的知识,希望对你有一定的参考价值。

参考技术A @[toc]
信息标记的三种形式:XML、JSON、YAML

eXtensible Markup Language

XML实例

javascript Object Notation

有类型的键值对 key:value

JSON实例

YAML Ain't Markup Language

无类型键值对 key:value

YAML实例

| 表示整块数据 # 表示注释

XML:最早的通用的信息标记语言,可扩展性好,但繁琐。 Internet上的信息交互与传递

JSON:信息有类型,适合程序处理(js),较XML简洁。移动应用云端和节点的信息通信,无注释。

YAML:信息无类型,文本信息比例最高,可读性好。各类系统的配置文件,有注释易读

实例:提取html中所有URL链接
思路:1)搜索到所有的<a>标签
2)解析<a>标签格式,提取href后的链接内容

以上是关于python 信息标记与提取方法的主要内容,如果未能解决你的问题,请参考以下文章

信息组织与提取方法

16 信息标记形式及信息提取的一般方法

16 信息标记形式及信息提取的一般方法

python网络爬虫与信息提取——1.requests库入门

Python网络爬虫与信息提取——HTTP协议及Requests库的方法

pyhont---信息的爬取与提取---requests库