信息的组织和提取

Posted 嘟嘟小冰

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了信息的组织和提取相关的知识,希望对你有一定的参考价值。

1.信息的三种类型。’

1.1  XML

2.JSON

3.YAML

三种信息的比较:

2.信息的提取

import requests
r
= requests.get("http://python123.io/ws/demo.html") demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") # Tag

# print(soup.find_all(tag)) # NO tag for tag in soup.find_all():

string

# string
# print(soup.find_all("a").string)           # 错误表达
print(soup.find_all("a",str))                # 错误表达
print(soup.find_all(str= "Basic Python"))    # 错误表达
print(soup.find_all(string= "Basic Python")) # 正确表达   精确搜索               # [\'Basic Python\']
import re  
print(soup.find_all(string=re.compile("python")))   # 正则运算    模糊搜             # [\'This is a python demo page\', \'The demo python introduces several python courses.\']

others

#标签属性值进行,标注属性属性检索
print(soup.find_all("p","course"))       #
print(soup.find_all(id="link1"))

print(soup.find_all(id="link"))                        # [] 只能精确搜索
print(soup.find_all(id=re.compile("link")))            # 引入正则表达式进行搜索

# 是否对子孙节点进行搜索,默认为是
print(soup.find_all("a"))
print(soup.find_all("a",recursive=False))                   # no 对子孙节点进行搜索                        # []

 

以上是关于信息的组织和提取的主要内容,如果未能解决你的问题,请参考以下文章

信息的组织和提取方法

python网络爬虫与信息提取——5.信息组织与提取方法

ES6解构赋值

使用从循环内的代码片段中提取的函数避免代码冗余/计算开销

ES6解构

文本分类