web scraping python行中的多个属性(div和id)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了web scraping python行中的多个属性(div和id)相关的知识,希望对你有一定的参考价值。

我想网页抓qazxsw poi页面。所以,我从这个脚本开始:

this

检查html代码时,问题在于以下几行:

import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

links = {"Copa do Brasil": "http://www.oddsportal.com/soccer/brazil/copa-do- 
brasil/results/"}

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

data = []
for club, link in links.items():
    response = requests.get(link, headers = headers) 
    #print(response.status_code) #200 is OK

    soup = BeautifulSoup(response.text, 'lxml')
    #print(soup.prettify())  #to check if soup downloads correctly. 
    table = soup.find_all('div', attrs ={'id', 'tournamentTable'})
    print(table)

我想知道,我该怎么做,以获得所有比赛的表格。我坚持认为类,id和风格是一起使用的。

答案

尝试从熊猫读取html

<div id="tournamentTable" style = "display: block;">
   <table class =" table-main" id="tournamentTable"> </table> ==$0

我使用to_csv来创建文件,但你可以使用任何东西

以上是关于web scraping python行中的多个属性(div和id)的主要内容,如果未能解决你的问题,请参考以下文章

python 中的 Web Scraping:BS、selenium 和 None 错误

阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl

Python的基本Web Scraping(Beautifulsoup和Requests)

Web Scraping using Python Scrapy_BS4 - Introduction

阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href

Step by Step of "Web scraping with Python" ----Richard Lawson ---3/n