使用javascript呈现的内容从网页抓取数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用javascript呈现的内容从网页抓取数据相关的知识,希望对你有一定的参考价值。

我是抓取数据的新手。我想从这个站点抓取数据:[http://kbbi.web.id/][ enter image description here

我希望通过来自.csv文件的输入来抓取数据,并使爬网数据像上面的图片一样为每个csv单行工作,并且仅从红色框中获取数据,例如。 mengabadi,mengabadikan,pengabadian,keabadian并将其保存在新的.csv文件中,如下所示:

enter image description here

那么,我该怎么做才能抓取它(可能使用python)?我认为网页使用javascript来加载/渲染数据。

答案

使用requestsbs4示例代码:(自己阅读和实现,这只是为了给你一个想法!)

from bs4 import BeautifulSoup

import requests

url = "http://kbbi.web.id/"

r  = requests.get(url)

data = r.text

soup = BeautifulSoup(data)

现在,使用检查工具挖掘网站,并且..代码!!

使用pip可以完成BeautifulSoup和Requests的安装:

$ pip install requests

$ pip install beautifulsoup4 

以上是关于使用javascript呈现的内容从网页抓取数据的主要内容,如果未能解决你的问题,请参考以下文章

使用 Python 抓取网页动态内容(动态 HTML/Javascript 表格)

javascript 从网页或服务中抓取js呈现的,代理响应的简单方法。 https://www.scraperapi.com/documentation

Web 抓取 - 如何通过 Angular.js 访问以 JavaScript 呈现的内容?

抓取javascript生成的网页

javascript 使用phantomjs和horseman抓取并抓取包含ajax内容的网页

网页抓取具有动态 javascript 内容的网站