爬虫系列 2.2 爬虫基础2 -网页结构进阶

Posted yk 坤帝

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫系列 2.2 爬虫基础2 -网页结构进阶相关的知识,希望对你有一定的参考价值。

个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

2.2.1 HTML基础1 - 我的第一个网页

html(HyperText Markup Language)是一种用于写这些框架的的标准标记语言,这一小节主要就是讲如何利用它来进行网页搭建。

2.2.2 代码编辑器

荐一款代码编辑器:Notepad++,其作用和Pycharm类似,都是方便来编写HTML代码的,当然如果觉得麻烦的话,完全也可以不用下载,直接在txt中敲代码也是完全可以的。其下载地址为:https://notepad-plus-plus.org/,在刚刚创建的那个html文件右击,选择“Edit with Notepad++”可以打开文件进行代码编写,界面如下:

2.2.3 HTML基础知识2 - 基础结构

首先用notepad++打开刚刚的html文件(如果没有安装,右键点击html文件在打开方式里选择记事本打开即可),将原来的代码先补充些内容:

然后ctrl + s快捷键保存,在刚刚的网页上刷新,可以看到变成如下内容:

网页出现乱码(乱码就是中文显示成奇怪的符号),可以把charset="utf-8"中的utf-8改成gbk,这是两种不同的中文格式,各个浏览器可能各有不同。

2.2.4 HTML基础知识3 - 标题、段落、链接

标题标签:

标题是通过

-

标签来定义的,
一般格式为:

标题内容

。其中h1的字号最大,h6的字号最小

(2) 段落

标签:

段落是通过标签

来定义的,一般格式为:

段落内容


比如我们在刚刚的基础上略作修改:

(3) 链接标签:


2.2.5 HTML基础知识4 - 区块

区块最主要的表现形式就是

格式了,我们可以来看下具体实际情况中的应用。
可以看到每个新闻都被包围在一个叫做
的框里,更加学术的说法来讲,这个
*
其实起到了一个分区的作用,将百度新闻上这10条新闻分别放置了10个区域中

用F12看百度新闻的源码:

2.2.6 HTML基础知识5 - 类(class)与 ID



2.2.1 我的第一个网页

<!DOCTYPE html>
<html>
    <p>hello world</p>
</html>

2.2.3 逐渐完善的网页

<!DOCTYPE html>
<html>

<body>
	<h1>���DZ��� 1</h1>
	<p>���DZ���1�µĶ��䡣</p>
	<h2>���DZ��� 2</h2>
	<a href="https://www.baidu.com">���Ǵ����ӵ�����</a>
</body>

</html>

个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

以上是关于爬虫系列 2.2 爬虫基础2 -网页结构进阶的主要内容,如果未能解决你的问题,请参考以下文章

爬虫系列之一爬虫开发环境的搭建

Python爬虫之Scrapy框架系列(12)——实战ZH小说的爬取来深入学习CrawlSpider

Python爬虫之Scrapy框架系列(12)——实战ZH小说的爬取来深入学习CrawlSpider

小白必学的爬虫基础requests模块

如何入门 Python 爬虫?人人都能学会

Python爬虫之Scrapy框架系列——项目实战某瓣Top250电影更多信息的获取