C语言万字讲解从零到精通 (文件操作与文件函数)

Posted 2023-04-07 虾米Life

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了C语言万字讲解从零到精通 (文件操作与文件函数)相关的知识，希望对你有一定的参考价值。

C语言运行时会把数据放在内存中，而内存中的数据是临时的，随着程序的退出，系统内存中的数据也会随着给回收与销毁。
那如何把数据保存起来呢？一般数据保存的方法有，把数据存放在磁盘文件、存放到数据库等方式。
使用文件我们可以将数据直接存放在电脑的硬盘上。
这一章节不谈数据库，就讲关于C语言文件，文件函数等如何操作

文章目录

1 文件是什么
2. 文件指针
3. 文件的打开和关闭
4. 文件函数顺序读写
5 对比一组函数
- sprintf
- sscanf
5 文件的随机读写
6 文本文件和二进制文件
7 文件读取结束的判定
- feof
8 文件缓冲区

1 文件是什么

在程序设计中，我们一般谈的文件有两种：程序文件、数据文件（从文件功能的角度来分类的）。

1.1 程序文件

包括源程序文件（后缀为.c）,目标文件（windows环境后缀为.obj）,可执行程序（windows环境后缀为.exe）

1.2 数据文件

文件的内容不一定是程序，而是程序运行时读写的数据,把数据存储到文件里面，或者输出内容的文件。

在以前各章所处理数据的输入输出都是以终端（屏幕）为对象的，即从终端的键盘输入数据，运行结果显示到显示器上。比如printf scanf 输入输出都是终端为对象的，他们都是存储在内存上的

今天我们所要学的就是如何在程序中把数据放到数据文件上，并且内存如何在文件里读取或者写入。

有时候我们会把信息输出到磁盘上，当需要的时候再从磁盘上把数据读取到内存中使用。

1.3 文件名

一个文件要有一个唯一的文件标识，以便用户识别和引用。
文件名包含3部分：文件路径+文件名主干+文件后缀
如： c:\\code\\test.txt

2. 文件指针

缓冲文件系统中，关键的概念是“文件类型指针”，简称“文件指针”。

每个被使用的文件都在内存中开辟了一个相应的文件信息区，用来存放文件的相关信息（如文件的名字，文件状态及文件当前的位置等）。这些信息是保存在一个结构体变量中的。该结构体类型是由系统声明的，取名FILE.

例如，VS2013编译环境提供的 stdio.h 头文件中有以下的文件类型申明：

struct _iobuf 
	char* _ptr;
	int   _cnt;
	char* _base;
	int   _flag;
	int   _file;
	int   _charbuf;
	int   _bufsiz;
	char* _tmpfname;
;
typedef struct _iobuf FILE;

不同的C编译器的FILE类型包含的内容不完全相同，但是大同小异。
每当打开一个文件的时候，系统会根据文件的情况自动创建一个FILE结构的变量，并填充其中的信息，

一般都是通过一个FILE的指针来维护这个FILE结构的变量，这样使用起来更加方便。
FILE* p;//文件指针变量

FILE* p;
定义p是一个指向FILE类型数据的指针变量。可以使p指向某个文件的文件信息区（是一个结构体变量）。通过该文件信息区中的信息就能够访问该文件。也就是说，通过文件指针变量能够找到与它关联的文件。

3. 文件的打开和关闭

文件在读写之前应该先打开文件，在使用结束之后应该关闭文件。(就像malloc申请了一块空间，使用完之后就要释放)

在编写程序的时候，在打开文件的同时，都会返回一个FILE*的指针变量指向该文件，也相当于建立了指针和文件的关系。

ANSIC 规定使用fopen函数来打开文件，fclose来关闭文件。

打开文件 fopen

FILE * fopen ( const char * filename, const char * mode );
参数说明：

filename: 文件名
mode: 打开方式

返回值：

文件被成功打开，该函数将返回一个指向file对象的指针
打开失败返回空指针

关闭文件 fclose
int fclose ( FILE * stream );
参数说明:

stream: 所要关闭的文件流

打开方式如下：

文件使用方式	含义	如果指定文件不存在
“r”（只读）	为了输入数据，打开一个已经存在的文本文件	出错
“w”（只写）	为了输出数据，打开一个文本文件	建立一个新的文件
“a”（追加）	向文本文件尾添加数据	建立一个新的文件
“rb”（只读）	为了输入数据，打开一个二进制文件	出错
"wb”（只写）	为了输出数据，打开一个二进制文件	建立一个新的文件
"ab”（追加）	向一个二进制文件尾添加数据	出错
“r+”（读写）	为了读和写，打开一个文本文件	出错
“w+”（读写）	为了读和写，建议一个新的文件	建立一个新的文件
"a+”（读写）	打开一个文件，在文件尾进行读写	建立一个新的文件
“rb+”（读写）	为了读和写打开一个二进制文件	出错
"wb+”（读写）	为了读和写，新建一个新的二进制文件	建立一个新的文件
"ab+”（读写）	打开一个二进制文件，在文件尾进行读和写	建立一个新的文件

实例代码：

#include<stdio.h>
#include<stdlib.h>

int main()

	FILE* pf = fopen("test.txt", "w");
	//判断pf指针是否为空
	if (pf == NULL)
	
		perror("fopen");
		return 1;
	

	//文件操作
	fputs("fopen example", pf);

	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

4. 文件函数顺序读写

功能	函数名	适用于
字符输入函数	fgetc	所有输入流
字符输出函数	fputc	所有输出流
文本行输入函数	fgets	所有输入流
文本行输出函数	fputs	所有输出流
格式化输入函数	fscanf	所有输入流
格式化输出函数	fprintf	所有输出流
二进制输入	fread	文件
二进制输出	fwrite	文件

什么是流
这里我们先讲解什么是流

流是个抽象的概念，是对输入输出设备的抽象
对于数据的输入/输出操作都是以“流”的方式进行。设备可以是文件，网络，内存，屏幕等。
我们只需要知道如何把数据放进流里面，或者把数据从流里拿出来，不需要知道流跟外部是怎么建立关系的

而C语言程序会默认打开这三流
像scanf printf 这些函数默认的是使用这三个流，直接在键盘屏幕里输入与输出

下面我们就来介绍这些文件操作函数把

fputc

将字符写入流 (单次只能输入一个字符)

int fputc ( int character, FILE * stream );
参数说明：

character: 这是要被写入的字符。该字符以其对应的 int 值进行传递。
stream: 这是指向 FILE 对象的指针，该 FILE 对象标识了要被写入字符的流。

返回值：

如果没有发生错误，则返回被写入的字符。如果发生错误，则返回 EOF，并设置错误标识符。

代码实例

fputc写文件把26个字母写入test.txt文件里

//fputc 写文件
#include<stdio.h>
#include<stdlib.h>
int main()

	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	
	
	//写文件
	int i = 0;
	for (i = 0; i < 26; i++)
	
		fputc('a' + i, pf);
	
    
    //关闭文件
	fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终文件存储数据：

fgetc

从流中获取字符(单次只能读入一个字符)

int fgetc ( FILE * stream );
参数说明:

stream: 这是指向 FILE 对象的指针，该 FILE 对象标识了要在上面执行操作的流。

返回值:

该函数以无符号 char 强制转换为 int 的形式返回读取的字符。
遇到文件末尾，返回EOF，同时设置一个状态，遇到文件未尾了，使用feof来检测这个状态。
遇到错误，返回EOF，同时也设置一个状态，遇到了错误，使用ferror来检测这个状态

代码实例

fgetc 读文件操作从test.txt读取内容
-

#include<stdio.h>
#include<stdlib.h>
//fgetc 文件操作
int main()

	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	int ch = 0;
	int i = 0;
	for (i = 0; i < 26; i++)
	
		ch = fgetc(pf);
		printf("%c ", ch);
	
	

	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终输出结果:
a b c d e f g h i j k l m n o p q r s t u v w x y z

fputs

字符串写入到指定的流中，但不包括空字符。

int fputs ( const char * str, FILE * stream );
参数说明:

str: C字符串，包含要写入流的内容
stream: 指向 FILE 对象的指针，该 FILE 对象标识了要被写入字符串的流。

返回值：

如果成功，则返回一个非负值。
在错误时，函数返回EOF并设置错误指示符

代码实例

fputs 写一行数据

#include<stdio.h>
#include<stdlib.h>
//fputs 写一行数据
int main()

	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//写入一行数据到文件里
	int ch = 0;
	fputs("abcdef", pf);


	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终文件存储数据：

fgets

从流中获取字符串

char * fgets ( char * str, int num, FILE * stream );
参数说明：

str :指向复制读取的字符串的字符数组的指针。
num: 要复制到str的最大字符数(包括结束的空字符)。如果写10个num，最多读取9个，因为一个放’\\0’
stream: 指向 FILE 对象的指针，该 FILE 对象标识了要被写入字符串的流。Stdin也可以用作从标准输入中读取的参数。

返回值:

如果成功，该函数返回相同的 str 参数。如果到达文件末尾或者没有读取到任何字符，str 的内容保持不变，并返回一个空指针。
如果发生错误，返回一个空指针。

代码实例：

fgets - 读一行数据从文件test.txt 读取内容
-

#include<stdio.h>
#include<stdlib.h>
//fgets 读一行数据
int main()

	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	char ch[20] =  0 ;
	fgets(ch, 7, pf);
	printf("%s\\n", ch);


	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终输出结果:
abcdef

fprintf

将格式化的数据写入流

int fprintf ( FILE * stream, const char * format, … );
参数说明

stream: 这是指向 FILE 对象的指针，该 FILE 对象标识了流
format: 该参数类型于printf一样使用

返回值：

如果成功，则返回写入的字符总数，否则返回一个负数。

代码实例：

fprintf 格式化写入流

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	char name[20];
	char adders[20];
;
//fprintf 格式化写
int main()

	struct S s =  12,"zhansan","guangzhou" ;
	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//写入文件
	fprintf(pf, "%d %s %s\\n", s.age, s.name, s.adders);
	
	 fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终文件存储数据：

fscanf
从流中读取格式化数据

int fscanf ( FILE * stream, const char * format, … );
参数说明：

stream: 这是指向 FILE 对象的指针，该 FILE 对象标识了流
format: 该参数类似于scanf一样用

返回值:

如果成功，该函数返回成功匹配和赋值的个数。如果到达文件末尾或发生读错误，则返回 EOF。

代码实例：

fscanf 从流中读取格式化数据
-

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	char name[20];
	char adders[20];
;
//fscanf 从流中读取格式化数据
int main()

	struct S s;
	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	fscanf(pf, "%d %s %s\\n", &(s.age), s.name, s.adders);
	printf("%d %s %s", s.age, s.name, s.adders);
    
    fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终输出结果:
12 zhansan guangzhou

fwrite

写入数据块到流(二进制的写入文件)

size_t fwrite ( const void * ptr, size_t size, size_t count, FILE * stream );
参数说明：

ptr:指向要写入的元素数组的指针，转换为const void *
size : 要写入的每个元素的字节大小。
Size_t是无符号整型
count: 元素的数量，每个元素的大小为size字节
stream: 这是指向 FILE 对象的指针，该 FILE 对象标识了流

返回值：

返回成功写入的元素总数。
如果此数字与count参数不同，则写入错误阻止函数完成。在这种情况下，将为流设置错误指示器(ferror)。
如果size或count中有一个为零，则函数返回零，错误指示符保持不变。
Size_t是无符号整型

代码实例：

fwrite 二进制的写文件

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//fwrite 二进制的写文件
int main()

	struct S s =  10,3.14,"guangzhou" ;
	//二进制的写要加上b
	FILE* pf = fopen("test.txt", "wb");

	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//二进制的写文件
	fwrite(&s, sizeof(struct S), 1, pf);

	//关闭文件
	fclose(pf);
	pf = NULL;
	system("pause");

test.txt存储的文件信息

因为是二进制的写入，二进制存储方式，看不懂很正常。guangzhong这个字符串以二进制的方式存放进去，和文本放进去的方式是一样的。

fread

从流中读取数据块 (二进制的读文件 )

size_t fread ( void * ptr, size_t size, size_t count, FILE * stream );
参数说明:

ptr: 这是指向带有最小尺寸 size*nmemb 字节的内存块的指针。
要读取的每个元素的大小，以字节为单位。
Size_t是无符号整型。
size_t count, 元素的个数，每个元素的大小为 size 字节
这是指向 FILE 对象的指针，该 FILE 对象标识了流

返回值:

返回成功读取的元素总数。
如果这个数字与count参数不同，则要么发生了读取错误，要么在读取时到达了文件末尾。在这两种情况下，都设置了正确的指示器，可以分别使用ferror和feof进行检查。
如果size或count中有一个为零，函数返回零，流状态和ptr指向的内容都保持不变。
Size_t是无符号整型。

代码实例：

fread 二进制的读文件（从test.txt里面把二进制内容读出来）
-

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//fread 二进制的读文件
int main()

	struct S s =  0 ;
	//二进制的写要加上b
	FILE* pf = fopen("test.txt", "rb");

	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//二进制的读文件
	fread(&s, sizeof(struct S), 1, pf);
	printf("%d %f %s", s.age, s.f, s.adders);

	//关闭文件
	fclose(pf);
	pf = NULL;
	system("pause");

最终输出结果：
10 3.140000 guangzhou

5 对比一组函数

scanf/fscanf/sscanf
printf/fprintf/sprintf

首先我们先了解sscanf和sprintf是什么

sprintf

将一个格式化的数据写入字符串（把一个格式化的数据转换成字符串）format的数据放进str里转换成字符串

int sprintf ( char * str, const char * format, … );
参数说明:

str:指向存储生成的c字串的缓冲区的指针。
缓冲区应该足够大，以包含生成的字符串,
format: 该参数类似于printf一样使用

返回值

如果成功，则返回写入的总字符数。
如果失败，返回负数

代码实例

fprintf （把数据转换成字符串放进一个数组里）

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//sprintf 把数据转换成字符串放进一个数组里
int main()

	struct S s =  200,3.14,"guangzhou";
	
	char buf[200] =  0 ;
	//把数据转换成字符串放进buf里
	sprintf(buf,"%d %f %s", s.age, s.f, s.adders);
	printf("%s\\n", buf);
	
	system("pause");
	return 0;

最终输出结果：
10 3.140000 guangzhou

sscanf

把一个字符串转换成对应的格式化数据

int sscanf ( const char * s, const char * format, …);
参数说明：

s:这是 C 字符串，是函数检索数据的源。
format : 该参数跟scanf使用方法类似.

返回值:

如果成功，该函数返回成功匹配和赋值的个数。如果到达文件末尾或发生读错误，则返回 EOF。

代码实例：

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//sscanf 把一个字符串转换成对应的格式化数据
int main()

	struct S s =  200,3.14,"guangzhou";
	
	char buf[200] =  0 ;
	//把数据转换成字符串放进buf里
	sprintf(buf,"%d %f %s", s.age, s.f, s.adders);
	printf("字符串的数据： %s\\n", buf);

	//从字符串中读取格式化数据
	struct S tmp =  0 ;
    sscanf(buf, "%d %f %s", &(tmp.age), &(tmp.f), tmp.adders);
    printf("格式化的数据: %d %f %s", tmp.age, tmp.f, tmp.adders);
	system("pause");
	return 0;

最终输出结果：
字符串的数据： 200 3.140000 guangzhou
格式化的数据: 200 3.140000 guangzhou

sscanf 和 sprintf 这两个函数用的不多，一般是序列化和反序列化的时候使用的。

那我们一起来对比下这几组函数吧：

scanf/fscanf/sscanf
printf/fprintf/sprintf
scanf 对于标准输入流（stdin）的格式化输
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素常用方法键盘鼠标操作）

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了数据库操作知识，包括MySQL安装、SQL语句和Python操作数据库知识，这将为后续网络爬虫存储至数据库奠定基础。本文详细介绍Selenium基础技术，涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。基础性文章，希望对您有所帮助。

文章目录

一.初识Selenium
1.安装Selenium
2.安装浏览器驱动
3.Phantomjs

二.快速开始Selenium解析
三.定位元素
1.通过ID定位元素
2.通过Name定位元素
3.通过XPath定位元素
4.通过连接文本定位超链接
5.通过标签名定位元素
6.通过类名定位元素
7.通过CSS选择器定位元素

四.常用方法和属性
1.操作元素方法
2.WebElement常用属性

五.键盘和鼠标自动化操作
1.键盘操作
2.鼠标操作

六.导航控制
1.下拉菜单交互操作
2.Window和Frame间对话框移动

七.总结

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分网络爬虫

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
[Python从零到壹] 七.网络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
[Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

Selenium是一款用于测试Web应用程序的经典工具，它直接运行在浏览器中，仿佛真正的用户在操作浏览器一样，主要用于网站自动化测试、网站模拟登陆、自动操作键盘和鼠标、测试浏览器兼容性、测试网站功能等，同时也可以用来制作简易的网络爬虫。

本文主要介绍Selenium Python API技术，它以一种非常直观的方式来访问Selenium WebDriver的所有功能，包括定位元素、自动操作键盘鼠标、提交页面表单、抓取所需信息等。

一.初识Selenium

Selenium是ThoughtWorks公司专门为Web应用程序编写的一个验收测试工具，它提供的API支持多种语言，包括Python、Java、C#等，本书主要介绍Python环境下的Selenium技术。Python语言提供了Selenium扩展包，它是使用Selenium WebDriver（网页驱动）来编写功能、验证测试的一个API接口。

通过Selenium Python API，读者能够以一种直观的方式来访问Selenium WebDriver的所有功能。Selenium Python支持多种浏览器，诸如Chrome、火狐、IE、360等浏览器，也支持PhantomJS特殊的无界面浏览器引擎。

Selenium WebDriver API接口提供了一种定位网页中元素（Locate Elements）的策略，本书将使用Selenium Python讲解网络数据爬取知识，本章主要介绍Selenium技术的基础知识，后面的章节结合实例讲解如何利用Selenium定位网页元素、自动爬取、设计爬虫等。

类似于BeautifulSoup技术，Selenium制作的爬虫也是先分析网页的HTML源码和DOM树结构，再通过其所提供的方法定位到所需信息的结点位置，并获取其文本内容。

同时，推荐读者阅读官网提供的《Selenium with Python Bindings》开源技术文档，本文也汲取了它很多精彩的知识，再结合自己的理解和实际爬虫实例进行介绍的。下面从Selenium安装、驱动安装、PhantomJS三部分知识进行介绍，让我们开始吧！

1.安装Selenium

读者可以访问PyPI网站来下载Selenium扩展包，例如图2所提供的selenium 3.4.3，对应的网址为：

https://pypi.python.org/pypi/selenium

我们点击“Downloads”按钮下载该Selenium扩展包，解压下载的文件后，在解压目录下执行下面的命令进行安装Selenium包。

C:\\selenium\\selenium3.4.3> python3 setup.py install

PyPI全称是Python Package Index，是Python官方的第三方库的仓库，所有人都可以下载第三方库或上传自己开发的库到PyPI。

同时，作者更推荐大家使用pip工具来安装Selenium库，PyPI官方也推荐使用pip管理器来下载第三方库。Python3.6标准库中自带pip，Python2.x需要自己单独安装。前文介绍了pip工具的安装过程及基础用法。安装好pip工具后，直接调用命令即可安装Selenium：

pip install selenium

调用命令“pip install selenium”安装Selenium包如图3所示。

安装过程中的会显示安装配置相关包的百分比，直到出现“Successfully installed selenium-2.47.1”提示，表示安装成功，如图4所示。

此时的Selenium包已经安装成功，接下来需要调用浏览器来进行定位或爬取信息，而使用浏览器的过程中需要安装浏览器驱动。作者推荐使用Firefox浏览器、Chrome浏览器或PhantomJS浏览器，下面将结合实例讲解三种浏览器驱动的配置过程。

2.安装浏览器驱动

Selenium需要安装浏览器驱动，才能调用浏览器进行自动爬取或自动化测试，常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。表1是部分浏览器驱动下载页面。

表1 浏览器驱动下载页面

注意：驱动下载解压后，将chromedriver.exe、geckodriver.exe、Iedriver.exe置于Python的安装目录下，例如Python的安装目录为“C:\\python”，则将驱动文件放置于该文件夹下；然后将Python的安装目录添加到系统环境变量路径（Path）中，打开Python IDLE输入不同的代码来启动不同的浏览器。

Firefox浏览器
加载火狐浏览器的核心代码如下：

from selenium import webdriver driver = webdriver.Firefox() driver.get('http://www.baidu.com/')

输出结果如下图所示：

chrome浏览器
加载谷歌览器的核心代码如下，其中驱动置于chrome浏览器目录下，如代码所示。

import os from selenium import webdriver chromedriver = "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe" os.environ["webdriver.chrome.driver"] = chromedriver browser = webdriver.Chrome(chromedriver) browser.get('http://www.baidu.com/')

IE浏览器
加载微软IE览器的核心代码如下：

from selenium import webdriver browser = webdriver.Ie() browser.get('http://www.baidu.com/')

3.Phantomjs

PhantomJS是一个服务器端的 JavaScript API 的开源的浏览器引擎（WebKit）。它支持各种Web标准，包括DOM树分析、CSS选择器、JSON和SVG等。PhantomJS常用于页面自动化、网络监测、网页截屏以及无界面测试等。在官网http://phantomjs.org/下载PhantomJS解压后如图5所示。

调用时如果报错“Unable to start phantomjs with ghostdriver”，则需要设置PhantomJS的路径，或者配置到Scripts目录环境下。当Selenium安装成功并且PhantomJS下载配置好后，下面这代代码是调用方法。其中executable_path参数设置PhantomJS的路径。

from selenium import webdriver driver = webdriver.PhantomJS(executable_path="F:\\phantomjs-1.9.1-windows\\phantomjs.exe") driver.get("http://www.baidu.com") data = driver.title print(data)

代码含义为：

首先导入Selenium.webdriver扩展包，它提供了webdriver实现方法。
然后创建driver实例，调用webdriver.PhantomJS方法配置路径。
通过driver.get(“http://www.baidu.com”) 代码打开百度网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
最后获取文章标题（title）并赋值给data变量输出，其值为“百度一下，你就知道”。

运行结果如图6所示，Python3效果一样。

注意，webdriver中提供的save_sceenshot()函数可以对网页进行截图，代码如下：

from selenium import webdriver driver = webdriver.Firefox() driver.get("http://www.baidu.com") data = driver.title driver.save_screenshot('baidu.png')

二.快速开始Selenium解析

网页通常采用文档对象模型树结构进行存储，并且这些节点都是成对出现的，如“< html >”对应“</ html >”、“< table >”对应“</ table >”、“< div >”对应“</ div >”等。Selenium技术通过定位节点的特定属性，如class、id、name等，可以确定当前节点的位置，再获取相关网页的信息。

下面代码是定位百度搜索框并进行自动搜索，它作为我们的快速入门代码。

#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys #启动驱动 driver = webdriver.Firefox() driver.get("http://www.baidu.com") assert "百度" in driver.title print(driver.title) #查找元素并输入内容 elem = driver.find_element_by_name("wd") elem.send_keys("数据分析") elem.send_keys(Keys.RETURN) #截图并退出 time.sleep(10) driver.save_screenshot('baidu.png') driver.close() driver.quit()

运行结果如下图所示，调用Firefox浏览器并搜索“数据分析”关键词，最后对浏览的网页进行截图操作。所以，Selenium常用于自动化测试领域。

下面对这部分代码进行详细讲解。

from selenium import webdriver
导入Selenium.webdriver模板，它提供了webdriver的实现方法，目前支持这些方法的浏览器有Firefox、Chrome、IE和Remote等。
from selenium.webdriver.common.keys import Keys
导入Keys类，它提供了操作键盘的快捷键，如回车键、空格键、ctrl键等操作。
driver = webdriver.Firefox()
创建Firefox webdriver实例，定义火狐浏览器（Firefox）驱动，其他浏览器如Chrome可能还需要设置驱动参数和配置路径。
driver.get(“http://www.baidu.com”)
接下来通过driver.get()函数打开百度url网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
assert “百度” in driver.title
接下来使用断言（assert）判断文章的标题title是否包含了“百度”字段。对应爬取的标题是“百度一下，你就知道”，所以包含了“百度”，否则会出现断言报错。断言主要用于判断结果是否成功返回，从而更好地执行下一步定位操作。
elem = driver.find_element_by_name(“wd”)
webdriver提供了很多形如“find_element_by_*”的方法来匹配要查找的元素。如利用name属性来查找的方法是find_element_by_name，这里通过该方法来定位百度输入框，即审查元素name为“wd”的节点。

图8是百度首页审查元素的反馈结果，其中输入框input元素对应属性name为“kw”，所以定位其节点代码为：

driver.find_element_by_id(“kw”)

elem.send_keys(“数据分析”)
send_keys()方法可以用来模拟键盘操作，相当于是在搜索框中输入“数据分析”字段。
elem.send_keys(Keys.RETURN)
调用send_keys()函数输入回车键操作，其中Keys类提供了常见的键盘按键，如Keys.RETURN表示回车键。但在引用Keys类及其方法之前，需要注意先导入Keys类，即使用“from selenium.webdriver.common.keys import Keys”代码导入。
driver.save_screenshot(‘baidu.png’)
调用save_screenshot()函数进行截图，并将截图保存至本地，名称为为“baidu.png”。
driver.close()
调用close()方法关闭驱动。
driver.quit()
调用quit()方法退出驱动。它与close()方法的区别在于：quit()方法会退出浏览器，而close()方法只是关闭页面，但如果只有一个页面被打开，close()方法同样会退出浏览器。

三.定位元素

Selenium Python提供了一种用于定位元素（Locate Elements）的策略，你可以根据所爬取网页的HTML结构选择最适合的方案，表8.2是Selenium提供的各种方法。定位多个元素时，只需将方法“element”后加s，这些元素将会以一个列表的形式返回。

表2 Selenium元素定位的方法

本节将结合下面这段关于李白简介的HTML代码（blog09.html）进行讲解。

<html> <head> <title>李白简介</title> </head> <body> <p class="title"><b>静夜思</b></p> <p class="content"> 窗前明月光，<br /> 疑似地上霜。 <br /> 举头望明月，<br /> 低头思故乡。 <br /> </p> <div class="other" align="left" name="d1" id="nr"> 李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与 <a href="http://test.com/dufu" class="poet" id="link" name="dufu"> 杜甫</a> 并称为“李杜”，为了与另两位诗人 <a href="http://test.com/lsy" class="poet" id="link" name="lsy"> 李商隐</a>、 <a href="http://test.com/dumu" class="poet" id="link" name="dumu"> 杜牧</a> 即“小李杜”区别，杜甫与李白又合称“大李杜”。其人爽朗大方，爱饮酒... </div> <p class="story">...</p> </body> </html>

该网页打开运行如下图9所示。

下面结合这个实例分别介绍各种元素定位方法，并以定位单个元素为主。

1.通过ID定位元素

该方法是通过网页标签的id属性定位元素，它将返回第一个用id属性值匹配定位的元素。如果没有元素匹配id值，将会返回一个NoSuchElementException异常。
假设需要通过id属性定位页面中的杜甫、李商隐、杜牧三个超链接，HTML核心代码如下：

如果需要获取div布局，则使用如下代码：

test_div = driver.find_element_by_id(‘nr’)
print(test_div.text)

如果写成如下代码，则返回第一个诗人的信息。

test_poet = driver.find_element_by_id(‘link’)
print(test_poet.text)
杜甫

其中test_poet是获取的值，通常为“<selenium.webdriver…>”形式，而text是获取其文本内容，即“杜甫”。如果想通过id元素获取多个链接，比如杜甫、李商隐、杜牧三位诗人对应的超链接，则需要使用：

find_elements_by_id()

注意“elements”表示获取多个值。三个超链接都使用同一个id名称“link”，通过find_elements_by_id()函数定位获取之后，再调用for循环输出结果，如下所示：

#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys #启动驱动 driver = webdriver.Firefox() driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09.html") print(driver.title) #查找元素并输入内容 test_div = driver.find_elements_by_id('link') for t in test_div: print(t.text)

输出结果如下图所示：

2.通过Name定位元素

该方法是通过网页标签的name属性定位元素，它将返回第一个用name属性值匹配定位的元素。如果没有元素匹配name值，将会返回一个NoSuchElementException异常。

下面介绍通过name属性定位页面中的杜甫、李商隐、杜牧三个超链接的方法，HTML源码如下：

<div class="other" align="left" name="d1" id="nr"> <a href="http://test.com/dufu" class="poet" id="link" name="dufu">杜甫</a> <a href="http://test.com/lsy" class="poet" id="link" name="lsy">李商隐</a> <a href="http://test.com/dumu" class="poet" id="link" name=”dumu”>杜牧</a> </div>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用代码如下：

test_poet1 = driver.find_element_by_name('dufu') test_poet2 = driver.find_element_by_name('lsy') test_poet3 = driver.find_element_by_name('dumu')

此时不能调用find_elements_by_name()函数获取多个元素，因为三位诗人对应超链接的name属性都是不同的，即“dufu”、“lsy”、“dumu”，如果name属性相同，则该方法可以获取同一name属性的多个元素。

3.通过XPath定位元素

XPath是用于定位XML文档中节点的技术，HTML\\XML都采用网页DOM树状标签的结构进行编写的，所以可以通过XPath方法分析其节点信息。Selenium Python也提供了类似的方法来跟踪网页中的元素。

XPath定位元素方法不同于按照ID或Name属性的定位方法，前者更加的灵活、方便。 比如想通过ID属性定位第三个诗人“杜牧”的超链接信息，但是三位诗人的ID属性值都是相同的，即“link”，如果没有其他属性，那我们怎么实现呢？此时可以借助XPath方法进行定位元素。这也体现了XPath方法的一个优点：

当没有一个合适的ID或Name属性来定位所要查找的元素时，你可以使用XPath去定位这个绝对元素（但作者不建议定位绝对元素），或者定位一个有ID或Name属性的相对元素位置。

XPath方法也可以通过除了ID和Name属性以外的其他属性进行定位元素，其完整函数为：

find_element_by_xpath()
find_elements_by_xpath()

下面开始通过实例进行讲解，HTML代码如下：

<html> <head> <title>李白简介</title> </head> <body> <div class="other" align="left" name="d1" id="nr"> 李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与 <a href="http://test.com/dufu" class="poet" id="link1" namd="dufu"> 杜甫</a> 并称为“李杜”，为了与另两位诗人 <a href="http://test.com/lsy" class="poet" id="link2" namd="lsy"> 李商隐</a>、 <a href="http://test.com/dumu" class="poet" id="link3" name=”dumu”> 杜牧</a> 即“小李杜”区别，杜甫与李白又合称“大李杜”。其人爽朗大方，爱饮酒... </div> </body> </html>

这个div布局可能通过如下三种XPath方法定位：

test_div = driver.find_element_by_xpath("/html/body/div[1]") test_div = driver.find_element_by_xpath("//div[1]") test_div = driver.find_element_by_xpath("//div[@id='nr']")

第一句是使用绝对路径定位，从HTML代码的根节点开始定位元素，但如果HTML代码有稍微的改动，其结果就会被被破坏，此时可以通过后面两种方法进行定位。
第二句是获取HTML代码中的第一个div布局元素。但是如果所要爬取的div节点位置太深，难道我们从第一个div节点数下去吗？显然不是的。此时我们可以通过寻找附近一个元素的ID或Name属性进行定位，从而追踪到所需要的元素。
第三句是调用find_element_by_xpath()方法，定位ID属性值为“nr”的div布局元素，此时可以定位介绍三位著名诗人的简介信息。

三个语句输出test_div.text内容，都如下所示：

李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与杜甫并称为“李杜”，为了与另两位诗人李商隐、杜牧即“小李杜”区别，杜甫与李白又合称“大李杜”。其人爽朗大方，爱饮酒…

如需定位第三位诗人“杜牧”超链接的内容，则使用如下所示的三种方法。

username = driver.find_element_by_xpath("//div[a/@name='dumu']") username = driver.find_element_by_xpath("//div[@id='nr']/a[3]") username = driver.find_element_by_xpath("//a[@name='dumu']")

第一句是定位div节点下的一个超链接a元素，且a元素的name属性为“dumu”。
第二句是定位“id=nr”的div元素，再找到它的第三个超链接a子元素。
第三句是定位name属性为“dumu”的第一个超链接a元素。

同时，如果是按钮控件且name属性相同，假设HTML代码如下：

<form id="loginForm"> <input name="continue" type="submit" value="Login" /> <input name="continue" type="button" value="Clear" /> </form>

则定位value值为“Clear”按钮元素的方法如下：

clearb = driver.find_element_by_xpath("//input[@name='continue'][@type='button']") clearb = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")

第一句是定位属性name为“continue”且属性type为“button”的input控件。
第二句是定位属性“id=loginForm”的form节点下的第二个input子元素。

XPath定位方法作为最常用的定位元素方法之一，后面章节的实例中将会被反复利用，而本小节只是介绍了些基础知识，更多知识请读者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文档中学习。

4.通过连接文本定位超链接

当你需要定位一个锚点标签内的链接文本（Link Text）时就可以使用该方法。该方法将返回第一个匹配这个链接文本值的元素。如果没有元素匹配这个链接文本，将抛出一个NoSuchElementException异常。下面介绍调用该方法定位页面中的杜甫、李商隐、杜牧三个超链接，假设HTML源码如下：

blog09_02.html

<html> <body> <div class="other" align="left" name="d1" id="nr"> <a href="dufu.html" class="poet" id="link" name="dufu"> Dufu</a> <a href="lsy.html" class="poet" id="link" name="lsy"> LiShangYing</a> <a href="dumu.html" class="poet" id="link" name=”dumu”> DuMu</a> </div> </body> </html>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用如下代码。

#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys 以上是关于C语言万字讲解从零到精通 (文件操作与文件函数)的主要内容，如果未能解决你的问题，请参考以下文章