C语言万字讲解 从零到精通 (文件操作与文件函数)

Posted 虾米Life

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了C语言万字讲解 从零到精通 (文件操作与文件函数)相关的知识,希望对你有一定的参考价值。

C语言运行时会把数据放在内存中,而内存中的数据是临时的,随着程序的退出,系统内存中的数据也会随着给回收与销毁。
那如何把数据保存起来呢?一般数据保存的方法有,把数据存放在磁盘文件、存放到数据库等方式。
使用文件我们可以将数据直接存放在电脑的硬盘上。
这一章节不谈数据库,就讲关于C语言文件,文件函数等如何操作

文章目录

1 文件是什么

在程序设计中,我们一般谈的文件有两种:程序文件、数据文件(从文件功能的角度来分类的)。

1.1 程序文件

包括源程序文件(后缀为.c),目标文件(windows环境后缀为.obj),可执行程序(windows环境后缀为.exe)


1.2 数据文件

文件的内容不一定是程序,而是程序运行时读写的数据,把数据存储到文件里面,或者输出内容的文件。

在以前各章所处理数据的输入输出都是以终端(屏幕)为对象的,即从终端的键盘输入数据,运行结果显示到显示器上。比如printf scanf 输入输出都是终端为对象的,他们都是存储在内存上的

  • 今天我们所要学的就是如何在程序中把数据放到数据文件上,并且内存如何在文件里读取或者写入。

有时候我们会把信息输出到磁盘上,当需要的时候再从磁盘上把数据读取到内存中使用。

1.3 文件名

一个文件要有一个唯一的文件标识,以便用户识别和引用。
文件名包含3部分:文件路径+文件名主干+文件后缀
如: c:\\code\\test.txt


2. 文件指针

缓冲文件系统中,关键的概念是“文件类型指针”,简称“文件指针”。

每个被使用的文件都在内存中开辟了一个相应的文件信息区,用来存放文件的相关信息(如文件的名字,文件状态及文件当前的位置等)。这些信息是保存在一个结构体变量中的。该结构体类型是由系统声明的,取名FILE.

例如,VS2013编译环境提供的 stdio.h 头文件中有以下的文件类型申明:

struct _iobuf 
	char* _ptr;
	int   _cnt;
	char* _base;
	int   _flag;
	int   _file;
	int   _charbuf;
	int   _bufsiz;
	char* _tmpfname;
;
typedef struct _iobuf FILE;

不同的C编译器的FILE类型包含的内容不完全相同,但是大同小异。
每当打开一个文件的时候,系统会根据文件的情况自动创建一个FILE结构的变量,并填充其中的信息,

一般都是通过一个FILE的指针来维护这个FILE结构的变量,这样使用起来更加方便。
FILE* p;//文件指针变量

FILE* p;
定义p是一个指向FILE类型数据的指针变量。可以使p指向某个文件的文件信息区(是一个结构体变量)。通过该文件信息区中的信息就能够访问该文件。也就是说,通过文件指针变量能够找到与它关联的文件。


3. 文件的打开和关闭

文件在读写之前应该先打开文件,在使用结束之后应该关闭文件。(就像malloc申请了一块空间,使用完之后就要释放)

在编写程序的时候,在打开文件的同时,都会返回一个FILE*的指针变量指向该文件,也相当于建立了指针和文件的关系。

ANSIC 规定使用fopen函数来打开文件,fclose来关闭文件。

  • 打开文件 fopen

FILE * fopen ( const char * filename, const char * mode );
参数说明:

filename: 文件名
mode: 打开方式

返回值:

文件被成功打开,该函数将返回一个指向file对象的指针
打开失败返回空指针

  • 关闭文件 fclose
    int fclose ( FILE * stream );
    参数说明:

stream: 所要关闭的文件流

打开方式如下:

文件使用方式含义如果指定文件不存在
“r”(只读)为了输入数据,打开一个已经存在的文本文件出错
“w”(只写)为了输出数据,打开一个文本文件建立一个新的文件
“a”(追加)向文本文件尾添加数据建立一个新的文件
“rb”(只读)为了输入数据,打开一个二进制文件出错
"wb”(只写)为了输出数据,打开一个二进制文件建立一个新的文件
"ab”(追加)向一个二进制文件尾添加数据出错
“r+”(读写)为了读和写,打开一个文本文件出错
“w+”(读写)为了读和写,建议一个新的文件建立一个新的文件
"a+”(读写)打开一个文件,在文件尾进行读写建立一个新的文件
“rb+”(读写)为了读和写打开一个二进制文件出错
"wb+”(读写)为了读和写,新建一个新的二进制文件建立一个新的文件
"ab+”(读写)打开一个二进制文件,在文件尾进行读和写建立一个新的文件

实例代码:

#include<stdio.h>
#include<stdlib.h>

int main()

	FILE* pf = fopen("test.txt", "w");
	//判断pf指针是否为空
	if (pf == NULL)
	
		perror("fopen");
		return 1;
	

	//文件操作
	fputs("fopen example", pf);

	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;


4. 文件函数 顺序读写

功能函数名适用于
字符输入函数fgetc所有输入流
字符输出函数fputc所有输出流
文本行输入函数fgets所有输入流
文本行输出函数fputs所有输出流
格式化输入函数fscanf所有输入流
格式化输出函数fprintf所有输出流
二进制输入fread文件
二进制输出fwrite文件
  • 什么是流

  • 这里我们先讲解什么是 流

流是个抽象的概念,是对输入输出设备的抽象
对于数据的输入/输出操作都是以“流”的方式进行。设备可以是文件,网络,内存,屏幕等。
我们只需要知道如何把数据放进流里面,或者把数据从流里拿出来,不需要知道流跟外部是怎么建立关系的

  • 而C语言程序会默认打开这三流
    像scanf printf 这些函数默认的是使用这三个流,直接在键盘屏幕里输入与输出

下面我们就来介绍这些文件操作函数把


fputc

将字符写入流 (单次只能输入一个字符)

int fputc ( int character, FILE * stream );
参数说明:

character: 这是要被写入的字符。该字符以其对应的 int 值进行传递。
stream: 这是指向 FILE 对象的指针,该 FILE 对象标识了要被写入字符的流。

返回值:

  • 如果没有发生错误,则返回被写入的字符。如果发生错误,则返回 EOF,并设置错误标识符。

代码实例

  • fputc写文件 把26个字母写入test.txt文件里
//fputc 写文件
#include<stdio.h>
#include<stdlib.h>
int main()

	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	
	
	//写文件
	int i = 0;
	for (i = 0; i < 26; i++)
	
		fputc('a' + i, pf);
	
    
    //关闭文件
	fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终文件存储数据:


fgetc

从流中获取字符(单次只能读入一个字符)

int fgetc ( FILE * stream );
参数说明:

stream: 这是指向 FILE 对象的指针,该 FILE 对象标识了要在上面执行操作的流。

返回值:

  • 该函数以无符号 char 强制转换为 int 的形式返回读取的字符。
    遇到文件末尾,返回EOF,同时设置一个状态,遇到文件未尾了,使用feof来检测这个状态。
    遇到错误,返回EOF,同时也设置一个状态,遇到了错误,使用ferror来检测这个 状态

代码实例

  • fgetc 读文件操作 从test.txt读取内容
    -
#include<stdio.h>
#include<stdlib.h>
//fgetc 文件操作
int main()

	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	int ch = 0;
	int i = 0;
	for (i = 0; i < 26; i++)
	
		ch = fgetc(pf);
		printf("%c ", ch);
	
	

	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终输出结果:
a b c d e f g h i j k l m n o p q r s t u v w x y z


fputs

字符串写入到指定的流 中,但不包括空字符。

int fputs ( const char * str, FILE * stream );
参数说明:

str: C字符串,包含要写入流的内容
stream: 指向 FILE 对象的指针,该 FILE 对象标识了要被写入字符串的流。

返回值:

  • 如果成功,则返回一个非负值。
    在错误时,函数返回EOF并设置错误指示符

代码实例

  • fputs 写一行数据
#include<stdio.h>
#include<stdlib.h>
//fputs 写一行数据
int main()

	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//写入一行数据到文件里
	int ch = 0;
	fputs("abcdef", pf);


	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终文件存储数据:


fgets

从流中获取字符串

char * fgets ( char * str, int num, FILE * stream );
参数说明:

  1. str :指向复制读取的字符串的字符数组的指针。
  2. num: 要复制到str的最大字符数(包括结束的空字符)。如果写10个num,最多读取9个,因为一个放’\\0’
  3. stream: 指向 FILE 对象的指针,该 FILE 对象标识了要被写入字符串的流。Stdin也可以用作从标准输入中读取的参数。

返回值:

如果成功,该函数返回相同的 str 参数。如果到达文件末尾或者没有读取到任何字符,str 的内容保持不变,并返回一个空指针。
如果发生错误,返回一个空指针。

代码实例:

  • fgets - 读一行数据 从文件test.txt 读取内容
    -
#include<stdio.h>
#include<stdlib.h>
//fgets 读一行数据
int main()

	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	char ch[20] =  0 ;
	fgets(ch, 7, pf);
	printf("%s\\n", ch);


	//关闭文件
	fclose(pf);
	pf = NULL;

	system("pause");
	return 0;

最终输出结果:
abcdef


fprintf

将格式化的数据写入流

int fprintf ( FILE * stream, const char * format, … );
参数说明

  1. stream: 这是指向 FILE 对象的指针,该 FILE 对象标识了流
  2. format: 该参数类型于printf一样使用

返回值:

如果成功,则返回写入的字符总数,否则返回一个负数。

代码实例:

  • fprintf 格式化写入流
#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	char name[20];
	char adders[20];
;
//fprintf 格式化写
int main()

	struct S s =  12,"zhansan","guangzhou" ;
	FILE* pf = fopen("test.txt", "w");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//写入文件
	fprintf(pf, "%d %s %s\\n", s.age, s.name, s.adders);
	
	 fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终文件存储数据:


fscanf
从流中读取格式化数据

int fscanf ( FILE * stream, const char * format, … );
参数说明:

  1. stream: 这是指向 FILE 对象的指针,该 FILE 对象标识了流
  2. format: 该参数类似于scanf一样用

返回值:

  • 如果成功,该函数返回成功匹配和赋值的个数。如果到达文件末尾或发生读错误,则返回 EOF。

代码实例:

  • fscanf 从流中读取格式化数据
    -
#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	char name[20];
	char adders[20];
;
//fscanf 从流中读取格式化数据
int main()

	struct S s;
	FILE* pf = fopen("test.txt", "r");
	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//读文件
	fscanf(pf, "%d %s %s\\n", &(s.age), s.name, s.adders);
	printf("%d %s %s", s.age, s.name, s.adders);
    
    fclose(pf);
    pf = NULL;
	system("pause");
	return 0;

最终输出结果:
12 zhansan guangzhou


fwrite

写入数据块到流(二进制的写入文件)

size_t fwrite ( const void * ptr, size_t size, size_t count, FILE * stream );
参数说明:

  1. ptr:指向要写入的元素数组的指针,转换为const void *
  2. size : 要写入的每个元素的字节大小。
    Size_t是无符号整型
  3. count: 元素的数量,每个元素的大小为size字节
  4. stream: 这是指向 FILE 对象的指针,该 FILE 对象标识了流

返回值:

  • 返回成功写入的元素总数。
    如果此数字与count参数不同,则写入错误阻止函数完成。在这种情况下,将为流设置错误指示器(ferror)。
    如果size或count中有一个为零,则函数返回零,错误指示符保持不变。
    Size_t是无符号整型

代码实例:

  • fwrite 二进制的写文件
#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//fwrite 二进制的写文件
int main()

	struct S s =  10,3.14,"guangzhou" ;
	//二进制的写要加上b
	FILE* pf = fopen("test.txt", "wb");

	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//二进制的写文件
	fwrite(&s, sizeof(struct S), 1, pf);

	//关闭文件
	fclose(pf);
	pf = NULL;
	system("pause");

test.txt存储的文件信息

因为是二进制的写入,二进制存储方式,看不懂很正常。guangzhong这个字符串以二进制的方式存放进去,和文本放进去的方式是一样的。


fread

从流中读取数据块 (二进制的读文件 )

size_t fread ( void * ptr, size_t size, size_t count, FILE * stream );
参数说明:

  1. ptr: 这是指向带有最小尺寸 size*nmemb 字节的内存块的指针。
  2. 要读取的每个元素的大小,以字节为单位。
    Size_t是无符号整型。
  3. size_t count, 元素的个数,每个元素的大小为 size 字节
  4. 这是指向 FILE 对象的指针,该 FILE 对象标识了流

返回值:

  • 返回成功读取的元素总数。
    如果这个数字与count参数不同,则要么发生了读取错误,要么在读取时到达了文件末尾。在这两种情况下,都设置了正确的指示器,可以分别使用ferror和feof进行检查。
    如果size或count中有一个为零,函数返回零,流状态和ptr指向的内容都保持不变。
    Size_t是无符号整型。

代码实例:

  • fread 二进制的读文件 (从test.txt里面把二进制内容读出来)
    -
#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//fread 二进制的读文件
int main()

	struct S s =  0 ;
	//二进制的写要加上b
	FILE* pf = fopen("test.txt", "rb");

	//判断是否为空
	if (pf == NULL)
	
		perror("fopen:");
		return 1;
	

	//二进制的读文件
	fread(&s, sizeof(struct S), 1, pf);
	printf("%d %f %s", s.age, s.f, s.adders);

	//关闭文件
	fclose(pf);
	pf = NULL;
	system("pause");

最终输出结果:
10 3.140000 guangzhou


5 对比一组函数

scanf/fscanf/sscanf
printf/fprintf/sprintf

首先我们先了解sscanf和sprintf是什么

sprintf

将一个格式化的数据写入字符串(把一个格式化的数据转换成字符串)format的数据放进str里转换成字符串

int sprintf ( char * str, const char * format, … );
参数说明:

  1. str:指向存储生成的c字串的缓冲区的指针。
    缓冲区应该足够大,以包含生成的字符串,
  2. format: 该参数类似于printf一样使用

返回值

  • 如果成功,则返回写入的总字符数。
    如果失败,返回负数

代码实例

  • fprintf (把数据转换成字符串放进一个数组里)
#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//sprintf 把数据转换成字符串放进一个数组里
int main()

	struct S s =  200,3.14,"guangzhou";
	
	char buf[200] =  0 ;
	//把数据转换成字符串放进buf里
	sprintf(buf,"%d %f %s", s.age, s.f, s.adders);
	printf("%s\\n", buf);
	
	system("pause");
	return 0;

最终输出结果:
10 3.140000 guangzhou


sscanf

把一个字符串转换成对应的格式化数据

int sscanf ( const char * s, const char * format, …);
参数说明:

  1. s:这是 C 字符串,是函数检索数据的源。
  2. format : 该参数跟scanf使用方法类似.

返回值:

  • 如果成功,该函数返回成功匹配和赋值的个数。如果到达文件末尾或发生读错误,则返回 EOF。

代码实例:

#include<stdio.h>
#include<stdlib.h>
struct S

	int age;
	float f;
	char adders[20];
;
//sscanf 把一个字符串转换成对应的格式化数据
int main()

	struct S s =  200,3.14,"guangzhou";
	
	char buf[200] =  0 ;
	//把数据转换成字符串放进buf里
	sprintf(buf,"%d %f %s", s.age, s.f, s.adders);
	printf("字符串的数据: %s\\n", buf);

	//从字符串中读取格式化数据
	struct S tmp =  0 ;
    sscanf(buf, "%d %f %s", &(tmp.age), &(tmp.f), tmp.adders);
    printf("格式化的数据: %d %f %s", tmp.age, tmp.f, tmp.adders);
	system("pause");
	return 0;

最终输出结果:
字符串的数据: 200 3.140000 guangzhou
格式化的数据: 200 3.140000 guangzhou


sscanf 和 sprintf 这两个函数用的不多,一般是序列化和反序列化的时候使用的。

那我们一起来对比下这几组函数吧:

scanf/fscanf/sscanf
printf/fprintf/sprintf

  • scanf 对于标准输入流(stdin)的格式化输

    [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素常用方法键盘鼠标操作)

    欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。

    前一篇文章讲述了数据库操作知识,包括MySQL安装、SQL语句和Python操作数据库知识,这将为后续网络爬虫存储至数据库奠定基础。本文详细介绍Selenium基础技术,涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。基础性文章,希望对您有所帮助。

    下载地址:

    前文赏析:

    第一部分 基础语法

    第二部分 网络爬虫

    作者新开的“娜璋AI安全之家”将专注于Python和安全技术,主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白,但会保证每一篇文章都会很用心地撰写,希望这些基础性文章对你有所帮助,在Python和安全路上与大家一起进步。


    Selenium是一款用于测试Web应用程序的经典工具,它直接运行在浏览器中,仿佛真正的用户在操作浏览器一样,主要用于网站自动化测试、网站模拟登陆、自动操作键盘和鼠标、测试浏览器兼容性、测试网站功能等,同时也可以用来制作简易的网络爬虫。

    本文主要介绍Selenium Python API技术,它以一种非常直观的方式来访问Selenium WebDriver的所有功能,包括定位元素、自动操作键盘鼠标、提交页面表单、抓取所需信息等。

    一.初识Selenium

    Selenium是ThoughtWorks公司专门为Web应用程序编写的一个验收测试工具,它提供的API支持多种语言,包括Python、Java、C#等,本书主要介绍Python环境下的Selenium技术。Python语言提供了Selenium扩展包,它是使用Selenium WebDriver(网页驱动)来编写功能、验证测试的一个API接口。

    通过Selenium Python API,读者能够以一种直观的方式来访问Selenium WebDriver的所有功能。Selenium Python支持多种浏览器,诸如Chrome、火狐、IE、360等浏览器,也支持PhantomJS特殊的无界面浏览器引擎。

    在这里插入图片描述

    Selenium WebDriver API接口提供了一种定位网页中元素(Locate Elements)的策略,本书将使用Selenium Python讲解网络数据爬取知识,本章主要介绍Selenium技术的基础知识,后面的章节结合实例讲解如何利用Selenium定位网页元素、自动爬取、设计爬虫等。

    类似于BeautifulSoup技术,Selenium制作的爬虫也是先分析网页的HTML源码和DOM树结构,再通过其所提供的方法定位到所需信息的结点位置,并获取其文本内容。

    同时,推荐读者阅读官网提供的《Selenium with Python Bindings》开源技术文档,本文也汲取了它很多精彩的知识,再结合自己的理解和实际爬虫实例进行介绍的。下面从Selenium安装、驱动安装、PhantomJS三部分知识进行介绍,让我们开始吧!


    1.安装Selenium

    读者可以访问PyPI网站来下载Selenium扩展包,例如图2所提供的selenium 3.4.3,对应的网址为:

    • https://pypi.python.org/pypi/selenium

    我们点击“Downloads”按钮下载该Selenium扩展包,解压下载的文件后,在解压目录下执行下面的命令进行安装Selenium包。

    C:\\selenium\\selenium3.4.3> python3 setup.py install
    

    PyPI全称是Python Package Index,是Python官方的第三方库的仓库,所有人都可以下载第三方库或上传自己开发的库到PyPI。

    在这里插入图片描述

    同时,作者更推荐大家使用pip工具来安装Selenium库,PyPI官方也推荐使用pip管理器来下载第三方库。Python3.6标准库中自带pip,Python2.x需要自己单独安装。前文介绍了pip工具的安装过程及基础用法。安装好pip工具后,直接调用命令即可安装Selenium:

    • pip install selenium

    调用命令“pip install selenium”安装Selenium包如图3所示。

    在这里插入图片描述

    安装过程中的会显示安装配置相关包的百分比,直到出现“Successfully installed selenium-2.47.1”提示,表示安装成功,如图4所示。

    在这里插入图片描述

    此时的Selenium包已经安装成功,接下来需要调用浏览器来进行定位或爬取信息,而使用浏览器的过程中需要安装浏览器驱动。作者推荐使用Firefox浏览器、Chrome浏览器或PhantomJS浏览器,下面将结合实例讲解三种浏览器驱动的配置过程。


    2.安装浏览器驱动

    Selenium需要安装浏览器驱动,才能调用浏览器进行自动爬取或自动化测试,常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。表1是部分浏览器驱动下载页面。

    表1 浏览器驱动下载页面

    在这里插入图片描述

    注意:驱动下载解压后,将chromedriver.exe、geckodriver.exe、Iedriver.exe置于Python的安装目录下,例如Python的安装目录为“C:\\python”,则将驱动文件放置于该文件夹下;然后将Python的安装目录添加到系统环境变量路径(Path)中,打开Python IDLE输入不同的代码来启动不同的浏览器。

    • Firefox浏览器
      加载火狐浏览器的核心代码如下:
    from selenium import webdriver
    driver = webdriver.Firefox()
    driver.get('http://www.baidu.com/')
    

    输出结果如下图所示:

    在这里插入图片描述

    • chrome浏览器
      加载谷歌览器的核心代码如下,其中驱动置于chrome浏览器目录下,如代码所示。
    import os 
    from selenium import webdriver
    chromedriver = "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe"  
    os.environ["webdriver.chrome.driver"] = chromedriver 
    browser = webdriver.Chrome(chromedriver)
    browser.get('http://www.baidu.com/')
    
    • IE浏览器
      加载微软IE览器的核心代码如下:
    from selenium import webdriver
    browser = webdriver.Ie()
    browser.get('http://www.baidu.com/')
    

    3.Phantomjs

    PhantomJS是一个服务器端的 JavaScript API 的开源的浏览器引擎(WebKit)。它支持各种Web标准,包括DOM树分析、CSS选择器、JSON和SVG等。PhantomJS常用于页面自动化、网络监测、网页截屏以及无界面测试等。在官网http://phantomjs.org/下载PhantomJS解压后如图5所示。

    在这里插入图片描述

    调用时如果报错“Unable to start phantomjs with ghostdriver”,则需要设置PhantomJS的路径,或者配置到Scripts目录环境下。当Selenium安装成功并且PhantomJS下载配置好后,下面这代代码是调用方法。其中executable_path参数设置PhantomJS的路径。

    from selenium import webdriver
    driver = webdriver.PhantomJS(executable_path="F:\\phantomjs-1.9.1-windows\\phantomjs.exe")
    driver.get("http://www.baidu.com")
    data = driver.title
    print(data)
    

    代码含义为:

    • 首先导入Selenium.webdriver扩展包,它提供了webdriver实现方法。
    • 然后创建driver实例,调用webdriver.PhantomJS方法配置路径。
    • 通过driver.get(“http://www.baidu.com”) 代码打开百度网页,webdriver会等待网页元素加载完成之后才把控制权交回脚本。
    • 最后获取文章标题(title)并赋值给data变量输出,其值为“百度一下,你就知道”。

    运行结果如图6所示,Python3效果一样。

    在这里插入图片描述

    注意,webdriver中提供的save_sceenshot()函数可以对网页进行截图,代码如下:

    from selenium import webdriver
    driver = webdriver.Firefox()
    driver.get("http://www.baidu.com")
    data = driver.title
    driver.save_screenshot('baidu.png')
    

    在这里插入图片描述


    二.快速开始Selenium解析

    网页通常采用文档对象模型树结构进行存储,并且这些节点都是成对出现的,如“< html >”对应“</ html >”、“< table >”对应“</ table >”、“< div >”对应“</ div >”等。Selenium技术通过定位节点的特定属性,如class、id、name等,可以确定当前节点的位置,再获取相关网页的信息。

    下面代码是定位百度搜索框并进行自动搜索,它作为我们的快速入门代码。

    #-*- coding:utf-8 -*-
    #By:Eastmount 2021-05-29
    import time
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    #启动驱动
    driver = webdriver.Firefox()
    driver.get("http://www.baidu.com")
    assert "百度" in driver.title
    print(driver.title)
    
    #查找元素并输入内容
    elem = driver.find_element_by_name("wd")
    elem.send_keys("数据分析")
    elem.send_keys(Keys.RETURN)
    
    #截图并退出
    time.sleep(10)
    driver.save_screenshot('baidu.png')
    driver.close()
    driver.quit()
    

    运行结果如下图所示,调用Firefox浏览器并搜索“数据分析”关键词,最后对浏览的网页进行截图操作。所以,Selenium常用于自动化测试领域。

    在这里插入图片描述

    下面对这部分代码进行详细讲解。

    • from selenium import webdriver
      导入Selenium.webdriver模板,它提供了webdriver的实现方法,目前支持这些方法的浏览器有Firefox、Chrome、IE和Remote等。
    • from selenium.webdriver.common.keys import Keys
      导入Keys类,它提供了操作键盘的快捷键,如回车键、空格键、ctrl键等操作。
    • driver = webdriver.Firefox()
      创建Firefox webdriver实例,定义火狐浏览器(Firefox)驱动,其他浏览器如Chrome可能还需要设置驱动参数和配置路径。
    • driver.get(“http://www.baidu.com”)
      接下来通过driver.get()函数打开百度url网页,webdriver会等待网页元素加载完成之后才把控制权交回脚本。
    • assert “百度” in driver.title
      接下来使用断言(assert)判断文章的标题title是否包含了“百度”字段。对应爬取的标题是“百度一下,你就知道”,所以包含了“百度”,否则会出现断言报错。断言主要用于判断结果是否成功返回,从而更好地执行下一步定位操作。
    • elem = driver.find_element_by_name(“wd”)
      webdriver提供了很多形如“find_element_by_*”的方法来匹配要查找的元素。如利用name属性来查找的方法是find_element_by_name,这里通过该方法来定位百度输入框,即审查元素name为“wd”的节点。

    图8是百度首页审查元素的反馈结果,其中输入框input元素对应属性name为“kw”,所以定位其节点代码为:

    • driver.find_element_by_id(“kw”)

    在这里插入图片描述

    • elem.send_keys(“数据分析”)
      send_keys()方法可以用来模拟键盘操作,相当于是在搜索框中输入“数据分析”字段。
    • elem.send_keys(Keys.RETURN)
      调用send_keys()函数输入回车键操作,其中Keys类提供了常见的键盘按键,如Keys.RETURN表示回车键。但在引用Keys类及其方法之前,需要注意先导入Keys类,即使用“from selenium.webdriver.common.keys import Keys”代码导入。
    • driver.save_screenshot(‘baidu.png’)
      调用save_screenshot()函数进行截图,并将截图保存至本地,名称为为“baidu.png”。
    • driver.close()
      调用close()方法关闭驱动。
    • driver.quit()
      调用quit()方法退出驱动。它与close()方法的区别在于:quit()方法会退出浏览器,而close()方法只是关闭页面,但如果只有一个页面被打开,close()方法同样会退出浏览器。

    三.定位元素

    Selenium Python提供了一种用于定位元素(Locate Elements)的策略,你可以根据所爬取网页的HTML结构选择最适合的方案,表8.2是Selenium提供的各种方法。定位多个元素时,只需将方法“element”后加s,这些元素将会以一个列表的形式返回。

    表2 Selenium元素定位的方法

    在这里插入图片描述

    本节将结合下面这段关于李白简介的HTML代码(blog09.html)进行讲解。

    <html>
    	<head>
    		<title>李白简介</title>
    	</head>
    	<body>
    	<p class="title"><b>静夜思</b></p>
    	<p class="content">
    		窗前明月光,<br />
    		疑似地上霜。 <br />
    		举头望明月,<br />
    		低头思故乡。 <br />
    	</p>
    	<div class="other" align="left" name="d1" id="nr">
    		李白(701年-762年),字太白,号青莲居士,又号“谪仙人”,
    		唐代伟大的浪漫主义诗人,被后人誉为“诗仙”,与
    	  <a href="http://test.com/dufu" class="poet" id="link" name="dufu">
    杜甫</a>
    		并称为“李杜”,为了与另两位诗人
    	  <a href="http://test.com/lsy" class="poet" id="link" name="lsy">
    李商隐</a><a href="http://test.com/dumu" class="poet" id="link" name="dumu">
    杜牧</a>
    即“小李杜”区别,杜甫与李白又合称“大李杜”。
    		其人爽朗大方,爱饮酒...
        </div>
    	<p class="story">...</p>
    </body>
    </html>
    

    该网页打开运行如下图9所示。

    在这里插入图片描述

    下面结合这个实例分别介绍各种元素定位方法,并以定位单个元素为主。


    1.通过ID定位元素

    该方法是通过网页标签的id属性定位元素,它将返回第一个用id属性值匹配定位的元素。如果没有元素匹配id值,将会返回一个NoSuchElementException异常。
    假设需要通过id属性定位页面中的杜甫、李商隐、杜牧三个超链接,HTML核心代码如下:

    在这里插入图片描述

    如果需要获取div布局,则使用如下代码:

    • test_div = driver.find_element_by_id(‘nr’)
    • print(test_div.text)

    如果写成如下代码,则返回第一个诗人的信息。

    • test_poet = driver.find_element_by_id(‘link’)
    • print(test_poet.text)
    • 杜甫

    其中test_poet是获取的值,通常为“<selenium.webdriver…>”形式,而text是获取其文本内容,即“杜甫”。如果想通过id元素获取多个链接,比如杜甫、李商隐、杜牧三位诗人对应的超链接,则需要使用:

    • find_elements_by_id()

    注意“elements”表示获取多个值。三个超链接都使用同一个id名称“link”,通过find_elements_by_id()函数定位获取之后,再调用for循环输出结果,如下所示:

    #-*- coding:utf-8 -*-
    #By:Eastmount 2021-05-29
    import time
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    #启动驱动
    driver = webdriver.Firefox()
    driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09.html")
    print(driver.title)
    
    #查找元素并输入内容
    test_div = driver.find_elements_by_id('link')
    for t in test_div:
        print(t.text)
    

    输出结果如下图所示:

    在这里插入图片描述


    2.通过Name定位元素

    该方法是通过网页标签的name属性定位元素,它将返回第一个用name属性值匹配定位的元素。如果没有元素匹配name值,将会返回一个NoSuchElementException异常。

    下面介绍通过name属性定位页面中的杜甫、李商隐、杜牧三个超链接的方法,HTML源码如下:

    <div class="other" align="left" name="d1" id="nr">
    <a href="http://test.com/dufu" class="poet" id="link" name="dufu">杜甫</a>
    	<a href="http://test.com/lsy" class="poet" id="link" name="lsy">李商隐</a>
    	<a href="http://test.com/dumu" class="poet" id="link" name=”dumu”>杜牧</a>
    </div>
    

    如果需要分别获取杜甫、李商隐、杜牧三个超链接,则使用代码如下:

    test_poet1 = driver.find_element_by_name('dufu')
    test_poet2 = driver.find_element_by_name('lsy')
    test_poet3 = driver.find_element_by_name('dumu')
    

    此时不能调用find_elements_by_name()函数获取多个元素,因为三位诗人对应超链接的name属性都是不同的,即“dufu”、“lsy”、“dumu”,如果name属性相同,则该方法可以获取同一name属性的多个元素。


    3.通过XPath定位元素

    XPath是用于定位XML文档中节点的技术,HTML\\XML都采用网页DOM树状标签的结构进行编写的,所以可以通过XPath方法分析其节点信息。Selenium Python也提供了类似的方法来跟踪网页中的元素。

    XPath定位元素方法不同于按照ID或Name属性的定位方法,前者更加的灵活、方便。 比如想通过ID属性定位第三个诗人“杜牧”的超链接信息,但是三位诗人的ID属性值都是相同的,即“link”,如果没有其他属性,那我们怎么实现呢?此时可以借助XPath方法进行定位元素。这也体现了XPath方法的一个优点:

    • 当没有一个合适的ID或Name属性来定位所要查找的元素时,你可以使用XPath去定位这个绝对元素(但作者不建议定位绝对元素),或者定位一个有ID或Name属性的相对元素位置。

    XPath方法也可以通过除了ID和Name属性以外的其他属性进行定位元素,其完整函数为:

    • find_element_by_xpath()
    • find_elements_by_xpath()

    下面开始通过实例进行讲解,HTML代码如下:

    <html>
    	<head>
    		<title>李白简介</title>
    	</head>
    	<body>
    	<div class="other" align="left" name="d1" id="nr">
    		李白(701年-762年),字太白,号青莲居士,又号“谪仙人”,
    		唐代伟大的浪漫主义诗人,被后人誉为“诗仙”,与
    	  <a href="http://test.com/dufu" class="poet" id="link1" namd="dufu">
    杜甫</a>
    		并称为“李杜”,为了与另两位诗人
    	  <a href="http://test.com/lsy" class="poet" id="link2" namd="lsy">
    李商隐</a><a href="http://test.com/dumu" class="poet" id="link3" name=”dumu”>
    杜牧</a>
    即“小李杜”区别,杜甫与李白又合称“大李杜”。
    		其人爽朗大方,爱饮酒...
        </div>
    </body>
    </html>
    

    这个div布局可能通过如下三种XPath方法定位:

    test_div = driver.find_element_by_xpath("/html/body/div[1]")
    test_div = driver.find_element_by_xpath("//div[1]")
    test_div = driver.find_element_by_xpath("//div[@id='nr']")
    
    • 第一句是使用绝对路径定位,从HTML代码的根节点开始定位元素,但如果HTML代码有稍微的改动,其结果就会被被破坏,此时可以通过后面两种方法进行定位。
    • 第二句是获取HTML代码中的第一个div布局元素。但是如果所要爬取的div节点位置太深,难道我们从第一个div节点数下去吗?显然不是的。此时我们可以通过寻找附近一个元素的ID或Name属性进行定位,从而追踪到所需要的元素。
    • 第三句是调用find_element_by_xpath()方法,定位ID属性值为“nr”的div布局元素,此时可以定位介绍三位著名诗人的简介信息。

    三个语句输出test_div.text内容,都如下所示:

    • 李白(701年-762年),字太白,号青莲居士,又号“谪仙人”, 唐代伟大的浪漫主义诗人,被后人誉为“诗仙”,与 杜甫 并称为“李杜”,为了与另两位诗人 李商隐、 杜牧 即“小李杜”区别,杜甫与李白又合称“大李杜”。 其人爽朗大方,爱饮酒…

    如需定位第三位诗人“杜牧”超链接的内容,则使用如下所示的三种方法。

    username = driver.find_element_by_xpath("//div[a/@name='dumu']")
    username = driver.find_element_by_xpath("//div[@id='nr']/a[3]")
    username = driver.find_element_by_xpath("//a[@name='dumu']")
    
    • 第一句是定位div节点下的一个超链接a元素,且a元素的name属性为“dumu”。
    • 第二句是定位“id=nr”的div元素,再找到它的第三个超链接a子元素。
    • 第三句是定位name属性为“dumu”的第一个超链接a元素。

    同时,如果是按钮控件且name属性相同,假设HTML代码如下:

    <form id="loginForm">
    	<input name="continue" type="submit" value="Login" />
    	<input name="continue" type="button" value="Clear" />
    </form>
    

    则定位value值为“Clear”按钮元素的方法如下:

    clearb = driver.find_element_by_xpath("//input[@name='continue'][@type='button']")
    clearb = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")
    
    • 第一句是定位属性name为“continue”且属性type为“button”的input控件。
    • 第二句是定位属性“id=loginForm”的form节点下的第二个input子元素。

    XPath定位方法作为最常用的定位元素方法之一,后面章节的实例中将会被反复利用,而本小节只是介绍了些基础知识,更多知识请读者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文档中学习。


    4.通过连接文本定位超链接

    当你需要定位一个锚点标签内的链接文本(Link Text)时就可以使用该方法。该方法将返回第一个匹配这个链接文本值的元素。如果没有元素匹配这个链接文本,将抛出一个NoSuchElementException异常。下面介绍调用该方法定位页面中的杜甫、李商隐、杜牧三个超链接,假设HTML源码如下:

    • blog09_02.html
    <html>
    	<body>
          <div class="other" align="left" name="d1" id="nr">
    	  <a href="dufu.html" class="poet" id="link" name="dufu">
    Dufu</a>
    	  <a href="lsy.html" class="poet" id="link" name="lsy">
    LiShangYing</a>
    	  <a href="dumu.html" class="poet" id="link" name=”dumu”>
    DuMu</a>
          </div>
    </body>
    </html>
    

    如果需要分别获取杜甫、李商隐、杜牧三个超链接,则使用如下代码。

    #-*- coding:utf-8 -*-
    #By:Eastmount 2021-05-29
    import time
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    
    以上是关于C语言万字讲解 从零到精通 (文件操作与文件函数)的主要内容,如果未能解决你的问题,请参考以下文章

    ❤️爆肝十二万字《python从零到精通教程》,从零教你变大佬❤️(建议收藏)

    ❤️爆肝十八万字《python从零到精通教程》第二版,贴心保姆教你从零变大佬❤️(建议收藏),学不会找我!

    IDEA从零到精通(34)之IDEA 强大的文件对比功能

    ❤️ 爆肝二十万字《Java从零到精通教程》,贴心保姆教你从零变大佬 ❤️(建议收藏),学不会找我!

    [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素常用方法键盘鼠标操作)

    SQL从零到迅速精通实用函数

(c)2006-2024 SYSTEM All Rights Reserved IT常识