R从网页抓取到文本分析全教程：影评的获取与分析

Posted 2021-12-28 文宇肃然

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了R从网页抓取到文本分析全教程：影评的获取与分析相关的知识，希望对你有一定的参考价值。

前言

本文介绍使用爬虫技术抓取网页，及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程，作为演示案例。

文本挖掘的本质是，通过自然语言处理（Natural Language Processing，NLP）和分析方法，将文本转化为数据进行分析。因此，阅读本文，需要一定的知识基础，包括网页设计、自然语言处理方法，我会在文中适当补充。

➡ 1. 准备工作

分析工作之前，需要为软件配置工作环境，包括设置工作目录、调用需要的程序包等等。采集到的文本数据、各类词典、输出结果等等都会保存在工作目录中；外部程序包在首次使用前需要安装。

### 准备工作# 设置工作目录setwd(\'D:/The Wandering Earth\')# 加载所需程序包library(\'rvest\')library(\'stringr\')library(\'jiebaRD\')library(\'jiebaR\')library(\'plyr\')library(\'rJava\')library(\'tm\')library(\'tmcn

以上是关于R从网页抓取到文本分析全教程：影评的获取与分析的主要内容，如果未能解决你的问题，请参考以下文章

python对影评进行评论分析，形成词云图

如何用python 爬虫抓取金融数据

VB如何获取网页的内容

分析Ajax请求并抓取今日头条街拍美图

淘搜索之网页抓取系统分析与实现- 实现&总结

ajax分析-今日头条街拍美图抓取