R从网页抓取到文本分析全教程:影评的获取与分析

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R从网页抓取到文本分析全教程:影评的获取与分析相关的知识,希望对你有一定的参考价值。

前言

本文介绍使用爬虫技术抓取网页,及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程,作为演示案例。

文本挖掘的本质是,通过自然语言处理(Natural Language Processing,NLP)和分析方法,将文本转化为数据进行分析。因此,阅读本文,需要一定的知识基础,包括网页设计、自然语言处理方法,我会在文中适当补充。

➡ 1. 准备工作

分析工作之前,需要为软件配置工作环境,包括设置工作目录、调用需要的程序包等等。采集到的文本数据、各类词典、输出结果等等都会保存在工作目录中;外部程序包在首次使用前需要安装。

### 准备工作# 设置工作目录setwd(\'D:/The Wandering Earth\')# 加载所需程序包library(\'rvest\')library(\'stringr\')library(\'jiebaRD\')library(\'jiebaR\')library(\'plyr\')library(\'rJava\')library(\'tm\')library(\'tmcn

以上是关于R从网页抓取到文本分析全教程:影评的获取与分析的主要内容,如果未能解决你的问题,请参考以下文章

python对影评进行评论分析,形成词云图

如何用python 爬虫抓取金融数据

VB如何获取网页的内容

分析Ajax请求并抓取今日头条街拍美图

淘搜索之网页抓取系统分析与实现- 实现&总结

ajax分析-今日头条街拍美图抓取