R从网页抓取到文本分析全教程:影评的获取与分析
Posted 文宇肃然
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R从网页抓取到文本分析全教程:影评的获取与分析相关的知识,希望对你有一定的参考价值。
前言
本文介绍使用爬虫技术抓取网页,及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程,作为演示案例。
文本挖掘的本质是,通过自然语言处理(Natural Language Processing,NLP)和分析方法,将文本转化为数据进行分析。因此,阅读本文,需要一定的知识基础,包括网页设计、自然语言处理方法,我会在文中适当补充。
➡ 1. 准备工作
分析工作之前,需要为软件配置工作环境,包括设置工作目录、调用需要的程序包等等。采集到的文本数据、各类词典、输出结果等等都会保存在工作目录中;外部程序包在首次使用前需要安装。
### 准备工作
# 设置工作目录
setwd(\'D:/The Wandering Earth\')
# 加载所需程序包
library(\'rvest\')
library(\'stringr\')
library(\'jiebaRD\')
library(\'jiebaR\')
library(\'plyr\')
library(\'rJava\')
library(\'tm\')
library(\'tmcn
以上是关于R从网页抓取到文本分析全教程:影评的获取与分析的主要内容,如果未能解决你的问题,请参考以下文章