r 対象クエリの网络ページへの语句出现频度を算出
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了r 対象クエリの网络ページへの语句出现频度を算出相关的知识,希望对你有一定的参考价值。
library(rvest)
library(plyr)
library(stringr)
library(RMeCab)
source_url <- "https://www.google.co.jp/search?q=BIツール"
# html <- read_html(source_url, encoding = "UTF-8")
html <- read_html(source_url, encoding = "Shift-JIS")
title_nodes <- html_nodes(html, "h3")
title_nodes <- title_nodes %>% html_nodes("a") %>% html_attr("href")
# TODO: ROOP IN TITLE_NODES
# url <- "http://www.google.co.jp/aclk?sa=l&ai=DChcSEwjbmP_Hy8HeAhWNvGQKHSAqDsIYABAAGgJwag&sig=AOD64_2Zb5Jqz5T-ZGayr2bkUggaSz25xA&ved=0ahUKEwjGsvvHy8HeAhXtHDQIHZQJABEQ0QwIEg&adurl="
for( url in title_nodes ){
print(paste("Google",url,sep=":"))
y <- try( html <- read_html(url, encoding = "UTF-8"),silent=FALSE )
if ( class(y) == "try-error" )next
list <- html_nodes(html, "a") %>% html_attr("href")
# TODO: ROOP IN LIST
# url <- "https://bi.lakeel.com/seminar/"
for( url2 in list ){
print(paste("link",url2,sep=":"))
try( html <- read_html(url2, encoding = "UTF-8"), silent=FALSE )
if( class(y) == "try-error" )next
body <- html_nodes(html, "body") %>% html_text()
body <- gsub("\n","",body)
body <- gsub("\t","",body)
body <- gsub("\r","",body)
write(body,"body.txt")
freq<-RMeCabFreq("body.txt")
if( url2 == list[1] )freq.all<-freq
else freq.all<-rbind(freq.all,freq)
# TODO: freqを足し合わせ最終的に集計する
}
if( url == title_nodes[1] )text<-freq.all
else text<-rbind(text,freq.all)
}
text2<-ddply(text,.(Term,Info1,Info2),summarize,Freqs=sum(Freq))
text2<-subset(text2,Info1=="名詞")
以上是关于r 対象クエリの网络ページへの语句出现频度を算出的主要内容,如果未能解决你的问题,请参考以下文章
css メディアクエリのサンプル
python URL·クエリパラメータのパース
markdown 404の场合にトップページへのリダイレクトがダメな理由
markdown 404の场合にトップページへのリダイレクトがダメな理由
javascript クエリをパース/文字列化するやつ
scss メディアクエリーと连携するJS