r 从Portugues数据库中清除非英语字符.R
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了r 从Portugues数据库中清除非英语字符.R相关的知识,希望对你有一定的参考价值。
library(rvest)
library(data.table)
library(dplyr)
lpt <- read_html("https://es.wikipedia.org/wiki/Primeira_Liga_2014/15", encoding = "Windos-1251")
data <- lpt %>%
html_nodes("table") %>%
html_table(fill = T) %>%
.[[11]] # The 11 table was chosen. We can choose the other( from one to eleven)
data$Jugador <- iconv(x = data$Jugador, from = "UTF-8", to = "latin1") # Transform to latin1 enconding Windows OS
data$Equipo <- iconv(x = data$Equipo, from = "UTF-8", to = "latin1")
data
data <- data.table(data)
data[ , Jugador := data$Jugador %>% tolower %>%
chartr( old="áéíóúàèìòùãõçñôê", new="aeiouaeiouaocnoe", x= .) %>%
toupper %>% gsub(pattern=" ", replacement="_") %>% gsub(pattern="__", replacement="") %>%
factor] # Erase the non english characters from Jugador
data[ , Equipo := data$Equipo %>% tolower %>%
chartr( old="áéíóúàèìòùãõçñôê", new="aeiouaeiouaocnoe", x= .) %>%
toupper %>% gsub(pattern=" ", replacement="_") %>% gsub(pattern="__", replacement="") %>%
factor]
data
以上是关于r 从Portugues数据库中清除非英语字符.R的主要内容,如果未能解决你的问题,请参考以下文章
从R中的字符串中获取非零值
从 R 中的语料库或数据框中删除英语以外的语言
非转义由 R XML 包生成的解析字符串?
R-从 PurpleAir 传感器读取 csv 文件并跳过某些行末尾包含非标准字符的错误位置
从英语解析数字的 R 包
强制 mySQL 查询为 R 中的非数字字符