r 从Portugues数据库中清除非英语字符.R

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了r 从Portugues数据库中清除非英语字符.R相关的知识,希望对你有一定的参考价值。

library(rvest)
library(data.table)
library(dplyr)
lpt <- read_html("https://es.wikipedia.org/wiki/Primeira_Liga_2014/15", encoding = "Windos-1251")
data <- lpt %>%
  html_nodes("table") %>%
  html_table(fill = T) %>% 
  .[[11]] # The 11 table was chosen. We can choose the other( from one to eleven)
data$Jugador <- iconv(x = data$Jugador, from = "UTF-8", to = "latin1") # Transform to latin1 enconding Windows OS
data$Equipo <- iconv(x = data$Equipo, from = "UTF-8", to = "latin1")
data

data <- data.table(data)

data[ ,  Jugador := data$Jugador %>%  tolower %>%
        chartr( old="áéíóúàèìòùãõçñôê", new="aeiouaeiouaocnoe", x= .) %>%
        toupper %>% gsub(pattern=" ", replacement="_") %>% gsub(pattern="__", replacement="") %>%
        factor] # Erase the non english characters from Jugador
data[ ,  Equipo := data$Equipo %>%  tolower %>%
        chartr( old="áéíóúàèìòùãõçñôê", new="aeiouaeiouaocnoe", x= .) %>%
        toupper %>% gsub(pattern=" ", replacement="_") %>% gsub(pattern="__", replacement="") %>%
        factor]
data

以上是关于r 从Portugues数据库中清除非英语字符.R的主要内容,如果未能解决你的问题,请参考以下文章

从R中的字符串中获取非零值

从 R 中的语料库或数据框中删除英语以外的语言

非转义由 R XML 包生成的解析字符串?

R-从 PurpleAir 传感器读取 csv 文件并跳过某些行末尾包含非标准字符的错误位置

从英语解析数字的 R 包

强制 mySQL 查询为 R 中的非数字字符