如何将数据框列转换为数字类型?

Posted

技术标签:

【中文标题】如何将数据框列转换为数字类型?【英文标题】:How to convert a data frame column to numeric type? 【发布时间】:2011-01-18 07:28:01 【问题描述】:

如何将数据框列转换为数值类型?

【问题讨论】:

【参考方案1】:

由于(仍然)没有人得到复选标记,我假设您有一些实际问题,主要是因为您没有指定要转换为 numeric 的矢量类型。我建议你应该应用transform函数来完成你的任务。

现在我要演示某些“转换异常”:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

让我们看看data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

让我们运行:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

现在你可能会问自己“哪里有异常?” 好吧,我在 R 中遇到了一些很奇怪的东西,而这并不是 最令人困惑的东西,但这会让您感到困惑,尤其是如果您在上床睡觉之前阅读此内容。

这里是:前两列是character。我故意打电话给 2nd 一个fake_char。找出这个character 变量与Dirk 在他的回复中创建的变量的相似之处。它实际上是一个numerical 向量转换为character。第 3rd 和 4th 列是factor,最后一列是“纯”numeric

如果您使用transform 函数,您可以将fake_char 转换为numeric,但不能转换char 变量本身。

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

但如果你在 fake_charchar_fac 上做同样的事情,你会很幸运,并且没有 NA:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

如果你保存转换后的data.frame 并检查modeclass,你会得到:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

因此,结论是:是的,您可以将character 向量转换为numeric 向量,但前提是它的元素可以“转换”为numeric 如果向量中只有一个 character 元素,则在尝试将该向量转换为 numerical 时会出错。

只是为了证明我的观点:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

现在,只是为了好玩(或练习),尝试猜测这些命令的输出:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

向帕特里克·伯恩斯致敬! =)

【讨论】:

'stringsAsFactors = FALSE' 对于读取数据文件很重要。 我知道这是旧的......但是......你为什么选择 transform() 而不是 df$fake_char 那么绝对不可能把err 警告!= 错误。将混合数字/字符转换为数字不会出错,但会收到警告和一些 NA 值。 我真的不明白为什么在 R 中有这么多不同的方法来转换数据类型,我们真的需要 mutate、transform、apply,而所有这些都可以通过一个简单的赋值来完成吗? 【参考方案2】:

对我有帮助的事情:如果您有一系列变量要转换(或不止一个),您可以使用 sapply

有点荒谬,但只是举例:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

假设数据框的第 3、6-15 和 37 列需要转换为数字:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

【讨论】:

as.factor 在上述代码中使列字符 在处理索引向量而不是变量名时,sapply 比变换更好 @MySchizoBuddy 是正确的,至少在我的数据中是正确的。原始 df 不会将“转换”列作为因素;他们将保持性格。如果您将sapply 调用包装在右侧的as.data.frame() 中,正如@Mehrad Mahmoudian 在下面建议的那样,它将起作用。 这对矩阵有用吗?我正在尝试使用完全相同的代码,但是当我检查一列的 class() 之后,它仍然显示“字符”而不是“数字”【参考方案3】:

如果x 是数据框dat 的列名,并且x 是类型因子,则使用:

as.numeric(as.character(dat$x))

【讨论】:

添加 as.character 确实是我想要的。否则转换有时会出错。至少在我的情况下。 为什么需要 as.character?我收到一个错误:Error: (list) object cannot be coerced to type 'double' 尽管我有理由确定我的向量没有字符/标点符号。然后我尝试了as.numeric(as.character(dat$x)),它成功了。现在我不确定我的列是否实际上只是整数! 如果你将 as.numeric 转换为一个因子,它会将级别转换为数字而不是实际值。因此需要 as.character 首先将因子转换为字符,然后再转换为 as.numeric 这是最好的答案【参考方案4】:

我会添加评论(不能低评分)

只是添加 user276042 和 pangratz

dat$x = as.numeric(as.character(dat$x))

这将覆盖现有列 x 的值

【讨论】:

【参考方案5】:

使用以下代码,您可以将所有数据框列转换为数字(X 是我们要转换它的列的数据框):

as.data.frame(lapply(X, as.numeric))

要将整个矩阵转换为数字,您有两种方法: 要么:

mode(X) <- "numeric"

或:

X <- apply(X, 2, as.numeric)

您也可以使用data.matrix 函数将所有内容转换为数字,但请注意可能无法正确转换因子,因此首先将所有内容转换为character 更安全:

X <- sapply(X, as.character)
X <- data.matrix(X)

如果我想同时转换为矩阵和数字,我通常使用最后一个

【讨论】:

【参考方案6】:

虽然您的问题完全是关于数字的,但在开始 R 时,有许多转换难以理解。我的目标是解决方法来提供帮助。这个问题类似于This Question。

类型转换在 R 中可能很麻烦,因为 (1) 因子不能直接转换为数字,它们需要首先转换为字符类,(2) 日期是您通常需要处理的特殊情况分开,并且 (3) 跨数据框列循环可能会很棘手。幸运的是,“tidyverse”已经解决了大部分问题。

此解决方案使用mutate_each() 将函数应用于数据框中的所有列。在这种情况下,我们要应用type.convert() 函数,它可以将字符串转换为数字。因为 R 喜欢因子(不知道为什么)应该保持字符的字符列被更改为因子。为了解决这个问题,mutate_if() 函数用于检测作为因子的列并更改为字符。最后,我想展示如何使用 lubridate 将字符类中的时间戳更改为日期时间,因为这通常也是初学者的难题。

library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

【讨论】:

请注意,如果您使用mutate_all(type.convert, as.is=TRUE) 而不是mutate_all(type.convert),您可以删除/避免mutate_if(is.factor, as.character) 以缩短命令。 as.istype.convert() 中的一个参数,指示它是否应该将字符串转换为字符或因子。默认情况下,type.convert() 中的as.is=FALSE(即,将字符串转换为因子类而不是字符类)。【参考方案7】:

如果您遇到以下问题:

as.numeric(as.character(dat$x))

看看你的小数点。如果它们是“,”而不是“。” (例如“5,3”)以上行不通。

一个潜在的解决方案是:

as.numeric(gsub(",", ".", dat$x))

我相信这在一些非英语国家很常见。

【讨论】:

【参考方案8】:

Tim 是对的,Shane 有遗漏。以下是其他示例:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

我们的data.frame 现在有一个因子列(计数)的摘要和as.numeric() 的数字摘要 --- 这是错误,因为它得到了数字因子水平 --- 和as.numeric(as.character()) 的(正确)摘要。

【讨论】:

我的荣幸。这是该语言中比较愚蠢的角落之一,我认为它出现在较早的“R Gotchas”问题中。【参考方案9】:

使用type.convert()rapply()的通用方式:

convert_types <- function(x) 
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)

d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

【讨论】:

这是最灵活的解决方案——值得点赞! 应该是最佳答案。如果要将字符转换为数字或因子,只需删除 as.is = TRUE 试图将 data.frame 中类型为 matrix 的列更改为数字更改 classes=matrix 错误,第一个参数必须是模式字符 这是该主题的最佳答案。【参考方案10】:

要将数据框列转换为数字,您只需执行以下操作:-

因子到数字:-

data_frame$column <- as.numeric(as.character(data_frame$column))

【讨论】:

同样,此答案不会向当前答案集添加任何内容。此外,这不是将因子转换为数字的首选方式。请参阅***.com/q/3418128 了解首选方式。 更好的答案是:sapply(data_frame,function(x) as.numeric(as.character(x)))【参考方案11】:

虽然其他人已经很好地涵盖了该主题,但我想添加这个额外的快速想法/提示。您可以使用正则表达式提前检查字符是否可能仅包含数字。

for(i in seq_along(names(df))
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))

# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

要了解更复杂的正则表达式以及学习/体验其强大功能的原因,请参阅这个非常棒的网站:http://regexr.com/

【讨论】:

【参考方案12】:

如果数据框有多种类型的列、一些字符、一些数字,请尝试以下操作以仅将包含数值的列转换为数字:

for (i in 1:length(data[1,]))
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0)
  else 
    data[,i]<-as.numeric(data[,i])
  

【讨论】:

【参考方案13】:

使用 hablar::convert

要轻松地将多列转换为不同的数据类型,您可以使用hablar::convert。简单语法:df %&gt;% convert(num(a)) 将 a 列从 df 转换为数字。

详细示例

让我们将mtcars 的所有列转换为字符。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

hablar::convert:

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

结果:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

【讨论】:

【参考方案14】:

考虑到可能存在字符列,这是基于Get column types of excel sheet automatically中的@Abdou@答案:

makenumcols<-function(df)
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) 
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  )
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)

df<-makenumcols(df)

【讨论】:

【参考方案15】:

在我的 PC (R v.3.2.3) 中,applysapply 给出错误。 lapply 效果很好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

【讨论】:

【参考方案16】:

要将字符转换为数字,您必须通过应用将其转换为因子

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

您必须使两列具有相同的数据,因为一列无法转换为数字。如果您进行一次转换,则会出现以下错误

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

所以,在做两列相同数据后应用

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

它将成功地将字符转换为数字

【讨论】:

【参考方案17】:

df 是您的数据框。 x 是您要转换的df

as.numeric(factor(df$x))

【讨论】:

【参考方案18】:

如果您不关心保留因子,并且想将其应用于任何可以转换为数字的列,我使用了下面的脚本。 如果 df 是您的原始数据框,您可以使用下面的脚本。

df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

我引用了Shane's 和Joran's 解决方案顺便说一句

【讨论】:

以上是关于如何将数据框列转换为数字类型?的主要内容,如果未能解决你的问题,请参考以下文章

将多个火花数据框列转换为具有列表类型的单列

如何将具有数字值的 char 数据类型的列转换为数字数据类型

如何将日期时间转换为数字数据类型?

类型“数字”不可分配给类型“字符串”。如何将数字转换为字符串

(Python)如何修复数据框列值中的数值表示错误

如何有条件地转换熊猫数据框列