从字符串中提取数字以允许单词变化

Question

我已经在以下位置询问了此版本：

Extracting Numbers Based On the Following Term in a String：

我有一些凌乱的数据，需要从没有真正统一输入的字符串变量中提取量刑长度。我需要一个人在months和days变量中被判“监禁”或“监狱”的月份或天数，而忽略字符串中的任何其他数字（例如，社区服务的天数）。

所以如果我有数据

library(data.table)
data<-data.table(text=c("Person 1: $1000 fine, 31 months jail", 
                        "Person 2: $500 fine, 45 days jail",
                        "Person 3: 35 dys jail",
                        "Person 4: 14 mnths prison, 30 days community release"))
data


                                                   text
1:                 Person 1: $1000 fine, 31 months jail
2:                    Person 2: $500 fine, 45 days jail
3:                                Person 3: 35 dys jail
4: Person 4: 14 mnths prison, 30 days community release

我需要推断月份和日期信息以形成：

library(data.table)
data<-data.table(text=c("Person 1: $1000 fine, 31 months jail", 
                        "Person 2: $500 fine, 45 days jail",
                        "Person 3: 35 dys jail",
                        "Person 4: 14 mnths prison, 30 days community release"), 
                 months=c("31","","","14"), 
                 days=c("","45","35",""))
data

                                                   text months days
1:                 Person 1: $1000 fine, 31 months jail     31     
2:                    Person 2: $500 fine, 45 days jail          45
3:                                Person 3: 35 dys jail          35
4: Person 4: 14 mnths prison, 30 days community release     14

我一直试图用library(qdap)来解决这个问题，并根据我先前的问题调整以下代码：

library(dplyr)
data <- dplyr::mutate(data,
                      months = stringr::str_extract(text, "\d+(?=\s*months*)"),
                      days = stringr::str_extract(text, "\d+(?=\s*days*)"))

但是，我什么都没做。诚然，文本分析是一个弱点，我很快了解到用str_extract(text, "\d+(?=\s*days|dys* jail|prison)")代替上面的代码无济于事。

您能提供的任何帮助将不胜感激。试图找出一种编码方法，因此不必强迫我编写成千上万的观察值。

Answer 1

另一答案