从R中的文本中提取列表项

Posted

技术标签:

【中文标题】从R中的文本中提取列表项【英文标题】:extract list items from text in R 【发布时间】:2022-01-22 13:46:28 【问题描述】:

我有一个使用 pdftools::pdf_text 从 PDF 中提取的文本。 PDf 包含要点项目,例如:

 - project abstract
 - project narrative

提取出来后的文字是这样的:

   project abstract       project narrative

现在,我想从文本块中提取这些项目。我试过做这样的事情:

grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)

但它找不到它。提取列表项的正确正则表达式是什么?或者提取列表项的正确方法是什么?

【问题讨论】:

【参考方案1】:

您可以使用stringr 中的str_split 函数来识别每个不明确的Unicode 字符后的文本...

# install.packages("stringr")
library(stringr)

txt <- "   project abstract       project narrative"

trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract"  "project narrative"

您在示例中使用的 unicode 字符是 \uf0b7

【讨论】:

以上是关于从R中的文本中提取列表项的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 R 中 readtext 包中的 readtext() 替换从 PDF 文件中提取的文本中的“\r\n-”

从r中的非结构化文本文件中提取表

从列表中提取值以将它们分配为 R 中的新变量

uiautomator - 当我验证每个列表项中的文本时,无法让 ListView 滚动。当我点击屏幕上的最后一个项目时它就失败了

根据R中的元素名称从列表中提取对象

从 R 中的列表中导出单独的文本文件