从R中的文本中提取列表项

Posted 2023-02-14

技术标签:

【中文标题】从R中的文本中提取列表项【英文标题】：extract list items from text in R 【发布时间】：2022-01-22 13:46:28 【问题描述】：

我有一个使用 pdftools::pdf_text 从 PDF 中提取的文本。 PDf 包含要点项目，例如：

 - project abstract
 - project narrative

提取出来后的文字是这样的：

   project abstract       project narrative

现在，我想从文本块中提取这些项目。我试过做这样的事情：

grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)

但它找不到它。提取列表项的正确正则表达式是什么？或者提取列表项的正确方法是什么？

【问题讨论】：

【参考方案1】：

您可以使用stringr 中的str_split 函数来识别每个不明确的Unicode 字符后的文本...

# install.packages("stringr")
library(stringr)

txt <- "   project abstract       project narrative"

trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract"  "project narrative"

您在示例中使用的 unicode 字符是 \uf0b7

【讨论】：

以上是关于从R中的文本中提取列表项的主要内容，如果未能解决你的问题，请参考以下文章