从R中的文本中提取列表项
Posted
技术标签:
【中文标题】从R中的文本中提取列表项【英文标题】:extract list items from text in R 【发布时间】:2022-01-22 13:46:28 【问题描述】:我有一个使用 pdftools::pdf_text 从 PDF 中提取的文本。 PDf 包含要点项目,例如:
- project abstract
- project narrative
提取出来后的文字是这样的:
project abstract project narrative
现在,我想从文本块中提取这些项目。我试过做这样的事情:
grep("\\s[a-zA-Z]+\\s[a-zA-Z]+", text)
但它找不到它。提取列表项的正确正则表达式是什么?或者提取列表项的正确方法是什么?
【问题讨论】:
【参考方案1】:您可以使用stringr
中的str_split
函数来识别每个不明确的Unicode 字符后的文本...
# install.packages("stringr")
library(stringr)
txt <- " project abstract project narrative"
trimws(unlist(str_split(txt, "\uf0b7"))[-1])
# [1] "project abstract" "project narrative"
您在示例中使用的 unicode 字符是 \uf0b7
【讨论】:
以上是关于从R中的文本中提取列表项的主要内容,如果未能解决你的问题,请参考以下文章
无法使用 R 中 readtext 包中的 readtext() 替换从 PDF 文件中提取的文本中的“\r\n-”
uiautomator - 当我验证每个列表项中的文本时,无法让 ListView 滚动。当我点击屏幕上的最后一个项目时它就失败了