用txt获取信息
Posted
技术标签:
【中文标题】用txt获取信息【英文标题】:Obtain information with a txt 【发布时间】:2020-05-02 10:46:04 【问题描述】:我在 R 中有一个问题。我有一个 Excel 列,它的所有行都由链接组成。 我想创建一个机器人或以某种方式从该链接获取信息(所有信息都是纯文本 .txt)。 你知道有什么方法可以在右栏中提取信息和仪表吗?问候,谢谢!。
我尝试阅读.delim,但我遇到了这个问题。
read.delim("http://multimedia.globomatik.net/productsSheet/A0017969.txt")
read.table 中的错误(file = file,header = header,sep = sep,quote = quote,: 列多于列名
另一方面,我尝试过:
read.txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt"))
但是为我创建了许多行。你知道有什么方法可以加入这些行吗?
谢谢!
【问题讨论】:
您的意思是要对 Excel 文件中的所有链接进行刮板吗?并从所有链接中提取信息? 您正在查看的内容似乎是 html 而不是简单的纯文本。您需要使用可以解析 HTML 的函数。 【参考方案1】:如果您只想将向量中的文本行连接在一起,可以使用paste(x, collapse = "\n")
最好定义一个简单的函数来读取 url 的内容并返回所有粘贴在一起的行:
get_txt <- function(link) paste0(readLines(link, warn = FALSE), collapse = "\n")
你可以这样使用:
x <- get_txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt")
x
#> [1] "<div class=\"std especificaciones content-section section-2\"><div class=\
#> "column-left\">\n\t\t\t\t<h3>General</h3>\n\t\t\t\t<table class=\"data-table\" i
#> d=\"product-attribute-specs-table-1\">\n\t\t\t\t\t<col width=\"25%\" />\n\t\t\t\
#> t\t<col />\n\t\t\t\t\t<tbody><tr>\n\t\t \t\t\t<th class=\"labe
#> l\" data-attribute-code=\"brands\">Marca</th>\t<td class=\"data\">WESTERN DIGITA
#> L </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t \t\t\t<th class=\"lab
#> el\" data-attribute-code=\"warranty\">GarantÃa</th>\t<td class=\"data\">2 años
#> de garantÃa</td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t \t\t\t<th
#> class=\"label\" data-attribute-code=\"part_number\">Part Number</th>\t<td class=
#> \"data\">WDBWLG0060HBK-EESN </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t ... <truncated>
你可以看到这是一个单一的文本字符串:
length(x)
#> [1] 1
【讨论】:
以上是关于用txt获取信息的主要内容,如果未能解决你的问题,请参考以下文章
错误:您的 requirements.txt 无效。快照您的日志以获取详细信息
Firebase-admin:- 部署失败:错误:您的 requirements.txt 无效。快照您的日志以获取详细信息。