用txt获取信息

Posted

技术标签:

【中文标题】用txt获取信息【英文标题】:Obtain information with a txt 【发布时间】:2020-05-02 10:46:04 【问题描述】:

我在 R 中有一个问题。我有一个 Excel 列,它的所有行都由链接组成。 我想创建一个机器人或以某种方式从该链接获取信息(所有信息都是纯文本 .txt)。 你知道有什么方法可以在右栏中提取信息和仪表吗?问候,谢谢!。

我尝试阅读.delim,但我遇到了这个问题。

read.delim("http://multimedia.globomatik.net/productsSheet/A0017969.txt")

read.table 中的错误(file = file,header = header,sep = sep,quote = quote,: 列多于列名

另一方面,我尝试过:

read.txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt"))

但是为我创建了许多行。你知道有什么方法可以加入这些行吗?

谢谢!

【问题讨论】:

您的意思是要对 Excel 文件中的所有链接进行刮板吗?并从所有链接中提取信息? 您正在查看的内容似乎是 html 而不是简单的纯文本。您需要使用可以解析 HTML 的函数。 【参考方案1】:

如果您只想将向量中的文本行连接在一起,可以使用paste(x, collapse = "\n")

最好定义一个简单的函数来读取 url 的内容并返回所有粘贴在一起的行:

get_txt <- function(link) paste0(readLines(link, warn = FALSE), collapse = "\n")

你可以这样使用:

x <- get_txt("http://multimedia.globomatik.net/productsSheet/A0023294.txt")
x
#> [1] "<div class=\"std especificaciones content-section section-2\"><div class=\
#> "column-left\">\n\t\t\t\t<h3>General</h3>\n\t\t\t\t<table class=\"data-table\" i
#> d=\"product-attribute-specs-table-1\">\n\t\t\t\t\t<col width=\"25%\" />\n\t\t\t\
#> t\t<col />\n\t\t\t\t\t<tbody><tr>\n\t\t                   \t\t\t<th class=\"labe
#> l\" data-attribute-code=\"brands\">Marca</th>\t<td class=\"data\">WESTERN DIGITA
#> L </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t                   \t\t\t<th class=\"lab
#> el\" data-attribute-code=\"warranty\">Garantía</th>\t<td class=\"data\">2 años
#>  de garantía</td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t                   \t\t\t<th 
#> class=\"label\" data-attribute-code=\"part_number\">Part Number</th>\t<td class=
#> \"data\">WDBWLG0060HBK-EESN </td>\n\t\t\t\t\t\t\t\t</tr><tr>\n\t\t ... <truncated>

你可以看到这是一个单一的文本字符串:

length(x)
#> [1] 1

【讨论】:

以上是关于用txt获取信息的主要内容,如果未能解决你的问题,请参考以下文章

html js将获取的信息存为指定的txt文件

错误:您的 requirements.txt 无效。快照您的日志以获取详细信息

js获取浏览器信息

如何用shell获取多台服务器上的信息

caffe:用自己的数据训练网络mnist

Firebase-admin:- 部署失败:错误:您的 requirements.txt 无效。快照您的日志以获取详细信息。