R - Instagram 主题标签抓取

Posted

技术标签:

【中文标题】R - Instagram 主题标签抓取【英文标题】:R - Instagram hashtag scraping 【发布时间】:2020-12-28 21:25:57 【问题描述】:

我正在尝试访问有关帖子主题标签及其相关信息的信息。我正在尝试将 json 转换为 R - 使用以下

library(jsonlite)

hashtag <- "sponsored"
url_start <- str_glue("http://instagram.com/explore/tags/hashtag/?__a=1")
json <- fromJSON(url_start)

我收到此错误

Error in parse_con(txt, bigint_as_char) : 
  lexical error: invalid char in json text.
                                       <!DOCTYPE html> <html lang="en"
                     (right here) ------^

如果我使用单个用户,我可以得到一些东西,例如我自己的用户名而不是 hashtag。调查#'s 我只是不能让它工作。我目前认为这是他们阻止请求的 Instagram 问题?

【问题讨论】:

【参考方案1】:

实际上,如果您运行 httr::GET(url_start),您会看到您在尝试登录时被阻止。

Instagram 已将您的 IP 列入黑名单。

不要发送垃圾邮件,只需执行其他操作,然后等待 2-3 天,希望该阻止将被废除。

一旦代码再次开始工作,请确保添加 Sys.sleep(sample(4:20,1)) 在你跑之前 json &lt;- fromJSON(url_start)

【讨论】:

以上是关于R - Instagram 主题标签抓取的主要内容,如果未能解决你的问题,请参考以下文章

Instagram gem:获取带有特定主题标签的照片

将没有 api 的 Instagram 主题标签 json 放入谷歌表格的问题

Instagram 获取带有标签的帖子

有啥方法可以在不使用访问令牌/客户端 ID 的情况下获取特定主题标签的 Instagram 图像?

实时抓取标记的 Instagram 照片

在 Instagram 中抓取一定数量的帖子