网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面

Posted

技术标签:

【中文标题】网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面【英文标题】:Do web crawlers read JSP pages inside the WEB-INF folder网络爬虫是否读取 WEB-INF 文件夹内的 JSP 页面 【发布时间】:2013-12-21 19:36:00 【问题描述】:

我有一个使用 jsp 页面的 webapp。我故意没有把jsp页面放在WEB-INF 文件夹,因为 jsp 中只有最少的代码,而且当时(大约 5 年前)我读到 webcrawlers 不会在 WEB-INF 文件夹中找到文件。因此影响我的 SEO/排名/搜索引擎搜索结果。

我还将 jsp 文件位置放在 sitemap.xml 文件中。我正在使用 tomcat,该网站是完全公开的,没有登录/安全要求。

所以,快进到现在。我的网站排名很高,搜索结果也很不错。我应该将 jsps 移动到 WEB-INF 文件夹吗? 5年前我的消息来源错了吗?

【问题讨论】:

这个问题似乎是题外话,因为它是关于 SEO @Jonn Conde 为什么java/jsp不能和SEO结合?该网站是用 Java/JSP 编写的,问题与网络爬虫(SEO 的一部分)有关。唯一能回答这些问题的人是那些同时了解这两个问题的人。如果我们将其移至 SEO 主题,他们将不知道 JSP 或 WEB-INF 是什么。 您可能会发现此链接很有用 - support.google.com/webmasters/answer/158587 @Jiri 我不知道这存在。您实际上可以看到机器人看到的内容。很有用。谢谢。 【参考方案1】:

您在 5 年前阅读的信息仍然适用。 WEB-INF下的文件不能直接访问。

【讨论】:

对于 java 开发人员来说,关于货币化/搜索优化/排名的信息如此之少,这很奇怪。谢谢!

以上是关于网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面的主要内容,如果未能解决你的问题,请参考以下文章

检测“隐形”网络爬虫

如何应对网站反爬虫策略?如何高效地爬大量数据

如何防止谷歌网络爬虫将单个页面作为两个不同的页面读取

爬虫系列:数据清洗

爬取电影 Top 500 数据

在 WEB-INF/lib 内的 JAR 中找不到 CDI 实例