网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面

Posted 2023-03-25

技术标签:

【中文标题】网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面【英文标题】：Do web crawlers read JSP pages inside the WEB-INF folder网络爬虫是否读取 WEB-INF 文件夹内的 JSP 页面 【发布时间】：2013-12-21 19:36:00 【问题描述】：

我有一个使用 jsp 页面的 webapp。我故意没有把jsp页面放在WEB-INF 文件夹，因为 jsp 中只有最少的代码，而且当时（大约 5 年前）我读到 webcrawlers 不会在 WEB-INF 文件夹中找到文件。因此影响我的 SEO/排名/搜索引擎搜索结果。

我还将 jsp 文件位置放在 sitemap.xml 文件中。我正在使用 tomcat，该网站是完全公开的，没有登录/安全要求。

所以，快进到现在。我的网站排名很高，搜索结果也很不错。我应该将 jsps 移动到 WEB-INF 文件夹吗？ 5年前我的消息来源错了吗？

【问题讨论】：

这个问题似乎是题外话，因为它是关于 SEO @Jonn Conde 为什么java/jsp不能和SEO结合？该网站是用 Java/JSP 编写的，问题与网络爬虫（SEO 的一部分）有关。唯一能回答这些问题的人是那些同时了解这两个问题的人。如果我们将其移至 SEO 主题，他们将不知道 JSP 或 WEB-INF 是什么。您可能会发现此链接很有用 - support.google.com/webmasters/answer/158587 @Jiri 我不知道这存在。您实际上可以看到机器人看到的内容。很有用。谢谢。 【参考方案1】：

您在 5 年前阅读的信息仍然适用。 WEB-INF下的文件不能直接访问。

【讨论】：

对于 java 开发人员来说，关于货币化/搜索优化/排名的信息如此之少，这很奇怪。谢谢！

以上是关于网络爬虫是不是读取 WEB-INF 文件夹内的 JSP 页面的主要内容，如果未能解决你的问题，请参考以下文章

检测“隐形”网络爬虫

如何应对网站反爬虫策略？如何高效地爬大量数据

如何防止谷歌网络爬虫将单个页面作为两个不同的页面读取

爬虫系列：数据清洗

爬取电影 Top 500 数据

在 WEB-INF/lib 内的 JAR 中找不到 CDI 实例