用 GOOGLE 在 html 源代码中搜索? [关闭]
Posted
技术标签:
【中文标题】用 GOOGLE 在 html 源代码中搜索? [关闭]【英文标题】:Search in html source with GOOGLE? [closed] 【发布时间】:2011-05-15 00:35:23 【问题描述】:我有几个网站,但我不记得我在哪里写了几行代码。由于我的页面已被 Google 索引,我想知道 Google 是否提供在 html 源代码/标记本身内搜索的工具, 而不是 只允许在可视化、呈现的部分内进行搜索一页?
谢谢
【问题讨论】:
代码是在客户端还是服务端? 使用nerdydata.com 非常容易 有时候我不是很了解这里的版主。 11 年后结束这个投票率很高的问题? 【参考方案1】:我在旅途中遇到了以下资源(上面已经提到了一些):
以 HTML 标记为中心的搜索引擎
Nerdydata我还想输入以下内容:
庞大的网站抓取数据档案
Common Crawl - 'years of free web page data to help change the world' (over 250TB+)我们如何分析这些抓取数据?
如需了解如何开始分析这些海量数据,请查看Big Data/Map-reduce-type frameworks(s)。
Google lists some ideas on using Apache's Spark project 分析Common Crawl's dump(s)。要了解the file format(s) used by Common Crawl,请参考以下内容:
So you’re ready to get started [with Common Crawl] Navigating the WARC file format [by Common Crawl]文章Accessing-Common-Crawl-Dataset-on-S3 概述了以低成本方式访问Common Crawl's 250TB+ dump(s),将数据负载转移到 Amazon 的 AWS/S3 网络之外。当然,这假设您将使用某种组合 AWS/EC2/S3 等来分析抓取数据。
最后,Patrick Durusau 维护了some interesting Common-Crawl-usage-related blog pages。
就我个人而言,我觉得这个主题很有趣,我建议我们趁热获取这个抓取数据! ;-)
【讨论】:
在我的例子中,站点引擎正在泄漏来自特定域的私有 URL(我确信它不是来自用户)。如何在单个域的源中进行搜索? (为了找到泄漏的来源) 假设您可以访问类似 Unix 的 Bash 控制台(在 Windows 上尝试 'Git Bash'、unxutils 或 cygwin),您可以使用基于 wget/curl/xidel 各种组合的多种解决方案/grep/awk 例如。 This SO post 包含各种解决方案,this is the Google search I used。 基本上,您需要遍历域中的重要 URL 以查找/存储哪些页面正在“泄漏”。 该网站有数 PB 大小,包含数十亿个ᴜʀʟ。几乎所有页面都不是静态的。你有比自己爬的更好的解决方案吗? 听起来您可能需要在高并发环境中运行爬网。集群参与者模式,例如 Scala/Java 的 Akka 应该这样做,或者看看类似集群的 map-reduce 模式(将 URL 收集/识别工作提供给子单元,在 Spark 或 @ 987654338@)。我包括some related resource URL in a pastebin。想知道你往哪个方向走会很有趣,请告诉我们。【参考方案2】:您可以尝试PublicWWW 在源代码/标记中进行搜索。它允许在 167+ 百万个网站的网页源代码中查找任何 HTML、javascript、CSS 和纯文本。
使用 PublicWWW,您可以:
通过他们共享的唯一 HTML 代码查找相关网站,即 小部件和发布者 ID。
使用特定图像或徽章识别网站。
找出还有谁在使用您的主题。 识别提及您的网站。 找到竞争对手的附属公司。 确定您的竞争对手亲自协作或互动的网站。 使用库或平台的参考。 在网上查找代码示例。 找出谁在他们的网站上使用了哪些 JS 小部件。 ...当然,您不仅可以找到使用某些代码/标记 sn-p 的网站。
【讨论】:
值得注意的是,只有前100万的网站是免费公开的。前300万的结果在注册后公布。其余的都是付费的。此外,显示的结果仅显示域,而不是完整的 URL。 这个页面坏了吗?我不在乎是否需要付费才能获取信息,但是在尝试购买时,我在所有项目上都收到“计划不可用”,有人知道页面发生了什么吗?就这样已经有4个月了以上是关于用 GOOGLE 在 html 源代码中搜索? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章