找到缩略图时如何获取实际图像?
Posted
技术标签:
【中文标题】找到缩略图时如何获取实际图像?【英文标题】:How to get the actual image when a thumbnail is found? 【发布时间】:2017-09-28 00:47:48 【问题描述】:我正在使用 Nutch 抓取图像。我的代码在找到标签时以某种方式工作,它会处理找到的图像。它工作得很好,但有一个问题,在这个过程中,大量的缩略图被抓取和处理,而我需要实际的图像。在某些情况下,我确实获得了实际图像及其缩略图,但在许多情况下,我在抓取的图像集中找不到实际图像。这张来自壁纸集合网站的快照可能有助于了解这些缩略图被抓取和处理的情况,而不是实际图像。
以下是代码的简单草图。
while(nodeWalker.hasNext())
//some code
if("img".equalsIgnoreCase(nodeName) && nodeType == Node.ELEMENT_NODE)
//image detected
//get image Url, do more.....
我在网上搜索,但找不到如何实现。
【问题讨论】:
【参考方案1】:就我的 Nutch 知识而言,您无法区分图像和缩略图,因为缩略图本身就是图像。
您需要自己添加一些能够区分缩略图和您正在搜索的实际图像的逻辑。
你可以例如验证图像是否是链接到另一个图像或类似内容的锚点的一部分。
【讨论】:
是的,我意识到这一点,这就是为什么这个问题不是特定于 nutch 的。只是,如何实现这个想法以避免缩略图并达到实际图像......以上是关于找到缩略图时如何获取实际图像?的主要内容,如果未能解决你的问题,请参考以下文章