java 实现word关键字在网上的搜索

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 实现word关键字在网上的搜索相关的知识,希望对你有一定的参考价值。

您们好,我想问一下如何用java实现一个将word中的关键字自动的在网络上的一些网页文章进行匹配,并且将相关度大的网页网址记录在txt文档中。
需要用到爬虫吗?爬虫爬的是什么呢?是网页还是网址?这个过程用到的java 工具包有哪些呢?
lucene,poi,htmaparse这三个有用吗?还需要哪些?
麻烦请告知,十分感谢!(不需要代码,如果可以请推荐一些包和相关方法,是否需要爬虫(很关键的!))注:目前还没有学到jsp,单单用SE能解决吗?

尼玛,百度这个垃圾的无赖行径!!!

 

 

 

参考技术A 不是很懂这块,不过单单用SE是能解决的,所谓关键字其实是网页里面的一个标签,也就是<META>标签,当然你也可以去爬其他任何你想要的标签,比如<TITLE>标题,比如<CONTENT>内容,甚至<a>超链接也是可以爬的,关键要看你的具体需求了,爬虫的原理是通过访问固定的URL,将返回的页面内容作为一个超长字符串接收,然后根据需求来查找关键字,java中查找是用的indexOf("美食")!=-1或其他的方式。至于引用的包,则在你开发的过程中用到了就引用进去。PS:我不是开发这方面的,所能提供建议不多。追问

您好,感谢您的回答。
您说到爬虫爬的是固定的URL,如果我想在关键字提取的基础上,进行网上的各种搜索和匹配次关键字的网页然后将符合的网页的URL提取下来该怎么做呢?
也就是说爬虫智能根据url来爬网页内容而不能根据内容来爬url吗?

追答

通常按照我的理解,爬虫是一个客户端,而网页是服务端反馈客户端给予的内容,经过客户端浏览器解析后显示为网页了,那么也就是说发起端是在客户端,在没有服务器反馈内容的情况下,又去何处搜索关键字呢?也就是说没有数据,自然就无法查询了。所以限定一个url范围是搜索关键字的前提,然后根据设定的规则遍历范围内的全部url,这样才能实现爬虫的效果。当然,你所说的word中的关键字搜索还可以采用另外一种变通的方式,举个例子,你可以将这个字符串通过百度搜索,反馈的网页,再用这些网页作为数据源去爬更多的内容,发散式搜索,但这样将会产生庞大的数据量,必须定义好规则才能确保你最终需要的数据能够获得,比如百度查询"美食"会列出很多网页,而你则要去解析百度的网页,并将所需的网页内容获得出来。

参考技术B 红果果凤飞飞

以上是关于java 实现word关键字在网上的搜索的主要内容,如果未能解决你的问题,请参考以下文章

word如何搜索多个关键词并高亮

怎样利用搜索引擎实现更加精确的搜索?

word中如何进行关键词检索

java获取word里面的文本

在搜索中突出显示多个关键字

怎么在一个word文档中 同时搜索多个关键字,并能高亮显示它们?有插件么 或者告诉我一个宏?