优化/自定义 Sharepoint 搜索爬网
Posted
技术标签:
【中文标题】优化/自定义 Sharepoint 搜索爬网【英文标题】:Optimizing/Customizing Sharepoint Search Crawling 【发布时间】:2010-09-07 07:20:25 【问题描述】:SharePoint Server 2007 还具有搜索功能和爬网程序。但是,Crawler 有一些限制,因为它仅在爬取外部站点时支持 Basic Auth,并且无法告诉它忽略 no-index、no-follow 属性。
现在,我想索引一个站点,不幸的是,该站点使用它自己的身份验证系统,并且它在页面上使用 no-index,no-follow。当我控制该站点时,我可以删除属性,但这样做是 PITA。此外,它并没有解决身份验证问题。
所以我只是想知道是否有可能以某种方式扩展 Sharepoint 的爬虫?
【问题讨论】:
【参考方案1】:在 MOSS SP1 中应该已经解决了具有不同表单身份验证的 MOSS 爬取站点的限制。 :
http://www.microsoft.com/downloads/details.aspx?FamilyID=ad59175c-ad6a-4027-8c2f-db25322f791b&displaylang=en
这是一篇文章的链接,该文章描述了如何获取 SP1 之前的 MOSS 的修补程序以启用通过表单身份验证抓取网站:
http://blogs.microsoft.co.il/blogs/adir_ron/archive/2007/10/11/moss-search-for-sso-form-based-authentication-sites.aspx
希望有帮助!
【讨论】:
以上是关于优化/自定义 Sharepoint 搜索爬网的主要内容,如果未能解决你的问题,请参考以下文章
SharePoint 2019 爬网错误:第一次尝试爬网此对象失败。 (无法从 URI 中检索 blob...)