优化/自定义 Sharepoint 搜索爬网

Posted

技术标签:

【中文标题】优化/自定义 Sharepoint 搜索爬网【英文标题】:Optimizing/Customizing Sharepoint Search Crawling 【发布时间】:2010-09-07 07:20:25 【问题描述】:

SharePoint Server 2007 还具有搜索功能和爬网程序。但是,Crawler 有一些限制,因为它仅在爬取外部站点时支持 Basic Auth,并且无法告诉它忽略 no-index、no-follow 属性。

现在,我想索引一个站点,不幸的是,该站点使用它自己的身份验证系统,并且它在页面上使用 no-index,no-follow。当我控制该站点时,我可以删除属性,但这样做是 PITA。此外,它并没有解决身份验证问题。

所以我只是想知道是否有可能以某种方式扩展 Sharepoint 的爬虫?

【问题讨论】:

【参考方案1】:

在 MOSS SP1 中应该已经解决了具有不同表单身份验证的 MOSS 爬取站点的限制。 :

http://www.microsoft.com/downloads/details.aspx?FamilyID=ad59175c-ad6a-4027-8c2f-db25322f791b&displaylang=en

这是一篇文章的链接,该文章描述了如何获取 SP1 之前的 MOSS 的修补程序以启用通过表单身份验证抓取网站:

http://blogs.microsoft.co.il/blogs/adir_ron/archive/2007/10/11/moss-search-for-sso-form-based-authentication-sites.aspx

希望有帮助!

【讨论】:

以上是关于优化/自定义 Sharepoint 搜索爬网的主要内容,如果未能解决你的问题,请参考以下文章

SharePoint 2013 手动删除爬网项目

SharePoint 爬网权限被拒绝

SharePoint 2019 爬网错误:第一次尝试爬网此对象失败。 (无法从 URI 中检索 blob...)

sharepoint 某site无法进行搜索内容,其他site都可以搜索

sharepoint搜索配置问题

SharePoint2016合规性策略中心