FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接
Posted
技术标签:
【中文标题】FSCrawler 爬取 E:\\TestFilesToBeIndexed\\subfolder 时出错:java.net.ConnectException:连接超时:连接【英文标题】:FSCrawler Error while crawling E:\TestFilesToBeIndexed\subfolder: java.net.ConnectException: Connection timed out: connectFSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接 【发布时间】:2020-09-08 22:56:52 【问题描述】:爬取路径\to\file_folder时出错:java.net.ConnectException:连接超时:连接
我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中(位于我的本地计算机上),但出现异常。
下面是FSCrawler的_settings.yml文件:
---
name: "index_in_es_onefsc"
server:
hostname: "machinename.abc.com"
port: 22
username: "username"
password: "password@20"
protocol: "ssh"
fs:
url: "E:\\TestFilesToBeIndexed"
update_rate: "15m"
excludes:
- "*/~*"
json_support: false
filename_as_id: false
add_filesize: true
remove_deleted: true
add_as_inner_object: false
store_source: false
index_content: true
attributes_support: false
raw_metadata: false
xml_support: false
index_folders: true
lang_detect: false
continue_on_error: false
ocr:
language: "eng"
enabled: true
pdf_strategy: "ocr_and_text"
follow_symlinks: false
elasticsearch:
nodes:
- url: "http://127.0.0.1:9200"
bulk_size: 100
flush_interval: "5s"
byte_size: "10mb"
【问题讨论】:
【参考方案1】:The documentation 表示在 Windows 上执行 SSH 往返 Windows 时 您必须使用以下表格:
我认为在 Windows 上,你需要使用:
name: "index_in_es_onefsc"
fs:
url: "/E:/TestFilesToBeIndexed"
server:
hostname: "machinename.abc.com"
port: 22
username: "username"
password: "password@20"
protocol: "ssh"
注意there is a known issue 从 Windows 机器运行 FSCrawler 时。此问题已修复,但如果您使用的 SNAPSHOT 版本比 6 月 26 日发布的版本旧,您很可能需要升级。
【讨论】:
我正在使用 E:/TestFilesToBeIndexed 并且也尝试过 E:\\TestFilesToBeIndexed ...但是对于这两个我都得到了 ** 15:10:08,935 WARN [fpecfFsParserAbstract] 爬取 E:/TestFilesToBeIndexed 时出错:java.net.ConnectException:连接超时:连接15:10:08,938 WARN [fpecfFsParserAbstract] 关闭连接时出错:java.lang.NullPointerException** @dadoonet 嗨@dadoonet 似乎更新版本尚未出现在link。什么时候更新,没有错误的版本将可用。最后更新的 SNAPSHOT 版本是 6 月 25 日 最新快照已于 7 月 2 日发布(相同链接)。 SNAPSHOT 比 2.6 版本成熟得多 :) 感谢您的链接......它现在按预期工作......现在可以从远程索引文件。 :)以上是关于FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接的主要内容,如果未能解决你的问题,请参考以下文章
有没有办法检查 FSCrawler 将使用哪种 pdf 策略?
Windows _settings.yml、文件夹/目录和驱动器上的 FSCrawler
将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法
如何将 FSCrawler REST 与 docker-compose 连接起来