FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接

Posted

技术标签:

【中文标题】FSCrawler 爬取 E:\\TestFilesToBeIndexed\\subfolder 时出错:java.net.ConnectException:连接超时:连接【英文标题】:FSCrawler Error while crawling E:\TestFilesToBeIndexed\subfolder: java.net.ConnectException: Connection timed out: connectFSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接 【发布时间】:2020-09-08 22:56:52 【问题描述】:

爬取路径\to\file_folder时出错:java.net.ConnectException:连接超时:连接

我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中(位于我的本地计算机上),但出现异常。

下面是FSCrawler的_settings.yml文件:

 ---
    name: "index_in_es_onefsc"
    server:
      hostname: "machinename.abc.com"
      port: 22
      username: "username"
      password: "password@20"
      protocol: "ssh"
    fs:
      url: "E:\\TestFilesToBeIndexed"
      update_rate: "15m"
      excludes:
      - "*/~*"
      json_support: false
      filename_as_id: false
      add_filesize: true
      remove_deleted: true
      add_as_inner_object: false
      store_source: false
      index_content: true
      attributes_support: false
      raw_metadata: false
      xml_support: false
      index_folders: true
      lang_detect: false
      continue_on_error: false
      ocr:
        language: "eng"
        enabled: true
        pdf_strategy: "ocr_and_text"
      follow_symlinks: false
    elasticsearch:
      nodes:
      - url: "http://127.0.0.1:9200"
      bulk_size: 100
      flush_interval: "5s"
      byte_size: "10mb"

【问题讨论】:

【参考方案1】:

The documentation 表示在 Windows 上执行 SSH 往返 Windows 时 您必须使用以下表格:

我认为在 Windows 上,你需要使用:

name: "index_in_es_onefsc"
fs:
  url: "/E:/TestFilesToBeIndexed"
server:
  hostname: "machinename.abc.com"
  port: 22
  username: "username"
  password: "password@20"
  protocol: "ssh"

注意there is a known issue 从 Windows 机器运行 FSCrawler 时。此问题已修复,但如果您使用的 SNAPSHOT 版本比 6 月 26 日发布的版本旧,您很可能需要升级。

【讨论】:

我正在使用 E:/TestFilesToBeIndexed 并且也尝试过 E:\\TestFilesToBeIndexed ...但是对于这两个我都得到了 ** 15:10:08,935 WARN [fpecfFsParserAbstract] 爬取 E:/TestFilesToBeIndexed 时出错:java.net.ConnectException:连接超时:连接15:10:08,938 WARN [fpecfFsParserAbstract] 关闭连接时出错:java.lang.NullPointerException** @dadoonet 嗨@dadoonet 似乎更新版本尚未出现在link。什么时候更新,没有错误的版本将可用。最后更新的 SNAPSHOT 版本是 6 月 25 日 最新快照已于 7 月 2 日发布(相同链接)。 SNAPSHOT 比 2.6 版本成熟得多 :) 感谢您的链接......它现在按预期工作......现在可以从远程索引文件。 :)

以上是关于FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接的主要内容,如果未能解决你的问题,请参考以下文章

有没有办法检查 FSCrawler 将使用哪种 pdf 策略?

Windows _settings.yml、文件夹/目录和驱动器上的 FSCrawler

将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法

如何将 FSCrawler REST 与 docker-compose 连接起来

Elasticsearch:使用 Docker 来安装 FSCrawler 并摄入 Word 及 PDF 文件

是否可以使用 FSCrawler 将文件内容插入 Elasticsearch 中现有索引的特定 _id