压缩期间的 FileNotFoundException

Posted 2023-03-22

技术标签:

【中文标题】压缩期间的 FileNotFoundException【英文标题】：FileNotFoundException during compaction 【发布时间】：2014-06-19 14:13:48 【问题描述】：

我的所有节点在压缩期间都抛出了 FileNotFoundException。因此，没有一个压缩（自动、手动）可以完成，我的 SSTable 计数现在对于单个 CF（CQL3）有数千个。

nodetool compactionstats 显示每个节点中有数百个待处理的任务，但没有任何处理。

以下是异常日志示例：

Error occurred during compaction
java.util.concurrent.ExecutionException: java.lang.RuntimeException: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
        at java.util.concurrent.FutureTask.report(FutureTask.java:122)
        at java.util.concurrent.FutureTask.get(FutureTask.java:188)
        at org.apache.cassandra.db.compaction.CompactionManager.performMaximal(CompactionManager.java:281)
        at org.apache.cassandra.db.ColumnFamilyStore.forceMajorCompaction(ColumnFamilyStore.java:1935)
        at org.apache.cassandra.service.StorageService.forceKeyspaceCompaction(StorageService.java:2210)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at sun.reflect.misc.Trampoline.invoke(MethodUtil.java:75)
        at sun.reflect.GeneratedMethodAccessor14.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at sun.reflect.misc.MethodUtil.invoke(MethodUtil.java:279)
        at com.sun.jmx.mbeanserver.StandardMBeanIntrospector.invokeM2(StandardMBeanIntrospector.java:112)
        at com.sun.jmx.mbeanserver.StandardMBeanIntrospector.invokeM2(StandardMBeanIntrospector.java:46)
        at com.sun.jmx.mbeanserver.MBeanIntrospector.invokeM(MBeanIntrospector.java:237)
        at com.sun.jmx.mbeanserver.PerInterface.invoke(PerInterface.java:138)
        at com.sun.jmx.mbeanserver.MBeanSupport.invoke(MBeanSupport.java:252)
        at com.sun.jmx.interceptor.DefaultMBeanServerInterceptor.invoke(DefaultMBeanServerInterceptor.java:819)
        at com.sun.jmx.mbeanserver.JmxMBeanServer.invoke(JmxMBeanServer.java:801)
        at javax.management.remote.rmi.RMIConnectionImpl.doOperation(RMIConnectionImpl.java:1487)
        at javax.management.remote.rmi.RMIConnectionImpl.access$300(RMIConnectionImpl.java:97)
        at javax.management.remote.rmi.RMIConnectionImpl$PrivilegedOperation.run(RMIConnectionImpl.java:1328)
        at javax.management.remote.rmi.RMIConnectionImpl.doPrivilegedOperation(RMIConnectionImpl.java:1420)
        at javax.management.remote.rmi.RMIConnectionImpl.invoke(RMIConnectionImpl.java:848)
        at sun.reflect.GeneratedMethodAccessor40.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at sun.rmi.server.UnicastServerRef.dispatch(UnicastServerRef.java:322)
        at sun.rmi.transport.Transport$1.run(Transport.java:177)
        at sun.rmi.transport.Transport$1.run(Transport.java:174)
        at java.security.AccessController.doPrivileged(Native Method)
        at sun.rmi.transport.Transport.serviceCall(Transport.java:173)
        at sun.rmi.transport.tcp.TCPTransport.handleMessages(TCPTransport.java:556)
        at sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run0(TCPTransport.java:811)
        at sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run(TCPTransport.java:670)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
        at org.apache.cassandra.io.compress.CompressedThrottledReader.open(CompressedThrottledReader.java:52)
        at org.apache.cassandra.io.sstable.SSTableReader.openDataReader(SSTableReader.java:1355)
        at org.apache.cassandra.io.sstable.SSTableScanner.<init>(SSTableScanner.java:67)
        at org.apache.cassandra.io.sstable.SSTableReader.getScanner(SSTableReader.java:1161)
        at org.apache.cassandra.io.sstable.SSTableReader.getScanner(SSTableReader.java:1173)
        at org.apache.cassandra.db.compaction.AbstractCompactionStrategy.getScanners(AbstractCompactionStrategy.java:252)
        at org.apache.cassandra.db.compaction.AbstractCompactionStrategy.getScanners(AbstractCompactionStrategy.java:258)
        at org.apache.cassandra.db.compaction.CompactionTask.runWith(CompactionTask.java:126)
        at org.apache.cassandra.io.util.DiskAwareRunnable.runMayThrow(DiskAwareRunnable.java:48)
        at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)
        at org.apache.cassandra.db.compaction.CompactionTask.executeInternal(CompactionTask.java:60)
        at org.apache.cassandra.db.compaction.AbstractCompactionTask.execute(AbstractCompactionTask.java:59)
        at org.apache.cassandra.db.compaction.CompactionManager$6.runMayThrow(CompactionManager.java:296)
        at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
        at java.util.concurrent.FutureTask.run(FutureTask.java:262)
        ... 3 more
Caused by: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
        at java.io.RandomAccessFile.open(Native Method)
        at java.io.RandomAccessFile.<init>(RandomAccessFile.java:241)
        at org.apache.cassandra.io.util.RandomAccessReader.<init>(RandomAccessReader.java:58)
        at org.apache.cassandra.io.compress.CompressedRandomAccessReader.<init>(CompressedRandomAccessReader.java:76)
        at org.apache.cassandra.io.compress.CompressedThrottledReader.<init>(CompressedThrottledReader.java:34)
        at org.apache.cassandra.io.compress.CompressedThrottledReader.open(CompressedThrottledReader.java:48)
        ... 18 more

我目前正在从 mysql 迁移 48 亿行，我通过 sstableloader 分批迁移 1 到 400 万行。异常是否意味着我已经丢失了数据并且必须从头开始重复迁移？到目前为止，我的日志中没有看到任何流错误。

我的环境如下：

DSE 4.0.1 (Cassandra 2.0.5) CentOS 6.x x86_64 Java 1.7.0_5x

编辑：

一些附加信息：

在批量加载过程中，我设计了一种机制来在总进度达到 100% 时终止 sstableloader。我还向所有节点发出“nodetool stop INDEX_BUILD”。原因是 sstableloader 等待二级索引构建完成，这需要几个小时才能完成（而实际导入时间只是索引构建时间的一小部分）。我发现在终止 sstableloader 进程并取消二级索引构建后导入的数据保持不变，因此我编写了一个脚本来自动化该机制。到目前为止，我已经用这个技巧完成了 200 多个批量加载。

在过去一周中，我已暂停迁移并重新启动节点数次，因为在完成若干个注释 #1 循环后操作系统负载达到高水平（OpsCenter 中的黄色或红色）。当我通过 dse cassandra-stop 重新启动节点时，可能正在进行压缩（是的，我们将 DSE 作为独立进程运行）

这些可能是原因吗？我该如何摆脱这种情况？手动压缩/修复不起作用，因为它们总是抛出异常。对于修复，异常不同但含义相同——缺少一些sstable文件：

ERROR [MiscStage:2] 2014-05-03 00:42:10,386 CassandraDaemon.java (line 196) Exception in thread Thread[MiscStage:2,5,main]
java.lang.RuntimeException: Tried to hard link to file that does not exist /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-23797-Summary.db
        at org.apache.cassandra.io.util.FileUtils.createHardLink(FileUtils.java:76)
        at org.apache.cassandra.io.sstable.SSTableReader.createLinks(SSTableReader.java:1215)
        at org.apache.cassandra.db.ColumnFamilyStore.snapshotWithoutFlush(ColumnFamilyStore.java:1816)
        at org.apache.cassandra.db.ColumnFamilyStore.snapshot(ColumnFamilyStore.java:1849)
        at org.apache.cassandra.service.SnapshotVerbHandler.doVerb(SnapshotVerbHandler.java:40)
        at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)

【问题讨论】：

DSE 4.0.3 刚刚发布，其中包含更新的 Cassandra 版本，您能看看升级后是否还有这个问题？此外，如果您实际上并不希望填充索引，我建议您直接删除它们，而不是取消它们的创建。在这种数据状态下升级是否安全？（即一些文件丢失）。关于索引，我实际上想让它们异步填充。我在 sstableloader 中没有看到这样的选项，所以我决定取消索引构建以允许我连续导入。只有当我完成导入所有内容后，我才会重新索引整个表。升级与不升级不应影响数据的“安全性”。希望修复的错误能让事情变得更安全。谢谢。前几天我升级了。升级后，一些 Solr 节点在第一次尝试时无法启动，但在第 2 次/第 3 次尝试时成功启动。我不再遇到丢失文件异常，但我不能说是否是升级真正解决了问题。正如我对您的另一篇文章的评论中提到的，我在我的节点中进行了多次擦洗+重启，这似乎有点帮助。有些节点最终再次遇到异常，我决定升级。 @PJ。您最终是如何恢复集群的？面临同样的问题。 【参考方案1】：

您是否删除并重新创建了键空间？如果是这样，可能是这样的：

https://issues.apache.org/jira/browse/CASSANDRA-4857

【讨论】：

否；但我在开始批量加载系列之前截断了有问题的表。截断后是否可以检查以确保从所有节点中删除了所有键空间目录？【参考方案2】：

重新启动节点以清除内存中的错误文件名。

【讨论】：

没用。我尝试结合使用擦洗+重启。大多数节点能够“移动通过”文件列表，但最终它们遇到了另一个丢失文件的实例。现在我正在重复清理 + 重启 + 压缩的循环，直到我清空（希望）待处理的任务队列

以上是关于压缩期间的 FileNotFoundException的主要内容，如果未能解决你的问题，请参考以下文章

在压缩/修复期间防止自动编号重置 (MS Access)

Wix安装程序：解压缩用户在安装期间选择的存档

测试：tar压缩打包会不会将期间新生成的文件打包进去

io流

redis的list取出数据方式速度测试

BERT 模型压缩方法