压缩期间的 FileNotFoundException
Posted
技术标签:
【中文标题】压缩期间的 FileNotFoundException【英文标题】:FileNotFoundException during compaction 【发布时间】:2014-06-19 14:13:48 【问题描述】:我的所有节点在压缩期间都抛出了 FileNotFoundException。因此,没有一个压缩(自动、手动)可以完成,我的 SSTable 计数现在对于单个 CF(CQL3)有数千个。
nodetool compactionstats 显示每个节点中有数百个待处理的任务,但没有任何处理。
以下是异常日志示例:
Error occurred during compaction
java.util.concurrent.ExecutionException: java.lang.RuntimeException: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
at java.util.concurrent.FutureTask.report(FutureTask.java:122)
at java.util.concurrent.FutureTask.get(FutureTask.java:188)
at org.apache.cassandra.db.compaction.CompactionManager.performMaximal(CompactionManager.java:281)
at org.apache.cassandra.db.ColumnFamilyStore.forceMajorCompaction(ColumnFamilyStore.java:1935)
at org.apache.cassandra.service.StorageService.forceKeyspaceCompaction(StorageService.java:2210)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at sun.reflect.misc.Trampoline.invoke(MethodUtil.java:75)
at sun.reflect.GeneratedMethodAccessor14.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at sun.reflect.misc.MethodUtil.invoke(MethodUtil.java:279)
at com.sun.jmx.mbeanserver.StandardMBeanIntrospector.invokeM2(StandardMBeanIntrospector.java:112)
at com.sun.jmx.mbeanserver.StandardMBeanIntrospector.invokeM2(StandardMBeanIntrospector.java:46)
at com.sun.jmx.mbeanserver.MBeanIntrospector.invokeM(MBeanIntrospector.java:237)
at com.sun.jmx.mbeanserver.PerInterface.invoke(PerInterface.java:138)
at com.sun.jmx.mbeanserver.MBeanSupport.invoke(MBeanSupport.java:252)
at com.sun.jmx.interceptor.DefaultMBeanServerInterceptor.invoke(DefaultMBeanServerInterceptor.java:819)
at com.sun.jmx.mbeanserver.JmxMBeanServer.invoke(JmxMBeanServer.java:801)
at javax.management.remote.rmi.RMIConnectionImpl.doOperation(RMIConnectionImpl.java:1487)
at javax.management.remote.rmi.RMIConnectionImpl.access$300(RMIConnectionImpl.java:97)
at javax.management.remote.rmi.RMIConnectionImpl$PrivilegedOperation.run(RMIConnectionImpl.java:1328)
at javax.management.remote.rmi.RMIConnectionImpl.doPrivilegedOperation(RMIConnectionImpl.java:1420)
at javax.management.remote.rmi.RMIConnectionImpl.invoke(RMIConnectionImpl.java:848)
at sun.reflect.GeneratedMethodAccessor40.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at sun.rmi.server.UnicastServerRef.dispatch(UnicastServerRef.java:322)
at sun.rmi.transport.Transport$1.run(Transport.java:177)
at sun.rmi.transport.Transport$1.run(Transport.java:174)
at java.security.AccessController.doPrivileged(Native Method)
at sun.rmi.transport.Transport.serviceCall(Transport.java:173)
at sun.rmi.transport.tcp.TCPTransport.handleMessages(TCPTransport.java:556)
at sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run0(TCPTransport.java:811)
at sun.rmi.transport.tcp.TCPTransport$ConnectionHandler.run(TCPTransport.java:670)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.RuntimeException: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
at org.apache.cassandra.io.compress.CompressedThrottledReader.open(CompressedThrottledReader.java:52)
at org.apache.cassandra.io.sstable.SSTableReader.openDataReader(SSTableReader.java:1355)
at org.apache.cassandra.io.sstable.SSTableScanner.<init>(SSTableScanner.java:67)
at org.apache.cassandra.io.sstable.SSTableReader.getScanner(SSTableReader.java:1161)
at org.apache.cassandra.io.sstable.SSTableReader.getScanner(SSTableReader.java:1173)
at org.apache.cassandra.db.compaction.AbstractCompactionStrategy.getScanners(AbstractCompactionStrategy.java:252)
at org.apache.cassandra.db.compaction.AbstractCompactionStrategy.getScanners(AbstractCompactionStrategy.java:258)
at org.apache.cassandra.db.compaction.CompactionTask.runWith(CompactionTask.java:126)
at org.apache.cassandra.io.util.DiskAwareRunnable.runMayThrow(DiskAwareRunnable.java:48)
at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)
at org.apache.cassandra.db.compaction.CompactionTask.executeInternal(CompactionTask.java:60)
at org.apache.cassandra.db.compaction.AbstractCompactionTask.execute(AbstractCompactionTask.java:59)
at org.apache.cassandra.db.compaction.CompactionManager$6.runMayThrow(CompactionManager.java:296)
at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
... 3 more
Caused by: java.io.FileNotFoundException: /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-31111-Data.db (No such file or directory)
at java.io.RandomAccessFile.open(Native Method)
at java.io.RandomAccessFile.<init>(RandomAccessFile.java:241)
at org.apache.cassandra.io.util.RandomAccessReader.<init>(RandomAccessReader.java:58)
at org.apache.cassandra.io.compress.CompressedRandomAccessReader.<init>(CompressedRandomAccessReader.java:76)
at org.apache.cassandra.io.compress.CompressedThrottledReader.<init>(CompressedThrottledReader.java:34)
at org.apache.cassandra.io.compress.CompressedThrottledReader.open(CompressedThrottledReader.java:48)
... 18 more
我目前正在从 mysql 迁移 48 亿行,我通过 sstableloader 分批迁移 1 到 400 万行。异常是否意味着我已经丢失了数据并且必须从头开始重复迁移?到目前为止,我的日志中没有看到任何流错误。
我的环境如下:
DSE 4.0.1 (Cassandra 2.0.5) CentOS 6.x x86_64 Java 1.7.0_5x编辑:
一些附加信息:
在批量加载过程中,我设计了一种机制来在总进度达到 100% 时终止 sstableloader。我还向所有节点发出“nodetool stop INDEX_BUILD”。原因是 sstableloader 等待二级索引构建完成,这需要几个小时才能完成(而实际导入时间只是索引构建时间的一小部分)。我发现在终止 sstableloader 进程并取消二级索引构建后导入的数据保持不变,因此我编写了一个脚本来自动化该机制。到目前为止,我已经用这个技巧完成了 200 多个批量加载。
在过去一周中,我已暂停迁移并重新启动节点数次,因为在完成若干个注释 #1 循环后操作系统负载达到高水平(OpsCenter 中的黄色或红色)。当我通过 dse cassandra-stop 重新启动节点时,可能正在进行压缩(是的,我们将 DSE 作为独立进程运行)
这些可能是原因吗?我该如何摆脱这种情况?手动压缩/修复不起作用,因为它们总是抛出异常。对于修复,异常不同但含义相同——缺少一些sstable文件:
ERROR [MiscStage:2] 2014-05-03 00:42:10,386 CassandraDaemon.java (line 196) Exception in thread Thread[MiscStage:2,5,main]
java.lang.RuntimeException: Tried to hard link to file that does not exist /home/cassandra/data/mtg_keywords_v5/keyword_organic_results/mtg_keywords_v5-keyword_organic_results-jb-23797-Summary.db
at org.apache.cassandra.io.util.FileUtils.createHardLink(FileUtils.java:76)
at org.apache.cassandra.io.sstable.SSTableReader.createLinks(SSTableReader.java:1215)
at org.apache.cassandra.db.ColumnFamilyStore.snapshotWithoutFlush(ColumnFamilyStore.java:1816)
at org.apache.cassandra.db.ColumnFamilyStore.snapshot(ColumnFamilyStore.java:1849)
at org.apache.cassandra.service.SnapshotVerbHandler.doVerb(SnapshotVerbHandler.java:40)
at org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:60)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
【问题讨论】:
DSE 4.0.3 刚刚发布,其中包含更新的 Cassandra 版本,您能看看升级后是否还有这个问题?此外,如果您实际上并不希望填充索引,我建议您直接删除它们,而不是取消它们的创建。 在这种数据状态下升级是否安全? (即一些文件丢失)。关于索引,我实际上想让它们异步填充。我在 sstableloader 中没有看到这样的选项,所以我决定取消索引构建以允许我连续导入。只有当我完成导入所有内容后,我才会重新索引整个表。 升级与不升级不应影响数据的“安全性”。希望修复的错误能让事情变得更安全。 谢谢。前几天我升级了。升级后,一些 Solr 节点在第一次尝试时无法启动,但在第 2 次/第 3 次尝试时成功启动。我不再遇到丢失文件异常,但我不能说是否是升级真正解决了问题。正如我对您的另一篇文章的评论中提到的,我在我的节点中进行了多次擦洗+重启,这似乎有点帮助。有些节点最终再次遇到异常,我决定升级。 @PJ。您最终是如何恢复集群的?面临同样的问题。 【参考方案1】:您是否删除并重新创建了键空间?如果是这样,可能是这样的:
https://issues.apache.org/jira/browse/CASSANDRA-4857
【讨论】:
否;但我在开始批量加载系列之前截断了有问题的表。 截断后是否可以检查以确保从所有节点中删除了所有键空间目录?【参考方案2】:重新启动节点以清除内存中的错误文件名。
【讨论】:
没用。我尝试结合使用擦洗+重启。大多数节点能够“移动通过”文件列表,但最终它们遇到了另一个丢失文件的实例。现在我正在重复清理 + 重启 + 压缩的循环,直到我清空(希望)待处理的任务队列以上是关于压缩期间的 FileNotFoundException的主要内容,如果未能解决你的问题,请参考以下文章