利用seaweedfs支持多文件合并上传

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用seaweedfs支持多文件合并上传相关的知识,希望对你有一定的参考价值。

参考技术A         在日常文件处理这一块,我们经常会有大文件处理的需求,这个文件有可能有100M以上,甚至更高。针对这种情况,如果直接上传到seaweedfs上面,受制于网络,服务器情况,单个文件过大,稳定性就会大打折扣。在查看了seaweedfs之后, Large-File-Handling ( https://github.com/chrislusf/seaweedfs/wiki/Large-File-Handling ).仔细阅读之后,大概意思就是。seaweedfs的高可用是建立在处理小文件的前提下,因为文件会加载到seaweedfs的内存之中。在文件拆分这一块,内置是提供了filer这个服务来处理,它会自动处理这个问题。以过分析,我果断放弃,就像我对DB的理解一样,把数据存储搞定就行了。中间件就专注做好本职内的事情。所以我转向了另外一种解决办法,改为由客户端自行处理。我们可以根据实际情况,调整单个包的大小,最好控制在10M以内,当然做成可配置是更好。然后把每个文件的信息整理成一个json对象,并命名为Manifest,告诉seaweedfs,这个大文件是由1,2,3。。。。这几个文件合并而成。详情请参考 https://github.com/chrislusf/seaweedfs/blob/master/weed/operation/chunked_file.go#L24

因为是go写的,大家看着可能有点不太习惯。我整理了java的模板,如下:

文件明细:ChunkInfo

                 fid:产生的唯一文件编码(7,169aba906a)一定是带逗号,具体这个编码的规则,大家去查看我之前写的 https://www.jianshu.com/p/32239852d984 。访问文件地址,http://127.0.0.1:9081/7/169aba906a/test1.zip

                offset:文件读取的起始位置,如果是第一个文件就是0,如果是下一个文件,这个值就是上一个文件的结束位置

                 size:当前文件大小,以字节为单位

批量文件集合:ChunkManifest

                  name:新的文件名称

                  mine:文件类型,可以参考httpclient

                 size:合并之后的总文件大小,其实就是所有拆分文件的总合

                  chunks:上面ChunkInfo的集合

现在给一个实际的对象,大家看起来会更有感触:

  "name" : "allin.zip",

  "mine" : "zip",

  "size" : 127646446,

  "chunks" : [

    "fid" : "7/169aba906a",

    "offset" : 0,

    "size" : 52428800

  ,

    "fid" : "4/177d5cadcc",

    "offset" : 52428801,

    "size" : 52428800

  ,

    "fid" : "3/18f0e181ff",

    "offset" : 104857601,

    "size" : 22788846

  ]



这个对象整好之后,通过httpclient,走一般的seaweedfs文件上传流程,拿到ID,再把这个对象发送出去,成功之后就可以通过新的ID来访问这个合并之后的文件了。

以上是关于利用seaweedfs支持多文件合并上传的主要内容,如果未能解决你的问题,请参考以下文章

大文件上传实现总结

SeaweedFS与ftp服务器有什么区别?

Power Query 同一文件夹多工作簿合并

求一款最新的能剪切、合并、截取视频和音频的专用工具,急用!!!

plupload 大文件分片上传与PHP分片合并探索

Spark小文件异步合并工具类