西部世界今日科普:关于Filecoin硬件交付那些你不知道的小知识

Posted Mario科普小达人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了西部世界今日科普:关于Filecoin硬件交付那些你不知道的小知识相关的知识,希望对你有一定的参考价值。

西部世界了解到大家虽然对Filecoin的经济模型有一定的了解,但是对于Filecoin的硬件只是总是有些迷惑,所以通过技术大神还原了运维交付和业务部署的过程。

随着Filecoin存储体量的不断增加,“运维”的重要性在这个行业里也愈发凸显。如何将每个环节的各种因素变得可控:一方面需要对硬件环境进行预检措施,以高效应对突发事件;另一方面也需要通过规范的业务部署,确保集群的稳定性,协调集群间的调动和需求。

对于运维交付中硬件预检的问题之前已经跟大家分享过,今天西部世界主要通过具体的实例来给大家讲解运维交付中业务部署的相关内容:

一、首先,根据项目规划进行逻辑集群的划分,这部分包含我们逻辑集群划分的最佳实践。

二、其次,进入正式的业务部署,我们将依托自主研发的自动化部署工具,详细的讲解业务部署步骤以及部署中的注意事项。

三、最后,在业务部署完成后,分享我们业务验证的逻辑和方法。

交付计划

在我们进行业务规划之前,首先需要知道我们需要交付多少算力,多少存储,运行时长等信息。然后根据算力和存储量来进行交付规划。要做好规划有几个关键词需要注意:扇区大小、封装时间、日封装量。

说到规划,需要先了解各个程序的功能,见下面的名词解释:

※名词解释

【链】

Chain:负责对外算力证明及高度同步。

【算力】

Manage:算力调度程序,控制一组算力服务器的运行的进程数。

P1 P2:算力服务器,提供封装数据的算力支持和结果输出。

【证明】

WindowPost:Wind证明,半小时一次,主力创收程序。

WinningPost:Winn证明,随机执行,创收程序。

【存储】

Worker:存储中间件,一组或多组存储集群的中间件程序,负责保存扇区文件。

Storage:存储集群,负责扇区文件的保存,通常是一组存储集群,一般由10~20台存储服务器组成。

※规划流程图

※流程说明

1. 首先我们需要确定日封装量,这是我们规划的基础。

2. 根据IDC的资源情况(算力机、管理机、存储)决定在哪个IDC部署。

3. 根据日封装量确定算力机的数量。

4. 确定算力机的数量后,开始规划链服务器。

5. 规划管理机(Manage)的数量。

6. WinningPost和WindowPost各一台。

7. 根据1月内的封装量确定WindowPost要不要做1主1备还是共用现有备机。

8. 规划存储使用,Worker一般在初次部署的时候,都只会规划1台Worker:

   → 优先选择存储余量大的存储。

   → 优先选择写入挂载次数少的存储。

业务部署

在介绍业务部署之前,必须要先说一下我们用到的工具,一次部署上百台服务器没有工具辅助是不可以能的;在部署之前还需要进行一系列的例行检查和准备。然后才真正开始我们的部署流程,下面从会用到的工具开始逐一介绍:

※工具简介

堡垒机:方便我们对资产进行管理,远程连接和命令分发还有权限控制,是运维工作中必不可少的工具。如果需要了解更多,请自行百度,这里不再详细讲解。

Ansible:Linux下的自动化工具,批量任务执行的不二之选,极大的减少运维人员的工作量。它实现了批量系统配置、批量程序部署、批量运行命令等功能。如果需要了解更多,请自行百度,这里不再详细讲解。

※部署前的准备及检查

准备项

获取涉及部署所有服务器的IP地址。

编写Ansible的Playbook文档,以便批量初始化和部署应用 。

检查项

网络情况:所有相关的服务器是否能连接并执行命令。

操作系统版本:程序都是在Ubuntu上编译的,运行环境必须是在Ubuntu上运行才能保证最佳稳定性。

硬件基本配置:会不会有掉盘掉显卡或者CPU没有开启超线程等异常情况。

存储是否能正常访问。

※部署流程

部署细节

链程序-Chain

部署完成以后一定要记得导入钱包。

算力-Manage

Ø封装的扇区分为32G和64G,在配置的时候需要特别注意。

PreCommit(P1 P2)

同一个Manage集群下的显卡型号是否一致。

证明程序-WinningPost和WindowPost

存储目录是否正常挂载。

存储-Worker

启动前检查存储的挂载情况,需要挂载后在启动脚本中修改相关配置,再启动程序脚本,需要根据集群规模和Worker服务器的网络带宽来确定运行几个进程。

部署质量验证

※链程序运行情况

1. 检查链高度是否能正常同步。

2. 检查是否能正常生成api和token。

3. 检查日志,看是否报错。

4. 检查Keepalived和Proxy是否工作正常。

5. 检查钱包是否导入。

※算力运行情况

1. 检查是否有关联账户。

2. 检查日志是否有异常报错。

3. 当第一轮扇区任务到Commit2阶段时,查看日志是否有报错。

4. 查看算力机是否有任务失败。

5. 检查PreCommit2和Commit2是否上链。

※证明程序运行情况

1. 查看是否关联账户。

2. 检查存储的挂载情况。

3. 查看Winn和Wind日志是否有异常。

4. 在有扇区完成后,进行Wind预做,查看是否能正常证明算力。

5. 有效算力达到40T后,查看Winn是否有包块和包块后是否上链。

※存储运行情况

1. 检查Worker日志是否有报错信息。

2. 查看存储目录是否有扇区文件。

3. 传输带宽是否正常。

结尾

Filecoin复杂的证明系统和经济模型要求集群需要7*24小时不间断运转,一旦集群出现故障将会面临着算力丢失或罚没的风险。西部世界规范化的运维流程可以理清业务脉络,通过优化升级提高集群的效率和稳定性,保证Filecoin网络的稳定和长久。此外,西部世界的运维工程师们根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行,通过工具化、流程化的作业方式,充分发挥Filecoin硬件设备的性能。

以上是关于西部世界今日科普:关于Filecoin硬件交付那些你不知道的小知识的主要内容,如果未能解决你的问题,请参考以下文章

西部世界今日评论:Filecoin基金会主席出席美国参议院听证会“加密货币有什么好处”

西部世界今日评论:张一鸣砸50亿入局,元宇宙的未来!IPFS/Filecoin为NFT元宇宙免费安全永久存储

西部世界这次用大白话补充科普IPFS,注意,它不是区块链

西部世界理性分析Filecoin即将迎来的第二次“减产”

西部世界:FIP-0018提案通过,“存储提供商”定义Filecoin矿工

西部世界今日评论:为何上市公司对Fil情有独钟?