Work Records
Posted lawrenceseattle
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Work Records相关的知识,希望对你有一定的参考价值。
1. 设计并实现large scale, distributed deep learning inference platform
API Server, CLI (FLask, mysql)
- 接入公司CAS,实现用户鉴权 (CAS SSO)
ModelZoo (Flask, OS, HDFS)
- 设计并实现ModelZoo,接收用户上传并转换好的模型(ONNX -> TensorRT), 进行模型的版本控制,并存储到TOS,HDFS
- 测试Tfserving
Mesos
- 增加cAdvisor 的docker 性能监控 (metrics,grafana)
Marathon
- 修改Marathon,实现Docker Containerizer支持NV docker,实现资源的隔离
2. 改进并维护deep learning inference platform Arnold
- 访问数据库,得到训练任务的统计数据
分不同的部门,集群,训练框架,任务状态 - 增加训练框架支持
- 制作report
3. RDMA性能监控
- 新机器加入集群
- 测试RDMA通信是否正常
- 部署监控服务,保证RDMA网络正常
以上是关于Work Records的主要内容,如果未能解决你的问题,请参考以下文章
Linux 工作队列 的 INIT_WORK 跟 DECLARE_WORK 到底是3个参数还是2个参数?
Linux工作队列的INIT_WORK跟DECLARE_WORK到底是3个参数还是2个参数?
Android 应用无法构建——依赖:androidx.work:work-runtime:2.7.0-beta01
Concurrency Managed Workqueueworkqueue如何处理work