Work Records

Posted lawrenceseattle

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Work Records相关的知识,希望对你有一定的参考价值。

1. 设计并实现large scale, distributed deep learning inference platform

API Server, CLI (FLask, mysql)

  1. 接入公司CAS,实现用户鉴权 (CAS SSO)

ModelZoo (Flask, OS, HDFS)

  1. 设计并实现ModelZoo,接收用户上传并转换好的模型(ONNX -> TensorRT), 进行模型的版本控制,并存储到TOS,HDFS
  2. 测试Tfserving
    技术分享图片

Mesos

  1. 增加cAdvisor 的docker 性能监控 (metrics,grafana)

Marathon

  1. 修改Marathon,实现Docker Containerizer支持NV docker,实现资源的隔离

2. 改进并维护deep learning inference platform Arnold

  1. 访问数据库,得到训练任务的统计数据
    分不同的部门,集群,训练框架,任务状态
  2. 增加训练框架支持
  3. 制作report

3. RDMA性能监控

  1. 新机器加入集群
  2. 测试RDMA通信是否正常
  3. 部署监控服务,保证RDMA网络正常


以上是关于Work Records的主要内容,如果未能解决你的问题,请参考以下文章

Linux 工作队列 的 INIT_WORK 跟 DECLARE_WORK 到底是3个参数还是2个参数?

Linux工作队列的INIT_WORK跟DECLARE_WORK到底是3个参数还是2个参数?

Android 应用无法构建——依赖:androidx.work:work-runtime:2.7.0-beta01

Concurrency Managed Workqueueworkqueue如何处理work

xgboost work in python not work in jupter notebook

workqueue --最清晰的讲解