Google I/O 2017推出的Tensorflow Lite有啥意义

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Google I/O 2017推出的Tensorflow Lite有啥意义相关的知识,希望对你有一定的参考价值。

参考技术A 参考链接:

个人的一点看法:
1. TensorFlow是采用的DataFlow的数据流模型,不过我不觉得和Dryad有太多相似之处,此外Dryad也不是第一个提出DataFlow模型的地方,要说最早可以参考MIT TaggedToken
machine里面的static dataflow 和dynamic dataflow architecture[2]的资料. 在一个大规模机器学习系统上全面、可靠的支持DataFlow的feature本不是一件容易的事情,但是Tensorflow做到这一点,支持control_dependence, merge, condition,for-loop/while-loop, iteration。1. 就像LSTM的unrolling,原来需要predefine unroll,现在用for-loop去做展开(内部维持状态的变化) 2. 还有比如一些算法需要对不同的input example做不同的训练(不同的gradient,更新不一样的variables),以前需要hack很多东西(至少在DistBelif上是),现在只需要一个ConditionOp就解决了。3. 比如不同的variables用不同的optimizer,SGD/AdaGrad/FTRL/Momentum等。有了ControlFlow的支持,tensorflow graph更像是一种语言的抽象(variables, tensors, controlflow, compile[这个是指会rewrite整个graph, send/recv node, un-reference, graph partition, dynamic placement], parallelism,functional programming等),从这个角度讲还是有不少新东西在里面。
2. 是否用Dataflow和BSP并无直接对应关系,Dataflow只是tensor/token的流动,怎么 schedule和控制流动是别的部分的事情(session 如何drive)。事实上,Tensorflow提供的灵活性用户很容易在上层做BSP(如果你非常喜欢这样做的话,这种模型最大的缺点是fault tolerance很难做),SSP(如果非要把这个概念引入的话) 或者parameter server的结构(事实上我从来不认为这是一种通用的结构,只是ps被centralized起来存有状态的variables而已, 5年前的DistBelief就是这种架构),有了这个框架的抽象,然后进一步你可以做Synchronous or Asynchronous training。所以说Dataflow只能做BSP,这个是很没有缘由的。
3. 数据表示成tensor/token,单单这一点非要说这个有多少的创新确实也谈不上。不过基于tensor的每一个single op怎么做实现就有考究了,从Eigen开始到每一个kernels op基本都有micro-benchmark来保证单个op的performance达到最优,既然是kernel级的tensorflow的框架支持用户可以随便扩展GPU、CPU甚至即使是CPU的可以针对不同的指令级做优化和定制。当然任何事情有得就有失,大的系统的设计本身就是trade-off,比如你本来所有的东西揉在一起操作指针、inplace内存读写就可以,但现在抽象成多个各个粒度的operators,operators之间读写难免有很多overhead(当然graph rewrite已经最大限度的避免)。所以概括而言TensorFlow采用(目标)的设计其实是是production级的performance/成熟度和research flexibility的trade-off。从Google内部的各种产品线(Search/inbox/Photo等)的使用看,这个系统无论从各个方面都是经受住了考验(performance/scalability/flexibility/usability等)。Ps: TensorFlow绝不是只能做deep learning, shallow/wide model 以及传统的ML都可以基于这个系统来做(当然一些operators并不现成,需要去实现)。
4. 最后说一下多机版本的开源问题。有各种复杂的因素导致了这次release的版本没有多机在里面,比如并没有很好的job shedule和高性能的RPC系统的支持。这个问题不深入讲但是希望不久的将来这些障碍都会排除。说到和DistBelief的性能比较,各种大大小小的task表明Tensorflow比DistBelief的性能提高不少(我不会说几X的这样的number,显然不同的tasks这个number的variance会很大. Tensorflow比DistBelief扩展性和灵活性的优势自然不用多少)要说开放出来比较数据更是没有意义,因为DistBelief本身并没有开源。
5. 再来说一下distributed version support的问题,如果你仔细研究一下Tensorflow的framework就会发现再当前的基础上加一个分布式的支持是相当容易的,你可以用Zeromq/MPI 任何一种高效的通信框架来做,结合当前的Graph rewrite的functionality,只需要增加一些通信的节点就可以。
6. 最后关于详细情况请参考Tensorflow writepaper[3],欢迎试用。
[1]: Arvind and David E. Culler. Annual review
of computer science vol. 1, 1986. chapter
Dataflow Architectures, pages 225–253. 1986
doc=GetTRDoc.pdf&AD=ADA166235.
[2]: Arvind and Rishiyur S. Nikhil. Executing a program
on the MIT tagged-token dataflow architecture.
IEEE Trans. Comput., 39(3):300–318, 1990.

[3]: TensorFlow:
Large-Scale Machine Learning on Heterogeneous Distributed Systems

Linux系统中的I/O



1. I/O是什么

I/O:在计算机中指Input/Output,就是输入和输出。由于程序和运行时数据是在内存中驻留,由CPU来执行,涉及到数据交换的地方,通常是磁盘、网卡等,就需要I/O接口。



2. 阻塞(Block)和非阻塞(Non-Block)I/O:均是同步I/O


2.1 阻塞I/O:一次请求I/O直至完成

  • 当用户线程发起I/O请求后,会进行系统调用(system call)来让内核(Kernel)进行I/O操作(系统调用是用户空间和内核空间的一个通道);
  • 此时用户线程阻塞,等待内核将数据准备好;
  • 内核将数据准备好后会将数据从内核空间拷贝到用户空间,并返回给用户线程结束阻塞。

2.2 非阻塞I/O:多次请求I/O直至完成

  • 由用户线程发起I/O请求,进行系统调用来让内核进行I/O操作;
  • 此时如果内核没有准备好数据则会直接返回error,并不会阻塞用户线程,用户线程可以重复发起I/O请求;
  • 当用户线程发起请求并且内核已经将数据准备好后,会将数据从内核空间拷贝到用户空间(这个过程是需要阻塞用户线程的),返回给用户。

2.3 区别

阻塞I/O: 用户线程发起I/O操作,紧接着由内核线程来执行I/O操作,在阻塞I/O中内核线程并不会立即返回而是等待数据拷贝到内存空间时才返回,在此期间用户线程处于阻塞状态;

下图所示,使用recv的默认参数一直等数据直到拷贝到用户空间,这段时间内进程始终阻塞。这一过程就可以看成是使用了阻塞I/O模型,很显然,这种I/O模型是同步的。

非阻塞I/O: 与阻塞IO不同,内核线程在执行I/O操作后立即返回,若结果为error则用户线程可以重新发起请求而不会被阻塞,一旦内核将数据准备好了且用户线程发起了I/O请求那么将数据拷贝到用户空间。

下图所示,recv不管有没有获取到数据都将返回,如果没有数据那么一段时间后再调用recv看看,如此循环。这就是非阻塞I/O模型。但是它只有是检查无数据的时候是非阻塞的,在数据到达的时候依然要等待复制数据到用户空间,因此它还是同步I/O。



3. 同步(Synchronous)和异步(Asynchronous)I/O


3.1 同步I/O:阻塞(等待完成)和非阻塞(问询完成)都是同步I/O

同步I/O的关键在于在真正读取数据的时候用户线程是否被阻塞。非阻塞I/O虽然在用户发起请求时会立即返回,但是当内核准备好数据之后,仍然需要用户线程发起请求才会将数据从内核空间拷贝到用户空间,因此非阻塞I/O属于同步I/O。

同步I/O分为阻塞和不阻塞的I/O,不阻塞的话要指定X_NONBLOCK选项,返回时ERRNO为EAGAIN或EWOULDBLOCK,则需再次调用I/O/read,即若是I/O没有进行完,则会进入忙等待的状态。也即 I/O到达时,由用户将I/O内容从内核中拉出至用户空间缓冲区当中。


3.2 异步I/O:I/O发起则不需向内核确认I/O内容准备好

用户线程发起IO操作后,可以立即去做其他事情,另一方面,对于内核线程当它收到异步数据之后会立即返回,不会对用户线程造成阻塞。当内核将数据准备好之后会将数据从内核空间拷贝到用户空间,内核会发送给用户一个信号通知用户IO操作已完成。

异步I/O操作是不阻塞的,和其它的处理可以重叠进行,即计算和I/O重叠,充分利用了DMA特性,可以不经过CPU。
aio_read中指定用户空间缓冲区,用来接收内核所接收的I/O内容,同时还指定了signal hander/callbacks。同时,I/O完成后,内核直接将I/O内容推至指定的用户空间缓冲区


3.3 区别

异步IO与非阻塞IO的区别在于,当用户线程发起一次IO操作不需要在此去确认内核是否准备好数据。异步IO中内核准备好数据后会将数据从内核空间自动拷贝到用户空间。



4. 总结及归纳

用户进程发起请求从内核中获取数据那么这时候有两种情况:

(一)操作系统还没有准备好数据,那么这时候怎么办,有两种方法:

  • 1.1 让用于进程等着(这种情况就是阻塞);
  • 1.2 如果没有数据就返回一个ERROR,不需要用户进程干等(这种情况就是非阻塞);

(二)过了一会儿操作系统准备好数据了,这时候又有两种方法:

  • 2.1 啥也不管,等着用户进程再次来请求才把数据给它(这种情况就是同步);
  • 2.2 负责到底,数据准备好,直接给到用户进程,并且还发出一个信号,告诉用户进程数据已经准备好(这种情况就是异步);

以上是关于Google I/O 2017推出的Tensorflow Lite有啥意义的主要内容,如果未能解决你的问题,请参考以下文章

Google在 I/O 2022 上发布的所有重要内容

Google在 I/O 2022 上发布的所有重要内容

Google在 I/O 2022 上发布的所有重要内容

2017 Google I/O大会将于明天(5月17日)举行!

这是一份很有诚意的2017 Google I/O 大会 的汇总 & 解析

这是一份很有诚意的2017 Google I/O大会的汇总 & 解析