AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

Posted 2021-04-26 京东城市

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020相关的知识，希望对你有一定的参考价值。

随着移动通信设备的普及，我们很容易获取到大量的时空数据，如人和车辆的位置数据、交通数据、天气数据等，这些数据对人流量预测、交通流量等都将会起到重要作用，如能高效利用，将对于智能城市的建设起到重要作用。

本期技术前沿，我们将带来一篇时空AI领域的重磅论文，这是京东城市在数据挖掘顶级会KDD 2020 被收录的最新文章——《 AutoST: Efficient Neural Architecture Search for Spatio-Temporal Prediction 》，供大家了解我们在时空数据挖掘领域的前沿探索成果。（论文链接：http://urban-computing.com/pdf/AutoST_kdd20_camera_ready.pdf）

AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

目前，时空预测的模型大部分是基于深度学习技术的，也正在多种城市应用中不断提高性能。然而，随着城市应用的推广，时空数据质量参差不齐，预测的任务的种类繁多，如果每个城市每种任务都需要算法工程师进行模型调优，耗时耗力导致成高，规模化复制过程难。为了解决上面问题，我们提出一种自动时空结构搜索的方法进行时空网络的自学习，达到了不需要算法工程师干预的情况下，能够学习到最优模型的效果。

（一）研究背景：

时空预测任务有以下两种挑战：

（1）时空预测任务是异质的，不同的城市需要捕捉到的空间距离依赖是不同的，例如，核心城市如北京等，交通条件相对发达，平均通勤距离相对较长，大部分上班族通勤时间在1小时左右。对于交通相对不发达城市，例如贵阳，平均通勤距离比较短，时间小于半小时。因此，对于不同城市，空间范围的相关性是异质的。

（2）时空预测任务是多样的，不同的交通预测任务需要的空间特征也是不同的。例如大部分人骑自行车通勤的范围通常小于5公里，出租车通勤距离通常比较远，因此相比于自行车或者步行流量预测，出租车流量预测任务通常需要考虑更全局的空间特征。

对于复杂的时空预测任务，现有的网络能否满足不同城市，不同类型的时空预测需求。现有的算法如ST-ResNet[1] 通过堆积的卷积神经网捕捉全局的信息，DeepSTN+[2] 提出用ConvPlus 来捕捉长距离依赖和 multi-scale 融合机制来建模邻居和全局信息。然而，当前的模型只关注全局的信息，我们认为不同的数据集对于网络结构的偏好是不同的，并总结了当前模型忽略的两点：

（1）现有的模型只关注如何建模长距离的空间依赖，然而不同城市对空间距离的偏好是不同的。交通发达的城市通常会有更长距离的空间依赖。

（2）当前的模型用残差网聚合邻接层的特征，无法聚合任意层的不同级别的特征。

我们通过结构搜索发现在演化过程中，北京偏向于有更大的卷积，贵阳偏向于有更多的连接。这表明不同城市对空间距离范围的偏好是不同的，低层特征和高层特征的贡献也不同。

二解决方案：

方案思路

时空预测任务通常包含三个主要的组件：初始化时空特征及抽取组件，特征学习组件和额外特征融合组件。其中，特征学习组件是最重要的，传统的模型主要根据专家经验设计特征网。本文认为不同的城市和任务有不同的网络结构偏好，因此提出了AutoST模型来自动设计网络结构。我们将自动设计的网络称为ST-NASNet，它是面向时空数据的，而不是具体的空间或者具体的时空任务。

模型详情

传统的模型，例如残差网，通常有固定的卷积和固定的连接操作。Darts[3] 针对图像识别任务设计了搜索空间如图4（b）所示，我们可以看到DARTS搜索所有的候选操作，包括

卷积操作，池化操作和连接操作。并且Darts的网络分为子网络（也称内网）和外网，其中外网的结构是固定的，只有内网是自动搜索的。这种搜索空间存在两个缺陷，首先计算复杂度高，对于一个有L层的网络，需要L*(L-1)/2 + L个操作，搜索空间大小为 AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

。

另外，固定的外网结构通常会限制模型的性能。

针对上述问题，我们提出一种有效的搜索空间，它主要由两种类型操作组成（混合卷积操作和混合连接操作），混合卷积操作在每一层搜索不同的卷积核，混合连接操作在不同的层之间学习否连接操作，目的是进行不同级别特征的融合。本文提出的ST-NASNet是完全学习整个网络的结构。另外，FairDarts[4] 提出Darts存在操作之间不公平竞争的现象，并提出用sigmoid函数而不是softmax函数计算候选单元的得分可以保证公平性，具体的计算公式如下：

其中

是 sigmoid函数， AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

表示卷积块的结构得分， AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

表示连接块的结构得分。本文提出的搜索空间，大大减少了搜索的复杂度。对于L层的网络，每层需要L个卷积，和之前层之间需要L*（L-1）/2个连接，搜索空间大小降低为 AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020

。

三实验结果：

我们在北京出租流量，北京人流量，济南出租流量，贵阳出租流量数据集上进行测试。基线模型包括ST-ResNet, ST-3DNet和DeepSTNPlus，其中DeepSTN-ne表示不考虑额外特征融合的DeepSTN模型。ST-ResNet+，ST-3DNet+和DeepSTNPlus+分别表示这三个基础模型的AutoST增强版，测试效果如下：

从实验结果中，我们可以看出AutoST可以应用到现有的时空模型中，并取得稳定的性能提升。另外，我们测试了AutoST的性能和耗时对比，Darts和ENAS[5]是图像领域两种常用的NAS算法，测试效果如下：

从图中我们可以看出相比DARTS，本文提出的算法大大降低了运行时间，并且对于基于强化的ENAS算法，AutoST能够取得更稳定的性能。

另外，我们也对模型对于参数的敏感性进行了测试分析，效果如下：

从实验结果上可以看出，AutoST均能取得比固定结构更好的效果，体现了AutoST对模型参数的不敏感性。

我们也研究了AutoST在CrowdBJ和TaxiGY数据集上找到的最优的网络结构。我们可以看到对于人流量北京数据集，前四层没有连接，后四层有连接，这说明了大范围的空间信息对北京流量预测有帮助，邻居的信息也很重要。另外对于贵阳出租的数据集，我们可以看出层与层之间都有连接，这说明邻居的信息比全局的特征重要。

目前，京东城市的时空自动机器学习模型，已经广泛应用于广汉农产品销量预测任务（，福清大宗商品销量和价格预测任务（，以及南通的交通流量预测任务中，在减少算法工程师干预的情况下，极大地提高了预测的性能。

论文原链接： http://urban-computing.com/pdf/AutoST_kdd20_camera_ready.pdf

[1] J. Zhang, Y. Zheng, and D. Qi. Deep spatio-temporal residual networks for citywide crowd flows prediction. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), pages 1655–1661, 2017.

[2] Z. Lin, J. Feng, Z. Lu, Y. Li, and D. Jin. Deepstn+: Context-aware spatial temporal neural network for crowd flow prediction in metropolis. In Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19), 2019.

[3] H. Liu, K. Simonyan, and Y. Yang. Darts: Differentiable architecture search. arXiv preprint arXiv:1806.09055, 2018.

[4] X. Chu, T. Zhou, B. Zhang, and J. Li. Fair darts: Eliminating unfair advantages in differentiable architecture search. In arXiv preprint arXiv:1911.12126, 2019.

[5] P. Hieu, Y. Melody, Z. Barret, V. L. Quoc, and D. Jeff. Efficient neural architecture search via parameter sharing. In In International Conference on Learning Representations (ICLR-18), 2018.

以上是关于AutoST：一种面向时空预测的自动神经网络学习模型| KDD2020的主要内容，如果未能解决你的问题，请参考以下文章