随着移动通信设备的普及,我们很容易获取到大量的时空数据,如人和车辆的位置数据、交通数据、天气数据等,这些数据对人流量预测、交通流量等都将会起到重要作用,如能高效利用,将对于智能城市的建设起到重要作用。本期技术前沿,我们将带来一篇时空AI领域的重磅论文,这是京东城市在数据挖掘顶级会KDD 2020 被收录的最新文章——《AutoST: Efficient Neural Architecture Search for Spatio-Temporal Prediction》,供大家了解我们在时空数据挖掘领域的前沿探索成果。(论文链接:http://urban-computing.com/pdf/AutoST_kdd20_camera_ready.pdf)目前,时空预测的模型大部分是基于深度学习技术的,也正在多种城市应用中不断提高性能。然而,随着城市应用的推广,时空数据质量参差不齐,预测的任务的种类繁多,如果每个城市每种任务都需要算法工程师进行模型调优,耗时耗力导致成高,规模化复制过程难。为了解决上面问题,我们提出一种自动时空结构搜索的方法进行时空网络的自学习,达到了不需要算法工程师干预的情况下,能够学习到最优模型的效果。 (一)研究背景:时空预测任务有以下两种挑战:(1)时空预测任务是异质的,不同的城市需要捕捉到的空间距离依赖是不同的,例如,核心城市如北京等,交通条件相对发达,平均通勤距离相对较长,大部分上班族通勤时间在1小时左右。对于交通相对不发达城市,例如贵阳,平均通勤距离比较短,时间小于半小时。因此,对于不同城市,空间范围的相关性是异质的。(2)时空预测任务是多样的,不同的交通预测任务需要的空间特征也是不同的。例如大部分人骑自行车通勤的范围通常小于5公里,出租车通勤距离通常比较远,因此相比于自行车或者步行流量预测,出租车流量预测任务通常需要考虑更全局的空间特征。 对于复杂的时空预测任务,现有的网络能否满足不同城市,不同类型的时空预测需求。现有的算法如ST-ResNet[1] 通过堆积的卷积神经网捕捉全局的信息,DeepSTN+[2] 提出用ConvPlus 来捕捉长距离依赖和 multi-scale 融合机制来建模邻居和全局信息。然而,当前的模型只关注全局的信息,我们认为不同的数据集对于网络结构的偏好是不同的,并总结了当前模型忽略的两点: (1)现有的模型只关注如何建模长距离的空间依赖,然而不同城市对空间距离的偏好是不同的。交通发达的城市通常会有更长距离的空间依赖。(2)当前的模型用残差网聚合邻接层的特征,无法聚合任意层的不同级别的特征。我们通过结构搜索发现在演化过程中,北京偏向于有更大的卷积,贵阳偏向于有更多的连接。这表明不同城市对空间距离范围的偏好是不同的,低层特征和高层特征的贡献也不同。二 解决方案:方案思路时空预测任务通常包含三个主要的组件:初始化时空特征及抽取组件,特征学习组件和额外特征融合组件。其中,特征学习组件是最重要的,传统的模型主要根据专家经验设计特征网。本文认为不同的城市和任务有不同的网络结构偏好,因此提出了AutoST模型来自动设计网络结构。我们将自动设计的网络称为ST-NASNet,它是面向时空数据的,而不是具体的空间或者具体的时空任务。模型详情传统的模型,例如残差网,通常有固定的卷积和固定的连接操作。Darts[3] 针对图像识别任务设计了搜索空间如图4(b)所示,我们可以看到DARTS搜索所有的候选操作,包括卷积操作,池化操作和连接操作。并且Darts的网络分为子网络(也称内网)和外网,其中外网的结构是固定的,只有内网是自动搜索的。这种搜索空间存在两个缺陷,首先计算复杂度高,对于一个有L层的网络,需要L*(L-1)/2 + L个操作,搜索空间大小为。另外,固定的外网结构通常会限制模型的性能。针对上述问题,我们提出一种有效的搜索空间,它主要由两种类型操作组成(混合卷积操作和混合连接操作),混合卷积操作在每一层搜索不同的卷积核,混合连接操作在不同的层之间学习否连接操作,目的是进行不同级别特征的融合。本文提出的ST-NASNet是完全学习整个网络的结构。另外,FairDarts[4] 提出Darts存在操作之间不公平竞争的现象,并提出用sigmoid函数而不是softmax函数计算候选单元的得分可以保证公平性,具体的计算公式如下:其中 是 sigmoid函数, 表示卷积块的结构得分, 表示连接块的结构得分。本文提出的搜索空间,大大减少了搜索的复杂度。对于L层的网络,每层需要L个卷积,和之前层之间需要L*(L-1)/2个连接,搜索空间大小降低为 。三 实验结果:我们在北京出租流量,北京人流量,济南出租流量,贵阳出租流量数据集上进行测试。基线模型包括ST-ResNet, ST-3DNet和DeepSTNPlus,其中DeepSTN-ne表示不考虑额外特征融合的DeepSTN模型。ST-ResNet+,ST-3DNet+和DeepSTNPlus+分别表示这三个基础模型的AutoST增强版,测试效果如下: 从实验结果中,我们可以看出AutoST可以应用到现有的时空模型中,并取得稳定的性能提升。另外,我们测试了AutoST的性能和耗时对比,Darts和ENAS[5]是图像领域两种常用的NAS算法,测试效果如下: 从图中我们可以看出相比DARTS,本文提出的算法大大降低了运行时间,并且对于基于强化的ENAS算法,AutoST能够取得更稳定的性能。另外,我们也对模型对于参数的敏感性进行了测试分析,效果如下: 从实验结果上可以看出,AutoST均能取得比固定结构更好的效果,体现了AutoST对模型参数的不敏感性。我们也研究了AutoST在CrowdBJ和TaxiGY数据集上找到的最优的网络结构。我们可以看到对于人流量北京数据集,前四层没有连接,后四层有连接,这说明了大范围的空间信息对北京流量预测有帮助,邻居的信息也很重要。另外对于贵阳出租的数据集,我们可以看出层与层之间都有连接,这说明邻居的信息比全局的特征重要。目前,京东城市的时空自动机器学习模型,已经广泛应用于广汉农产品销量预测任务(,福清大宗商品销量和价格预测任务(,以及南通的交通流量预测任务中,在减少算法工程师干预的情况下,极大地提高了预测的性能。论文原链接:http://urban-computing.com/pdf/AutoST_kdd20_camera_ready.pdf[1] J. Zhang, Y. Zheng, and D. Qi. Deep spatio-temporal residual networks for citywide crowd flows prediction. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), pages 1655–1661, 2017.[2] Z. Lin, J. Feng, Z. Lu, Y. Li, and D. Jin. Deepstn+: Context-aware spatial temporal neural network for crowd flow prediction in metropolis. In Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19), 2019.[3] H. Liu, K. Simonyan, and Y. Yang. Darts: Differentiable architecture search. arXiv preprint arXiv:1806.09055, 2018.[4] X. Chu, T. Zhou, B. Zhang, and J. Li. Fair darts: Eliminating unfair advantages in differentiable architecture search. In arXiv preprint arXiv:1911.12126, 2019.[5] P. Hieu, Y. Melody, Z. Barret, V. L. Quoc, and D. Jeff. Efficient neural architecture search via parameter sharing. In In International Conference on Learning Representations (ICLR-18), 2018.相关文章: