用于联合人群流动和转移预测的时空图注意嵌入:基于 Wi-Fi 的移动案例研究
Posted AI浩
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用于联合人群流动和转移预测的时空图注意嵌入:基于 Wi-Fi 的移动案例研究相关的知识,希望对你有一定的参考价值。
人群流动性预测,特别是预测不同地点的流动和过渡,对于以大型聚集为特征的宽敞环境中的人群分析和管理至关重要。我们提出了 GAEFT,这是一种基于多任务图注意力神经网络的新型人群流动分析系统,用于预测人群流动(流入/流出)和转换。具体来说,我们利用我们的大学信息技术服务提供的集体和净化的校园 Wi-Fi 关联数据,并进行相关的案例研究。我们的综合数据分析揭示了稀疏性和偏度的重要挑战,以及人群流动数据中复杂的时空变化。因此,我们设计了一种新的时空聚类方法来对具有相似转换特征的 Wi-Fi 接入点 (AP) 进行分组,并为模型输入获得更规则的移动性特征。然后,我们提出了一种基于注意力的图嵌入设计来捕捉人群流动和转换之间的相关性,并通过多任务公式共同预测 AP 级别的流动以及跨建筑物和集群的转换。使用 2020-2021 学年收集的超过 2800 万条关联记录的广泛实验研究验证了 GAEFT 在预测动态和复杂人群流动性方面的出色准确性。
CCS 概念: • 信息系统→ 移动信息处理系统。
附加关键词和短语:图注意力、Wi-Fi 关联数据、人群流动、过渡、预测。
ACM 参考格式:
西洋、何遂宁、王冰和马汉·塔巴塔巴耶。 2021. 联合人群流动和过渡预测的时空图注意力嵌入:基于 Wi-Fi 的移动案例研究。Proc.ACM Interact.Mob.Wearable Ubiquitous Technol.5,4,第 187 条(2021 年 12 月),24 页 . https://doi.org/10.1145/3495003
1 简介
人群流动性分析对于以大量人群聚集为特征的宽敞城市环境变得越来越重要。 到 2022 年,全球人群流动分析市场预计将达到 15.31 亿美元。准确和主动的人群分析可以实现各种无处不在的计算应用,例如事件监控 [21]、城市规划 [46]、流行病和社会分析 [28]、 推荐和随后的商业促销[45]。 特别是,在 COVID-19 [30] 大流行期间,人群流动分析系统可以监控和控制许多宽敞场所的人群分布,从而帮助减轻流行病的传播。
在本文中,我们开发了一个预测人群流动分析系统来预测目标站点不同位置的人群流动。如图 1 所示,我们关注两种重要的人群流动模式,人群转移(从一个位置到另一个位置的人数)和人群流动(进入或离开一个位置的人数,称为流入/流出)。该预测系统可以帮助相关利益相关者(例如人群管理和急诊部门)处理潜在的拥挤区域 [1, 2] 并提高他们对潜在异常人群分布的准备 [4, 47],例如提供事件警报、部署紧急情况应对措施,并加强社交距离。使用移动应用程序或基于 Web 的服务,这些警报以及紧急情况和社交距离信息可以快速传达给公众。
作为案例研究,我们使用从校园网络收集的 Wi-Fi 关联数据为我们的大学校园开发了预测性人群流动分析系统。我们注意到,Wi-Fi 接入点 (AP) 已广泛部署在我们的校园(与许多其他大学一样),为学生、教职员工提供出色的互联网连接服务。当用户连接到 Wi-Fi 网络时,他们的位置可以通过与他们的移动设备关联的 AP 的位置来近似(因为设备与附近的 AP 关联以访问 Internet)。因此,Wi-Fi 关联数据可用于实时识别终端用户的大致位置。这种感知人群的方法具有以下两个优点。首先,获取 Wi-Fi 关联是高度自动化且非侵入性的——它利用校园网络基础设施,无需在最终用户设备上下载应用程序。其次,由于分析中不包含敏感信息(如用户 ID、MAC 地址或 IP 地址),因此我们使用被动 Wi-Fi 关联数据(通常由大学网络服务收集)的方法相比隐私侵犯要小得多用户 ID 卡访问记录、基于摄像头的 [11] 和其他基于主动 Wi-Fi 探测的方法 [33]。通过与我们的大学信息技术服务 (UITS) 合作,我们开发的人群流动分析系统将协助大学校园管理部门及时响应未来的校园重新开放和人群聚集。
对 Wi-Fi 数据进行全面的人群流动性分析(第 2.2 节),我们发现数据稀疏性和偏度是收集到的人群流动性数据中的一个主要问题,即大部分人群流动性数据(进出流量和转换)记录在几个位置和几个时间段。这对人群流动分析系统的实际部署提出了两个主要挑战。
- 时空复杂性挑战:由于最终用户复杂的日常生活和偏好,人群流动性的稀疏性和偏度在不同的校园位置和时间段之间存在时空差异。以我们的校园为例,我们在图 2 中显示了流入的分布,即到达这些标记位置(校园建筑)的人数。我们可以看到,大部分白天活动(图 2a)集中在校园中心(由于主要的学术和餐饮活动),而在晚上,大部分人流集中在校园外围区域大多数学生宿舍所在的地方(图2b)。从图 3 中可以观察到类似的稀疏性,从中我们可以看到白天(主要朝向图 3a 中的校园中心)和夜间(主要朝向外围设备)从校园中心到其他校园位置的高度倾斜过渡图 3b) 中的校园。这种跨空间和时间的稀疏变化使得准确的建模和预测变得困难。
- 模型可学习性挑战:人群流动性分析的一个更紧迫的问题是模型可学习性。 复杂人群流动性的传统深度学习预测 [24、43、48] 通常需要人群流动性数据中可用的密集特征,然而,考虑到上述稀疏和倾斜的数据,这可能并不总是有效的。 此外,细粒度的人群流动分析通常需要高粒度的空间和时间离散化(例如,预测不同 AP 下的每小时人群流量)。 它通常会导致输入特征更加稀疏和倾斜,这使得传统的深度学习模型 [24、27、34、42、43、48] 难以有效地学习和预测。
为了应对这些挑战,我们提出了 GAEFT,这是一种基于 Graph Attention Embedding 神经网络和联合人群 Flow-Transition 学习的新型人群分析系统。 GAEFT旨在联合预测人群流动的两个方面:(i)人群转移,即跨校园建筑和区域的转移,以及(ii)人群流动,即基于关联的到达和离开的数量 以及与 Wi-Fi AP 的关联记录。 我们的研究做出了以下三个主要贡献:
- 全面的人群流动和过渡数据分析。 我们对校园内的人群流动和转移进行了综合研究,这促使采用一种新颖的时空聚类方法来处理数据稀疏性。 具体来说,我们设计了一种基于建筑物间空间接近度和时间过渡连通性的新型亲和传播聚类方法,并将不同建筑物中的 AP 分组。 由此产生的更规则的移动模式作为模型输入之一,有助于减轻数据稀疏性并增强 GAEFT 的模型可学习性。
- 一种具有图注意力嵌入的新型多任务学习框架。 为了进一步处理人群流动数据中的稀疏性,我们提出了一种新颖的图注意力嵌入设计,该设计结合了建筑物邻域(集群)的时空相关性,以增强 GAEFT 在人群流动和过渡方面的可学习性。 为了进一步处理转换矩阵的数据稀疏性问题,我们为流入和流出生成了两个单独的嵌入,并利用两个单独的图嵌入学习模块将它们集成以进行最终的转换预测。 在每个图嵌入学习模块中,我们设计了一种新颖的时空多头注意力机制,该机制可以捕获并区分人群流动和转换中时空相关性的重要性。 然后,我们共同预测多任务学习范式中的转换和流动,这已被证明可以提高预测准确性。
- 广泛的现实世界实验研究。 与我们的大学信息技术服务 (UITS) 合作,我们对 2020-2021 学年 (AY) 期间产生的现实世界人群转移和流动进行了广泛的实验研究。 广泛的实验评估结果表明,与最先进的基线模型相比,我们提出的模型在预测人群流动(AP 级别)和过渡(跨建筑物和集群)方面实现了更高的准确性 [24,27,34, 42、43、48]。
系统概述:我们在图 4 中说明了 GAEFT 的信息流,它由三个阶段组成。
a) 在人群移动处理阶段,我们收集 Wi-Fi 关联数据,并在 Wi-Fi AP 覆盖的不同位置找到人群流动(基于关联和分离的流入/流出)。 使用校园地图,我们根据它们在地理位置方面的接近程度以及在人群转移方面的连通性将建筑物及其 AP 分组到集群中。 我们还收集和处理外部因素(例如,天气状况和工作日/周末)以协助预测流动性。 综上所述,我们形成了建筑物级流、集群级流和外部因素向量作为 GAEFT 的输入。
b) 在人群移动学习阶段,GAEFT 将目标站点(例如校园)视为以建筑物或集群为节点的网络,并将节点之间的人群转移视为边缘。 基于由此形成的网络图,GAEFT 接收建筑物/集群级别的流,并使用建筑物和集群图聚合器提取建筑物/集群的空间特征。 使用分配融合将提取的集群级流入/流出嵌入与提取的建筑物级流入/流出嵌入融合。 我们通过时空注意力进一步增强了对融合的建筑物级流入/流出嵌入的时空特征的提取。 然后,我们将建筑物级别的流入/流出嵌入与外部因素以及历史转换(在相同的历史时间段内)结合起来。
通过多任务学习机制,输出将同时映射到建筑物和集群以及 AP 级流的转换。 这样,我们训练 GAEFT 来学习和预测稀疏的人群流动性数据。
c) 在人群流动预测阶段,给定经过训练的 GAEFT 模型,我们预测人群管理部门和相关利益相关者的过渡和流动。 例如,我们可以在移动地图服务上可视化潜在的拥堵和拥挤的地点,并帮助通知管理部门和人群以进行潜在的响应和准备。 我们的细粒度 AP 级预测还将在不同校园位置实现局部人群控制 [39]。
社会影响:我们的校园人群流动性研究对于提供预测性人群流动和过渡建模和管理的指导是及时且重要的。自 COVID-19 爆发以来,截至 2021 年 7 月,美国大学校园已报告超过 700,000 例病例。尤其是鉴于 SARS-COV2 变体 [30] 的威胁日益严重,北美和欧洲的许多大学校园正面临着前所未有的威胁即将到来的 2021 年秋季重新开放所面临的挑战。尽管我们在这里使用 Wi-Fi 关联数据进行原型研究,但我们研究的见解和模型可以扩展到其他宽敞的城市环境(例如购物中心)以及其他现有或新兴的人群感知模式,例如利用蜂窝信号[35] 和摄像机跟踪 [11]。
我们将本文的其余部分组织如下。我们首先概述使用的数据集,定义重要概念,并在第 2 节中介绍我们的数据分析和动机。然后,我们在 Sec 中介绍了 GAEFT 的详细核心公式。 3和第4节中的模型集成和多任务学习。之后,我们在第 5 节介绍了 GAEFT 的实验评估。然后我们在第 6 节回顾相关工作,在第 7 节讨论 GAEFT 的部署,最后在第 8 节结束。
2 系统概述、数据集和重要概念
我们首先在 Sec.2.1 中介绍 Wi-Fi 关联数据集和 GAEFT 中考虑的其他外部因素,然后在 Sec.2.2 中定义重要概念和动机。
2.1 数据集概述
我们与大学信息技术服务部门合作,从校园网络收集 Wi-Fi 关联数据。总而言之,我们在 2020-10-11 至 2020-11-10(秋季)和 2021-02-02 至 2021-04-10(春季)期间从 1,257 个 AP 中总共收集了 28,477,044 条 Wi-Fi 关联记录。具体来说,我们使用一个服务器,该服务器使用标准网络协议 [9] 定期(每小时)从所有校园 AP 中检索 AP 关联和分离事件。每个 Wi-Fi 关联记录包含以下关键属性:用户 ID(加密和净化)、关联时间戳和持续时间,以及关联的 AP 的 MAC 地址。表 1 显示了 Wi-Fi 关联记录的示例。在我们为隐私保护进行数据分析之前,用户 ID 已被加密和随机化。一个用户可能有多个移动设备,例如智能手机和笔记本电脑,这些设备可能与同一 ID 下的 AP 相关联。通过将多个设备映射到单个用户,我们可以区分人群中的用户。映射和聚合后立即丢弃 ID。根据映射的 ID,我们总共确定了 22,298 个用户,他们在我们收集的数据中进行了关联活动。通过检查用户访问过的两座建筑物中两个连续 AP 的关联记录,我们推断出不同校园建筑物之间的集体(聚合)转换。
此外,我们还考虑了影响人群流动性的其他外部因素,例如天气条件和工作日时间。 具体来说,我们从开放数据源中收集温度和每小时降水量。 我们收集了 2020-10 至 2021-05 期间的 7,655 条天气状况记录(包括温度和降水)。 然后我们将每小时温度(从 0 到 85° F)、每小时降水量(从 0 到 0.29 英寸)和是否是工作日的指标(表示为 1)(表示为 0)连接起来,形成外部 因子向量输入,表示为 e,用于 GAEFT。 例如,对于某个时间间隔,我们有 e = [10°F, 0.29 英寸, 1]。 然后我们使用最小-最大归一化对 e 中的每个维度进行归一化。
2.2 重要概念和动机
我们定义了以下重要概念并激发了我们的数据驱动模型设计。
时间离散化。 通过集体 Wi-Fi 关联和解除关联记录,我们能够捕获具有 Wi-Fi AP 覆盖范围的不同校园位置的移动性(转换和流)。 为了便于对转换/流进行建模,我们首先将时域离散为相等持续时间的时隙或间隔(在我们的研究中为 1 小时),每个时隙由 𝑘 索引。 在我们的数据分析中,我们观察到用户的转换时间可能涵盖多个时间间隔。 例如,用户在上午 11 点 55 分从建筑物中的 AP 断开连接,然后行驶了 15 分钟,并在下午 12 点 10 分连接到另一栋建筑物中的 AP。 因此,我们研究了每两个连续间隔的转换和流动,如下所述。
人群流动。 鉴于校园 Wi-Fi AP 的 Wi-Fi 关联和解关联,我们首先定义 GAEFT 公式的人群流动。 具体来说,基于加密的用户 ID,我们映射所有 N ( A ) N^(\\mathrmA) N(A) Wi-Fi AP(“A”代表 AP)上的 Wi-Fi 关联和解除关联 对时间间隔 k 的用户到达(流入)和离开(流出)的数量,即 A P ‾ \\underline\\mathrmAP AP 级人群流动 F k ( A ) ∈ R N ( A ) × 2 \\mathbfF_k^(\\mathrm A) \\in \\mathbbR^N^(\\mathrmA) \\times 2 Fk(A)∈RN(A)×2 。 请注意,我们让 F k ( A ) [ : , 1 ] \\mathbfF_k^(\\mathrmA)[:, 1] Fk(A)[:,1] 处的元素为 AP 级流入,而 F k ( A ) [ : , 2 ] \\mathrmF_k^(\\mathrmA)[:, 2] Fk(A)[:,2] 处的元素 是 AP 级别的流出。 基于 AP 级人流,我们可以聚合校园内同一建筑物内的 AP,得到所有 N^(B) 个建筑物(“B”为建筑物)的建筑物级人流量,记为 F k ( B ) ∈ R N ( B ) × 2 \\mathrmF_k^(\\mathrmB) \\in \\mathbbR^N^(\\mathrmB) \\times 2 Fk(B)∈RN(B)×2
人群过渡。 基于建筑物级别的人群流动,我们然后找到建筑物到建筑物的转换矩阵 T k ∈ R N ( B ) × N ( B ) \\mathrmT_k \\in \\mathbbR^N^(\\mathrmB) \\times N^(\\mathrmB) Tk∈RN(B)×N(B) ,其中每个元素 T k [ b , b ′ ] ( b , b ′ ∈ 1 , … , N ( B ) ) \\mathrmT_k\\left[b, b^\\prime\\right]\\left(b, b^\\prime \\in\\left\\1, \\ldots, N^(\\mathrmB)\\right\\\\right) Tk[b,b′](b,b′∈1,…,N(B)) 表示在时间间隔 𝑘 到 𝑏′ 中从建筑物 𝑏 离开的客户总数。 间隔 𝑘 或 (𝑘 + 1)(不连接到其间第三座建筑物中的 AP)。根据我们在 2020 年秋季和 2021 年春季的过渡时间分析,我们注意到超过 85% 的过渡持续时间短于 2 小时。 因此,我们为每个时间间隔考虑 1h,并考虑最多跨越两个连续时间间隔(𝑘 和 𝑘 + 1)的转换。
数据稀疏性和偏度。 通过我们对基于 Wi-Fi 的人群流动性数据的数据分析,我们识别并量化了稀疏性和偏度如下。 我们首先在图 5a 中展示了一周内从食堂到学生中心的过渡示例。 高度稀疏、不规则和动态的过渡使得建模和预测变得困难。 我们在图 5b 中进一步显示了跨建筑物的每小时转换矩阵的时间稀疏性。 我们在所有天的转换矩阵中找到平均稀疏百分比。 虽然由于记录到更多的人群流动性,白天的稀疏度下降,但我们仍然可以从转换矩阵中观察到显着的零点(超过 90%),这使得建模和预测变得非常具有挑战性。
缓解稀疏性的时空聚类。 受上述观察的启发,我们根据建筑物的时空移动模式将校园内的建筑物分组为不同的集群。 集群中的建筑物形成了具有相似移动特征的区域。 建筑物和集群之间的过渡模式的周期性和规律性变得更加清晰,因此可能更容易学习。
我们的目标是将建筑物聚集成具有相似时空移动模式的区域。 为此,我们设计了一个相似度得分以适应两个重要的观点:(i)地理距离方面的空间相似度,以及(ii)历史转变方面的时间相似度。 对于(i),我们考虑两座建筑物𝑏和𝑏′之间的地理距离(km),表示为𝑔[𝑏,𝑏′]。 对于 (ii),我们对转换矩阵
T
k
\\mathrmT_k
Tk 进行最小-最大归一化以获得与 𝑔[𝑏,𝑏′] 具有相似幅度的
T
‾
k
\\overline\\mathrmT_k
Tk。 然后我们将 diff[𝑏, 𝑏′] 定义为从建筑物 𝑏 和 𝑏′ 开始和结束的所有归一化转换的平方平均差,即
diff
[
b
,
b
′
]
=
1
N
(
B
)
∑
k
∑
b
′
′
N
(
B
)
(
T
‾
k
[
b
,
b
′
′
]
−
T
‾
k
[
b
′
,
b
′
′
]
)
2
+
1
N
(
B
)
∑
k
∑
b
′
′
N
(
B
)
(
T
‾
k
[
b
′
′
,
b
]
−
T
‾
k
[
b
′
′
,
b
′
]
)
2
(1)
\\operatornamediff\\left[b, b^\\prime\\right]=\\frac1N^(\\mathrmB) \\sum_k \\sum_b^\\prime \\prime^N^(\\mathrmB)\\left(\\overline\\mathrmT_k\\left[b, b^\\prime \\prime\\right]-\\overline\\mathrmT_k\\left[b^\\prime, b^\\prime \\prime\\right]\\right)^2+\\frac1N^(\\mathrmB) \\sum_k \\sum_b^\\prime \\prime^N^(\\mathrmB)\\left(\\overline\\mathrmT_k\\left[b^\\prime \\prime, b\\right]-\\overline\\mathrmT_k\\left[b^\\prime \\prime, b^\\prime\\right]\\right)^2 \\tag1
diff[b,b′]=N(B)1k∑b′′∑N(B)(Tk[b,b′′]−Tk[b′,b′′])2+N(B)1k∑b′′∑N(B)(Tk[b′′,b]−以上是关于用于联合人群流动和转移预测的时空图注意嵌入:基于 Wi-Fi 的移动案例研究的主要内容,如果未能解决你的问题,请参考以下文章