数据大可以︱一贴集齐手机数据分析的城市研究
Posted 一览众山小-可持续城市与交通
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据大可以︱一贴集齐手机数据分析的城市研究相关的知识,希望对你有一定的参考价值。
那个蹲在街角抽烟憋论文的人,
那个公园里寂寞地荡着秋千想文案的人,
那个深夜小区门口醉酒呕吐的人,
那个公交末班车上突然眼圈红起来的人,
那个办公桌前隔着手机看宝宝吹蜡烛的人,
那个高楼唯一亮着的灯下准备PPT的人,
那个独自躺在床上辗转难眠的人,
我们一起翻开那本书好不好。
《Citipedia 城事一览》
我们作为专业志愿者,
秉承共同理想,
帮助中国可持续发展...
也帮助奋斗的你。
双十一特惠活动现已开启
点击阅读原文或扫描二维码
编 辑 团 队
原文/ Vincent D Blondel、
Adeline Decuyper、Gautier Krings
翻译/ Sandypraha
校验/ 毛丽雅 文献/ 王若婧
编辑/ 众山小 排版/ 张琪
一
城市
交通
览
编
者
按
我们的生活正在被手机数据解读的现象已经成为信息时代公认的重要议题。然而,一个地理定位、一通通话记录究竟会在怎样的程度上暴露我们的生活和社交圈?这些分析到底是如何完成的?在城市尺度下,这些分析结果又会起到什么样的作用呢?本文聚焦于呼叫记录数据(CDRs),详尽论述了近年来针对手机数据分析的发展历程、作用机制和关于个人行为模式、地理分区和城市规划等应用方面的重大突破。读者可以通过本文一窥手机数据分析在可持续城市发展中的角色和发展空间。
1
手机数据分析发展简史
伴随着90年代的信息技术大突破,手机的普及极大地改变了人们的交流习惯。短短数年之内,手机已经从“稀罕物件”几乎变成“生活标配”。在发达国家中,手机市场蔓延到了偏远乡村,拥有率完全可以达到百分之百。 “人手一台手机”的现象引起了科学家的注意,因为没有比手机更好的传感监控设备可以达到这样高的分布密度。
手机自身和安装在手机上的应用可以提供海量的用户信息。除了信息量的绝对优势,通过手机获得的信息在客观性上远远超越传统“志愿参与”的调查结果。在各种各样的信息中,仅仅透过呼叫记录(call data records, CDRs)这一类就可以分析出人们交流方式、交流习惯、交流对象等等。 另外,各类信息也常常被组合、拆分,来精细化分析社会不同人群的数据。例如,CDRs中包含的地理位置信息与年龄和性别等组合分析就能产生更加有针对性的分析结论。当然获得便利的途中总是会出现新的麻烦。在挖掘用户数据的应用价值的过程中,一些隐私信息是绝对不可以被监控的,例如用户的通话内容和短信内容。当信息收集方的公司讲信息转于第三方公司作别的用途时会签定保密协议(non-disclosure agreement, NDA’s)来保障用户的隐私权益和信息安全。
随着手机设备升级,一些研究项目通过邀请个人用户志愿使用安装过内置软件的智能手机来进一步扩充信息收集量。这样的方式巧妙地规避了隐私侵犯的嫌疑,让更多的用户手机使用行为都被纳入到分析的范畴中。
手机数据分析的特点之一就是“以小见大”。世界上第一个通话记录的应用研究诞生于1949。George Zipf 用通话记录(固话)作为切入点,研究通信时长、频率等与其他因素的因果关系,为此类研究提供了突破性的范例(原文参考文献8)。而现在,有了计算机技术和大数据分析能力的加持,手机上的各种各样的交流数据就是一个社会人部分社交网络的具象表征,是多个社会身份的叠加体现。手机数据分析也因此成为社会关系网络研究的主流工具。
用最简单的话来说,社会关系网络就像人与人之间的通话记录图。其中端点是网络中的人,而连接各端点的线就代表着一段通话或者一段社会关系联络。
但即使都是CDRs信息,这些 “连接” 的类别也各不相同。在进行社会网络分析时,对 “连接”分门别类和设置权重也是重要的研究课题之一。
图一、手机通信网络(雪球式抽样)图:OnnelaJP et al. (2007)
通过对手机收集的数据进行分析,由一个人延伸出的社会关系网可以渐渐被描绘出来。而将对多个人的分析结果组合就可以得到一个群体的巨大关系网络。跟个人分析时的情况一样,与性别、年龄等其他特征结合,手机数据甚至可以揭示熟人在社会网络中的分布特性。除此之外,手机数据分析也被广泛应用于各种群体组织结构等宏观研究。
图二、比利时社区检测 图:Rosvall, M., Bergstrom, CT. (2008)
2
手机数据与
社会关系网络
手机数据分析被普遍认为是近年来社会科学研究中的重大突破之一。然后在与社会关系相关的应用中,研究者们不可避免地会遇到两个问题:1.手机数据能多大程度上反映真实的社交互动?2. 我们能够仅仅从呼叫记录中就提取出社会关系构成么?
Eagle et al. 在Reality Mining 项目中运用GSM和蓝牙技术研究了100个人的行为, 同时量化展现了个人主观报告和仪器记录之间的差别,证明了主观报告型数据的片面性。而透过手机通信记录进行行为分析显然可以大幅度减少主观偏见。当然,手机数据的客观记录也有局限。因为我们无法判断记录的数据是否只能反应数据产生者在网络中的社会关系和行为 (原文参考文献37、38)。
另外一些研究则关注是否能够从人们的交流行为中推测出他们的社会关系网络构成。尽管难度是显而易见的,但是在过去的尝试中,研究者们发现了呼叫行为和其他信息类型例如年龄、性别之间强烈的关联。Smoreda et al., Frias-Martinez et al. and Rwanda et al. 都论述过通话行为与性别和社会阶级之间的关联和特征(原文参考文献40、41、42、43)那么既然我们可以通过看似杂乱无章的通话记录衍生出如此大量的定向分析,我们是否可以对分析结果进行预测和推理,去发现可能还没相遇的朋友? 事实上“连接预测”也已经成为未来手机数据分析的重要课题之一。
3
两个社会网络研究应用
呼叫记录CDRs + 定位 = 地理网络
在现实生活中,所有的手机或固话都可以提供用户位置信息。因此,给抽象的社会网络关系图中的每一个端点加上真实的地理位置,就可以研究用户地理分布与手机使用情况之间的相互作用。对虚拟社会关系网络的真实化和具象化加深了人们对该网络结构和特性的理解。在大量的先行研究中,最基础的一项研究就是运用手机数据来估计各地区人口密度。 对于很多发展中国家来说,人口普查费时费力之外还不能保证数据质量。大量的现存数据都极度过时。在这样的情况下,使用CDRs可以为实际人口分布情况等提供非常具有参考价值的分析数据。Devill et al. 和 Sterly et al. 均匀用此方法评估过法国、葡萄牙和象牙海岸等地区的人口密度(原文参考文献46、48)。
图三、象牙海岸人口分布估测(左图:非洲人口项目评估的人口密度分布,右图:来自手机数据分析的人口密度分布)
图四、基于通话者之间地理距离的平均通话时长变化图。40km之后通话时长不随地理距离的增加而增加。图:LambiotteR et al. (2008)
虽然随着距离增加,两人之间的联络会减弱看起来理所当然。但在不同的地理区域这种减弱的具体机制是不一样的。例如在针对象牙海岸的研究中,与Lambiotte et al. 的引力模型不同,Onnela et al. 和 Bucicovschi et al. (原文参考文献51、52)分别发现在不同研究尺度下,人与人之间的联络是随着r^(-1.5)和r^(-3)减弱的。而引起这些机制的差异原因可能是不同地区各异的种族或经济水平等等。在这个过程中,地区的人群特征被发现,更加有针对性的研究可以被开启来解决一些实际问题。例如近年来,随着偏远地区的人们也用上了手机,用手机数据来评估区域经济水平也被提上议程。
呼叫记录CDRs + 时间记录 = 动态网络
手机通话记录数据中除了地理位置除外还有时间记录。将前文提到的研究方法放到一个较长的时间尺度内,就会发现有些“连接”会在特定的时间出现或消失。这就涉及到了“连接推测”问题。通过评估一个“连接”在较长时间范围内的“强度”和“韧性”,我们可以评价一个个体的社交网络组成的稳定程度,同时推测出其中可能出现或消失的“连接”。
图五、出现新“连接”的可能性 图:Macmillan Publishers Ltd: Sci Rep[78],copyright(2014).
与大多数随机系统的动态研究不同的是,人类社会的互动展现出别样的时间特征。其中之一就是“爆发性”。事实上,大量的社交互动都倾向于发生在很短的时间区间之内,并被很长的“空闲”间隔开。这一点可以从手机通话记录上体现出来。部分研究者认为这样的爆发性可能只是人类天生活跃时段区间的表现,例如白天活动晚上休息,但是相关研究还无法完全解释该现象背后真正的原因。
图六、发现手机用户在某一确定位置的概率
结合手机通话数据中的时间和空间信息,我们甚至可以宏观总结人类活动轨迹的规律性。关于人类活动规律的假说被不断提出,Gonzalez et al. 更是在追踪100,000手机用户移动轨迹6个月之后提出了完全不同于随机行走的关于人类移动规律的假说。 如果人类活动有规律,那么是不是人类的行动就可以被预测?Song et al. 在研究中发现手机使用者的行为和去向是高度可预测的。一个合适的算法成功预测一个手机用户出现位置的概率高达93% (原文参考文献102)。
图七、熵与手机用户位置可预测性 图:AAAS
从更宏观的角度,这些数据集合能够让我们观察和量化人与环境之间的互动,甚至可以帮助解释某一人群的同步行为。Reades et al.观测高楼的信号灯,并把他们当作社区的数字信号,同时他们又将手机使用情况按途径天线和地区分类。最终,Reade’s 的团队发现相似地区和相似数字信号存在一一对应关系(原文参考文献112)。
图八、工作日Erlang信号特征值.罗马七个地区工作日的四个主要Erlang信号特征值 图:Reades et al.
进一步扩大研究尺度,Isaacman et al.和Noulas et al.(原文参考文献117、53)研究了不同城市居住区之间的行为差异。
4
手机数据在城市传感、
流行病和发展中的应用
就像前文所展示的,手机数据分析史无前例的让观测和量化人类行为成为可能。过去的十几年中,大数据行业作为一个冉冉升起的新星让人们看到了革新生活方式以及思维方式的可能性。现在更多学者已经超越了对手机数据描绘的社会网络研究,转而投身于发展新型手机数据应用模式。
城市传感监测
随着智能手机的普及和使用用户地理位置的手机应用井喷式出现,我们不难想象潜藏在这些信息背后的商业价值。手机现在已经逐渐变成诊断城市脉搏,掌握人口情况的重要手段之一,我们也看好手机数据在未来城市更新规划中所担任的角色,因为大量移动性建模已经被应用于交通规划或测试设计效果。过去的20年中, 业界多次尝试了通过手机数据来提升预测准确性。
利用手机定位,Nanni et al.创造了象牙海岸的OD-Matrix并与地区街道网络形成地图结合来模拟主干道的交通流量。而Toole et al., 和 Wang et al. 则分别侧重研究了路网瓶颈和道路使用模式与使用群体,以提升路网运作效率(原文参考文献122、149、150)。
图九、24小时交通模型 象牙海岸(左)与 阿比让(右)图:Nanni et al.
Berlingerio在此基础上更进一步的通过算法识别出城市中最受欢迎的公共交通路径网络。他们展示了通过微量修改城市街道网络就可以大幅度缩短平均通勤时间的成果(原文参考文献121)。而Calabrease et al.的研究则更富有生活趣味。他们模拟了人们去参与某个活动集会时的移动,然后发现实际参加的活动类型和手机用户的出身社区有极大相关关系。因此,此类 “兴趣地图” 可以在策划和宣传活动时为街区政府所用。Cloquet 和Blondel认为分析手机匿名线上操作可以推测出大型活动的参加人数(原文参考文献153、155)。
因此利用手机进行移动追踪不仅可以解决交通堵塞等城市问题,还可以从各方面深化城市文化,提升城市生活幸福感。仅仅是定位就可以为优化城市提供如此多的便利,可见手机数据中埋藏的信息对于人类和居处环境的价值巨大。
传染病、流行病
近年来,越来越多的研究注意到了大数据在传染病监控和防治领域中的重要作用。如果一个人可以模拟手机病毒如何在手机网络中传播,同样的机制就可以被应用于医学病毒在人群中的转播。由于通过手机数据可以跟踪人群移动,这些移动模式同样也适用于模拟病毒的扩散方式。利用手机定位轨迹,Wesolowski et al. 测量了在肯尼亚人类移动对疟疾扩散的影响,并确认了最主要的传播路径。Tizzoni et al.通过手机定位追踪三个欧洲国家的跨国通勤者并与人口普查结果进行比较,发现在因人类移动导致的物种入侵和疾病传播的结果中,手机数据分析结果与人口普查惊人的一致,再次巩固了手机数据分析的可行性和准确性(原文参考文献159、160)。
图十、流行病入侵路径树状图 图:Tizzoni et al.
D4D挑战 (Data for Development)进一步提出除了仅仅预测流行病扩散路径,我们是否能够模拟和影响流行病的扩散?在这样的思路下,Kafsi et al.起草了一系列关于防治流行病的建议,并研究了通过手机发送这些建议的扩散程度和效率问题。 Lima et al.则认为人们会口耳相传流行病防治建议,基于此应用SIR模型和手机定位数据来检测流行病认知程度(原文参考文献163、164)。
该领域的研究再次提升了手机数据的价值——监控疾病,拯救生命。当然这些应用也面领着诸多遗憾的现实,例如如何获得如此大量的官方数据,以及如何保证数据的绝对真实性都是未来亟待解决的问题。
数据向未来(Data for Development)
过去几十年内,人们越来越专注并看好手机数据应用对人类发展的贡献。由Orange发起的诸多 “数据向未来(D4D)” 项目都利用了手机数据中的冰山一角为象牙海岸的发展谋得了好建议。手机数据分析能够帮助发展中国家免除人口普查的费用和人力负担,相对轻松的达到同样的调查效果。在没有现代化交通工具的偏远地区,手机的大量普及使得地区政府可以通过路径追踪等找到最合适的交通工具和规划方案,把有限的经费用在刀刃上。手机数据作为D4D项目中的重要数据资源一定会在未来的几十年内激发更多研究兴趣,持续造福人类社会。
译后感:手机数据可以被看作是手机使用的副产品。然而这低廉的数据中却暗藏着诸多民生问题的解决答案。可以说,在可持续发展的城市中,手机数据将会作为取之不尽用之不竭的数据和信息来源之一,持续为优化人类生活贡献力量。虽然当下开放的数据源和不成熟的收集方式产生了很多网络安全和隐私侵犯等问题,但在科技发展的进程中,这样的挑战是不可避免的。未来开放和健康的线上环境能够让更多的人志愿参与到手机数据的产生过程中。而这样的线上网络环境也是线下健康社会网络的映射。让我们持续关注手机数据分析研究,为可持续发展的城市不断寻找更好的发展方向。
一览众山小●为本文提供
资料
下载
索取请电邮 Daizongliu@qq.com
1、《手机数据集分析结果调研》
资料
免费索取英文原文资料:
或电邮 daizongliu@qq.com
我们帮助中国
可持续发展
城市规划|城市交通|非机动交通
|活力街区与公共交通|
|量化城市与大数据|
我们作为专业志愿者团体
秉承理想,帮助中国可持续发展,并为之贡献
• 理念与传播 •
• 培训与教育 •
• 实践与孵化 •
以上是关于数据大可以︱一贴集齐手机数据分析的城市研究的主要内容,如果未能解决你的问题,请参考以下文章