本文内容来源于《测绘学报》2024年第8期(审图号GS京(2024)1748号)
邬伦,, 侯远樵, 刘瑜,
北京大学遥感与地理信息系统研究所,北京 100871
摘要
随着大数据时代的来临,多源大数据正在兴起,数据驱动研究范式与地理学日益融合。基于个体行为的地理空间大数据可提供对海量个体行为模式的观察,从而实现“由人及地”的社会感知,支持城市管理、交通、公共卫生等不同应用。本文从应用角度,以地理空间大数据为重点,梳理其支持的6种应用范式,按照层次从低到高依次为描述时空分布、识别异常对象、发现普适规律、揭示关联关系、预测未来趋势及优化空间决策。其中,第1个方向是对地理现象和地理要素时空特征的简单刻画;第2~4个方向则注重探寻时空分布特征背后的规律和机理;最后两项,则是在决策层面提供支持。继而,本文指出大数据应用中数据获取、分析方法和应用目标3方面的问题。
关键词
地理空间大数据; 时空分布; 异常对象; 普适规律; 关联关系; 未来趋势; 空间决策
基金项目
国家自然科学基金
(
41830645
)(
42271426
)
作者简介
第一作者简介:邬伦(1964—),男,博士,教授,主要研究领域为地理信息科学、数字城市等。E-mail:
wulun@pku.edu.cn
通讯作者: 刘瑜 E-mail:liuyu@urban.pku.edu.cn
本文引用格式
邬伦, 侯远樵, 刘瑜.
大数据的6种地理学应用范式
[J]. 测绘学报, 2024, 53(8): 1465-1479 doi:10.11947/j.AGCS.2024.20230199
WU Lun, HOU Yuanqiao, LIU Yu.
Six geographic application paradigms of big data
[J].
Acta Geodaetica et Cartographica Sinica
, 2024, 53(8): 1465-1479 doi:10.11947/j.AGCS.2024.20230199
阅读全文
http://xb.chinasmp.com/article/2024/1001-1595/1001-1595-2024-08-1465.shtml
1 地理空间大数据及其研究范式
随着数据获取技术的进步,大数据概念逐渐走入人们的视野。大数据兴起为科学研究带来新型研究范式,即“数据驱动范式”。文献[1]认为大数据会导致“理论的终结(end of theory)”,即大数据研究不需要领域先验知识与假设,然而这一观点比较绝对化,引发了反驳和广泛讨论[2]。就地理学领域而言,大数据并未消亡地理学理论,而是为发现地理规律提供前所未有的数据支持,使理论体系更加完善。与一般大数据相比,地理空间大数据的独有特征决定其在地理学知识发现过程中的重要地位。文献[3]指出,地理空间大数据具有两个重要特征,即个体粒度与时空标记。首先,相对于传统数据集,大部分地理空间大数据可以精确到个体粒度。这类数据在个体活动中产生,可以记录个体详细位置与语义信息。尽管单个个体空间移动具有随机性,但群体层面可以涌现出规律性,因此海量个体位置语义信息可以充分刻画空间现象分布模式。其次,地理空间大数据具有时空标记,相比非地理空间大数据增加时空语义与时空约束,地理空间大数据挖掘可得到时空标记背后蕴含的信息。因此,地理空间大数据可为地理知识发现和决策支持提供丰富的信息来源,推动地理学领域方法论革命。在地理空间大数据兴起的背景下,地理信息科学的新使命则是针对不同类型大数据,以刻画地理空间特有理论为基础,引入相关学科(如计算机科学、复杂性科学等)分析方法,挖掘地理知识,服务于城市与区域规划、公共卫生、交通管理等领域应用。
目前,已有学者从不同角度对大数据相关研究进行综述。文献[4]总结了时空聚类、时空异常、时空关联及时空预测4种分析方法研究现状,并深入分析其分析模型如何帮助理解多模态时空大数据隐含地理知识。文献[5]总结多模态地理空间大数据可视化方法,从描述性、解释性和探索性3个层次梳理研究进展。文献[6]针对时空大数据挖掘,讨论数据挖掘领域内时空模式发现、时空聚类与分类及时空异常检测方法,并阐释时空大数据挖掘系统架构。前人的梳理各具特色,然而大多以研究方法为切入点。这些以方法为核心的梳理固然重要,然而不同应用目标导向的研究,其范式差异同样值得探讨和归纳。
范式是科学哲学中一个重要概念,最早由Thomas Kuhn提出[7],它是一个领域内研究共同的理论基础和研究法则,是研究者们持有的共识。在地理学领域,文献[8]指出地理学研究中存在地理经验范式、地理实证范式、地理系统仿真范式和数据密集型地学发现4种范式。本文认为,范式既可以在宏观学科层面界定,也可指研究领域下具体的研究集群,前提是同一范式内研究具有一致性和相似性。本文之所以用范式概念来梳理现有地理空间大数据研究,正是因为这6个应用类别并非方法层面简单归类,而是已形成研究目的、假设及方法的通用常识与研究模式,而本文所提应用范式可视为地理学研究范式的细化与扩展。
地理空间大数据驱动研究整体框架可以概括为:基于地理空间大数据描述地理分布,在其基础上利用数据挖掘手段从现象当中捕捉异常,提炼空间普适规律和关联关系,最终应用于空间预测与优化任务,服务于实际应用领域。由此本文可以由低到高识别出6种地理空间大数据的应用范式。由于研究对象与目标的差异,6种范式难以对比优劣,同一研究课题也可能涉及多类范式。尽管视角不同,6种范式在方法上存在交集,且均可以归结于对“人”“地”两类基本对象的刻画与分析,同时“时”是刻画人地关系的另一维度,在6种范式中起到重要作用。
2 地理空间大数据的6种应用范式
2.1 描述时空分布
地理空间大数据最为直接的应用是利用地理空间大数据超越目的性采样的超覆盖优势[9],精准刻画地理对象的时空分布。人类行为受地理环境影响,因而可以反过来刻画环境特征。该范式核心是通过挖掘个体粒度地理空间大数据的时空语义信息,展现和表达地理环境的特征,其技术路线主要利用可视化方法,以定性分析辅助展现地理现象时空分布模式。此外,时间是刻画人地关系的另一维度,反映空间现象变化过程,可以更加全面反映地理环境动态特征与差异。
人类活动规律可以反映地理要素的一阶分布特征。近年涌现出大量相关研究,利用高频细粒度数据与传统数据源融合,探索不同空间尺度下低频变化的地理环境分布属性。场所尺度下,通过使用各种人类活动数据,如人流量数据、OD交互数据及带有地理标签的微博文本数据,可以采用表示学习方法揭示城市混合用地特征[10]。城市尺度下,利用移动设备位置数据反映通勤空间特征[11]、多类出行模型差异[12],进而反映地理环境分布特征,如通过通勤定位数据反映城市结构[13]、职住空间分布[14-15]等,出行刷卡数据可以用于分析城市结构[16]等。使用社交媒体数据,通过情绪识别的方法可以反映群体心理空间分布[17],绘制“情绪地图”[18]。此外,社交媒体数据也可以揭示城市用地类型[19]、多中心结构[20]。在全球尺度下,文献[21]使用全球300万用户手机定位数据,揭示全球不同国家和地区人类移动模式差异性。利用Twitter数据,通过语义分析手段同样可以描述世界范围内的微观人群移动模式[22]及宏观人口流动分布[23]。利用微博数据,文献[24]基于CNN-BERT模型分析了新冠疫情影响范围的空间分布特征,从而评估疫情对居民日常生活的影响。
人类活动也能反映地与地之间二阶交互特征,不同地点间人类移动可以显著反映“地”与“地”之间关联关系强弱。空间交互模式的形成依赖于4种空间效应,包括距离衰减效应、空间依赖与社区结构效应、尺度效应和地理空间复杂性效应[25],而二阶交互现象可以直接体现这些效应。文献[26]使用全国范围手机移动定位数据,以OD流快照刻画空间交互,揭示春节前后人口迁移所反映的城市空间格局。文献[27]使用全国移动定位数据,通过网络分析揭示中国城市之间“源-汇”结构。“地”与“地”之间存在跨尺度关联,展现出等级性。文献[28]利用百度慧眼数据分析广州、深圳飞机客源地在北京、上海的居住地用地类别状况,根据客源地在亚城市尺度空间分布分析到访地城市尺度功能差异。相对于一阶分布属性,二阶交互特征研究更加偏向于网络视角下的探索。图1展示了北京与广深之间的客流联系,可以反映广深两地城市功能倾向差异。该研究是分布特征描述范式的典型案例。
1
图1 城市功能跨尺度映射[28]
Fig.1 Cross-scale mapping of urban functions[28]
除去空间维度分布刻画,空间现象时序变化特征同样值得关注,这也是时序预测的基础。在城市尺度下,使用出行轨迹数据,通过驾车活力指标随时间的动态变化模式可以反映不同城市的复工复产程度。针对较长时间尺度变化模式挖掘,大数据也大有用武之地。文献[29]利用互联网搜索指数构建城市吸引力新指标,揭示10年间中国城市间吸引力强度长期变化趋势,反映城市群发展模式。文献[30]利用1982—2014年101个城市的交通数据,分析不同城市之间交通拥堵推迟时间随人口变化关系的长时序演化过程,并对比不同城市之间演化过程差异,验证时序标度律不稳定性。文献[31]采用手机信令数据,分析纳米比亚2010—2014年国内人口迁移背后区域差异的时序演化状况。
空间相关性与异质性是本范式重点刻画的性质,而二者随着时空尺度改变会发生相互转化,存在着跨尺度叠加现象[9]。同时随着空间尺度变化,研究关注的时序特征也会变化。城市内尺度更加关注日常人群流动,而更大空间尺度下更加关注宏观人口迁移。确定合适的时空尺度,选择适宜的可视化方式,才能更好地呈现时空分布模式。
2.2 捕捉异常对象
在数据挖掘领域,异常值最初指偏离数据整体分布的观测值,除误差值外,异于其余数据生成机制导致的异常对象。地理空间大数据揭示的异常对象,指特定时空范围内异于全局模式的个体、地理单元及空间过程,对应于前文所述人、地主体要素及时间维度。识别异常对象非常重要,可以帮助发现某些隐含的地理知识。以往异常对象识别存在一定挑战,这是因为异常往往与直觉相悖,缺乏先验知识和细粒度数据以区分时空异常与噪声。地理空间大数据由于其超覆盖优势,弥补了先验知识不足的限制,可以在一定程度上克服识别时空异常的困难。该范式的核心是将地理分布现象作为输入,通过时空聚类等方法提取出分布的整体趋势,借助于可视化、统计分析等手段寻找离群点,继而针对非噪声离群点探讨其成因。
针对行为异常群体的探测,地理空间大数据可以提供群体个体粒度移动轨迹和行为信息。此类研究往往需要有关人类移动的先验知识作为支撑。文献[32]利用公共交通系统刷卡数据,寻找和大多数用户行为模式不同的特殊人群,如早起者、晚归者、频繁出行者及长距离通勤者(图2)。对于异常地理单元的捕捉,地理空间大数据可以提供详细场所外观、属性信息,捕捉前人难以注意到的特殊场所。文献[33]利用街景数据和社交平台签到数据,捕捉城市当中外表不起眼但具有潜在吸引力的场所,这些场所外表平常,但非常受本地人欢迎。文献[34]结合社交媒体数据研究城市当中由于供需不匹配及人口流失导致的“鬼城”现象。时间维度,通过分析细粒度人群活动数据背后时序过程差异,可以识别一些特殊空间变化过程,如微观人口密度异常或者局部车流量异常等,从而为灾害预警提供帮助[35]。由图2可知,该研究通过分析北京市智能卡刷卡数据识别4类特殊出行群体(早起者、晚归者、频繁出行者及长距离通勤者),是捕捉异常对象范式下的典型案例。
图2 基于智能刷卡数据识别极端出行群体(改自文献[32])
Fig.2 Extreme movers identification with smart card data(modified from reference[32])
传统地理学研究将时空异常探测视作重要研究议题,然而传统数据采集有偏性和稀疏性导致其无法获取细粒度信息,容易忽略时空异常。地理空间大数据超覆盖特性使其可以提供更加全面的信息,从而可以发掘出一些以往难以捕捉的异常,扩展异常探测应用范围,然而这一范式对合理定义与识别异常的要求更高,需要结合具体问题情景综合考虑如何区分噪声与有意义的异常值。
2.3 发现普适规律
发现普适规律,即寻找共性地理现象背后不受特定地理环境影响的发生机制,在刻画时空分布的基础上进一步抽象为地理知识。从科学方法论角度,寻找普适规律更加贴近于基础科学如物理学的研究范式。这类学科中影响因素相对确定,其规律也较为简洁与稳定。相比之下,社会系统具有较高不确定性,因此总结简单机制难度较高[36]。尽管如此,社会科学中也存在一些著名守恒量,如邓巴(Dunbar)数[37]、马切提恒值[38]等。在地理空间大数据的支持下,地理学研究试图挖掘海量人群行为背后的普适规律。地理空间大数据能够提供大量语义丰富的个体粒度信息,增加挖掘个体共性特征的可能性,同时为微观机制解释提供依据,克服小数据集在普适规律与机理研究中难以规避的数据代表性问题。本范式以时空分布为输入,首先通过统计方法寻找守恒量、稳定分布或守恒关系,对于规律的解释采用复杂网络、多主体建模(agent-based model,ABM)等方法,通过机理模型模拟结果与实证数据进行对比验证。普适规律相对于数据挖掘发现的模式在层次上更加抽象,适用范围也更加广泛。
守恒量和稳定分布方面,目前人类移动性领域利用个体轨迹数据发现规律较多[39]。大数据支持移动性研究,始于两项实证研究[40-41]。这两项研究分别使用手机信令数据及钞票流通数据,描述个体移动普适空间特征,并建立随机游走模型,解释人类移动步长的分布模式。文献[42]使用手机位置数据和匿名GPS定位数据,扩展已有人类移动实证规律,针对随机游走类模型弱点提出探索-偏好返回机制模型,修正对人类移动性机制的理解。在其基础上,针对个体移动数据当中挖掘出的其他普适性质,如有限最常访问地点数[43]、人群移动模式分异[44]及出行频率分布(图3)[45]等,并分别引入更多机制进行建模解释。由图3可知,研究利用个体移动数据发现人类移动距离-频率普适规律,是发现普适规律范式的典型研究。
图3 基于个体移动数据的人类移动距离-频率普适规律[45]
Fig.3 Universal distance-frequency law of human travel based on individual mobility data[45]
针对上述普适规律的机理建模方式在一定程度上忽略地理环境的影响。已有研究引入实际交通网络,以此为基础探索个体移动规律。文献[46]利用地铁刷卡数据,研究城市内通勤时间问题,发现45 min是通勤时间分布关键节点,并对于出行人群进行分类,研究各类别人群对应的社会经济条件。文献[47]利用地铁刷卡数据,发现个体出行当中选择的路线数维持在一个固定数值范围之内,刻画地理网络可导航性(图4)。这一类普适规律研究以空间网络为根基,研究个体基于网络的普遍行为。守恒量与稳定分布的发现,集中于微观层次,更多聚焦于“人”的行为,这是由于在宏观尺度下地理要素组织形式多样,很难发现普适模式;微观层面个体移动更多地遵循普遍的简单策略。正是微观层次简单的运行规则,才能造就宏观地理空间复杂现象。由图4可知,发现地铁网络上人出行线路数有普遍固定上限[47]。该研究是考虑交通网络的普适规律发现范式研究。
图4 基于地铁刷卡数据的出行路线数量普适上限[47]
Fig.4 Universal upper limit of the number of travel routes based on subway smart card data[47]
除去单变量守恒量和稳定分布,“地”视角下的稳定数量关系同样是普适规律研究重点。其中,城市标度律研究是代表性领域之一[48-49],它指城市宏观指标随城市规模增长所展现出的幂律关系。在地理空间大数据兴起之前,标度律主要关注宏观指标,难以捕捉城市内要素,尤其是细粒度人类活动展现出的标度律。地理空间大数据兴起使得城市标度律研究重焕生机。文献[50]引入活动人口刻画人口规模,利用群体移动定位数据研究亚城市尺度标度律形成机制。利用手机信令数据、城市中交互(图5)[51]、商业POI数量[52]等指标与人口规模间的标度律关系得以揭示。此外,OD流数据提供了利用交互数据重新确定标度律研究中更合理地理边界的机会[53]。
图5 基于手机数据的交互量随城市规模的标度律[51]
Fig.5 Scaling law of human interaction with city sizes based on mobile phone data[51]
作为总结,普适规律常常与复杂系统理论相关。复杂性理论通过建立个体交互模型和网络动力学模型,帮助理解普适规律形成机制。合理的假设是建立此类机理模型的关键,也是大数据在白箱模型中发挥作用的基础。同时,空间尺度、适用范围是普适规律需要考虑的另一类重要问题,它们决定机制的实际意义。利用地理空间大数据发现普适规律,可以更准确地捕捉人类移动和地理空间演化的普遍动力,然而在解释机制时需要警惕影响因素的过度简化,协调地理空间异质性和规律普遍性。
2.4 挖掘关联关系
在大数据帮助下,时空关联规则挖掘发展出局部关联规则挖掘、关联规则统计推断和考虑额外约束的关联规则挖掘诸多方向[54]。受益于海量数据及丰富的语义标签,本范式的核心在于利用地理空间大数据支持机器学习模型进行训练,挖掘出隐含的深层次关联,使小数据集上难以完成的训练成为可能。与前述普适规律中的稳定关系不同,本范式所关注的关系并不需要严格的机制性解释,其挖掘方法也更加偏向黑箱模型的方法。
使用街景影像数据挖掘关联模式是关联关系研究当中一个重要分支。街景数据可挖掘属性的范围极广:城市自然环境方面,颗粒物大气污染[55]、太阳眩光[56],“声景”环境[57]都是街景数据可以挖掘的变量;城市建成环境方面,街景数据中可以挖掘出建筑物年龄[58]、用地类型[59];城市人群特征方面,街景数据可以挖掘出居民情绪信息[60]、交通流量[61]、人群移动特征[62]、社区内人口组成[63]等因素;城市社会属性方面,街景数据大有可为,不仅可以挖掘出能源消耗[64]、房价[65]等局部信息,还可以挖掘出宏观社会经济指标信息[66]。此外,其他数据源产生的地理空间大数据同样可以辅助关联关系挖掘。个体定位数据可以用于揭示与人类活动有关的不同因素间的相关性,文献[67]利用手机GPS定位数据,融合遥感影像数据发现新型冠状病毒传播风险与环境指标、住房条件之间的关系。
除空间相关性外,学者们试图揭示空间现象背后的因果关系:城市尺度下,文献[68]利用海量社交媒体数据,与土地利用数据结合,探讨CBD位置及路网结构对城市用地分布的驱动作用;国家尺度下,文献[69]利用疫情期间人口流动数据、全国疫情数据分析人类移动性和管控政策对疫情传播的影响;全球尺度下,文献[70]利用全球社交媒体数据,分析不同国家和地区的情绪高低(图6),由此衡量封控政策为不同区域居民带来的正向或负向情绪影响[70]。地理学中因果关系复杂,大量因素相互耦合,这为理解空间现象因果关系造成困难。近年兴起的因果推断方法研究可能会成为揭示地理现象背后形成机制的新手段。挖掘关联关系致力于寻找看似无关的时空属性之间内在关系,为时空预测优化提供理论基础。
图6 通过社交媒体数据研究疫情及封控政策对人群情绪的影响[70]
Fig.6 The impact of the epidemic and lockdown on crowd sentiment through social media data[70]
2.5 预测未来趋势
时序预测问题的关键在于通过理解时空现象发生机制,或利用地理现象展现出的稳定变化特征,对地理要素未来的状态进行预测,并应用于灾害预警、公共事件管理及城市规划中。地理空间大数据可以积累较长时间尺度且精细的历史数据,具有良好的时态特性,这对于预测模型训练是一个有利条件。本范式核心在于基于地理空间大数据展现出的时空分布模式和关联关系,使用传统时序模型及时序深度学习模型,对不同时间尺度下的地理现象进行预测。
在城市及以下尺度,地理现象预测更关注相对微观的现象,即偏向于对人的预测。针对个体的位置预测对于场所推荐、公共管理等领域均有重要意义。使用轨迹定位数据,可以捕捉个体移动模式,进而预测其位置[71]。使用社交媒体数据,可以直接从文本语义信息当中预测用户位置[72]。交通流预测是时空预测的一个重要方向。交通流可预测性,来源于交通现象的时空相关性,目前已经产生大量相关研究,如图7所示[73],其主要研究方法包括深度神经网络[74]、时序神经网络[75-76]、残差图卷积网络[77]等,应用于基础设施等领域[78]。
图7
图7 交通流预测方法框架[72]
Fig.7 Framework of traffic flow forecasting methods[72]
城市或国家尺度下,预测未来城市乃至国家的长时序发展状况对于规划来说具有重要意义。然而针对长时序大尺度预测问题仍鲜有关注,其背后原因在于,社会系统具有高度复杂性,要素的时序变化受到多个因素影响。本文认为,发展长时序预测研究,需要通过构建机理类模型,基于城市发展的机制规律,对于宏观指标的变化过程进行模拟,从而达到更好的预测效果。机理模型的建立,需要对地理空间大数据进行挖掘以提供参数,保证其高解释力。此外,长时序预测所使用的地理空间大数据,在数据量方面需要积累到足够的时间长度才可以保证预测效果良好,这对于地理空间大数据存储和模型运行效率提出了更高的要求。
前文所述挖掘异常对象的应用范式,和时序预测范式也存在对立统一的关系。实际应用层面,实时预测系统在交通、安全等领域发挥重要作用,在这一类系统当中,局部异常值代表着非常规事件,如交通拥堵、踩踏事故等。另一方面,探测与分析异常值,也可以帮助优化时序预测模型本身。建立时序预测模型,需要从真实值和预测值之间的差异当中,区分模型系统性偏差和观测值波动性误差,通过不断修正模型对每一个时间节点给出预测,在提高预测能力的同时更准确地捕捉异常,两个过程相辅相成。利用大数据进行时空预测具有广泛应用前景,但仍需注意预测模型在具体地理问题中的适用性强弱。
2.6 优化空间决策
空间优化是地理学领域中一个经典议题,其主要目标在于根据先验地理知识,对于空间要素数量、分布与运行规则进行重新设计,以达到某种优化目标。一个空间优化问题包含目标、决策及约束条件3部分。与一般优化问题相比,空间优化决策变量和约束条件带有空间属性,地理空间优化中变量关联关系复杂且难以解耦,进而影响建模求解的可行性[79]。然而随着大数据兴起,决策模型训练、改进与验证均能得到实证数据的支持,使得空间优化领域关注更为复杂、更加动态的优化问题成为可能。优化问题的关键除优化策略外,输入的信息量同样不可忽视。大数据由于样本量大,可以提供全局信息,规避由于覆盖不全导致决策结果非最优的问题。优化空间决策范式的核心为基于地理空间大数据所挖掘出的普适规律与关联关系,综合应用传统运筹学方法及基于机器学习的新型优化手段,对人的行为策略和地的资源配置寻找更好的方案。
地理空间大数据支持下的优化目标可分为静态目标和动态目标,从优化对象的角度来看,二者分别对应于对地优化和对人优化。静态目标主要包括地理要素的空间组合方式。如交通网络设施优化,主要研究兴趣集中于城市内尺度道路网络不同目标下的优化;如以减小噪音[80]、减少拥堵[81]、提高交通效率及公平性为目标的优化[82]等,这类研究大多利用大量出行轨迹数据刻画交通状况。对于基础设施的空间优化,研究使用多源地理空间大数据,发现通过基础设施重新分布,可极大提升设施可达性(图8)[83]。文献[84]针对空间设施选址问题,构建多解码器的注意力模型。与传统的精确求解及启发式求解方法相比,这种强化学习方法在求解时间和质量方面均表现更优。对于土地利用的优化,已有多种优化目标下的尝试,如优化空间紧凑度、用地相容性和适宜度等[85]。
图8
图8 优化基础设施分布模式提高设施可达性[83]
Fig.8 Improving the accessibility of facilities by optimizing the distribution patterns of infrastructure[83]
动态优化目标一般为动态对象的调度和选择,如车辆调度和实时线路优化,以及对个体出行策略的推荐。文献[86]提出一种出租车调度方法,发现可以在满足城市出行者出行需求的前提下,减少出租车数量的30%。针对浮动车传感器的最优化探测问题,诸多研究开始寻找探测车最优调度策略,从而达到最大空间覆盖质量,如针对公交车[87]及第三方专用探测车[88]的动态调度和出行选取,以及多种出行方式混合调度方案[89]。
地理空间大数据为优化问题提供“上帝视角”。在现实场景中,很多要素空间配置并非最优,其原因在于个体只能掌握局部有偏信息,以利益最大化为目标进行决策。由此形成的全局分布,往往由于竞争、信息不对称等因素使一部分个体达到最优,但另一部分个体则难以满意。全局空间最优解在兼顾局部满意的同时,使系统的整体运行效率达到最高,而地理空间大数据能够提供接近全样本的信息,帮助规划者利用全局信息进行决策。最后,尽管从宏观规划角度可以对空间要素配置给出最优化的设计,但城市当中自下而上的复杂涌现现象与自上而下的规划之间存在不匹配,这也是实际应用优化策略时需考虑的问题。
3 总结与讨论
本文归纳了地理空间大数据应用研究的6种范式,从大数据信息提取与描述开始,到异常对象捕捉、普适规律发现和关联关系挖掘,再到预测与优化应用,构成层次分明的范式体系。尽管地理空间大数据应用研究体系已逐渐完善,其在实践中仍面临着数据获取、分析方法和应用目标3个方面的问题。
首先,数据获取问题从源头上决定地理空间大数据应用范式的可行性。数据质量是保证研究结论代表性的基础,具体包括数据有偏性[90-92]、不确定性和语义模糊性等。这些数据质量问题可能导致刻画分布不准确,进而影响各范式的结论的可信度。同时,数据隐私[93-94]是研究者需要关注的另一问题。地理隐私可预测性强,其与个体敏感信息高度相关。这导致个体粒度数据可用性受到严格限制,从而影响地理空间大数据应用范围。地理空间大数据研究的任务,就是在充分保护个体隐私的前提下,尽可能减小数据质量问题的影响,发现地理知识。
然后,数据分析方法的局限性制约着应用范式的发展。地理空间大数据分析方法的两个主要分支,分别为针对现象和结果建模的黑箱模型以及针对过程和机制建模的白箱模型。地理空间大数据提供海量训练与测试样本,为黑箱模型训练与改进提供数据保障。黑箱模型优势在于通过结构设计并合理选择参数,达到良好拟合精度;然而其结果很难解释背后机理,难以泛化。目前地理空间人工智能(GeoAI)的发展渐成体系,但将计算机领域方法用于地理研究仍在数据源、模型可泛化性和分析能力等方面面临挑战[95]。只有了解黑箱模型作用机制,在机器学习模型当中合理引入地理约束与假设,并结合空间机制用于学习过程,才能构建具有更强解释能力的GeoAI模型,这也是GeoAI研究相对于一般AI的独特之处[96]。白箱模型将复杂地理过程进行高度抽象,捕捉代表性特征。与黑箱模型类似,白箱模型参数同样需要优化。地理空间大数据由于其超覆盖特性,可以提供接近全样本分布的参数选择,帮助白箱模型更好地解释真实地理现象。然而,白箱模型一定程度上忽略了地理空间的经济、文化、社会属性,导致在面对真实地理场景中复杂现象时很难充分解释其成因,这也正是地理学空心化趋势成因之一[9]。白箱模型应当加深对空间机制的理解。如果对空间机制理解和抽象方式不当,即使使用地理空间大数据估计参数,仍很难解释真实地理现象的发生机制。总而言之,两类模型在地理学领域各自面临机遇与挑战,在未来,两类模型相融合形成“灰箱模型”,一方面通过引入可解释的机制形成地理领域的可解释AI,另一方面对于白箱模型含义明确的参数使用机器学习方法进行训练,都是未来可以挖掘的思路。
最后,应用目标决定了地理空间大数据范式的适用范围。尽管地理空间大数据的挖掘方法已有显著进展,但对于地理学新知识发现却帮助有限[9]。如果大数据的研究,使用更加海量的数据和更前沿的研究方法,却仅仅停留且满足于验证常识,则并未真正推动地理学进步,也难以发挥地理空间大数据的真正优势。对于已有知识的突破,需要完善的概念体系和框架作为基础。社会感知研究框架正是一个合适的宏观理论框架。社会感知将个体当作传感器,通过人的时空活动模式反映地的性质,揭示社会经济现象分布、联系与过程[3,97]。社会感知“由人及地”的宗旨贯穿上文所述地理空间大数据6种应用范式,“人-地-时”3种基本要素,在6类应用范式中仍是讨论问题的3类主体;反过来从6种范式出发,可以更有层次和条理地帮助理解和梳理社会感知语境下纷繁复杂的研究。总之,社会感知研究框架在地理空间大数据背景下具有广阔的应用前景,可以引导地理空间大数据研究,而本文提出的6个应用范式,则是在此框架下审视具体研究议题的新视角。
作为地理学研究中目前最为活跃的分支之一,地理空间大数据驱动下的研究继承地理学研究传统,并融合社会学、物理学、计算机科学等诸多领域知识。从研究目标来看,地理空间大数据研究尚未脱离地理学探索人地关系的宗旨;从研究假设来看,地理空间大数据研究需要以大量已有先验地理知识为基础;从方法论来看,地理学现象研究、机理研究和决策优化仍然可以作为地理空间大数据6类应用范式形成的3个层次。另一方面,地理空间大数据相对于传统数据的优势使其议题、假设、方法在传统地理学基础上有所进步,这使得地理空间大数据研究范式具有显著特殊性。在未来,6种应用范式将在数据源、研究议题和方法层面进一步发展,吸收计算机科学、复杂科学领域新方法,不断扩展地理学的内涵和外延。