1. 引言
“地理学是研究地理要素或者地理综合体空间分布规律、时间演变过程和区域特征的一门学科”。空间分布模式及其规律是地理学的基础性问题,因此,空间分析成为地理学的四大传统(空间分析传统、区域传统、人地关系传统、和地球科学传统)之一,即关注地理要素的位置、形态、距离、方向等特性,并从中寻求一般性的规则。空间分析是地理学研究的抓手,并传承到地理信息科学。这主要体现在通过对一般性地理分析方法的构建,刻画地理要素分布模式,揭示驱动因素,模拟现在、反演过去、预测未来,从而支持空间决策。
由于空间在地理分析中的核心地位,如何理解空间以及空间有关的各种效应,是构造并适用空间分析方法的关键基础,这使得地理信息科学成为一个有价值的研究方向。因此,地理学家尤其是地理信息科学家,需要回答如下问题:“当在地理分析中提及空间时,其具体含义为何?”。本文定义的空间效应,是指由于地理空间的基本特性以及要素在空间中不同的位置及衍生的空间配置,而对分析结果产生影响的效应。
本文通过分析地理空间的特征,探讨地理空间建模的不同视角以及相关基础概念,总结四种空间效应及其对应的地理空间分析方法,并尝试建立一个统一表达框架,从而进一步强化地理研究中的空间传统,并支持相应空间分析方法的构建。尤其是在人工智能技术支持下,如何揭示并量化地理空间效应,更是地理信息科学领域需要探究的前沿议题。
2. 地理空间
2.1 地理空间
在大多数地理应用中,所研究的空间范围是容纳人类活动的地球表层空间或者该空间的一部分,如一个国家或城市,我们称之为地理空间。该定义限定了地理空间的范围和尺度:首先,外太空、月球及其它行星表面等不属于地理空间,而全球尺度是地理空间的上限。其次,地理空间通常要足够大,从而形成一个“容器”,能够观察到发生于其中的人类活动模式或地理现象分布格局。因此,在一些学科(如认知心理学)中研究的空间,如桌面空间,就不属于地理空间的范畴。
值得指出的是,近年来随着信息通讯技术的发展,虚拟地理环境、虚拟空间等概念得到了重视。虚拟空间可以视为真实地理空间在信息世界中的映射,一方面,现实世界中的空间效应会因此在虚拟空间中有所体现,另一方面,由于虚拟空间中的相互作用和演化过程受距离等要素影响的机理存在差异。因此,我们认为虚拟空间中空间效应依然存在,但是具体体现则不完全等同于真实地理空间。
2.2 地理空间的相关概念
场
对于地理空间分析而言,将空间简单视为一个空的容器,无益于刻画空间效应。爱因斯坦认为“不存在脱离场(Field)的‘空的空间’(There is no such thing as empty space, i.e. space without field.)”。这个观点可以帮助我们理解地理空间的特性,即任何一个地理空间都不是“空的”,而是充斥了各种自然或人文地理要素,这些要素的空间配置形成有意义的结构,并导致地理空间效应。
为了刻画地理空间及其地理要素,有两个建模的视角,即场的视角和要素(Feature)的视角,前者借鉴了物理学概念,用于表达连续分布的地理现象(如降水、土地利用等);后者则关注离散的地理要素(如湖泊)的分布。基于以下两个原因,场模型比要素模型更为基础:1、要素是基于特定场以及要素类的本体(Ontology),通过一个概念化过程而实现实例化;2、即使对于地理要素,也可以通过一个对象场的形式加以表达。基于上述考虑,我们将地理要素的表达统一抽象为一个映射:f:XG,其定义域X为地理空间中位置x的集合,而值域G为不同地理现象(如降水、土地利用)的取值,其值域可以为标量、向量、甚至复杂对象。
距离
从数学的角度定义,度量空间(Metric Space)是一个集合。该集合中的任意元素之间的度量是可定义的,并且符合以下正定性、对称性和三角不等式等三条公理。
1. d(x1,x2)≥0,d(x1,x2)=0当且仅当x1=x2;
2. d(x1,x2)=d(x2,x1);
3. d(x1,x3)≤d(x1,x2)+d(x2,x3)。
对于地理应用而言,度量空间中的元素x1,x2,x3等为位置,而d(x1,x2)表示了两个点之间的距离,体现了空间的差异性。值得指出的是,尽管GIS建模中通常采用的欧氏空间,是平直的度量空间,但是在一些特殊的分析中,可以对距离进行重定义,得到一个“扭曲的”空间,从而凸现一些特定分布模式和地理过程。如文献采用有效距离(Effective Distance)的概念,简化了疫情传播的规律。值得指出的是,距离变换后度量空间的三条约束未必严格成立,但是通常拓扑特征会保持。
基本概念
至此,我们有了对于地理空间的三点基本特征,1、空间是位置的集合;2、空间不是“空洞”的,而是充满了不同类型的场;3、空间中任意两个位置的距离是可以度量的。基于上述空间、场以及距离的定义,可以定义区域为空间的一个连通子集。区域在地理研究中,扮演了分析单元的角色。给定一个位置x,其邻域为包括x的一个区域,并且满足区域中任意一点x’,到x的距离d(x,x’)≤δ,其中δ为给定阈值。基于地理空间场f(x),给定区域E,可以定义一个汇总函数S({f(x)|x∈E}),从而得到该区域的属性值。其中S是一个对f(x)的汇总函数,包括平均值、众数、极值等。特别的,如果f(x)是一个对象场,则S可以是对对象计数的函数。在实际实现中,平均值和计数是通常的两种汇总途径,前者如平均高程,后者如统计一个区域的病例数目。这区分了两种不同的度量,即空间强度量(Spatially Intensive)和空间广延量(Spatially Extensive)。分辨两种度量的一个简单原则是:当合并两个区域时,空间强度属性要进行平均,而空间广延属性要进行加和。
场模型定义地理要素的空间分布形态,然而,为了进一步发现有意义的空间结构,必须在位置和位置之间建立联系,Goodchild等提出了“地理偶极(Geo-dipole)”的概念,它是一个映射h=g(x1, x2),其中x1, x2为空间中的两个位置。刘瑜等称之为空间二阶量,与传统一阶量相比,其管理存储空间复杂度更高。无疑,距离是基于空间特性定义的一类特殊二阶量。此外,为了表征两个位置之间地理环境的相似度,可构造二阶量函数sim(f(x1),f(x2))。其中f(x)表示不同类型的场在位置x的取值。例如,如果研究感兴趣的场有三个:海拔高度(m)、年均温度(℃)、年总降水(mm),两个位置的取值分别为(1000, 15, 1600)和(800, 18, 2100),则根据预定义的相似度函数sim,可以计算这两个位置地理环境的相似程度。相似度在地理分析中扮演了重要角色,很多操作,如空间区划,其基础就是相似性度量。不论是距离还是相似度,都可以基于空间及预定义的函数进行计算,因此称之为可导出二阶量(Derivable Second-Order Measures),与可导出二阶量不同,观测二阶量(Observed Second-Order Measures)度量了两个位置之间基于物质、信息或人的流动等形成的联系。同样的,给定两个区域R1和R2,可以对其间所有位置形成的地理偶极(或二阶量)进行汇总,从而得到R1和R2之间的二阶量数值,其操作可以形式化表示为S2 ({g(x1,x2 )│x1∈R1,x2∈R2 })。一个典型的汇总操作是,统计两个区域间的流,得到它们之间的空间交互强度。
(a)
(b)
(c)
图1 几种不同形式的空间汇总操作。(a)对普通场(如DEM)进行汇总(如取平均值),得到空间强度度量;(b)对对象场进行汇总(如计数),得到空间广延度量;(c)对流进行汇总,得到两个地理单元(A和B)之间的空间交互(其中汇总时考虑了方向性,如果不考虑方向,则空间交互强度为7)。
3. 地理空间效应
3.1空间异质性效应
空间异质性(Heterogeneity)与同质性(Homogeneity)相对,具有形态(Form)和过程(Process)两个层面的含义。空间形态的异质性描述地理要素空间分布的非均匀性,即空间场f(x)的取值随空间位置变化,若x1≠x2,则较大概率有f(x1)≠f(x2)。由于描述地理现象的场取恒定值是一种极端简单情形,因此这一层面的异质性是普遍存在的。但在实际应用中,受观测手段限制或出于人为简化的需要,也会将某个局部区域内的空间场视为同质。文献进一步区分了空间局部异质性和空间分层异质性,如果子区域统计的方差之和小于区域总方差则存在空间分层异质性。空间过程的异质性指数据在不同空间位置的生成机制存在差异,表现为相应模型的形式或参数随空间位置变化,也称为空间非平稳性(Spatial Non-stationarity),它是环境和社会科学领域建模中的常见现象。空间数据的异质性不能推出空间过程的异质性,例如每个位置取值独立同分布的空间随机场,其单次采样的结果(即观测到的空间场)很可能是异质的。地理加权回归系数反映的变量间关系的空间变异即是空间过程异质性的一种表现形式。而在空间随机场的视角下,本文所述的空间过程同质性是严平稳性的一种弱化,前者只要求每个位置点处的随机变量服从相同的分布,后者还要求任一组位置点处的联合分布在平移后保持不变。在方差有限的条件下,地统计学中常用的二阶平稳性是严平稳性的另一种弱化。
空间异质性是地理学存在的学科基础,同时也对地理分析带来了挑战。空间非平稳性的存在,意味着像其他自然科学(如物理学)那样,采用全局建模范式(即对研究区域内所有数据点建立单一模型)通常难以适用,因此有“物理学嫉妒(Physics Envy)”的说法。值得注意的是,由于空间过程无法直接观测,只能由可观测的空间数据推断得到,建模得到的非平稳性不一定是真实的,如遗漏变量和函数形式误设都可能导致伪异质性。此外,对描述数据或过程的谓词进行泛化,可以将异质转化为同质。给定两个场f1和f2,及空间位置x1和x2,在位置x1有f1(x1)=3f2(x1),在位置x2有f1(x2)=5f2(x2),则可以将系数视为一个新的空间变量c,从而使得f1和f2之间遵循相同的规律f1(x)=cf2(x)。在此意义上,空间异质性具有相对性。
3.2空间近邻效应
空间依赖是指由于所研究的变量的性质和空间单元的大小、形状和配置而导致的空间参照数据之间的关系,它描述了广泛观察到的空间数据方差随距离增加的趋势。空间依赖的近邻效应反映了地理现象这样一种情况:给定场f1、f2,在位置x观察到的数值f1(x),取决于附近满足d(x,x')<δ的近邻位置x'在同一个场中的观察值f1(x'),或者不同场的观察值f2(x')。因此,空间依赖不仅包括不同单元同一变量间的空间依赖,也包括不同空间单元、不同变量间的空间依赖。这种空间关联与位置近邻之间的关系,在Tobler提出的地理学第一定律中得以表达。与空间异质性相似,空间依赖的近邻效应也可以从数据层面延伸到过程层面,即近邻位置具有相似的空间过程。
空间依赖及近邻效应对地理分析意义重大。如果地理现象仅仅存在空间异质性,而没有呈现出空间依赖所定义的规律性,那么将无法发现有意义的空间分布模式,也无法识别有意义的地理要素。例如,地理学家之所以能够建立高原等地貌概念,正是因为在描述地形的场中,相近的区域地形特征相近,从而形成有意义的、空间连通的地貌单元(如山谷)。此外,如果近邻效应不存在,意味着很多空间分析方法(如空间插值)将会无效,这将从根本上动摇地理分析的根基。
空间依赖存在距离阈值,在间隔超过距离阈值(如地统计学中的变程)之外的两个位置之间,不存在空间依赖性,换言之,超出阈值之外的两个位置不具有近邻关系。在地理分析中,通常用空间自相关来衡量不同空间单元间同一变量间的空间依赖。度量和理解空间数据的自相关有助于帮助人们理解空间数据的分布模式,并为基于空间自相关的空间插值提供了理论基础。但是,空间自相关的存在违背了经典统计学中变量独立的假设,因此也可能给空间分析带来困难。例如空间自相关使得经典统计抽样方法应用于空间数据时产生样本方差畸变、有效样本量偏少等问题,也会导致普通最小二乘法在空间回归中产生无效估计或不可靠的统计推论。
3.3距离衰减效应
在地理空间中,地物之间存在不同强度的联系,并以物质、能量、信息等方式进行移动和交换,这个过程被称为空间交互。空间交互作为一类重要的二阶量,蕴含了动态过程,在不同位置间构建联系,形成特定的空间结构,从而为地理时空格局研究提供了重要“窗口”。
空间交互受到距离衰减效应的控制。一般而言,两个位置空间距离越近,发生交互的可能性越高,这一点同样也符合Tobler第一定律的内涵。距离衰减有微观和宏观两种表现方式。微观上,两个距离较远的位置之间,由于更高的成本以及更多的干预机会,从而发生交互的概率降低。宏观上,个体的交互概率与距离的负相关关系表现为:在其他变量相对稳定的情况下,两个地理实体之间的交互总量随距离增加而变少。随着交通和互联网的快速发展,空间交互成本不断降低,距离似乎越发无足轻重,所以有“距离消亡”的论断。但是最近的研究发现,在手机通信、以及互联网搜索等非空间移动中,距离的影响虽然有所减弱,但依然是交互建模中不可忽略的影响因素。值得指出的是,空间交互和空间依赖都体现了距离的影响,但是空间交互具有全局性,对于给定研究区,乃至地理学研究的最大范围——整个地球表面,其间的两个位置都可以存在空间交互,但是空间依赖则是局部的,当超过特定阈值后,可以认为空间依赖不存在。因此,可以分别用长程距离衰减函数(如负幂律函数)和短程距离衰减函数(如负指数函数)来刻画这两种现象。
3.4尺度效应
地理要素通常遵循一定程度的斑块分布,在空间中呈现出聚集或排斥现象。为了更好地对斑块空间模式进行分析和概括,往往需要将空间划分为特定面状单元,这一操作称为空间分区。在划分的离散空间单元上,通过汇总函数生成的单元属性值(也称空间聚合量)能够概括原始地理空间场的斑块分布模式。基于不同分区大小和形状计算的空间聚合量可能表现出不同的空间模式、空间分布关系或统计相关关系等。由于空间分区的形状可以任意复杂,并且受到人为影响,如历史上经典的Gerrymander选区划分事件,因此研究更多关注分区大小,即尺度效应的影响,并假定分区形状相对简单。任何地理空间分析都建立在特定空间区划定义方式下,理解和模拟尺度效应是准确分析空间模式和地理过程的前提。
尺度效应体现为变量统计指标及多属性相关关系等随尺度变化而变化。相关研究已经表明单变量方差、多变量相关系数及回归参数等统计特征和空间尺度选取密切相关,并且空间广延量相对于空间强度量对尺度变化更加敏感。虽然部分研究曾试图模拟尺度效应并处理尺度效应带来的问题,如利用半变异函数识别空间自相关的变程,但这类方法仅使用特定尺度下的地理空间数据计算不同距离上的统计量,并没有评估在多个尺度上聚合数据本身后的统计量变化。另有一些方法试图通过最大化聚合空间内部同质性来寻求最佳尺度,但这涉及到方差—协方差矩阵、复杂的统计推导和计算过程,因而没有被广泛推广。因此,当前常用的最佳尺度选择方法仍是通过比较同一数据和方法在不同尺度下的差异来实现。尽管如此,考虑到不同地理现象或过程有着不同的尺度特征,仍需要更多理论与方法来处理尺度效应带来的问题,寻找通用方法模拟尺度效应,并据此解释地理现象或过程背后可能的机理性因素。
3.5 四种地理空间效应的逻辑关系
四种地理空间效应存在着机理上的逻辑关系。首先,空间异质性是地理现象分布的基本特征,也是理解其他三种空间效应的逻辑基础。对于形态完全同质的空间场,讨论空间依赖没有意义;面状单元的划分方式也不会对分析结果造成影响,从而使得尺度效应消失。空间异质性是空间交互产生的原因之一,当异质性在特定语境下表现为互补性时,则会成为空间交互的促进因素。空间依赖一般随距离增加而减弱,其强度和距离衰减程度也可能随空间位置变化,这可视为空间过程异质性的一种表现形式。
其次,空间依赖的近邻效应和空间交互的距离衰减效应在形式上很相近,但前者表示的是变量的空间配置模式,而后者则表达了动态过程(物质、人、信息等在空间的流动),是形成空间依赖的原因。简单而言,就是相邻位置之间由于空间异质性,形成空间变量的梯度(如温度梯度),进而导致流动和交互(如空气流动),并消弭梯度(空气流动使得在一定范围内温度变得一致),形成空间依赖。在人文地理现象中,该过程同样存在,如Castells等强调的流对于空间结构的影响。在度量空间依赖时,通常假定距离越近,空间依赖就越强,但欧氏距离并不是判断依赖的唯一度量。空间位置距离较远的两个区域之间也可能存在频繁的空间交互,从而增强了区域之间的空间依赖。因此人们可以基于空间交互强度设定距离以度量区域间依赖性。这种距离度量方法近些年来被广泛应用,如在COVID-19疫情空间扩散模拟中。另一方面,地理单元间的位置关系及其属性的空间依赖共同决定了可观察到的空间交互模式。空间交互的强度通常存在空间自相关,空间上邻近的单元倾向于拥有接近的属性值,从而导致邻近空间交互的起点和终点分别具有比较接近的推力和拉力,再加上邻近空间交互的起点到终点的距离衰减也比较接近,因此邻近的空间交互具有接近的空间强度。
第三,几乎所有的地理空间效应都受到尺度的影响。当对空间进行划分并进行地理现象的概括时,总是假定区域内部是均质的。因此,空间依赖程度的度量受到空间聚合尺度及分区方式的影响。尺度越精细,空间单元间呈现空间依赖的概率越大,形状狭长的单元比形状紧凑的单元更容易出现空间依赖。另一方面,变量在最精细尺度上的空间自相关程度影响尺度效应的表现。细粒度上空间自相关的初始水平,决定了变量的方差随着聚集水平增加而改变的速率,使得尺度效应在具有不同初始空间自相关的数据分布上的表现不同。因而在进行多变量分析时,每个变量的空间自相关程度不同将导致很难找到统一的最佳分区。地理大数据由于具有个体粒度信息的观察能力,使得可以从不同尺度研究空间分布模式的变化。例如,针对空间交互,文献从多尺度的空间交互比较了重力模型与辐射模型,结果显示在较大空间尺度的情况下(如国家尺度),辐射模型的效果最优,而在小尺度空间下(如城市尺度),重力模型的表现则更好。
四种地理空间效应之间的内在逻辑关联性,使得构建一个统一的表达框架成为可能。图2表示了构建在一系列基础概念之上的四种效应的关系。其中,空间和场是最为核心的两个概念,其中空间定义了地理研究对象的分布范围,而场则充斥于地理空间,形成了不同地理研究对象的抽象,如地形、气候等。在此基础上,可以通过维度这一几何视角,进一步梳理四种空间效应的概念模型。
首先,位置是0维的空间对象,根据场的定义,在每个位置都有特定的表征形态或过程的属性值与之对应,这体现了空间异质性效应。
其次,1维的空间对象定义为两个位置形成的点对,点对是形成空间结构的基础,从而定义不同的地理偶极(或二阶量)。其中,以下三类地理偶极尤为关键:1、点对之间的距离;2、基于两点分别对应的属性值,计算其相似度;3、两点之间由于不同的流形成的空间交互。相似度和距离的关系体现了近邻效应,而空间交互和距离的关系则表达了距离衰减效应。
第三,在地理空间中,2维空间对象可以定义为区域。为了对地理知识进行概括和归纳,需要根据特定的区域划分结构,对每个区域内部所有位置的场属性进行聚合,得到一个概括的聚合量(如平均高程),这导致了尺度效应。
综上所述,四类空间效应涵盖了地理空间的0~2维空间对象及其相互关系,这也表明了该分类体系的合理性。
图2 四种空间效应的统一表达框架
4. 空间效应的地理空间分析方法
4.1 传统分析方法
在地理信息科学以及相关领域构造分析方法时,需要充分考虑空间效应,从而体现“空间是特殊的”这一论断。由于地理空间分布同时也是地球科学、生态学、经济学等其它学科的研究对象,因此不同学科对于同一空间效应发展了不同的方法,它们都被吸纳成为地理信息系统的分析工具。下面分别针对四种空间效应进行方法梳理。值得指出的是,空间异质性和空间依赖在实现中往往通过相近的方法(如空间计量模型)体现,因此将其合并介绍。
4.1.1 空间异质性和空间依赖中的近邻效应 空间统计(Spatial Statistics)的发展是为了量化研究区域内的空间聚集程度(Spatial Aggregation)、空间自相关、或空间方差。Moran’s I和Geary’s C是常见的空间自相关度量指标,可以用来描述全局的空间依赖程度。Anselin 在全局空间自相关指标的基础上提出LISA指标,以度量空间数据的局部空间依赖,分析空间数据的局部关联模式。这些局部空间统计的优点之一是可以在每个采样位置映射空间自相关的值,从而识别研究区域内具有正(热点或冷点)或负的(空间异常点)局部自相关的子区域。在地统计(Geostatistics)的空间预测中,待预测位置x0和一个给定的数据点 xi越接近,这两个值可能就越相似,预测值z(x0)对数据z(xi)的依赖性可由半变异图(Semi-variogram)估计得到。
空间计量模型也经常被用来研究由空间引起的各种特性,其分析技术旨在纳入地理上相近的位置(或区域)之间的统计相关性。从普通最小二乘(OLS)模型开始,空间计量经济学文献开发了不同单元之间三种不同类型的空间依赖效应的模型:(i)因变量之间的内生相互作用效应(Y与WY),(ii)解释变量与因变量间的外生相互作用效应(Y与WY),以及(iii) 误差项之间的交互作用(ε与Wε)。在OLS模型的基础上增加不同的作用项,即发展为不同的空间计量模型。空间计量模型可以对不同单元的同一变量或不同变量之间的空间依赖进行建模,从而更好地解释地理过程,更加精准的预测地理现象。模型中的系数可以表征空间单元间的依赖程度,也可以度量变量间的直接效应和空间溢出效应,前者表示解释变量对本区域因变量的影响,后者则表示解释变量对其他区域因变量的潜在影响,从而将区域间的变量依赖程度分离。
当允许空间计量模型中的参数随空间位置变化时,可以揭示数据背后可能存在的异质空间过程,其实现包括空间展开法、地理加权回归、贝叶斯空间变参数模型、基于空间滤波的局部回归等。空间展开法将回归模型中的系数进一步表达为位置坐标的函数。地理加权回归针对同一组变量,采用加权最小二乘法为每个空间单元分别估计回归系数,其中各样本的权重随距离增加而减小。这一方法还可以探测各自变量对因变量作用尺度的差异,已成为应用最为广泛的空间非平稳性探测方法之一。这类基于位置的模型不仅可以表征空间过程的异质性,还体现了空间过程的依赖性。比如在地理加权回归中,模型中各空间单元间的空间权重矩阵表征了空间依赖。这种空间依赖是随距离衰减的,空间单元间的距离越近,赋予的权重值越高,反之,权重值则越低。特征向量空间滤波试图通过去除嵌入的空间依赖性将空间依赖变量转化为独立变量,即将被解释变量的空间自相关效应从解释变量中分离,从而达到校正空间回归模型的目的。特征向量空间滤波方法还可以被推广至空间交互数据,并在人口迁徙流,货物运输流等多种情况下实现了较好的拟合效果。
4.1.2. 空间交互的距离衰减效应 空间交互模型主要研究给定两个地理实体间交互强度的数学模型,建立交互强度Tij与起点Oi、终点Dj以及交互成本cij之间的形式化表达。常见的空间交互模型包括重力模型、中介机会模型、最大熵模型和辐射模型。在多种模型中,距离被显式或隐式地以交互成本表达在模型中。但是针对不同类型的交互,可以选择多种度量方式确定距离,如欧氏距离、曼哈顿距离、成本距离等,同时距离衰减函数也存在多种方式,如负幂律函数、负指数函数等等。Liu等讨论了多种衰减函数形式的特点及适用场景。空间交互模型中,重力模型由于具有更少的参数和可解释性,被更广泛地接受和拓展。基于起点、终点的流入、流出量约束,可以将重力模型分为单约束、双约束以及无约束模型。Simini等指出重力模型对于起点和终点的属性考虑有限,并且没有纳入地理语境信息,因此设计了Deep Gravity Model将神经网络与重力模型结合,从而考量更丰富的起讫点属性和地理语境,进一步提高了交互模型的预测能力。
值得指出的是,在空间分析中考察基于一对位置形成的二阶量(包括空间依赖以及空间交互)时,除了它们之间的距离,方向也是一个经常被关注的度量。由于空间异质性的存在,对于给定点x,在不同角度上的位置x'与x形成的度量存在差异,即各向异性(Anisotropy)。因此,在构建空间分析方法时,考虑方向因素,可以提高分析效果,如在空间插值中,通过构建各向异性的半变异图,可以构建方向Kriging方法,Mai等则提出了异性密度的聚类算法以更好识别空间类簇,而在流和空间交互的模式分析中,方向也是度量其自相关特征的重要因素。
4.1.3. 空间分区的尺度效应 寻找合理的分区方案或构造尺度不变的方法指标为处理尺度效应提供了可能。从优化分区角度考虑,空间隐式的分区方法要求区域内部尽可能同质,但不能保证区域连续,需要相对主观的空间连续性处理。空间显式的分区方法则在区域同质性的优化目标基础上,严格地构建了空间连续性约束,例如AZP,ARISeL,REDCAP等。从尺度不变角度来看,在由改进的尺度空间聚类方法定义的不同层级的区域集群上,研究者得到了一致的回归结果,说明该方法可以削弱空间单元尺度选择对分析带来的影响。此外,地理探测器针对空间分异性提出,采用q统计量度量子区域内部方差与全区总方差的差异,在单变量情形下可用于评估分区效果和非线性归因,在多变量情形下可探测解释因素和因变量的广义交叉关系。
4.2人工智能方法
近年来,以深度学习为代表的人工智能(Artificial Intelligence, AI)技术的快速发展,推动了多个学科的进步,AI for Science正越来越被人们接受。对于地理学而言,空间规律发现、空间过程模拟、以及空间决策优化,可望在大数据以及人工智能支持下自动实现。如何将地理空间效应融入AI方法,使其更好地完成空间分析任务,是地理信息科学的核心研究议题之一。特别地,空间数据独有的空间依赖和空间异质性,使得独立同分布假设不再成立,因此Goodchild等提出了弱可重复性(Weak Replicability)的概念来描述人工智能模型在空间效应影响下的泛化性约束。
深度学习模型中常见的卷积操作(包括图卷积)可用于建模邻近空间单元的相互影响,被认为是空间依赖效应在模型结构中的体现。统计建模得到的对空间依赖性和异质性的估计不一定是准确的,如变量共线性、遗漏变量、函数形式误设等都可能导致对空间效应错误的定量解读。在GeoAI中,对于空间显式(Spatially-Explicit)模块的设计尤为关键,这涉及到考虑空间依赖、距离衰减、空间异质性、尺度等空间效应的更加灵活的模型先验假设。例如,利用卷积生成对抗神经网络可以实现对空间依赖的灵活表达,增强对空间自相关和局部特征的学习,用于实现更精确的空间插值和地统计建模。针对空间异质性,可将神经网络与地理加权回归结合,用多层感知机取代地理加权回归中的核函数,以实现回归系数空间变异的精确建模。Spatial-Net框架在学习目标任务(如遥感图像分类)的同时,自适应地将研究区划分为若干子区域,使神经网络模型能够揭示异质的空间过程。利用图卷积神经网络进行空间回归,可以利用部分标注的训练数据实现半监督学习和预测,也可通过引入局部权重顾及空间非平稳性。此外,空间依赖也对模型评价带来了挑战。在空间预测任务中,随机划分训练集、测试集往往使训练样本、测试样本在空间上交错分布;而由于空间自相关的存在,这种划分方式降低了预测的难度,模型的预测精度因此被高估。为消除这一偏差,学界提出了空间留一验证、空间k折交叉验证等方法,在数据集的划分中显式考虑空间依赖的影响。
5. 结论
“空间分析”是地理学的四大传统之一,也是构建地理分析方法的关键要素。空间的特殊性是地理信息科学成为一个研究领域的学科基础。然而,空间对于地理分析有哪些影响,目前缺少系统化的梳理。本文在定义一系列地理空间核心概念基础上,归纳了四类地理空间效应,即空间异质性效应、空间依赖的近邻效应、空间交互的距离衰减效应、和空间分区的尺度效应,探讨了四类效应的内在逻辑关系,建立了统一的表达框架。在地理信息科学及相关研究领域,如地统计学、空间计量经济学研究中,都实现了相应的分析方法和工具,体现不同的空间效应,因此本文对其进行了梳理,以期指导方法的构建。最后,我们指出人工智能方法对地理学带来了全新的机遇,在引入相关方法进行地理分析时,需要充分考虑四类空间效应。
值得指出的是,尽管空间效应源于对于地理现象的分析,但是空间效应的分析方法可不局限于地理空间,如地理探测器q统计被用于细胞分析等。展望未来,随着对地理空间认知的进一步加深,以及地理空间分析方法的进步,地理空间效应的内涵和外延也将随之发展,包括出现新的空间效应,以及不同类型空间效应逻辑关系的演化。
参考文献:
刘瑜,汪珂丽,邢潇月,郭浩,张维昱,罗琴瑶,高松,黄舟,李海峰,李新,王姣娥,王劲峰,朱递. 地理分析中的空间效应, 地理学报, 2023 78(3): 517-531.
素材来源:S3-Lab
材料整理:刘瑜
内容排版:张俊龙