在城市A训练的机器学习模型,应用于城市B,往往就“失灵”了(比如房价预测,会体现为系统性地高估或低估),这是由于城市间是有差异的。通常情况下,我们会思考如何提高模型的泛化能力,使得在城市A训练的模型迁移到其他城市也有较好的表现,尽可能降低偏差。然而,我们认为,这些偏差潜在地为我们了解城市间的不同提供了宝贵的价值。本研究从一个相反的视角讨论迁移性差的问题——我们如何利用机器学习模型在城市间迁移过程中产生的偏差,来度量城市间本身的差异。
本研究设计了一个研究框架来实现这个目标。该框架首先分别建模不同城市中当地物质环境(通过街景影像捕捉)与城市指标(如房价、犯罪率等)的关系(训练模型),随后将在一个城市A中训练的模型迁移到不同城市B中进行预测(即用A的模型评估B的物质环境关联的城市指标)。这个过程中会产生迁移偏差(transferred bias),即由于物质环境与模型的错配而导致的不准确估计与城市B处真实的城市指标的差异。研究结果表明,迁移偏差可以有效地量化城市间物质环境和社会经济环境的差异,从而进一步支持对城市可持续发展的探究。本文发表于《美国地理协会会刊》(Annals of AAG)。
本研究以房价为实例评估不同城市间物质环境与社会经济环境的发展平衡性,具体方法框架如图1所示。
图1 评估城市之间物质和社会经济环境平衡性的两阶段框架。
首先我们使用深度学习方法使用每个城市的街景影像估计当地房价,捕捉当地街道景观和房价之间的关系。在这个过程中,因为不同城市的物质环境和房价之间的关系主要被当地的社会经济环境特征,如文化、历史、政策、经济状况所塑造,城市的这些社会经济环境特征被隐式地嵌入到了深度学习模型中。然后,我们将一个城市的街道景观引入到从另一个城市训练的模型中,量化迁移偏差。通过不同的迁移偏差比较策略(如图2所示),我们可以量化城市间物质环境和社会经济环境的差异,进而评估这两种环境之间的城市平衡性。
具体的评估方法如图2所示。当将某一个城市m的街景影像输入其他城市r的模型,会形成对m城市房价的系统性高估或者低估,该偏差反映了m与r城市社会经济环境间的差异(如图 2a所示);而当将来自不同城市的街景影像输入某一个其他城市r训练的模型时,该迁移偏差量化了在城市r的视角下,这些城市在物质环境中的差异(如图 2b所示)。
图2 计算物质和社会经济环境迁移偏差的过程。(a) 社会经济环境中的迁移偏差;(b) 物质环境中的迁移偏差。
本研究使用了处于不同发展阶段与地理位置的10个美国城市作为研究区域。结果显示,迁移偏差可以有效识别出不同城市分别在物质环境与社会经济环境两方面的发展差异,并通过层次聚类揭示了不同城市发展差异的不同模式。例如,西雅图等城市(图3a中上方为红色标记的城市)的物质环境与集群外的城市相比表现出明显的负迁移偏差,这表明他们的城市环境整体较优;相反,丹佛等城市(图3b中左侧为蓝色标记的城市)的社会经济环境与集群外的城市相比表现出明显的正迁移偏差,这说明他们的城市社会经济环境较差。我们还根据图3的结果对这些城市的两个环境发展的平衡性进行了评估,如图4a所示。图4b还显示,从迁移偏差的角度来看,处于相同发展阶段的城市倾向于相互聚集。
图3 迁移偏差结果。(a)城市物质环境的迁移偏差。(b)城市社会经济环境的迁移偏差。
图4 (a)根据城市的物质和社会经济环境是发达还是欠发达,城市被划分至2 X 2的象限图。(b) 物质和社会经济环境的整体迁移偏差的散点图。城市根据其在图5a中的划分结果进行分类。
这项工作提出了一个全新框架,利用机器学习模型训练和预测过程中产生的迁移偏差来度量城市的物质环境和社会经济环境之间的不平衡性。结果表明,迁移偏差能够有效评估物质环境和社会经济环境发展在城市间的相对平衡程度,从而进一步支持对城市可持续发展和演化过程的研究。
Hou, C., Zhang, F., Kang, Y., Gao, S., Li, Y., Duarte, F., & Li, S. (2024). Transferred Bias Uncovers the Balance Between the Development of Physical and Socioeconomic Environments of Cities. Annals of the American Association of Geographers, 1-19.
文章转自未名时空