登陆注册
8085800000016

第16章 1 地理加权回归(GWR)模型的有关知识

一、空间非平稳性

社会科学家长期以来,面对一个困难的问题和一个潜在的困境:是否有任何“定理”支配着社会活动,如果没有,定量的方法还有任何有效性吗?这个问题从下面两个子问题来看更清楚。第一个问题是模拟社会科学的模型不是完全正确的,第二个问题是从一个系统得到的结果几乎很少能复制到另一个系统。物理活动常常是趋于平稳的(如著名的能量和质量公式E=MC2,不管采用什么度量方法,也不管你在哪个国家或者城市,这个公式都是成立的),而社会活动经常不是平稳的,一个关系的度量部分地依赖于所采用的度量方法。在空间活动下,我们称这种非平稳性为空间非平稳性。本质上,我们试图调查的空间活动在空间中可能不是保持不变的。

在建模时,参数可能会随着空间而变化。通常有以下三种可能原因导致空间非平稳性:第一是,随机抽样变异,如假定我们从一个数据集中取几个空间子数据集,然后分别刻画同一个模型,则我们不会期望所获得的参数估计值是完全相同的:由于使用不同的抽样数据,差异是存在的。第二是,不管什么原因,一些关系本质上在不同的空间是不同的。如由于人们的态度或者偏好的差异,或者由于不同管理的、政治的观点,在空间中对相同的刺激会产生不同的反应。第三是,用来估计关系的模型是一个对现实有误的描述,一个或更多相关的变量要么被忽略了,要么被一个不正确函数来表示了。

假定空间非平稳性是存在的,那么用像OLS这样的全局分析方法就无法反映非平稳性,因此有必要用局部的技术手段分析空间非平稳性。FOTHERINGHAM ET AL。(2002)指出分析空间数据的局部分析方法分为三类:单变量空间数据局部统计学、多变量空间数据局部统计学、运动的空间模式。

单变量空间数据局部分析方法有4种类型:点模式分析的局部、局部地理分析、局部过滤和空间依赖的局部度量。点模式分析的局部形式首先由奥彭肖等人(OPENSHAW ET AL。,1987)发展,然后由福瑟林厄姆和张(FOTHERINGHAM AND ZHANG,1996)修正的地理分析机器(GEOGRAPGICAL ANALYSIS MACHINE,GAM),GAM的基本思想是识别数据集的局部感兴趣部分,如识别疾病集聚。局部地理分析是随着可视化数据的技术发展而产生的,主要有克雷西(CRESS-IE,1984)的空间滞后散点图,阿斯莱等人(HASLETT ET AL。,1991)的变量云图(VARIOGRAM CLOUD PLOT),安瑟兰(ANSELIN,1996)的MORAN散点图。空间局部过滤是把图像处理中高通滤波器和低通滤波器的技术应用于空间分析,可从如下的学者的研究中找出局部过滤例子:施密德和麦卡坎内尔(SCHMID&MACCANNELL,1955),昂温(UNWIN,1981),郑(CHENG,1996)。空间依赖的局部度量是从空间依赖的全局度量基础上发展而来的,主要是研究空间集聚和空间自相关。许多学者对此进行了广泛的讨论:格蒂什和奥德(GETIS&ORD,1992),奥德和格蒂什(ORD&GETIS,1995,2001),安瑟兰(ANSELIN,1995,1998),罗杰森(ROGERSON,1999),罗森堡(ROSENBERG,2000),布伦斯坦(BRUNSDON,1998)。

多变量空间数据局部分析方法有:空间扩展方法(THE SPATIAL EXPANSION METHOD,CASETTI,1972,1997;JONES&CASETTI,1992;FOTHERINGHAM&PITTS,1995)、空间自适应过滤法(SPATIALLY ADAPTIVE FILTERING,WIDROW&HOFF,1960,TRIGG&LEACH,1968)、多层模型(MULTILEVEL MODELLING,GOLDSTEIN,1987)、随机系数模型(RANDOM COEFFICIENT MODELS,AIKIN,1997)、空间回归模型、地理加权回归(BRUNSDON ET AL。,1996,1999;FOTHERINGHAM ET AL。,1997B,1998,1999,2002)。

空间扩展方法通过设定参数为其他属性(如,地理坐标)的函数使得参数估计得以局部地变化,但是也有一些局限。该方法显示变量在空间上的变化趋势,却受限制于扩展方程的复杂性以及扩展方程的选择需要先验经验。空间自适应过滤法也被用于空间非平稳性,但是该方法采用一种相当特殊的方式,而且得到的参数估计值无法进行统计检验。多层模型(MULTILEVEL MODEL)和随机系数模型都假定所估计参数是随机变量,前者假定为高斯分布,而后者假定为有限混合分布。两种方法都是采用贝叶斯定理来估计参数,没有考虑到空间依赖性。空间回归模型是混合的模型,尽管认识到了数据间的局部关系,但是局部关系差不多是通过一个全局自相关统计量来度量的,而且模型的结果也是一个全局参数估计的集合,因此可以把它理解为“半局部”。地理加权回归模型把这些缺点都克服了。

二、地理加权回归方法的机制

地理加权回归(GWR)方法是1996年以后发展起来的,广泛用于处理空间非稳定性的统计方法。它吸引了下列学者的广泛注意:布伦斯坦等人(BRUNSDON ET AL。,1996,1999);福瑟林厄姆等人(FOTHERINGHAM ET AL。,1997B,1998,1999,2002);梁怡等人(LEUNG ET AL。,2000A,2000B);黄和梁(HUANG AND LEUNG,2002);佩茨等人(PAEZ ET AL。,2002A,2002B);余丹林等人(YU ET AL。,2004)。简而言之,GWR发展了卡塞蒂(CASETTI,1972,1992)扩展回归方法的思想。特别地,根据托布勒(TOBLER,1970)的地理学第一定理,GWR容许回归系数在空间中变化。

(一)基本方法

考虑如下的全局回归模型:

地理加权回归(GWR)扩展了传统的回归框架,容许局部而不是全局的参数估计,扩展后的模型如下:

其中,(UI,VI)是第I个样本点的空间坐标,βK(UI,VI)是连续函数βK(U,V)在I点的值。如果βK(U,V)在空间上保持不变,则模型(5.2)就变为全局模型(5.1)。因此,GWR方程(5.2)认可空间变化关系可能是存在的,并且提供了一种可度量的方法。

按照现在的情况,由于未知的变量比已观察到的变量还要多,在校准方程(5.2)时将会出现许多问题,然而这类模型在统计文献和讨论(ROSENBERG,1973,HASTIE&TIBSHIRANI,1990,LOADER,1999)中可以发现。福瑟林厄姆,布伦斯坦,查尔顿(FOTHERING-HAM,BRUNSDON AND CHARLTON)借鉴黑斯蒂和蒂希兰尼以及洛亚德尔的经验,假定系数不是随机的,而是其他一些变量(如,空间位置)的决定函数。用通常的方法处理像这样的模型时应该注意到,尽管局部系数的无偏估计是不可能的,但是只有小的偏差的参数估计还是可以找到的(此处,偏差产生于根据除了位置I以外所收集的数据,来推断在位置I处的非稳定过程的结果)。假设参数表现出一定程度的空间一致性,那么接近被估计位置的估计值有相似的大小和符号。因此,当对给定位置I的参数值进行估计时,可以用全局方程(5.1)来近似代替位置I的方程(5.2),使用和位置I相近的位置数据集来进行回归。对于其他位置的参数估计,也采用类似的方法,以此类推。

如上所述,方程(5.2)的刻画过程含蓄地假设:接近位置I的观察数据比那些离位置I远一些的数据对βK(UI,VI)的估计有更多的影响。故加权最小二乘法为理解 GWR提供了一个基础,在GWR中,一个观察值是通过与位置I的邻近来加权的,因此,一个观察值的加权在刻画过程中不再保持不变,而是随着I而变化。

就是说:β^(UI,VI)=(XTW(UI,VI)X)-1XTW(UI,VI)Y(5.3)

其中:

β^是β的估计值,N是空间样本数,K是自变量的个数,WIN是对位置I刻画模型时赋予数据点N的权重。

(二)空间权重函数的选择

首先,考虑全局模型(5.1)所隐含的权重函数:

其中,J代表空间中数据可观测到的特定点,I代表空间中参数被是1

另一个选择是排除一个给定距离D以外的所有点,这些点的权重被赋予0.如下所示:

这个权重函数是一个移动窗口,会造成不连续问题。福瑟林厄姆(FOTHERINGHAM,1996),查尔顿(CHARLTON,1997)用此函数作为权重函数进行了相关的研究。

一个克服权重不连续问题的方法是把WIJ指定为距离DIJ的连续且单调递减的函数,如采用如下的高斯函数:

其中,B是带宽,如果点I的数据被观测,则其他点的权重将根据高斯曲线随着距离DIJ的增加而减少。给定带宽B,距离DIJ越大,位置J所赋予的权重越小;另一方面,给定B,离点I足够远的点的权重将会趋于0.在现实中,与此对应的情形是如果两个地区的距离充分远,则一地区的区域经济发展对另一地区的经济发展没有影响。或者,采用如下的双重平方函数:

该函数特别有用,因为它提供了一个连续、近似高斯权重函数。

(三)校准(CALIBRATE)空间加权函数

从GWR的角度来看,参数估计部分地依赖于加权函数或核函数的选择,如在方程(5.5)中,如果D变得越大,则局部模型的解越趋于全局模型的解;如果D等于所研究空间任意两点间的最大距离,则两个模型将是相等的。又如在方程(5.6)中,若B趋于无穷大,任意两点的权重将趋于1,则被估计的参数变成一致的,此时GWR也等于OLS;反之,当带宽变得更小时,参数估计将愈加依赖于接近I的观测值。因此,问题的关键是如何选择一个适当的带宽或衰减函数。有许多标准适用于带宽的选择。

考虑方程(5.6)中B的选择,一个可能的方法是根据“最小平方”标准来选择B,使如下的数值最小:

其中,^YI(B)是使用带宽B来计算得到的YI的拟合值。为了得到YI的拟合值,需要在每个数据点估计βK(UI,VI),然后结合X-值计算YI的拟合值。然而正如FOTHERINGHAM ET AL。(1997A)提到的一样,在最小化方程(5.8)残差平方和的过程中会有个问题。假设选择很小的带宽,除了I点外所有其他点的权重都变得可以忽略,则样本点的拟合值将趋于其真实值,结果导致方程(5.8)的值为0,显然带宽B趋于0对分析是无益的。

为了解决这个问题,克利夫兰(CLEVELAND,1979),鲍曼(BOWMAN,1984)建议采用一种称作交叉确认(CROSS-VALIDATION,CV)的方法,此处CV如下:

其中^Y≠I(B)是YI的拟合值,在刻画过程中省略了点I的观测值。这样,当B变得很小时,模型仅仅刻画点I附近的样本而没有包括I本身。

为了取得最优的带宽,一个普遍采用的方法是使GWR模型的AIC最小(FOTHERINGHAM ET AL。,2002)。GWR模型的 AIC是根据HURVICH ET AL。(1998)的研究结果定义的。

其中,下标C表示“修正后的”AIC估计值,N是样本的大小,^σ是误差项估计的标准离差,TR(S)是GWR的S矩阵的迹,它是带宽的函数。S定义如下:

其中,Y和^Y是因变量和其估计值的向量。把不同的自由度考虑进两个模型后,这个AIC有利于评价GWR是否比OLS更好地模拟了数据。此外,式(5.10)还有更简单的形式:

(四)空间变异的显著性检验

根据上面讨论的方法得到GWR模型的参数估计值后,还有两个关键问题需要解决:一个是GWR模型是否比OLS模型更好地、显著地描述变量间的关系,另一个是每个参数估计集合是否在所研究的区域展示了空间变异。LEUNG ET AL。(2000 A),布伦斯坦等人(BRUNSDON ET AL。,1999)分别给出了解决上述两个问题的方法。在这里,简单介绍梁怡等人的工作:

解决第一个问题的方法之一是:

(1)给出零假设H0:GWR与OLS在描述变量间的关系上没有显著的差异;

(2)构造统计量F1:

GWR的残差平方和是:

其中,I是N阶单位矩阵,L记为:

L是N阶方阵,X TI是矩阵X的第I行,W I是W(I)。OLS的残差平方和是:

其中,Q=X(XTX)-1XT,δ1 =TR((I-L)T(I-L)),δ2 =TR[(I-L)T(I-L)]2

(3)检验假设。由于近似地有F1~F(δ21/δ2,N-K-1),给定一个显著水平 α,F1-α(δ21/δ2,N -K -1)表示上100(1 -α)分位数。如果F1 <F1-α(δ21/δ2,N-K-1),就拒绝零假设,由此推断GWR模型比OLS模型更好地、显著地描述变量间的关系;反之,就可以说和OLS模型相比,GWR模型不能显著提高拟合效果。

解决第一个问题的方法之二是FOTHERINGHAM ET AL。(2002)提出的利用式(5.10)和式(5.12)来判别。

解决第二个问题的方法是:

(1)给出零假设:

H0:βI(U1,V1)=βI(U2,V2)=…=βI(UN,VN),I=0,1,…,K

H1:不是所有的βI(UJ,VJ)(J=1,2,…,N)都相等。(2)构造统计量F3(I):

这里,F3的分布近似于F-分布。其中:

这里,β^(I)=β^I(U1,V1)=β^I(U2,V2)=…=β^I(UN,VN),J是所有

元素都为1的N阶方阵:

EI是第(I+1)个元素为1,其他元素都为0的列向量。

(3)检验假设。由于近似地有F3(I)~F(γ21/γ2,δ21/δ2),给定一个显著水平α,Fα(γ21/γ2,δ21/δ2)表示上100α分位数。如果F3(I)≥Fα(γ21/γ2,δ21/δ2),就拒绝零假设,否则,接受零假设。

同类推荐
  • 西部中小企业创新与发展研究

    西部中小企业创新与发展研究

    本书从基本理论体系上分析了中小企业创新发展过程中的核心问题;重点分析了西部中小企业发展的一系列难点,针对西部中小企业发展的现状,提出了相应的对策与建议等内容。
  • 站在距离消失的地带

    站在距离消失的地带

    本书是一名新华社记者在不同时期对20世纪末至21世纪初中国电信业的问题所写的新闻消息和经济述评。全书分为对话和见证两部分。
  • 改革现场:晚清经济改革始末(全集)

    改革现场:晚清经济改革始末(全集)

    1862年,晚清经济改革拉开序幕,在执政集团与汉族武装集团争权夺利的过程中,马尾船厂、江南制造总局两大军工项目上马。衙门化的国有企业运作效率极低,在1872年开始的一场国企反腐运动中,改革的大门向民营资本开放。自此,1872年成为国有向民营、局部向整体改革的一个起点,也是晚清王朝为自己埋下隐患的起点。以奕、曾国藩、李鸿章、左宗棠、袁世凯、张之洞为首的官方实力派成为改革的主角,以唐廷枢、胡雪岩、盛宣怀、郑观应为首的新旧商人成为改革的先锋。朝廷与商人的较量,国退民进、民进国退的多年交锋,最终使经济改革倒逼政治体制改革。在一场商业势力助推的宪政改革中,1911年晚清走向灭亡。
  • 错觉

    错觉

    我们的生活总是与一种奇怪的错觉相随:我们的眼睛常常不可思议地欺骗自己,我们曾有的刻骨回忆常被自我意识纠正,我们总是自命不凡,即便今天的股票挣了一笔,也认为自己只是小试身手而已。在这本人类行为学的经典之作中,普利策新闻奖得主约瑟夫·哈里南向我们展示了人类的一些有趣行为——我们怎样思考,怎样看,怎样记忆,怎样忘怀,是什么东西引诱我们的人生抉择变得非理性。
  • 咖啡奶茶经济学

    咖啡奶茶经济学

    收录了生活中许多有趣的例子。可能很多人以为经济学晦涩难懂,但是它的基本原理却简易而通俗。将教会你用经济学的眼光看待生活和工作,使你能够在不同的环境下巧妙地应用经济学原理轻松地享受生活。
热门推荐
  • 助妻为虐

    助妻为虐

    倌小央的心中除了美味佳肴和话本儿,还塞了一个身骑白马来的俏哥儿。她磕在瓜子等啊,从髫年等到了及笄,却只等到一个小尾巴莫豆豆。她望眼欲穿:“为啥还是遇不到良人呢?”莫豆豆抢了她的瓜子,歇斯底里:“你眼睛能别长在后脑勺上吗?花鲜朝最帅的未婚男子在此,此时不嫁更待何时!”她掏掏耳朵:“相貌长得不够霸气,名字取得太过随便,本姑娘很难下得去口啊!”“......"而莫豆豆的世界里只住了只小胖妞倌小央。
  • 亡灵索魂:有鬼!

    亡灵索魂:有鬼!

    皓月高挂,皎洁的月光穿过学校的走廊照在楼梯拐角的正衣镜上,月光下镜子诡异的闪烁着朦胧的柔光……明明是酷夏季节,怎么感觉犹如被光溜溜的扔到了北极一样,那寒刺骨髓的冷几乎要把炙热的鲜血凝固成冰……办公楼不高,真的不高。从五层高的办公楼上摔下来,怎么会把人摔的如此支离破碎……俞筱眼看着身边的好友一个接一个诡异离奇的惨死,然而凶手的真面目似乎永远都不能被大家所接受,那明明就是真相,为什么没有人相信?噩梦仍然在继续,死亡也仍然在继续,下一个在极度痛苦中悲惨死去的人又会是谁?促使这一切发生的真相又到底是怎样?伴随着谜团一个个的解开,俞筱惊讶的发现,这离奇可怕的一切开始竟然源于……怎么会这样?
  • 终极大暴君

    终极大暴君

    意外穿越,孟浩发现自己成了一名豪门庶子,并且获得了终极暴君系统,其中有着武侠世界里的各种功法和武技。完成各种成就,就能获得暴君值,只要消耗全部的暴君值,就能立即令人死亡。穿越苏醒,自己的嫡母想害自己,自己的亲哥甚至恨不得将自己除之而后快。在这人心险恶的江湖之中,要么被吃要么吃人,要么死于黑暗,要么融入黑暗。在这重生之世,孟浩究竟会选择随波逐流的平凡一生,还是会选择危机四伏的霸主之路?“我叫孟浩,我定要这江湖,臣服于我的脚下。”
  • 无念无萧

    无念无萧

    我,桃念今生只爱过一个人那就是----林萧然,当然也只是那个说书的公子,并非是如今的林府的少爷.本以为他是纯洁无暇,未经世俗污秽所染的人,结果.....是腹黑,霸道又自私的人,他从为任何人拼过,除了那个人.也是,是我自己太过的自以为是了,想象着那个人是我(小编:林府公子竟也避免不了这追妻的苦喽)
  • 百家姓新读

    百家姓新读

    《百家姓》是我国流行最长,流传最广的一种蒙学教材。它采用四言体例,句句押韵,读来顺口,易学好记。在《<百家姓>新读》中,我们可以看到各个时期、各个不同人物的不同方面,从皇帝到平民,从名人到凡人,在他们的身上我们能够了解到朝代的更替、历史的变迁、文化的积淀,从而能够启迪我们的心灵,开发我们的智慧,使我们懂得应该珍惜什么、追求什么、把握什么。全书涵盖内容广泛,文字通俗易懂,具有很强的可读性和趣味性。
  • 来自异度的童话

    来自异度的童话

    爱情它悄悄地来,又悄悄地离去。带走的是一片快乐的花海,带不走的是无比的思念。没有他的世界一切都变得空虚,有他的世界却让人心痛,痛到骨髓里。她抱着他留下的水晶球,据说这个是他的心,他愿意把心交给她,可是她却想不起来她和他的曾经……
  • 傲娇宠妃:妃你莫娶

    傲娇宠妃:妃你莫娶

    越到架空朝代,成了将军府因逃婚误落悬崖四小姐。上有腹黑三哥,下有呆萌丫鬟,这日子简直了。不想误入圈套皇帝一纸诏书,将她赐给纨绔子弟贤王做王妃。大婚三日,新郎未露一面。你如此傲娇,我就给你来朵绿帽。女扮男装出去逛,找了两大帅哥义结金兰。身份戳穿之时,没想到,老二竟是她夫君,我的个天,兜兜转转,又回来了。不过你可要好好待我,不然你就over了。回到宫中陷入夺嫡风波,这就别怪姑娘我心狠手辣。万万没想到,结拜大哥成了皇帝被害嫡子,与睿王一同逼宫,可怜我女主就这样死了。重回了现代,路遇半仙,重回古代。没想到夫君成了太子,忘记了她。好,你不仁我不义,找我三哥成亲去……
  • 总裁老婆太麻烦

    总裁老婆太麻烦

    没有介绍,自己看。因为我也不会介绍!这是第一次写这种,求收藏!求推荐!求月票!求评语!
  • 撷蔻记

    撷蔻记

    古人云:福兮祸之所伏,祸兮福之所倚。大燕朝的郡主为了嫁给自己喜欢的人,制造了一场落水意外。没想到阴差阳错给别人做了嫁衣裳——肃毅伯府上的二公子竟要迎娶小门小户一个举人的女儿为妻。简直是岂有此理。但无奈木已成舟。这日子还是要过下去的。于是,梁举人的女儿梁蔻娘收拾了自己轻飘飘的妆奁,一顶花轿嫁进了高门。撷蔻记的故事,也从此开始。
  • 邪王独宠——傻子小姐太逆天

    邪王独宠——傻子小姐太逆天

    我是第一次写,还有我是学生,只有晚上有时间,所有大家不要嫌弃我。