北京一般治疗白癜风要多少钱 http://pf.39.net/bdfyy/bdfzg/141130/4527139.html大数据文摘授权转载自nCoV疫情地图
作者:张海平修宇璇
经历了各种“硬核”隔离之后,相信大家都明白了“人口的流动性是疫情防控的关键”这个道理。
春节前的人口大迁徙无疑加速了本次疫情的时空传播速率,而春节后全国范围内的人口回流,仍然会对疫情的防控带来巨大的挑战。
可以说,深刻认识春节后人口回流的迁徙特征和规律,将对此次疫情的防控起到非常积极的作用。
基于以上背景,来自南京师范大学的张海平博士和清华大学的修宇璇博士进行了一项研究,他们以百度迁徙数据和通过调查所获得的个别城市的真实人口迁徙数据作为主要数据源,进行了如下工作:
首先采用OD超网络模型推算并模拟全国地级市尺度的迁徙人口数量;
基于模拟的人口数据通过空间自相关和时空自相关等空间统计模型分析其地理分布特征和时空演变模式;
在此认识的基础上,预测春节后迁徙人口的数量分布特征及迁徙网络结构特征。
结果表明,春节后人口迁徙表现为层级效应和地理邻近效应,前者多以大城市为超级节点,而后者则以中小城市为主要节点,并且,流出人口数量在城市层面呈现离散的地理分布,而流入人口数量呈现高度聚集的态势。
从迁入城市来看,春节后回流的出发地比较离散,而目的地非常地集中,具体地,一级集中区域还是三大城市群(京津冀、长三角、珠三角),二级集中区域为成都,三级集中区域为华中三省(河南、湖北和湖南,以省会为核心)和西安。
以下是完整的预测过程,推衍过程比较硬核,enjoy。
数据的可用性和方法的有效性阐述
数据描述及可用性阐释
本文研究所用的数据来自百度迁徙大数据平台。百度迁徙数据包含两个方面的重要信息,一方面,平台分别提供了每个城市每日迁入、迁出人口比率位列前50的城市,这意味着每个城市每日有条人流数据;另一方面提供了每个城市每日的人口规模数据,这意味着不同城市之间每日迁出的人口在规模上具有统一的标准,具有可比性。节前人流推算所用数据时段为年1月1日至1月23日,而节后人流模拟所用数据时段为年1月10日至1月23日,共计14天。可以说,在本文中将春运定义为年1月10日至1月23日。所用人口迁徙数据的迁徙比率数据和规模指数数据的表结构如表1和表2所示。
在表1中,1月15日从武汉迁出到*冈的人口占当天武汉人口迁出总量的13.30%,类似地,当日从南京到镇江的流出人口占当日南京总流出人口的10.61%。一个值得讨论的问题是,前50位的城市是否能够覆盖到某个城市所有迁入或迁出人口的覆盖总量,统计发现,大多数城市都覆盖到了到了总量的90%以上,这一定程度上保证了数据的有效性。
表1百度迁徙人流比率数据结构表
在表2中,1月15日分别从武汉、南京迁出的人口规模指数是5.91、5.11,这说明当日武汉流出的人口多于南京,规模上多出0.8个百分点。结合人口迁出、迁入比率,就可以计算出所有城市具有可比性的迁出指数和迁入指数。
表2百度迁徙人流规模指数数据结构表
人口OD超网络模型推算春节前人口流量
在分析和预测-nCoV疫情的传播时,大家最关心两类数据:(1)每天有多少人迁入/迁出某个城市。例如,1月22日,有多少人离开武汉,又有多少人来到武汉?(2)全国主要城市之间的迁徙人数。例如,1月23日,从武汉去深圳的人有多少?这些数据难以获取,但是百度迁徙提供了全国主要城市春运期间迁入/迁出地的人口比例和规模指数。通过调查获得的个别城市的人口迁徙数据,我们可以基于百度的公开数据估算全国主要城市人口流动的数据。
直观上看,全国各城市和它们之间的人口流动关系构成了一张图。其中,城市是节点,城市之间的人口流动关系是边。通过百度的数据,我们可以构建两个人口流动网络,即通过迁出地排名列表构建人口流出网络,通过迁入地排名列表构建人口流入网络。我们的任务,就是通过这两个网络进行数据的综合和估算。
陈伟坚教授等研究者提出的超网络模型(DOI:10./X..)为进行类似的数据综合和推断提供了很好的数学工具。在一个超网络模型中,我们首先通过节点和边的跨层对应关系匹配多个单层网络,随后将数据之间的数学关系转换为超网络中的特殊结构,最后基于图论的一些方法进行数据的综合和估算。在以上研究的基础上,提出了以下OD超网络模型估算模型并用于本文的人口模拟。
本文首先分析人口流入网络和流出网络之间的对应关系。如图1所示,对于人口流出网络来说,设某天城市
迁出到城市
的人口数量为
,当天城市
的总迁出人口数为
了。百度迁徙的数据提供了
。也就是说,当天流入城市
的人口
中,有
是从城市
流入的。一个重要的对应关系是
,即从城市
迁出到城市
的人口等于城市
从城市
因此有
。通过两层网络之间节点(城市)和边(
)的对应关系,我们构建了如下图所示的人口流入-流出超网络。
图1OD超网络模型原理示意图
在这个人口流入-流出超网络模型中,
可以表示为跨层邻居这一特殊结构。对于城市
和城市
来说,如果在两层网络中存在一对方向相反的边(例如,存在一对有向边
且
,其中
和
分别表示人口流入网络和人口流出网络的边的集合),则称他们为跨层邻居。对于一对跨层邻居,如果城市
的人口流出总数已知,则城市
的人口流入总数
可以表示为
。由此,我们可以从仅有的几个人口流入/流出总数已知的城市出发,并以此为种子数据,通过广度优先遍历,迭代地推断其他城市的人口流入/流出总数。算法的具体细节和分析将在随后的论文中发布。本文只列出了作为基础的超网络预测模型,考虑到文章的阅读对象,其它如空间自相关、时空自相关、时空演化模式和加权迁徙距离的方法这里不再阐述。春节前人口迁徙的地理时空网络模拟
人口模拟及其地理分布特征
春节前14天的流出、流入人口到底有多少?呈现怎样的地理分布特征?采用1.2中的方法,本文推算出了年1月10日至年1月23日共计14天每个地级市的具体迁徙人口数据。由于每天迁入迁出人口的数量具有一定的差异性(后文的时空演化分析中会呈现这一现象),本文给出了每个城市在14天内的迁入、迁出人口总数。如图2、图3和图4分别为各地市迁出、迁入、迁入-迁出差的地理分布地图。为了保证迁出和迁入人口的可对比性,采用统计的几何间断法对人流数据进行渲染,并采用相同的聚类阈值。其中,迁出人口最高的城市的推算结果为;迁入人口最高的城市推算结果为。根据迁出、迁入的平衡性,监测误差在35万人左右。百度迁徙本身也有误差,并且总数在数亿级以上,因此在人口平衡验证中十万级的误差在可接受范围内。对比图2和图3发现,整体格局相似,胡焕庸线仍然控制着中国人口分布乃至迁徙的格局。图2的迁出人口分布更加集中,其空间异质性更强。相比而言,图3所示的迁入数据则更加分散,空间异质性较弱。这里仅给出推算人口的空间基本分布特征。更为深入的统计显著性分析将在后面讨论。图2人口迁出地理空间格局图3人口迁入地理空间格局尽管人口迁入、迁出的总和是相对平衡的,但在局部地理区域或地理单元上差异性较大。一些城市净流入为正,另一些则可能为负。将每个城市的流入人口减去流出人口,可以得到净流入人口数量。计算结果的空间分布地图如图4所示。结果符合常理。冷色调表示负净流入的城市,根据值的大小划分为两个等级。暖色调则表示正净流入的城市,分为三个等级。从图中可以发现,城市个体层面,几乎所有的省会城市都是负净流入,只有重庆和哈尔滨例外。区域层面,胡焕庸线东侧京津冀、长三角、珠三角是负净流入的集聚地,但相比而言,长三角的区域范围显著要大。也有极少数的非省会城市出现负净流入现象。如山东东营、淄博、青岛、烟台和威海,福建的泉州,广西的柳州等。可以说,正流入高值区是劳动力非常密集的输出地,将是节后重要的人口流出区域。反之,这些在节前呈现负净流出的省会城市,将是节后主要的人口流入区域。结论似乎有点偏常识,但模型的优势在于可以通过科学的评估佐证这些常识,另一方面,可以计算出具体的数值,从而更加理性认知、精准决策。具体数量上的讨论,将在节后迁徙人口预测部分展开。图4人口迁入-迁出差的地理空间格局以上分析重在对推算数据的呈现,迁出、迁入人口进一步的具有统计显著性的分析可以借助空间聚类方法如局部空间自相关模型展开,这些模型能够探测到隐含在数据中的深层次的规律。如图5和图6所示分别为迁出、迁入人口的局部空间自相关分析结果。从有效的统计显著性水平上,迁出人口高值聚类的区域有三个,即京津冀、长三角和珠三角。区域规模上长三角最大,但高值聚集的城市并不连续分布。值得