.:. 草榴社區 » 技術討論區 » [老蛮数据库]  人口之惑  [4P]
本頁主題: [老蛮数据库]  人口之惑  [4P]字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
啊啊啊啊啊啊


級別:風雲使者 ( 13 )
發帖:3037
威望:1456 點
金錢:1606998 USD
貢獻:217964 點
註冊:2016-01-16

[老蛮数据库]  人口之惑  [4P]


注意,本文既然命名为“人口之惑”,那就意味着整体数据中,存在逻辑上无法自洽之处。
为了彻底说明问题,我必须从最基础的部分开始讲起。
国家统计局官网发布了2020年第七次人口普查的1-8号公报数据,它们在官网的截图长成下面这样:
根据这次的普查公报,我们得到了一些关键数据:

2020年全国人口总量为141178万人(不含港澳台),较2019年的140005万人,大幅增加1173万。注意,2019年的数据为人口抽样调查的结果。除了10年一次的人口普查之外,这种人口抽样调查每年都会进行,逢5的年份为1%抽样,其它年份为1‰抽样。由于近年来我国全面实现了个人信息的电子化


除了极个别的情况,公安部门打开电脑,可以查阅全国每个人的详细户籍登记信息、手机信息及社保信息等。
这套个人电子信息系统有效协助了人口抽样调查的开展,相关调查可以将有限的精力集中在出生人口、死亡人口以及搬迁人口这种变数上,因此每年的数据可信度都很高。就今时今日来说
出生之后完全不办户籍登记的情况,几乎已经不存在了,即便是超生人口,也可以先办一个出生证,罚款可以以后再说,隐瞒人口的意义不大。理解了这样的背景,我们再来将本次人口普查数据中的总人口、15-64岁人口、65岁以上人口数据摘录出来,并入1990年至今的大表内。到这里,不和谐之处就体现出来了
中国历年新增人口,1990年为1629万,此后逐年下降。从2000年开始新增人口下降到了1000万以下,为957万。2010年的新增人口继续下降到641万。注意,这些年份都有人口普查,新增人口数的下降趋势是非常明显的。2010年后,我国分步放开了二胎,所以新增人口数量有所反复,2016年达到了阶段性峰值809万
但是此后又开始迅速萎缩,2019年的人口增量只剩下467万。考虑到2016年后我国全面实现了户籍信息的电子化,这意味着2016年之后的抽样人口数据已经非常可信了,放开二胎之后的人口再次进入萎缩趋势,也是非常明显的。
然而2020年的普查数据横空出世,当年度全国新增人口1173万!这真是石破天惊,让人目瞪口呆。1173万,较2019年的新增人口467万,足足增加了151.2%!就这种增幅,实在是犀利到令人不知道应该怎么评价了。

对于这种突如其来的人口增量,我们当然有必要挖一挖根由。有意思的是,15-64周岁的适龄劳动人口,并没有增长,而是出现了下降,从2019年的98910万下降到了2020年的96776万,年度降幅2.16%,这导致2020年扣除在校学生之后的适龄劳动力占比下降到了63.1%,倒退到了上世纪80年代的水平。这种降幅是符合我们的一贯理解的,毕竟每一年的新增人口都在下降,人口老龄化,一定会导致劳动力的总量下降。所以扣除在校学生的适龄劳动人口在2014年达到峰值的93566万之后就一路下降,2020年持续下降到89019万,相当于2007年的劳动力水平,这是非常正常的数据。

然而恶搞之处在于,65岁以上老年人口的数据突然出现了暴增:2020年的数据为19064万,较2019年的17603万,增加了1461万。而此前老年人口的年度增幅也就是900万这个区间,2020年即便是多一点,1000万出头也就是了,达到1461万这个数量级,让我实在是无法理解。2020年新增的年满65周岁的老人,也就是1955年出生的老人。1955年我国的人口出生率突然暴涨了一轮吗?当年度较1954年多出生了几百万人口?基于这个疑问我查阅了一下国家统计局官网数据库里的1950年代的人口出生率,顺手截了个图(见下图)。

结论非常清晰:1955年的人口出生率32.60‰,远低于1954年的37.97‰;人口自然增长率20.32‰,也远低于1954年的24.79‰。1955年的出生率和人口自然增长率都较1954年有了大幅下降。所以,2020年突然增加的1641万65岁以上老年人口,我个人真不知道是怎么来的。
这里必须说一下,1955年我国总人口61465万,当年度出生人口2004万。我把这个数据加粗,放大,希望大家记住这个数据,我们待会儿还会用到。
接下来我们继续深入分析人口增量的由来。毫无疑问

人口增量=当年度新出生人口-死亡人口。2020年的人口出生率和死亡率,在目前的普查公报里没有发布,或许未来会在普查详细数据库里发布,总之现在还看不到。不过没关系,我们精通数学,并且有此前历年的数据,我们可以自己算出来。本次普查公报发布了2020年的人口年龄构成表,见下图:

关键数据在于0-14岁的总人口数,25338万。恰好,我搜集了此前每一年的人口出生数,从2006-2019年的出生人口合计为22738万,我们假设其中任何一个儿童都不会夭折,全都是健康宝宝,天使宝宝,扣减一下,我们就得出了2020年的出生人口为25338万-22738万=2600万。一个非常吉利的数据。
好吧,现在2020年的年度新增人口有了,1173万;出生数据也有了,2600万,那么,2020年的死亡人口数据也可以反算出来了:2600-1173=1427万。
接下来我们把这组数据同样放进1990年至今的人口出生率和死亡率数据表,供各位感受一下:2020年的人口出生率突然就达到了18.41‰,恢复到了1990年代早期的水平。这个数据我就不多解释了,总之就是非常厉害。关键是死亡数据,2020年死亡了1427万人,远远超出此前接近1千万的水平。死亡率8.30‰,也是远远超出近十年千分之五以下的平均水平。这是怎么回事?
更关键的问题还在于这个死亡数据,与老年人口数据之间,出现了非常严重的逻辑上的不自洽。2020年65岁以上老年人口新增了1641万,当年度我国死亡人口1427万。今时今日我国死亡人口基本上都是老年人,年轻人的死亡率还是非常低的,这一点我们还是要相信,毕竟这是常识。所以,这意味着2020年一定要有超过3千万的老年人口补充进入65岁以上老年人口这个群体,才能实现老龄人口的数据增长,才能实现数据逻辑的自洽!
然而,最令人无法理解的事情发生了:1955年我国出生人口为2004万,即便这些人在随后的穷折腾里平安喜乐的活了下来,一个都没有中途夭折然后改革开放之后他们也完完整整的熬过了90年代初期的通胀潮、90年代后期的下岗潮,然后一个不剩的干到了退休,并活到了现在,也远远凑不够3千万的数!
所以,就2020年的人口数据而言,我实在不知道应该怎么分析。数据与数据之间,是存在逻辑上的强关联的。尝试对任何一个数据进行优化都会对整个数据逻辑链条带来巨大冲击。就2020年的人口普查数据而言,我个人缺乏平复这种冲击的能力。
希望我大中国能除了我之外,还能再诞生一位数据大咖,可以分析整个人口数据链条,将我上面的这些疑惑之处,全都完美的解决。




赞(82)
DMCA / ABUSE REPORT | TOP Posted: 05-11 12:58 發表評論
.:. 草榴社區 » 技術討論區

電腦版 手機版 客戶端 DMCA
用時 0.01(s) x3, 12-16 05:25