流传的“全国感染进度表”准不准?
12月15日前后,一组预测各城市首轮感染高峰期的截图,在朋友圈和微信群中广泛流传。 图中,给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表,且这个数据在不断更新。 随着感染者越来越多,这一轮疫情的“进度”、我们何时能恢复正常生活正被广泛讨论。 其中,“大数据”尤为公众所关心。 12月15日前后,一组预测各城市首轮感染高峰期的截图,在朋友圈和微信群中广泛流传。 图中,给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表,且这个数据在不断更新。 以石家庄、北京、郑州3城为例,最早的版本是,截至12月10日,第一波群体感染达峰石家庄已经完成了77%,北京是29%,郑州11%。 12月12日,在制作者开发的小程序上,数据更新为:石家庄完成84%,北京是38%,郑州是15%。 最新版本停在了12月16日,石家庄已完成100%,北京87%,郑州46%。 而此时,三个城市的累计感染人数占总人口比值分别为49%,35%,19%。 这组数据的原作者,是知乎大V@chenqin,“数据帝”、“2021新知答主”是他的标签。 据其预测,截至12月16日,石家庄、保定、邢台等多地“达峰进度”均已达到100%。 北京市将于2023年1月22日结束首轮感染高峰,上海市将于2023年1月18日结束首轮感染高峰,郑州市将于2023年1月14日结束首轮感染高峰。 那么,这个预测时间表的依据是什么,又是否靠谱? 12月15日以来,针对算法和数据等疑问,记者多次联系@chenqin本人,但未获得回应。 不过,@chenqin在自己发布的文章中对自己的初衷和方法,有过介绍。 “我又对台湾地区、香港特别行政区和日本的感染情况与‘发烧’搜索指数进行了分析,发现一个可能可以帮助预测感染高峰期的方法。” 他的方法是,根据百度搜索的数据,分地区统计关键词“发烧”的搜索数据,减去非疫情时期的常量,最终根据港台、国外等多个地区的样本拟合出来的走势,对比推算出了各地区疫情的进度。 简言之,当某一城市有人在百度上搜索“发烧”,就为其判断这座城市的疫情情况提供了参考数据。 而谈及这么做的初衷,@chenqin说,疫情达峰时间的推算,原本只是搜索指数的一次尝试,初衷是觉得有趣,但无心插柳,竟然能帮助许多人缓解焦虑,“我还是会希望继续更新下去,让这份粗糙的数据陪伴大家渡过第一次冲击”。 截至12月17日,@chenqin发布的《各城市首轮感染高峰期预测》,包含各城市感染峰值日期、进度、第一波疫情结束时间、累计感染占比等,已经在知乎上获得了1.1万赞同,其数据被自媒体广泛引用,并曾登上热搜。 有网友给答主点赞,称这个方法虽然“简单粗暴”,但逻辑是对的,通过搜索引擎数据预测流感流行趋势是有不少论文发表的。 也有网友称,数据跟自己所在城市的感受并不一致,“保守了”。 更多网友则宁可信其真,跟帖话题转向与数据“严重程度”相当的疫情见闻。 专家:有一定参考价值 但有优化空间 通过搜索引擎数据建立模型预测疫情走势,该预测数据的参考价值有多大? “仅通过搜索数据建立起来的预测模型,准确度通常并不高。”天使投资人、资深人工智能专家郭涛告诉记者。 郭涛说,疫情传播速度受到感染人群的数量及活动轨迹、人口流动信息、居民生活方式、交通条件、医疗条件和天气条件等综合因素影响,如果想要实现预测,就需要搞清楚影响疫情传播的因素到底有多少,它们之间又是如何相互影响的,仅通过搜索数据是不够的。 “美国早年曾用搜索数量进行过相关的预测,在一定程度上它是可以反映疫情整体的传播速度和爆发量的。”北京社科院研究员、大数据业务分析师王鹏教授接受记者采访时则表示,依据搜索大数据来预测新冠疫情感染高峰,实际上在国外也早有相关的应用。 针对不同城市,预测感染何时达到顶峰、退却、第一波进度等,在一定程度上,无论是对公共政策的制定者、政府、还是公众来说,都有一定参考价值,有助于大家了解疫情的走势。 但是从现实角度出发,目前运用搜索引擎,尤其是仅依托于百度的数据,王鹏觉得可能有所失真。 移动互联网时代和PC端时代有差异,首先现在很多人不一定都在手机端搜索,即使手机端的搜索引擎也有很多源,不一定都用百度,国产的其他搜索引擎也很多。另外,很多人可能不在搜索引擎上进行搜索,也可能在社交平台或短视频平台搜索,所以说相关的搜索数量,数据本身是存在一些问题的。 第二,在这个自媒体时代,大家搜索一个关键词,不一定自身有症状,可能是家人或朋友有症状。而且在一定程度上,我们陷入了信息茧房,换句话说,我们在互联网搜索引擎上搜索最多的人群,可能是特定的人群,他们的收入水平、年龄、对互联网的熟悉程度相当。剩下绝大多数人群,对互联网运用得少,或者压根不上网,是“沉默的大多数”,所以完全依托于搜索的数据来推测疫情,肯定不是特别精准的。 王鹏也建议,PC端和移动端数据都需考虑到,数据来源也不应该仅是搜索引擎,应该把社交媒体、短视频平台数据都纳入。同时,算法不应该太简单,还应该进行多元的优化重组,进一步训练,才能得出更为精准的结论。
|