流传的“全国感染进度表”准不准？

《野猪乐园》显示文章详细内容：

慕容父

等级：资深长老

经验值：5452

魅力值：433

龙币：14739

积分：6819

注册日期：2004-08-22

流传的“全国感染进度表”准不准？

12月15日前后，一组预测各城市首轮感染高峰期的截图，在朋友圈和微信群中广泛流传。图中，给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表，且这个数据在不断更新。

随着感染者越来越多，这一轮疫情的“进度”、我们何时能恢复正常生活正被广泛讨论。

其中，“大数据”尤为公众所关心。

12月15日前后，一组预测各城市首轮感染高峰期的截图，在朋友圈和微信群中广泛流传。

图中，给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表，且这个数据在不断更新。

以石家庄、北京、郑州3城为例，最早的版本是，截至12月10日，第一波群体感染达峰石家庄已经完成了77%，北京是29%，郑州11%。

12月12日，在制作者开发的小程序上，数据更新为：石家庄完成84%，北京是38%，郑州是15%。

最新版本停在了12月16日，石家庄已完成100%，北京87%，郑州46%。

而此时，三个城市的累计感染人数占总人口比值分别为49%，35%，19%。

这组数据的原作者，是知乎大V@chenqin，“数据帝”、“2021新知答主”是他的标签。

据其预测，截至12月16日，石家庄、保定、邢台等多地“达峰进度”均已达到100%。

北京市将于2023年1月22日结束首轮感染高峰，上海市将于2023年1月18日结束首轮感染高峰，郑州市将于2023年1月14日结束首轮感染高峰。

那么，这个预测时间表的依据是什么，又是否靠谱？

12月15日以来，针对算法和数据等疑问，记者多次联系@chenqin本人，但未获得回应。

不过，@chenqin在自己发布的文章中对自己的初衷和方法，有过介绍。

“我又对台湾地区、香港特别行政区和日本的感染情况与‘发烧’搜索指数进行了分析，发现一个可能可以帮助预测感染高峰期的方法。”

他的方法是，根据百度搜索的数据，分地区统计关键词“发烧”的搜索数据，减去非疫情时期的常量，最终根据港台、国外等多个地区的样本拟合出来的走势，对比推算出了各地区疫情的进度。

简言之，当某一城市有人在百度上搜索“发烧”，就为其判断这座城市的疫情情况提供了参考数据。

而谈及这么做的初衷，@chenqin说，疫情达峰时间的推算，原本只是搜索指数的一次尝试，初衷是觉得有趣，但无心插柳，竟然能帮助许多人缓解焦虑，“我还是会希望继续更新下去，让这份粗糙的数据陪伴大家渡过第一次冲击”。

截至12月17日，@chenqin发布的《各城市首轮感染高峰期预测》，包含各城市感染峰值日期、进度、第一波疫情结束时间、累计感染占比等，已经在知乎上获得了1.1万赞同，其数据被自媒体广泛引用，并曾登上热搜。

有网友给答主点赞，称这个方法虽然“简单粗暴”，但逻辑是对的，通过搜索引擎数据预测流感流行趋势是有不少论文发表的。

也有网友称，数据跟自己所在城市的感受并不一致，“保守了”。

更多网友则宁可信其真，跟帖话题转向与数据“严重程度”相当的疫情见闻。

专家：有一定参考价值

但有优化空间

通过搜索引擎数据建立模型预测疫情走势，该预测数据的参考价值有多大？

“仅通过搜索数据建立起来的预测模型，准确度通常并不高。”天使投资人、资深人工智能专家郭涛告诉记者。

郭涛说，疫情传播速度受到感染人群的数量及活动轨迹、人口流动信息、居民生活方式、交通条件、医疗条件和天气条件等综合因素影响，如果想要实现预测，就需要搞清楚影响疫情传播的因素到底有多少，它们之间又是如何相互影响的，仅通过搜索数据是不够的。

“美国早年曾用搜索数量进行过相关的预测，在一定程度上它是可以反映疫情整体的传播速度和爆发量的。”北京社科院研究员、大数据业务分析师王鹏教授接受记者采访时则表示，依据搜索大数据来预测新冠疫情感染高峰，实际上在国外也早有相关的应用。

针对不同城市，预测感染何时达到顶峰、退却、第一波进度等，在一定程度上，无论是对公共政策的制定者、政府、还是公众来说，都有一定参考价值，有助于大家了解疫情的走势。

但是从现实角度出发，目前运用搜索引擎，尤其是仅依托于百度的数据，王鹏觉得可能有所失真。

移动互联网时代和PC端时代有差异，首先现在很多人不一定都在手机端搜索，即使手机端的搜索引擎也有很多源，不一定都用百度，国产的其他搜索引擎也很多。另外，很多人可能不在搜索引擎上进行搜索，也可能在社交平台或短视频平台搜索，所以说相关的搜索数量，数据本身是存在一些问题的。

第二，在这个自媒体时代，大家搜索一个关键词，不一定自身有症状，可能是家人或朋友有症状。而且在一定程度上，我们陷入了信息茧房，换句话说，我们在互联网搜索引擎上搜索最多的人群，可能是特定的人群，他们的收入水平、年龄、对互联网的熟悉程度相当。剩下绝大多数人群，对互联网运用得少，或者压根不上网，是“沉默的大多数”，所以完全依托于搜索的数据来推测疫情，肯定不是特别精准的。

王鹏也建议，PC端和移动端数据都需考虑到，数据来源也不应该仅是搜索引擎，应该把社交媒体、短视频平台数据都纳入。同时，算法不应该太简单，还应该进行多元的优化重组，进一步训练，才能得出更为精准的结论。

--
生命不息，灌水不止

2022-12-18 23:44:29

此文章已经被查看1309次

相关文章：

[回复] [顶端]

流传的“全国感染进度表”准不准？-慕容父 (21807字节阅读:1309次跟贴:0 2022/12/18 23:44)

您必须登录论坛才可以发表文章：

用户名：

密码：

记住密码：

（忘记密码注册）