《野猪乐园》显示文章详细内容: [展开] [回复] [网址] [举报] [屏蔽]
慕容父
慕容父目前处于离线状态
等    级:资深长老
经 验 值:5316
魅 力 值:433
龙    币:14717
积    分:6758
注册日期:2004-08-22
 
  查看慕容父个人资料   给慕容父发悄悄话   将慕容父加入好友   搜索慕容父所有发表过的文章   给慕容父发送电子邮件      

流传的“全国感染进度表”准不准?

12月15日前后,一组预测各城市首轮感染高峰期的截图,在朋友圈和微信群中广泛流传。 图中,给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表,且这个数据在不断更新。

随着感染者越来越多,这一轮疫情的进度、我们何时能恢复正常生活正被广泛讨论。

其中,大数据尤为公众所关心。

1215日前后,一组预测各城市首轮感染高峰期的截图,在朋友圈和微信群中广泛流传。

图中,给出了全国各省区主要城市的疫情进度和最终高峰的预测时间表,且这个数据在不断更新。

以石家庄、北京郑州3城为例,最早的版本是,截至1210日,第一波群体感染达峰石家庄已经完成了77%,北京是29%,郑州11%

1212日,在制作者开发的小程序上,数据更新为:石家庄完成84%,北京是38%,郑州是15%

最新版本停在了1216日,石家庄已完成100%,北京87%,郑州46%

而此时,三个城市的累计感染人数占总人口比值分别为49%35%19%

这组数据的原作者,是知乎大V@chenqin数据帝“2021新知答主是他的标签。

据其预测,截至1216日,石家庄、保定、邢台等多地达峰进度均已达到100%

北京市将于2023122日结束首轮感染高峰,上海市将于2023118日结束首轮感染高峰,郑州市将于2023114日结束首轮感染高峰。

那么,这个预测时间表的依据是什么,又是否靠谱?

 

1215日以来,针对算法和数据等疑问,记者多次联系@chenqin本人,但未获得回应。

 

不过,@chenqin在自己发布的文章中对自己的初衷和方法,有过介绍。

我又对台湾地区、香港特别行政区和日本的感染情况与发烧搜索指数进行了分析,发现一个可能可以帮助预测感染高峰期的方法。

 

他的方法是,根据百度搜索的数据,分地区统计关键词发烧的搜索数据,减去非疫情时期的常量,最终根据港台、国外等多个地区的样本拟合出来的走势,对比推算出了各地区疫情的进度。

简言之,当某一城市有人在百度上搜索发烧,就为其判断这座城市的疫情情况提供了参考数据。

而谈及这么做的初衷,@chenqin说,疫情达峰时间的推算,原本只是搜索指数的一次尝试,初衷是觉得有趣,但无心插柳,竟然能帮助许多人缓解焦虑,我还是会希望继续更新下去,让这份粗糙的数据陪伴大家渡过第一次冲击

截至1217日,@chenqin发布的《各城市首轮感染高峰期预测》,包含各城市感染峰值日期、进度、第一波疫情结束时间、累计感染占比等,已经在知乎上获得了1.1万赞同,其数据被自媒体广泛引用,并曾登上热搜。

有网友给答主点赞,称这个方法虽然简单粗暴,但逻辑是对的,通过搜索引擎数据预测流感流行趋势是有不少论文发表的。

也有网友称,数据跟自己所在城市的感受并不一致,保守了

更多网友则宁可信其真,跟帖话题转向与数据严重程度相当的疫情见闻。

 

专家:有一定参考价值

但有优化空间

通过搜索引擎数据建立模型预测疫情走势,该预测数据的参考价值有多大?

仅通过搜索数据建立起来的预测模型,准确度通常并不高。天使投资人、资深人工智能专家郭涛告诉记者。

郭涛说,疫情传播速度受到感染人群的数量及活动轨迹、人口流动信息、居民生活方式、交通条件、医疗条件和天气条件等综合因素影响,如果想要实现预测,就需要搞清楚影响疫情传播的因素到底有多少,它们之间又是如何相互影响的,仅通过搜索数据是不够的。

美国早年曾用搜索数量进行过相关的预测,在一定程度上它是可以反映疫情整体的传播速度和爆发量的。北京社科院研究员、大数据业务分析师王鹏教授接受记者采访时则表示,依据搜索大数据来预测新冠疫情感染高峰,实际上在国外也早有相关的应用。

针对不同城市,预测感染何时达到顶峰、退却、第一波进度等,在一定程度上,无论是对公共政策的制定者、政府、还是公众来说,都有一定参考价值,有助于大家了解疫情的走势。

但是从现实角度出发,目前运用搜索引擎,尤其是仅依托于百度的数据,王鹏觉得可能有所失真。

移动互联网时代和PC端时代有差异,首先现在很多人不一定都在手机端搜索,即使手机端的搜索引擎也有很多源,不一定都用百度,国产的其他搜索引擎也很多。另外,很多人可能不在搜索引擎上进行搜索,也可能在社交平台或短视频平台搜索,所以说相关的搜索数量,数据本身是存在一些问题的。

第二,在这个自媒体时代,大家搜索一个关键词,不一定自身有症状,可能是家人或朋友有症状。而且在一定程度上,我们陷入了信息茧房,换句话说,我们在互联网搜索引擎上搜索最多的人群,可能是特定的人群,他们的收入水平、年龄、对互联网的熟悉程度相当。剩下绝大多数人群,对互联网运用得少,或者压根不上网,是沉默的大多数,所以完全依托于搜索的数据来推测疫情,肯定不是特别精准的。

王鹏也建议,PC端和移动端数据都需考虑到,数据来源也不应该仅是搜索引擎,应该把社交媒体、短视频平台数据都纳入。同时,算法不应该太简单,还应该进行多元的优化重组,进一步训练,才能得出更为精准的结论。

 



--
生命不息,灌水不止
2022-12-18 23:44:29   此文章已经被查看1261次   
 相关文章: [回复]  [顶端] 



  您必须登录论坛才可以发表文章:
 
用户名:   密码:   记住密码:    (忘记密码 注册




版权所有 回龙观社区网 经营许可证编号:京B2-20201639 昌公网安备1101140035号

举报电话:010-86468600-5 举报邮箱: