-
-
Notifications
You must be signed in to change notification settings - Fork 400
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
如何获取较早的历史数据 #3
Comments
很抱歉,历史数据最早只从项目写完爬虫开始运行是才可得,目前能从API请求到的最早的数据就是我的数据库能查询到的最早的历史数据了。其他数据源的数据暂时没有收录,如果更新频率很低,或许等API和爬虫稳定可用之后,我会考虑手动录入数据。 2月13日更新: |
是否可以提供一份数据库的导出文件呢? |
数据一直在实时更新,建议直接通过API提取。如有需要我可以给你发送一份目前的最新数据。 |
感谢,麻烦发送至我的邮箱:[email protected] |
已发送。 由于数据持续更新,我无法持续导出数据库并发送email,建议直接通过API提取数据。 同时,如果有科研目的,请联系数据所有者获取数据使用权限,否则可能存在学术问题。 |
已收到,仅用于个人用途 |
您好,接口访问不了了,能否帮我导一份?[email protected] |
API一切正常,只要README中 数据可以直接在数据仓库内下载。 |
大家下次再要求发数据到邮件的时候,可以直接尝试API GET。 BlankerL已经写的很详细的步骤,建议发邮箱之前,先自己尝试一下,谢谢。 如果你是用Python,下面的这几行可以提取全国每天的数据更新并保存至 import requests
import pandas as pd
url = 'https://lab.isaaclin.cn/nCoV/api/overall?latest=0'
r = requests.request('GET', url)
data = r.json()
df = pd.DataFrame.from_records(data['results'])
df.to_csv('overall.csv', encoding='utf_8_sig') |
感谢!做了部分修改,可以直接导出至csv文件。 |
用Python很方便。只需要额外安装requests、requests库。 分享一份整合好的数据模板 |
你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0 的时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题 |
可以考虑直接使用数据仓库。 我是做开源项目的,这也不是教学项目,如果有疑问可以移步百度/Google 另外,新的问题可以单开issue,而不是找一个话题不相关的issue插楼😀 2月19日更新: |
哦 |
你好 我想问的是在crawler.py 中 是怎么判断爬出的数据是最新的?例如爬出的内容是:text,怎么知道这个text是最新的并且继续执行程序的? |
大佬好!请问updateTime字段,怎么转换为可识别的时间?比如2020-01-17这种。 |
已经在 #44 做了回答,如果有问题麻烦单开issue,方便其他人检索和查阅。 |
你好,可以用以下代码在R中读取API转换成数据框 library(jsonlite)
url = 'http://lab.isaaclin.cn/nCoV/api/overall?latest=0'
df = readLines(url, encoding="UTF-8")
df = fromJSON(df)
View(df[["results"]]) |
感谢!也可以参考我在README文件中推荐的pzhaonet/ncovr,可以直接完成数据载入。 |
你好, library(nCov2019)
library(dplyr)
# now
x <- get_nCov2019()
x <- summary(x)
x
> x
confirm suspect dead heal deadRate healRate date
1 41 0 1 0 2.4 0.0 01.13
2 41 0 1 0 2.4 0.0 01.14
3 41 0 2 5 4.9 12.2 01.15
4 45 0 2 8 4.4 17.8 01.16
5 62 0 2 12 3.2 19.4 01.17
6 198 0 3 17 1.5 8.6 01.18
7 275 0 4 18 1.5 6.5 01.19
8 291 54 6 25 2.1 8.6 01.20
9 440 37 9 25 2.0 5.7 01.21
10 571 393 17 25 3.0 4.4 01.22
11 830 1072 25 34 3.0 4.1 01.23
12 1287 1965 41 38 3.2 3.0 01.24
13 1975 2684 56 49 2.8 2.5 01.25
14 2744 5794 80 51 2.9 1.9 01.26
15 4515 6973 106 60 2.3 1.3 01.27
16 5974 9239 132 103 2.2 1.7 01.28
17 7711 12167 170 124 2.2 1.6 01.29
18 9692 15238 213 171 2.2 1.8 01.30
19 11791 17988 259 243 2.2 2.1 01.31
20 14380 19544 304 328 2.1 2.3 02.01
21 17205 21558 361 475 2.1 2.8 02.02
22 20438 23214 425 632 2.1 3.1 02.03
23 24324 23260 490 892 2.0 3.7 02.04
24 28018 24702 563 1153 2.0 4.1 02.05
25 31161 26359 636 1540 2.0 4.9 02.06
26 34546 27657 722 2050 2.1 5.9 02.07
27 37198 28942 811 2649 2.2 7.1 02.08
28 40171 23589 908 3281 2.3 8.2 02.09
29 42708 21675 1017 3998 2.4 9.4 02.10 |
早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml |
这个并没有地市的数据,并且无法通过爬虫批量获取。 |
是的 跟上面提到的R的包的得到的数据结构类似的, 官方的各省数据很多都是1.23 -1.24 才在省卫建委公示的 |
是的,但是柳叶刀等期刊论文应该是有公开数据的,我暂时没有查看其他的公开数据集,因为他们的数据频率可能很低。同时,当时卫健委也不一定有进行高频的确诊人数统计和汇报工作,恐怕22日以前的数据很难回溯了。 |
是的,非常认同。还有一个可能就是 有很多提供实时疫情API的公司 可能会有这部分历史数据, 但我推测他们大部分是爬丁香园的数据, 所以很早的历史数据是很难得到的 |
Moyck/2019NCOV@9bcdbdb/app/src/main/java/com/moyck/ncov/api/JsonDayBefore24.java#L9 contains data in date 2020.1.12-1.23 from Tencent News, it can be a reference. Personally, I created a data table for reference: nhc数据.xlsx. It wasn't sorted really well, though. Plus, because the data is from the NHC website, it doesn't have Malaysia data. Also, there may have places I mislook. But, still, it's for reference needs, so don't take it too serious. Actually, you can keep the "enchantment" tag. You may also add a "good first issue" tag if you think so. Assuming no one will notice, edit: wuhan2020-timeline seems like a good source I'd like to share |
Thank you so much. I know this data source and I have already add the maintainer as a WeChat friend. He gave me these data at the end of January, and mentioned these data were collected at the end of the day, but I am not quite sure because he manually collected them and the time might not be that exact. I will cross-validate all the data sources and try to add them into the database once I am spare. I will remain this question open and keep following this. |
你好,不知道你是否有找到解决方案。有的话是否能分享一下,这边也遇到了一样的问题。 |
你好,我对R的了解比较少,之前@pzhaonet 在 #42 中提交过一份R语言数据预处理包,里面包括了数据从API和CSV文件下载并载入DataFrame中,不确定是否有帮助,或许可以阅读他源代码中get_ncov函数找到解决方案。 |
你好, (忘记了他说的是他在用R,还以为他用Python) 我听了你的建议之后从R转用了python,根据上面的示范,改 import requests
import pandas as pd
url = 'https://lab.isaaclin.cn/nCoV/api/area?latest=0'
r = requests.request('GET', url)
data = r.json()
df = pd.DataFrame.from_records(data['results'])
df 实在不好意思,这点小事打扰到了你 |
话题已经转移至#67 |
你好, 微信公众号 province city time cum_confirm cum_heal
3785 湖北 仙桃 2020-01-23 2 NA
3786 湖北 宜昌 2020-01-23 1 NA
3787 湖北 十堰 2020-01-23 1 NA
3788 湖北 黄冈 2020-01-23 12 NA
3880 湖北 武汉 2020-01-22 425 NA
3881 湖北 黄冈 2020-01-22 12 NA
3882 湖北 荆州 2020-01-22 6 NA
3883 湖北 荆门 2020-01-22 1 NA
3938 湖北 武汉 2020-01-21 365 NA
3957 湖北 武汉 2020-01-20 258 25
3958 湖北 黄冈 2020-01-20 12 NA
3965 湖北 武汉 2020-01-19 198 25
3968 湖北 武汉 2020-01-18 121 24
3969 湖北 武汉 2020-01-17 62 19
3970 湖北 武汉 2020-01-16 45 15
3971 湖北 武汉 2020-01-15 41 12
3972 湖北 武汉 2020-01-14 41 7
3973 湖北 武汉 2020-01-13 41 7
3974 湖北 武汉 2020-01-12 41 7
3975 湖北 武汉 2020-01-11 41 2 |
抱歉,之前没有看到这个评论,但是已经在你新开的问题 #41 中给了解答。 |
抱歉,之前错过了这条消息所以没有及时回复。我不太确定其他贩卖数据的公司的数据来源,但是前几天我了解到,有一个给政府提供数据分析的公司是使用的我们这份数据库,所以我猜测这份数据库的时间序列数据已经比较完善了。 |
万分感谢!我会尽快查看,如果数据可靠会及时补全。 另外,请问这份数据有具体的获取时间吗,是否是当天最后一次更新的数据呢? 全国所有省份的数据应该都可以往前再回溯一段时间,但因为数据不一定是当天最后一次更新,且具体更新时间不确定,所以一直没有将其载入数据库,因为对传播学没有了解,担心数据的准确性会影响其他人的研究成果。 |
你好, 这份 这份数据具体的获取时间因此便不得而知了,或许可从微信上联系公众号 在当前情况下,毕竟一月份初期病情并未扩散且基数较小,综合潜伏者,政治及医疗设施的匮乏等因素,数据信息的完整性带来的利想必是比更新时间的不确定性和微小的数据差异的弊要大,在备注中注明不确定性即可。 个人建议补全数据及标注备注以警示学者。 万分感谢你的付出。 |
好的,感谢!我会尽快把这份数据收录。 |
你好, |
你好,十分感谢。我已经注册了这个账号,但似乎并没有提供数据集。 sample数据集仅245B大小,应该是提交数据的示例,训练集似乎并没有提供? |
你好,这一页下面的数据库里有写着链接字样的就是。选择最近的一天2-26就好。上面的百度只是提交的格式的例子
Isaac Lin <[email protected]> 于 2020年2月27日周四 下午1:37写道:
… 你好,
biendata <https://www.biendata.com/competition/epidemic/data/>
给参赛者提供了历史数据得csv,全国是到一月十号,省份则是到一月二十号。
你好,十分感谢。我已经注册了这个账号,但似乎并没有提供数据集。
[image: image]
<https://user-images.githubusercontent.com/24969376/75415195-d6e32200-5965-11ea-9085-17c20512ae1a.png>
sample数据集仅245B大小,应该是提交数据的示例,训练集似乎并没有提供?
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub
<#3?email_source=notifications&email_token=ANNN275IXUZGLJ45BDDUYJLRE5GQLA5CNFSM4KLVMDNKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOENDAL5A#issuecomment-591791604>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ANNN275L3WD3SI5BJTJE6XTRE5GQLANCNFSM4KLVMDNA>
.
|
感谢,理解了,已经成功下载。 |
你好,请问一下国内和海外疫情数据可同时提供API吗?提供给初学者做全球疫情可视化效果,谢谢 |
你好,详细的API说明请参考API文档,你所需要的的这组数据可以通过/nCoV/api/area?latest=1提取。 |
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
This comment has been minimized.
script.py文件就是从MongoDB导出json及csv数据并上传的脚本,并不是你下载数据之后再执行的。上传这个script.py的目的只是为了让大家知道数据处理的方法。 MongoDB是非关系型数据库,无法直接导出csv文件,因为 如果你希望获得MongoDB数据库内的原始数据,可以参考json文件夹下的文件,数据库内的数据与json文件夹内的数据完全一致,然后自己写脚本来处理json文件即可。 另外,这个问题与本主题无关,上述所有内容我都已经折叠,如果有后续问题,可以在数据仓库内开新issue来提问,把不同的问题放在不同issue下,方便其他人查找答案。感谢配合。 |
作者你好,请你看看这个网站的样式以及布局甚至title名和您的是否一致 |
@v@建议别去,抄袭作品说是自己自主开发就离谱 |
你好,十分感谢提醒,但我本人并没有做任何可视化的效果,在README的可视化都不是我的项目,并且似乎没有看到一样的界面。您是发现哪个网站和这个一样呢? |
目前接口返回的最早数据是 2020-01-24,如果能获取更早的数据会更有价值。
有篇论文 SARS传播的数学原理及预测与控制 提供了一个预测疫情的模型,其中数据要 25 天以上才能拟合的比较好。
丁香园的数据中看上去有早期数据01-11。网易新闻 最早是01-21。
更完整的数据看上去只有从政府网站通报中爬取,但处理起来会非常麻烦。
有一篇文章 澎湃新闻网 - 面对肺炎疫情,政府的数据开放还有很大空间 看完深感政府数据开放太不完善了。
The text was updated successfully, but these errors were encountered: