Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何获取较早的历史数据 #3

Open
guyskk opened this issue Jan 26, 2020 · 50 comments
Open

如何获取较早的历史数据 #3

guyskk opened this issue Jan 26, 2020 · 50 comments
Labels
enhancement New feature or request help wanted Extra attention is needed

Comments

@guyskk
Copy link

guyskk commented Jan 26, 2020

目前接口返回的最早数据是 2020-01-24,如果能获取更早的数据会更有价值。

有篇论文 SARS传播的数学原理及预测与控制 提供了一个预测疫情的模型,其中数据要 25 天以上才能拟合的比较好。

丁香园的数据中看上去有早期数据01-11。网易新闻 最早是01-21。
更完整的数据看上去只有从政府网站通报中爬取,但处理起来会非常麻烦。

有一篇文章 澎湃新闻网 - 面对肺炎疫情,政府的数据开放还有很大空间 看完深感政府数据开放太不完善了。

@BlankerL
Copy link
Owner

BlankerL commented Jan 27, 2020

很抱歉,历史数据最早只从项目写完爬虫开始运行是才可得,目前能从API请求到的最早的数据就是我的数据库能查询到的最早的历史数据了。其他数据源的数据暂时没有收录,如果更新频率很低,或许等API和爬虫稳定可用之后,我会考虑手动录入数据。


2月13日更新:
目前项目各方面已经趋于稳定,请问是否有人知道2020年1月22日以前的省级数据/24日以前的市级数据有什么获取渠道吗?目前准备寻找之前发表的传播学模型的论文,查看是否有公开数据集,以及这些数据的整理时间。

@BlankerL BlankerL added the enhancement New feature or request label Jan 27, 2020
@hack-fang
Copy link

是否可以提供一份数据库的导出文件呢?

@BlankerL
Copy link
Owner

是否可以提供一份数据库的导出文件呢?

数据一直在实时更新,建议直接通过API提取。如有需要我可以给你发送一份目前的最新数据。

@hack-fang
Copy link

是否可以提供一份数据库的导出文件呢?

数据一直在实时更新,建议直接通过API提取。如有需要我可以给你发送一份目前的最新数据。

感谢,麻烦发送至我的邮箱:[email protected]

@BlankerL
Copy link
Owner

是否可以提供一份数据库的导出文件呢?

数据一直在实时更新,建议直接通过API提取。如有需要我可以给你发送一份目前的最新数据。

感谢,麻烦发送至我的邮箱:[email protected]

已发送。

由于数据持续更新,我无法持续导出数据库并发送email,建议直接通过API提取数据。

同时,如果有科研目的,请联系数据所有者获取数据使用权限,否则可能存在学术问题。

@hack-fang
Copy link

是否可以提供一份数据库的导出文件呢?

数据一直在实时更新,建议直接通过API提取。如有需要我可以给你发送一份目前的最新数据。

感谢,麻烦发送至我的邮箱:[email protected]

已发送。

由于数据持续更新,我无法持续导出数据库并发送email,建议直接通过API提取数据。

同时,如果有科研目的,请联系数据所有者获取数据使用权限,否则可能存在学术问题。

已收到,仅用于个人用途

@lforrrrawx
Copy link

您好,接口访问不了了,能否帮我导一份?[email protected]

@BlankerL
Copy link
Owner

BlankerL commented Jan 30, 2020

您好,接口访问不了了,能否帮我导一份?[email protected]

API一切正常,只要README中website标签为up,接口就是可以正常访问的。
image

数据可以直接在数据仓库内下载。

@sijiali57
Copy link

sijiali57 commented Jan 30, 2020

大家下次再要求发数据到邮件的时候,可以直接尝试API GET。 BlankerL已经写的很详细的步骤,建议发邮箱之前,先自己尝试一下,谢谢。

如果你是用Python,下面的这几行可以提取全国每天的数据更新并保存至overall.csv文件中(同理,可以将url替换为其他API&保存文件名替换为其他名字以提取其他数据,剩余代码不需更改):

import requests
import pandas as pd

url = 'https://lab.isaaclin.cn/nCoV/api/overall?latest=0'
r = requests.request('GET', url)

data = r.json()
df = pd.DataFrame.from_records(data['results'])
df.to_csv('overall.csv', encoding='utf_8_sig')

@BlankerL
Copy link
Owner

大家下次再要求发数据到邮件的时候,可以直接尝试API GET。 BlankerL已经写的很详细的步骤,建议发邮箱之前,先自己尝试一下,谢谢。

如果你是用Python,下面的这几行可以提取全国每天的数据更新并保存至overall.csv文件中(同理,可以将url替换为其他API&保存文件名替换为其他名字以提取其他数据,剩余代码不需更改):

import requests
import pandas as pd

url = 'https://lab.isaaclin.cn/nCoV/api/overall?latest=0'
r = requests.request('GET', url)

data = r.json()
df = pd.DataFrame.from_records(data['results'])
df.to_csv('overall.csv', encoding='utf_8_sig')

感谢!做了部分修改,可以直接导出至csv文件。

@hui6900
Copy link

hui6900 commented Jan 30, 2020

用Python很方便。只需要额外安装requests、requests库。

分享一份整合好的数据模板

overall.xlsx

@bashanyeyu
Copy link

bashanyeyu commented Feb 2, 2020

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0 的时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

@BlankerL
Copy link
Owner

BlankerL commented Feb 2, 2020

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0 的时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

可以考虑直接使用数据仓库

我是做开源项目的,这也不是教学项目,如果有疑问可以移步百度/Google

另外,新的问题可以单开issue,而不是找一个话题不相关的issue插楼😀


2月19日更新:
由于许多人有这个问题,我已经在 #67 中给了数据的处理逻辑,代码基于python,但逻辑是通用的。

@bashanyeyu
Copy link

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

可以考虑直接使用数据仓库

我是做开源项目的,这也不是教学项目,如果有疑问可以移步百度/Google

另外,新的问题可以单开issue,而不是找一个话题不相关的issue插楼😀

@mrchenxxx
Copy link

你好 我想问的是在crawler.py 中 是怎么判断爬出的数据是最新的?例如爬出的内容是:text,怎么知道这个text是最新的并且继续执行程序的?

@solomsk
Copy link

solomsk commented Feb 6, 2020

大佬好!请问updateTime字段,怎么转换为可识别的时间?比如2020-01-17这种。

@BlankerL
Copy link
Owner

BlankerL commented Feb 6, 2020

大佬好!请问updateTime字段,怎么转换为可识别的时间?比如2020-01-17这种。

已经在 #44 做了回答,如果有问题麻烦单开issue,方便其他人检索和查阅。

@yijunwang0805
Copy link

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,可以用以下代码在R中读取API转换成数据框

library(jsonlite)
url = 'http://lab.isaaclin.cn/nCoV/api/overall?latest=0'
df = readLines(url, encoding="UTF-8")
df = fromJSON(df)
View(df[["results"]])

@BlankerL
Copy link
Owner

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,可以用以下代码在R中读取API转换成数据框

library(jsonlite)
url = 'http://lab.isaaclin.cn/nCoV/api/overall?latest=0'
df = readLines(url, encoding="UTF-8")
df = fromJSON(df)
View(df[["results"]])

感谢!也可以参考我在README文件中推荐的pzhaonet/ncovr,可以直接完成数据载入。

@yijunwang0805
Copy link

目前接口返回的最早数据是 2020-01-24,如果能获取更早的数据会更有价值。

有篇论文 SARS传播的数学原理及预测与控制 提供了一个预测疫情的模型,其中数据要 25 天以上才能拟合的比较好。

丁香园的数据中看上去有早期数据01-11。网易新闻 最早是01-21。
更完整的数据看上去只有从政府网站通报中爬取,但处理起来会非常麻烦。

有一篇文章 澎湃新闻网 - 面对肺炎疫情,政府的数据开放还有很大空间 看完深感政府数据开放太不完善了。

你好,
如果你用R的话,R中出了一个新的包nCoV2019,可以读取到1月13号的数据,代码如下

library(nCov2019)
library(dplyr)

# now
x <- get_nCov2019()
x <- summary(x)
x
> x
   confirm suspect dead heal deadRate healRate  date
1       41       0    1    0      2.4      0.0 01.13
2       41       0    1    0      2.4      0.0 01.14
3       41       0    2    5      4.9     12.2 01.15
4       45       0    2    8      4.4     17.8 01.16
5       62       0    2   12      3.2     19.4 01.17
6      198       0    3   17      1.5      8.6 01.18
7      275       0    4   18      1.5      6.5 01.19
8      291      54    6   25      2.1      8.6 01.20
9      440      37    9   25      2.0      5.7 01.21
10     571     393   17   25      3.0      4.4 01.22
11     830    1072   25   34      3.0      4.1 01.23
12    1287    1965   41   38      3.2      3.0 01.24
13    1975    2684   56   49      2.8      2.5 01.25
14    2744    5794   80   51      2.9      1.9 01.26
15    4515    6973  106   60      2.3      1.3 01.27
16    5974    9239  132  103      2.2      1.7 01.28
17    7711   12167  170  124      2.2      1.6 01.29
18    9692   15238  213  171      2.2      1.8 01.30
19   11791   17988  259  243      2.2      2.1 01.31
20   14380   19544  304  328      2.1      2.3 02.01
21   17205   21558  361  475      2.1      2.8 02.02
22   20438   23214  425  632      2.1      3.1 02.03
23   24324   23260  490  892      2.0      3.7 02.04
24   28018   24702  563 1153      2.0      4.1 02.05
25   31161   26359  636 1540      2.0      4.9 02.06
26   34546   27657  722 2050      2.1      5.9 02.07
27   37198   28942  811 2649      2.2      7.1 02.08
28   40171   23589  908 3281      2.3      8.2 02.09
29   42708   21675 1017 3998      2.4      9.4 02.10

@BlankerL BlankerL added help wanted Extra attention is needed and removed enhancement New feature or request labels Feb 13, 2020
@XuyangShen
Copy link

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

@BlankerL
Copy link
Owner

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

这个并没有地市的数据,并且无法通过爬虫批量获取。

@XuyangShen
Copy link

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

这个并没有地市的数据,并且无法通过爬虫批量获取。

是的 跟上面提到的R的包的得到的数据结构类似的, 官方的各省数据很多都是1.23 -1.24 才在省卫建委公示的

@BlankerL
Copy link
Owner

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

这个并没有地市的数据,并且无法通过爬虫批量获取。

是的 跟上面提到的R的包的得到的数据结构类似的, 官方的各省数据很多都是1.23 -1.24 才在省卫建委公示的

是的,但是柳叶刀等期刊论文应该是有公开数据的,我暂时没有查看其他的公开数据集,因为他们的数据频率可能很低。同时,当时卫健委也不一定有进行高频的确诊人数统计和汇报工作,恐怕22日以前的数据很难回溯了。

@XuyangShen
Copy link

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

这个并没有地市的数据,并且无法通过爬虫批量获取。

是的 跟上面提到的R的包的得到的数据结构类似的, 官方的各省数据很多都是1.23 -1.24 才在省卫建委公示的

是的,但是柳叶刀等期刊论文应该是有公开数据的,我暂时没有查看其他的公开数据集,因为他们的数据频率可能很低。同时,当时卫健委也不一定有进行高频的确诊人数统计和汇报工作,恐怕22日以前的数据很难回溯了。

是的,非常认同。还有一个可能就是 有很多提供实时疫情API的公司 可能会有这部分历史数据, 但我推测他们大部分是爬丁香园的数据, 所以很早的历史数据是很难得到的

@Dobby233Liu
Copy link

Dobby233Liu commented Feb 14, 2020

Moyck/2019NCOV@9bcdbdb/app/src/main/java/com/moyck/ncov/api/JsonDayBefore24.java#L9 contains data in date 2020.1.12-1.23 from Tencent News, it can be a reference.


Personally, I created a data table for reference: nhc数据.xlsx. It wasn't sorted really well, though. Plus, because the data is from the NHC website, it doesn't have Malaysia data. Also, there may have places I mislook. But, still, it's for reference needs, so don't take it too serious.


Actually, you can keep the "enchantment" tag. You may also add a "good first issue" tag if you think so.


Assuming no one will notice, edit: wuhan2020-timeline seems like a good source I'd like to share

@BlankerL
Copy link
Owner

BlankerL commented Feb 14, 2020

Moyck/2019NCOV@9bcdbdb/app/src/main/java/com/moyck/ncov/api/JsonDayBefore24.java#L9 contains data in date 2020.1.12-1.23 from Tencent News, it can be a reference.

Personally, I created a data table for reference: nhc数据.xlsx. It wasn't sorted really well, though. Plus, because the data is from the NHC website, it doesn't have Malaysia data. Also, there may have places I mislook. But, still, it's for reference needs, so don't take it too serious.

Actually, you can keep the "enchantment" tag. You may also add a "good first issue" tag if you think so.

Thank you so much. I know this data source and I have already add the maintainer as a WeChat friend. He gave me these data at the end of January, and mentioned these data were collected at the end of the day, but I am not quite sure because he manually collected them and the time might not be that exact.

I will cross-validate all the data sources and try to add them into the database once I am spare. I will remain this question open and keep following this.

@yijunwang0805
Copy link

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,不知道你是否有找到解决方案。有的话是否能分享一下,这边也遇到了一样的问题。

@BlankerL
Copy link
Owner

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,不知道你是否有找到解决方案。有的话是否能分享一下,这边也遇到了一样的问题。

你好,我对R的了解比较少,之前@pzhaonet#42 中提交过一份R语言数据预处理包,里面包括了数据从API和CSV文件下载并载入DataFrame中,不确定是否有帮助,或许可以阅读他源代码中get_ncov函数找到解决方案。

@yijunwang0805
Copy link

yijunwang0805 commented Feb 19, 2020

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,不知道你是否有找到解决方案。有的话是否能分享一下,这边也遇到了一样的问题。

你好,我对R的了解比较少,之前@pzhaonet#42 中提交过一份R语言数据预处理包,里面包括了数据从API和CSV文件下载并载入DataFrame中,不确定是否有帮助,或许可以阅读他源代码中get_ncov函数找到解决方案。

你好,

(忘记了他说的是他在用R,还以为他用Python)

我听了你的建议之后从R转用了python,根据上面的示范,改allarea

import requests
import pandas as pd

url = 'https://lab.isaaclin.cn/nCoV/api/area?latest=0'
r = requests.request('GET', url)

data = r.json()
df = pd.DataFrame.from_records(data['results'])
df

可是输出还是嵌套着list
image

实在不好意思,这点小事打扰到了你

@BlankerL
Copy link
Owner

BlankerL commented Feb 19, 2020

你好!当我获取https://lab.isaaclin.cn/nCoV/api/area?latest=0时候 由于嵌套了list 小白的我不知道怎么处理了 请问能返回其他易处理的格式嘛 我用R 一直没找到办法处理这个问题

你好,不知道你是否有找到解决方案。有的话是否能分享一下,这边也遇到了一样的问题。

你好,我对R的了解比较少,之前@pzhaonet#42 中提交过一份R语言数据预处理包,里面包括了数据从API和CSV文件下载并载入DataFrame中,不确定是否有帮助,或许可以阅读他源代码中get_ncov函数找到解决方案。

你好,

(忘记了他说的是他在用R,还以为他用Python)

我听了你的建议之后从R转用了python,根据上面的示范,改allarea

import requests
import pandas as pd

url = 'https://lab.isaaclin.cn/nCoV/api/area?latest=0'
r = requests.request('GET', url)

data = r.json()
df = pd.DataFrame.from_records(data['results'])
df

可是输出还是嵌套着list
image

实在不好意思,这点小事打扰到了你

话题已经转移至#67

@yijunwang0805
Copy link

yijunwang0805 commented Feb 19, 2020

很抱歉,历史数据最早只从项目写完爬虫开始运行是才可得,目前能从API请求到的最早的数据就是我的数据库能查询到的最早的历史数据了。其他数据源的数据暂时没有收录,如果更新频率很低,或许等API和爬虫稳定可用之后,我会考虑手动录入数据。

2月13日更新:
目前项目各方面已经趋于稳定,请问是否有人知道2020年1月22日以前的省级数据/24日以前的市级数据有什么获取渠道吗?目前准备寻找之前发表的传播学模型的论文,查看是否有公开数据集,以及这些数据的整理时间。

你好,

微信公众号biobabbleR语言的包nCov2019中湖北武汉最早数据是到1月11号,黄冈是到1月20号。说全国各城市新型肺炎疫情详情是由[新一线城市研究所x8点健闻]提供的。

     province city       time cum_confirm cum_heal
3785     湖北 仙桃 2020-01-23           2       NA
3786     湖北 宜昌 2020-01-23           1       NA
3787     湖北 十堰 2020-01-23           1       NA
3788     湖北 黄冈 2020-01-23          12       NA
3880     湖北 武汉 2020-01-22         425       NA
3881     湖北 黄冈 2020-01-22          12       NA
3882     湖北 荆州 2020-01-22           6       NA
3883     湖北 荆门 2020-01-22           1       NA
3938     湖北 武汉 2020-01-21         365       NA
3957     湖北 武汉 2020-01-20         258       25
3958     湖北 黄冈 2020-01-20          12       NA
3965     湖北 武汉 2020-01-19         198       25
3968     湖北 武汉 2020-01-18         121       24
3969     湖北 武汉 2020-01-17          62       19
3970     湖北 武汉 2020-01-16          45       15
3971     湖北 武汉 2020-01-15          41       12
3972     湖北 武汉 2020-01-14          41        7
3973     湖北 武汉 2020-01-13          41        7
3974     湖北 武汉 2020-01-12          41        7
3975     湖北 武汉 2020-01-11          41        2

@BlankerL
Copy link
Owner

你好 我想问的是在crawler.py 中 是怎么判断爬出的数据是最新的?例如爬出的内容是:text,怎么知道这个text是最新的并且继续执行程序的?

抱歉,之前没有看到这个评论,但是已经在你新开的问题 #41 中给了解答。

@BlankerL
Copy link
Owner

早些时间的数据也可以通过国家卫建委官网得到 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd_2.shtml

这个并没有地市的数据,并且无法通过爬虫批量获取。

是的 跟上面提到的R的包的得到的数据结构类似的, 官方的各省数据很多都是1.23 -1.24 才在省卫建委公示的

是的,但是柳叶刀等期刊论文应该是有公开数据的,我暂时没有查看其他的公开数据集,因为他们的数据频率可能很低。同时,当时卫健委也不一定有进行高频的确诊人数统计和汇报工作,恐怕22日以前的数据很难回溯了。

是的,非常认同。还有一个可能就是 有很多提供实时疫情API的公司 可能会有这部分历史数据, 但我推测他们大部分是爬丁香园的数据, 所以很早的历史数据是很难得到的

抱歉,之前错过了这条消息所以没有及时回复。我不太确定其他贩卖数据的公司的数据来源,但是前几天我了解到,有一个给政府提供数据分析的公司是使用的我们这份数据库,所以我猜测这份数据库的时间序列数据已经比较完善了。

@BlankerL
Copy link
Owner

BlankerL commented Feb 19, 2020

很抱歉,历史数据最早只从项目写完爬虫开始运行是才可得,目前能从API请求到的最早的数据就是我的数据库能查询到的最早的历史数据了。其他数据源的数据暂时没有收录,如果更新频率很低,或许等API和爬虫稳定可用之后,我会考虑手动录入数据。
2月13日更新:
目前项目各方面已经趋于稳定,请问是否有人知道2020年1月22日以前的省级数据/24日以前的市级数据有什么获取渠道吗?目前准备寻找之前发表的传播学模型的论文,查看是否有公开数据集,以及这些数据的整理时间。

你好,

微信公众号biobabble的包nCov2019中湖北武汉最早数据是到1月11号,黄冈是到1月20号。说全国各城市新型肺炎疫情详情是由[新一线城市研究所x8点健闻]提供的。

     province city       time cum_confirm cum_heal
3785     湖北 仙桃 2020-01-23           2       NA
3786     湖北 宜昌 2020-01-23           1       NA
3787     湖北 十堰 2020-01-23           1       NA
3788     湖北 黄冈 2020-01-23          12       NA
3880     湖北 武汉 2020-01-22         425       NA
3881     湖北 黄冈 2020-01-22          12       NA
3882     湖北 荆州 2020-01-22           6       NA
3883     湖北 荆门 2020-01-22           1       NA
3938     湖北 武汉 2020-01-21         365       NA
3957     湖北 武汉 2020-01-20         258       25
3958     湖北 黄冈 2020-01-20          12       NA
3965     湖北 武汉 2020-01-19         198       25
3968     湖北 武汉 2020-01-18         121       24
3969     湖北 武汉 2020-01-17          62       19
3970     湖北 武汉 2020-01-16          45       15
3971     湖北 武汉 2020-01-15          41       12
3972     湖北 武汉 2020-01-14          41        7
3973     湖北 武汉 2020-01-13          41        7
3974     湖北 武汉 2020-01-12          41        7
3975     湖北 武汉 2020-01-11          41        2

万分感谢!我会尽快查看,如果数据可靠会及时补全。

另外,请问这份数据有具体的获取时间吗,是否是当天最后一次更新的数据呢?

全国所有省份的数据应该都可以往前再回溯一段时间,但因为数据不一定是当天最后一次更新,且具体更新时间不确定,所以一直没有将其载入数据库,因为对传播学没有了解,担心数据的准确性会影响其他人的研究成果。

@yijunwang0805
Copy link

万分感谢!我会尽快查看,如果数据可靠会及时补全。

另外,请问这份数据有具体的获取时间吗,是否是当天最后一次更新的数据呢?

全国所有省份的数据应该都可以往前再回溯一段时间,但因为数据不一定是当天最后一次更新,且具体更新时间不确定,所以一直没有将其载入数据库,因为对传播学没有了解,担心数据的准确性会影响其他人的研究成果。

你好,

这份R语言的包的数据是由新一线城市研究所8点健闻整理出来提供给一名生物信息学科研学者,再由这名学者写成R语言的包nCov2019而成。

这份数据具体的获取时间因此便不得而知了,或许可从微信上联系公众号biobabble才能解答。

在当前情况下,毕竟一月份初期病情并未扩散且基数较小,综合潜伏者,政治及医疗设施的匮乏等因素,数据信息的完整性带来的想必是比更新时间的不确定性和微小的数据差异要大,在备注中注明不确定性即可。

个人建议补全数据及标注备注以警示学者。

万分感谢你的付出。

@BlankerL
Copy link
Owner

万分感谢!我会尽快查看,如果数据可靠会及时补全。
另外,请问这份数据有具体的获取时间吗,是否是当天最后一次更新的数据呢?
全国所有省份的数据应该都可以往前再回溯一段时间,但因为数据不一定是当天最后一次更新,且具体更新时间不确定,所以一直没有将其载入数据库,因为对传播学没有了解,担心数据的准确性会影响其他人的研究成果。

你好,

这份R语言的包的数据是由新一线城市研究所8点健闻整理出来提供给一名生物信息学科研学者,再由这名学者写成R语言的包nCov2019而成。

这份数据具体的获取时间因此便不得而知了,或许可从微信上联系公众号biobabble才能解答。

在当前情况下,毕竟一月份初期病情并未扩散且基数较小,综合潜伏者,政治及医疗设施的匮乏等因素,_数据信息的完整性_带来的想必是比_更新时间的不确定性_和微小的_数据差异_的要大,在备注中注明不确定性即可。

个人建议补全数据及标注备注以警示学者。

万分感谢你的付出。

好的,感谢!我会尽快把这份数据收录。

@yijunwang0805
Copy link

你好,
biendata 给参赛者提供了历史数据得csv,全国是到一月十号,省份则是到一月二十号。

@BlankerL
Copy link
Owner

你好,
biendata 给参赛者提供了历史数据得csv,全国是到一月十号,省份则是到一月二十号。

你好,十分感谢。我已经注册了这个账号,但似乎并没有提供数据集。
image

sample数据集仅245B大小,应该是提交数据的示例,训练集似乎并没有提供?

@yijunwang0805
Copy link

yijunwang0805 commented Feb 27, 2020 via email

@BlankerL
Copy link
Owner

BlankerL commented Feb 27, 2020

你好,这一页下面的数据库里有写着链接字样的就是。选择最近的一天2-26就好。上面的百度只是提交的格式的例子

感谢,理解了,已经成功下载。

@xmter
Copy link

xmter commented Mar 2, 2020

你好,请问一下国内和海外疫情数据可同时提供API吗?提供给初学者做全球疫情可视化效果,谢谢

@BlankerL
Copy link
Owner

BlankerL commented Mar 2, 2020

你好,请问一下国内和海外疫情数据可同时提供API吗?提供给初学者做全球疫情可视化效果,谢谢

你好,详细的API说明请参考API文档,你所需要的的这组数据可以通过/nCoV/api/area?latest=1提取。

@kawa11

This comment has been minimized.

@BlankerL

This comment has been minimized.

@kawa11

This comment has been minimized.

@BlankerL
Copy link
Owner

BlankerL commented Apr 3, 2020

是否可以提供一份数据库的DXYArea DXYOverall 的CSV导出文件呢?

数据仓库

我知道有这个数据仓库,但是从mongodb导出的csv文件和这个数据仓库的csv文件好像是经过处理了有不同的,如果用数据仓库的csv文件的话,数据仓库的那个script.py好像无法正常使用

script.py文件就是从MongoDB导出json及csv数据并上传的脚本,并不是你下载数据之后再执行的。上传这个script.py的目的只是为了让大家知道数据处理的方法。

MongoDB是非关系型数据库,无法直接导出csv文件,因为cities字段内储存着一个字典的列表,放到csv文件里面也无法正常载入常规的统计软件中,这也是我公开script.py代码展示csv文件的处理过程的原因。

如果你希望获得MongoDB数据库内的原始数据,可以参考json文件夹下的文件,数据库内的数据与json文件夹内的数据完全一致,然后自己写脚本来处理json文件即可。

另外,这个问题与本主题无关,上述所有内容我都已经折叠,如果有后续问题,可以在数据仓库内开新issue来提问,把不同的问题放在不同issue下,方便其他人查找答案。感谢配合。

@iamnoobXD
Copy link

作者你好,请你看看这个网站的样式以及布局甚至title名和您的是否一致
http://total.whalemed.com/
我发现这家公司盗用您的代码,来骗取国家经费

@iamnoobXD
Copy link

@v@建议别去,抄袭作品说是自己自主开发就离谱

@BlankerL
Copy link
Owner

作者你好,请你看看这个网站的样式以及布局甚至title名和您的是否一致
http://total.whalemed.com/
我发现这家公司盗用您的代码,来骗取国家经费

你好,十分感谢提醒,但我本人并没有做任何可视化的效果,在README的可视化都不是我的项目,并且似乎没有看到一样的界面。您是发现哪个网站和这个一样呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests