girlCrawler

一个针对网站 http://www.girl13.com 上图片的爬取工具，具有以下功能和特性:

爬取到网站上所有主体下的图片列表
在本地建立与各主题对应的文件夹
将爬取到的图片下载到本地对应主题的文件夹下
多次运行工程能够检测图片文件是否已经存在，如存在则不再下载，只下载新的图片，节省流量

girlCrawler 主要是建立在以下依赖库之上的：

Node.js - 应用服务器
cheerio - 为服务器特别定制的，快速、灵活、实施的 jQuery 核心实现

安装和启动

1. 安装 Node.js.

2. 将整个工程 `clone` 到本地.

$ git clone https://github.com/xuelangcxy/girlCrawler.git

3. 安装依赖文件

使用 yarn 安装(推荐使用):
```
$ yarn
```
或者使用 npm 安装：
```
  $ npm install
```

4. 在工程的根目录下启动主文件

直接运行 script (推荐使用):
```
  $ yarn start
```
或者：
```
  $ npm start
```

尚存在的问题

运行该工程时存在中途中断下载的情况，可以直接按 Ctrl+c 以终止运行并尝试再次启动工程.
下载完成后可能存在某些图片不能查看，图片大小为0，可以将此类图片文件删除并尝试再次运行工程.
再次运行工程不会重复下载已存在的文件.

温馨提示：

由于图片数量较大，经测试大小大概在350-400MB，请下载前酌情考虑

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
node_modules		node_modules
output		output
.babelrc		.babelrc
.eslintignore		.eslintignore
.eslintrc		.eslintrc
.gitignore		.gitignore
README.md		README.md
config.js		config.js
constants.js		constants.js
girl.js		girl.js
logger.js		logger.js
main.js		main.js
package.json		package.json
webpack.config.js		webpack.config.js
yarn.lock		yarn.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

girlCrawler

一个针对网站 http://www.girl13.com 上图片的爬取工具，具有以下功能和特性:

girlCrawler 主要是建立在以下依赖库之上的：

安装和启动

1. 安装 Node.js.

2. 将整个工程 `clone` 到本地.

3. 安装依赖文件

使用 `yarn` 安装(推荐使用):

或者使用 `npm` 安装：

4. 在工程的根目录下启动主文件

直接运行 `script` (推荐使用):

或者：

尚存在的问题

温馨提示：

About

Releases

Packages

Languages

xuelangcxy/girlCrawler

Folders and files

Latest commit

History

Repository files navigation

girlCrawler

一个针对网站 http://www.girl13.com 上图片的爬取工具，具有以下功能和特性:

girlCrawler 主要是建立在以下依赖库之上的：

安装和启动

1. 安装 Node.js.

2. 将整个工程 clone 到本地.

3. 安装依赖文件

使用 yarn 安装(推荐使用):

或者使用 npm 安装：

4. 在工程的根目录下启动主文件

直接运行 script (推荐使用):

或者：

尚存在的问题

温馨提示：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

2. 将整个工程 `clone` 到本地.

使用 `yarn` 安装(推荐使用):

或者使用 `npm` 安装：

直接运行 `script` (推荐使用):

Packages