Skip to content

📘 记录深度学习的学习过程和资料整理,包括计算机视觉CV、Paper解读等...

Notifications You must be signed in to change notification settings

wyz960616/DeepLearning-Notes

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

62 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

记录DeepLearning学习过程

目录


🌠 如何找论文:如何找论文 - 知乎

中国知网 | arXiv | 快搜 - 学术搜索 | Web of Science [v.5.29] - 所有数据库 基本检索 | …

长长的论文不知道该从哪里读起,阅读论文没有头绪,拿到一个课题不知道该如何入手,如何快速了解一个课题往往是新晋研究生的最希望掌握的技术:学科领域文献检索调查方法步骤 - 知乎

知乎上的一个问题:从零基础开始想发一篇深度学习的论文要提前准备什么?写论文的周期大概多久? - 知乎

如何进行科研/论文研读:

  • 【专知独家干货】-《科研写作之读论文》的一些心得体会

  • 论文写作的一些经验 | Stay Hungry,Stay Foolish.

    1. 阅读大量文献:有了方向和一定的基础之后,就需要对特定领域已有的工作进行深挖,知道别人在做什么,对于某个问题有哪些常见的做法,后续做研究中写 Reference 、Related Work 就需要有大量的文献储备。。。

      。。。

    2. 对于我帮助很大。文章中说创新主要是两种方式:应用创新和模型创新。应用创新是指在已有模型,一般是最新的模型,然后尝试去解决一个尚未使用新方法解决的问题,结果如果比以前都出色的话,那就是一篇很不错的文章,我见过的就有发了 ACL 以及 EMNLP 的两篇应用创新的文章;另外就是难度比较大的模型创新,不过难度也和创新程度息息相关,如果只是 increment 的创新,那么难度可能会相对小一点,但如果是开创一个领域的创新,像 GAN / ResNet 这种,就需要深刻的积累啦。

    。。。

如何进行论文写作:

  • 清华大学计算机系副教授-刘知远:如何写一篇合格的NLP论文 - 知乎

    NLP 学术会议(甚至包括期刊)论文已经形成比较固定的结构。绝大部分论文由以下六大部分构成:摘要(Abstract)、介绍(Introduction)、相关工作(Related Work)、方法(Method)、实验(Experiment)、结论(Conclusion)。。。

    • 摘要:用 100-200 词简介研究任务与挑战、解决思路与方法、实验效果与结论。
    • 介绍:用 1 页左右篇幅,比摘要更详细地介绍研究任务、已有方法、主要挑战、解决思路、具体方法、实验结果。
    • 相关工作:用 0.5-1 页左右篇幅介绍研究任务的相关工作,说明本文工作与已有工作的异同。
    • 方法:用 2-3 页篇幅介绍本文提出的方法模型细节。
    • 实验:用 2-3 页篇幅介绍验证本文方法有效性的实验设置、数据集合、实验结果、分析讨论等。
    • 结论:简单总结本文主要工作,展望未来研究方向。
  • 深度学习论文写作中多模型结果比较方法 | 治伦


👉 推荐该系列文章:关于神经网络模型&TensorFlow学习&目标检测模型等内容的系列文章.md

👉 计算机视觉牛人博客和代码汇总:计算机视觉牛人博客和代码汇总(全) - findumars - 博客园

👉 关于图像分割(Image segmentation,含语义/实例/场景分割)的学习见:图像分割专题 && 本文 1.3 语义/实例/场景分割(Images segmentation) 节内容,含如下内容:

- 什么是超像素、语义分割、实例分割、全景分割?
- 什么是同物异谱、同谱异物?
- RGB图像、全色图像、多光谱图像、高光谱图像?
- ...
- 语义分割发展和历史
	- 2000年之前,数字图像处理时我们采用方法基于几类:阈值分割、区域分割、边缘分割、纹理特征、聚类等
	- 2000年到2010年期间, 主要方法有四类:基于图论、聚类、分类以及聚类和分类结合。
	- 2010年至今,神经网络模型的崛起和深度学习的发展,主要涉及到几种模型
	发展历程:
		- 2014年 FCN 模型,主要贡献为在语义分割问题中推广使用端对端卷积神经网络,使用反卷积进行上采样
		- 2015年 U-net 模型,构建了一套完整 的编码解码器
		- 2015年 SegNet 模型,将最大池化转换为解码器来提高分辨率
		- 2015年 Dilated Convolutions(空洞卷积),更广范围内提高了内容的聚合并不降低分辨率
		- 2016年 DeepLab v1&v2
		- 2016年 RefineNet 使用残差连接,降低了内存使用量,提高了模块间的特征融合
		- 2016年 PSPNet 模型
		- 2017年 Large Kernel Matters
		- 2017年 DeepLab V3
		以上几种模型可以按照语义分割模型的独有方法进行分类,如专门池化(PSPNet、DeepLab),编码器-解码器架构(SegNet、E-Net),多尺度处理(DeepLab)、条件随机场(CRFRNN)、空洞卷积(DiatedNet、DeepLab)和跳跃连接(FCN)。
		
- 前DL时代的语义分割: 
	- Grab cut是微软剑桥研究院于2004年提出的著名交互式图像语义分割方法。与N-cut一样,grab cut同样也是基于图划分,不过grab cut是其改进版本,可以看作迭代式的语义分割算法。Grab cut利用了图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互操作即可得到比较好的前后背景分割结果。
	。。。
- DL时代
语义分割是对图像的一种更精细的推断与理解,由粗到细为:

- 图像分类 - 初级的图片理解,其对整张图片进行整体理解.
- 目标定位与检测 - 不仅提供图像内的类别,还包括相对于物体类别的空间为位置信息.
- 语义分割 - 对每个图像像素进行密集预测,得到像素类别信息.

图像的语义分割是将输入图像中的每个像素分配一个语义类别,以得到像素化的密集分类。

虽然自 2007 年以来,语义分割/场景解析一直是计算机视觉社区的一部分,但与计算机视觉中的其他领域很相似,自 2014 年 Long 等人首次使用全卷积神经网络对自然图像进行端到端分割,语义分割才有了重大突破。

——from:https://www.aiuai.cn/aifarm602.html#E-Net%E5%92%8CLink-Net

还有语义分割衡量标准、语义分割数据集等内容。另外,图像分割数据集和分割的标注数据格式认识参考:https://zhuanlan.zhihu.com/p/50925449

插播:

👉 这里记录一些在学习过程的 要点梳理和个人理解 以及 深度学习问题深度学习要点梳理和个人理解 [推荐],包含如下内容:

- 我的理解:神经网络参数改变过程
- 卷积、反卷积、转置卷积、空洞卷积、上采样、小采样等
- CNN模型演进:LeNet、ALeNet、VGGNet、NIN、GoogleNet、ResNet等
- 图像分割模型简单介绍:FCN、UNet、SegNet、PSPNet、Deeplabv1&v2&v3等
- 对softmax,softmax loss和cross entropy的理解
- 什么是标准差和方差
- 中心化和标准化、正太分布、鞍点、top5错误率、条件随机场CRF
- ……

👉 深度学习之框架学习,传送门:

👉 关于目标检测(Object Detection)的学习见:目标检测专题

👉 机器学习/深度学习代码搜索:

👉 关于 opecv-python 图像处理:opencv-python图像处理.md


人工智能最新学术研究和技术实现追寻,可关注:

领域人物及事迹,了解下:

1. Learning

1.1 深度学习基础

科普文章:

机器学习:

深度学习:

深度学习系列文章:

其他文章:

1.2 常见模型的讲解及实现

(0) Paper讲解

(1) ResNet

讲解

实践

关于残差连接:resnet中的残差连接,你确定真的看懂了?

更多内容请看我单独写的一个文档:ResNet(残差网络).md

1.3 语义/实例/场景分割(Images segmentation)

(1) 图像分割基础

①什么是图像分割?

②综述类/总结类:

  • 从全连接层到大型卷积核:深度学习语义分割全指南

  • 分割算法——可以分割一切目标(各种分割总结) [荐]

    深度学习最初流行的分割方法是,打补丁式的分类方法 (patch classification) 。逐像素地抽取周围像素对中心像素进行分类。由于当时的卷积网络末端都使用全连接层 (full connected layers) ,所以只能使用这种逐像素的分割方法。

    但是到了 2014 年,来自伯克利的 Fully Convolutional Networks(FCN)卷积网络,去掉了末端的全连接层。随后的语义分割模型基本上都采用了这种结构。除了全连接层,语义分割另一个重要的问题是池化层。池化层能进一步提取抽象特征增加感受域,但是丢弃了像素的位置信息。但是语义分割需要类别标签和原图像对齐,因此需要从新引入像素的位置信息。有两种不同的架构可以解决此像素定位问题。

    第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。该类架构中 U-net 是最流行的。

    第二种是膨胀卷积 (dilated convolutions) 【这个核心技术值得去阅读学习】,抛弃了池化层。

  • 一文概览主要语义分割网络:FCN,SegNet,U-Net...

    该文为译文,介绍了很多语义分割的深度学习模型,包括半监督下的语义分割,可以大致看下。

③深度学习语义分割模型的介绍:

④图像分割的衡量指标:

语义分割其实就是对图片的每个像素都做分类。其中,较为重要的语义分割数据集有:VOC2012 以及 MSCOCO。

(2) 图像分割仓库

(3) 图像分割论文及最新研究

论文汇集:

(4) 图像分割讲解视频

1.4 目标检测(Object Detection)

(待更……)

1.5 强化学习/增强学习(Reinforce Learning)

(1) 基础

2. Questions

(1)如何免费云端运行 Python 深度学习框架:如何在免费云端运行 Python 深度学习框架?-红色石头的个人博客

(2)什么学习中网络不收敛指的是什么?——①误差一直来回波动,进入不到容忍度内。②跟迭代不收敛或者系统不稳定差不多,上下波动不能趋近一个定值。

3. Competition

(1) Kaggle官网:https://www.kaggle.com/

(2) 天池AI开发者社区:https://tianchi.aliyun.com/home/

4. Papers

4.1 Basic

  • 《A guide to convolution arithmetic for deep》[Paper]
  • 《Bag of Tricks for Image Classification with Convolutional Neural Networks》[Paper]
  • (待更。。。

4.2 Models

  • [1989] LeNet:《Gradient-Based Learning Applied to document Recognition》[Paper]

  • [2012] AlexNet:《ImageNet Classification with Deep Convolutional Neural Networks》[Paper]

  • [2014] Inception v1:《Going deeper with convolutions》[Paper]

    注:先前叫 GoogLeNet,现在简单地被称为 Inception vN,其中 N 指的是由 Google 定的版本号。

  • [2014] VGGNet:《Very Deep Convolutional Networks for Large-Scale Image Recognition》[Paper]

  • [2015] Inception v2:《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》[Paper]

  • [2015] Inception v3:《Rethinking the Inception Architecture for Computer Vision》[Paper]

  • [2015] ResNet:《Deep Residual Learning for Image Recognition》[Paper]

  • [2016] Inception v4:《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》[Paper]

4.3 Images segmentation

  • FCN:《Fully Convolutional Networks for Semantic Segmentation》 [Paper-v1] [Paper-v2](最新提交时间:2015.03.08)
  • U-Net:《U-Net: Convolutional Networks for Biomedical Image Segmentation》[Paper](最新提交时间:2015.05.18)
  • SegNet:《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》[Paper-v1] [Paper-v2] [Paper-v3](最新提交时间:2016.11.10)
  • Dilated Convolutions:《Multi-Scale Context Aggregation by Dilated Convolutions》[Paper-v1] [Paper-v2] [Paper-v3](最新提交时间:2016.04.30)
  • DeconvNet:《Learning Deconvolution Network for Semantic Segmentation》[Paper](最新提交时间:2015.05.17)
  • RefineNet:《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》[Paper-v1] [Paper-v2] [Paper-v3](最新提交时间:2016.11.25)
  • PSPNet:《Pyramid Scene Parsing Network》[Paper-v1] [Paper-v2](最新提交时间:2017.04.27)
  • Large Kernel Matters:《Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network》[Paper](最新提交时间:2017.03.08)
  • DeepLab 系列:
    • DeepLab v1:《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》[Paper-v1] [Paper-v2] [Paper-v3] [Paper-v4](最新提交时间 :2016.06.07)
    • DeepLab v2:《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》[Paper-v1] [Paper-v2](最新提交时间:2017.05.12)
    • DeepLab v3:《Rethinking Atrous Convolution for Semantic Image Segmentation》[Paper-v1] [Paper-v2] [Paper-v3](最新提交时间:2017.12.05)
    • DeepLab v3+:《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》[Paper-v1] [Paper-v2] [Paper-v3](最新提交时间:2018.08.22)
  • NAS:《Searching for Efficient Multi-Scale Architectures for Dense Image Prediction》[Paper-v1](提交时间:2018.09.11) 相关文章:语义分割领域开山之作:Google提出用神经网络搜索实现语义分割 | 雷锋网
  • (待更。。。

语义分割类的论文合集:

关于图像分割的代码实现,见:2-图像分割仓库

一些新的研究:

4.4 Object Detection

  • R-CNN:《Rich feature hierarchies for accurate object detection and semantic segmentation》[Paper]
  • Fast R-CNN:《Fast R-CNN》 [Paper]
  • Faster R-CNN:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》 [Paper]
  • Yolo
  • SSD
  • Mask R-CNN :《Mask R-CNN》 [Paper]

一些新的研究:

4.5 Others

5. Interview

6. Resources

6.1 Books

这两年关于人工智能特别是深度学习的书如雨后春笋不断涌现。下面列举一些被大家普遍评价较高以及我有大概浏览了下觉得不错的书,权当个参考吧:

1.机器学习

  • 《写给人类的机器学习》译者:飞龙(等);原书:Machine Learning for Humans
  • 周志华《机器学习》,2016年1月
  • Peter Harrington 《机器学习实战》,中文版译者:李锐/李鹏/曲亚东/王斌 ,2013年6月 [GitHub代码仓库]

2.深度学习

  • Michael Nielsen《Neural Networks and Deep Learning》,中文版《神经网络与深度学习》
  • 弗朗索瓦•肖莱 《Python深度学习》,中文版译者:张亮,2018年8月
  • 张玉宏《深度学习之美:AI时代的数据处理与最佳实践》,2018年6月
  • 张平《图解深度学习与神经网络:从张量到TensorFlow实现》,2018年09月
  • 李沐、Aston Zhang 等人《动手学深度学习》预览版:《动手学深度学习》
  • 邱锡鹏《神经网络与深度学习》:在线阅读

3.深度学习框架

  • 泽宇/顾思宇 《Tensorflow:实战Google深度学习框架》
  • 黄文坚/唐源《TensorFlow实战》
  • 廖星宇《深度学习入门之PyTorch》 [代码仓库]
  • 陈云《深度学习框架PyTorch:入门与实践》 [代码仓库]

6.2 Videos

最新:

台大教授李宏毅的机器学习课程经常被认为是中文开放课程中的首选。李教授的授课风格风趣幽默,通俗易懂,其课程内容中不仅有机器学习、深度学习的基础知识,也会介绍 ML 领域里的各种最新技术。近日,2019 版的课程资料与视频终于上线了。

李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于 2012 年获得台湾大学博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)做访问学者。他的研究方向主要是机器学习(深度学习)和语音识别。此前,他的 2016 版《机器学习》课程视频曾是流行学习资料。

6.3 GitHub

  • apachecn/AiLearning

  • DeepLearning-500-questions

    深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 全书分为15个章节,近20万字。由于水平有限,书中不妥之处恳请广大读者批评指正。 未完待续...

  • AI初学者--(机器学习爱好者)

    本网站是一个公益性网站,致力于人工智能(AI)方面的课程的翻译、笔记分享等。

    本人2014年下半年开始翻译吴恩达老师的机器学习课程字幕,并写了课程的中文笔记。笔记被下载了几万次,应该帮助了不少人,也有很多人一直在帮助我,现在我把笔记的word原稿和markdown原稿分享给大家。

    …… ——By 黄海广

  • daily-paper-computer-vision

    记录每天整理的计算机视觉/深度学习/机器学习相关方向的论文。

6.4 Blog

7. Thinking

Journals

对期刊和会议的认识:

更多的了解:对期刊和会议的认识.md

计算机视觉方向(CV)三大顶级会议:

  • ICCV(IEEE International Conference on Computer Vision,国际计算机视觉大会)
  • CVPR(IEEE Conference on Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议)
  • ECCV(European Conference on Computer Vision,欧洲计算机视觉国际会议)

其他顶会:

  • AAAI
  • NeurIPS
  • ……

我在网上有下载到一个文件,可以参考看下:AI_conference_template.xlsx

Q:什么是影响影子?

影响因子(Impact Factor,IF)是汤森路透(Thomson Reuters)出品的期刊引证报告(Journal Citation Reports,JCR)中的一项数据。 即某期刊前两年发表的论文在该报告年份(JCR year)中被引用总次数除以该期刊在这两年内发表的论文总数。这是一个国际上通行的期刊评价指标。——from:影响因子_百度百科

一些网上的分享:

News:

About

📘 记录深度学习的学习过程和资料整理,包括计算机视觉CV、Paper解读等...

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 100.0%