Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Chapter6 #19

Closed
KevinLee1110 opened this issue Dec 8, 2016 · 58 comments
Closed

Chapter6 #19

KevinLee1110 opened this issue Dec 8, 2016 · 58 comments
Assignees

Comments

@KevinLee1110
Copy link
Contributor

关于第6章的各种建议,请在这里回复

@fairmiracle
Copy link

@KevinLee1110
Copy link
Contributor Author

@fairmiracle 多谢~我尽量避免这种小错误

@HC-2016
Copy link

HC-2016 commented Dec 13, 2016

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L671
原文“If we use a diagonal matrix, or a scalar times the diagonal matrix,”
翻译“如果我们使用对角矩阵,或者是一个常数乘以单位矩阵”
应该是“......乘以对角阵"

@KevinLee1110
Copy link
Contributor Author

@HC-2016 非常感谢你的建议~原文确实是”常数乘以对角矩阵“,但是这和对角矩阵有什么区别。。。个人认为这里是作者把单位阵打成了对角阵(理由如下:https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter3/probability_and_information_theory.tex#L418 ,这也是我为什么会把对角阵不假思索地打成单位阵的原因...),我还是在原文中翻译成”对角阵“,在脚注中加以修正吧。

@HC-2016
Copy link

HC-2016 commented Dec 13, 2016

@KevinLee1110 赞同你的理解,不过建议还是按照原文翻译,并用其他方式注释说明

@bengordai
Copy link

  1. 关于until的翻译
    直到深度学习的出现,这都是主流的方法。
    在深度学习出现前,这都是主流的方法。
    我认为until直译为“直到”读起来有歧义。。
  2. 关于convexity的翻译
    放弃训练问题的凸性
    我感觉凸性离开函数这个限定会很诡异。。“放弃问题的凸性”这个描述有点诡异。。
    3.关于address的翻译
    address这里解释为强调吗?我觉得是处理、解决。。这句话我会翻译为我们先详细解释配置(或者部署或者训练)一个前馈网络的每步设计。。

@bengordai
Copy link

@KevinLee1110
Copy link
Contributor Author

@bengordai 感谢你的每条建议~第6章我还在抓紧修正。当时翻译的有点急,所以读起来会怪怪的。接受你的1、3建议,我确实疏忽了。关于第2点,convexity的翻译,我认为凸性不止针对函数,也是对优化问题的一种描述,例如“凸优化”(参考wiki中的第二句话)。但我不确定这里的convexity是否是我理解的那种。

@HC-2016
Copy link

HC-2016 commented Dec 21, 2016

@HC-2016
Copy link

HC-2016 commented Dec 22, 2016

@HC-2016
Copy link

HC-2016 commented Dec 22, 2016

@KevinLee1110
Copy link
Contributor Author

KevinLee1110 commented Dec 22, 2016

@HC-2016 这两天有点事,没怎么弄第6章。。。抱歉

  1. https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L997 原文是这样

Figure 6.5 illustrates how a network with absolute value rectification creates mirror images of the function computed on top of some hidden unit, with respect to the input of that hidden unit.

这句话翻译为"图\ref{fig:chap6_space_folding}解释了带有绝对值修正的网络是如何创建函数的镜像图像的,这些函数在某些隐藏单元的顶部计算,作用于这些隐藏单元的输入。"如何?

  1. 感谢是指正

  2. |||c|||是引用,当时我们第一遍翻译的时候还没添加算法,所以有关算法的引用就先用|||c|||代替,后面我们会很快弄完的。

@ghost
Copy link

ghost commented Dec 22, 2016

第六章 题目及第一段落,将“网络”写成了“网路”

@imwebson
Copy link

6.3中的术语“winner-take-all”似乎更多的学术资料中译为“赢者通吃”~源于美国总统大选制度

@SwordYork
Copy link
Contributor

@imwebson 很有道理,我也纳闷怎么翻。多谢!

@SwordYork
Copy link
Contributor

@Elvinczp 多谢! @KevinLee1110 靠你了。

@KevinLee1110
Copy link
Contributor Author

  • @Elvinczp 感谢指正
  • @imwebson 嗯嗯,"赢者通吃"这种译法确实非常好~

@zdx3578
Copy link

zdx3578 commented Dec 23, 2016

“argmax’’ 函数的结 果表示为一个独热向量(只有一个元素为 1,其余元素都为 0 的向量) 保留 one-hot 更好吧;独热 怪怪的。

SwordYork added a commit that referenced this issue Dec 23, 2016
@SwordYork
Copy link
Contributor

@KevinLee1110 我改了one hot,@zdx3578 早上我grep了独热码,没想到没有改全,这下应该没有了。多谢!

@KevinLee1110
Copy link
Contributor Author

@zdx3578 @SwordYork 第6章错别字有点多...我争取尽快再完整读一遍...最近太忙了...(感觉这句话我说了很多遍...)

另外,我觉得one hot翻译成"独热"没问题啊(理由是通信中确实有这种翻译方法:Google),你确定直接从英文理解one hot就不怪了吗?(可能是我英文太菜,见谅...我觉得正文中出现"one-hot向量"的说法反而会让读者更加摸不着头脑...)...其实one hot这种,大家更容易接受它像标准基,而不是一种编码方式,所以翻译成啥都会怪怪的。但我认为翻译成"独热"会更好理解一些(个人观点),但要在第一次出现时给出说明,例如"只有一个元素为1,其余元素都为0的向量",这样大家可以根据索引找到第一次出现的地方,就可以理解了,不用每次都解释一遍。

@zdx3578
Copy link

zdx3578 commented Dec 24, 2016

感谢各位! ,普遍近似定理 (universal approximation theorem 万能逼近定理 是不是可以?

@SwordYork
Copy link
Contributor

@KevinLee1110 我用 \gls{one_hot} 代替了一下。第5章其他简单的监督学习算法中具体解释了one-hot,而且确实是一种编码方式。再考虑考虑要不要翻成中文,反正目前应该都在gls里了。

@SwordYork
Copy link
Contributor

@zdx3578 普遍近似定理 (universal approximation theorem) 万能逼近定理 ,我们没有统一好。我也不清楚哪个好,后面还出现了 universal approximator, 普遍近似器,万能逼近器,万能近似器……我觉得 普遍近似 可能好一点。

@zdx3578
Copy link

zdx3578 commented Dec 24, 2016

one hot 在开始几次出现时保留对照英文,会方便一些。

@zdx3578
Copy link

zdx3578 commented Dec 24, 2016

逼近是个动词,表示可以逼近能力。个人觉得好,其他地方看到过。普遍近似的普遍觉得什么都是普遍,个人感觉哈。或者开始使用两个中文名词都说明一下

@minoriwww
Copy link

@KevinLee1110
Copy link
Contributor Author

@zdx3578 @SwordYork approximate翻译成"逼近"或者"近似"都是有的,形成词组就是函数逼近、函数近似。但我觉得"逼近"更像是数值上迭代,最终收敛到一个局部极小值点,有一种极限的感觉;而"近似"意义更加广泛一些。另外就是"普遍近似器、普遍逼近器"我觉得有点难听(纯粹个人感觉),我倾向于翻译成"通用近似器、通用逼近器"或者"万能近似器、万能逼近器",后面的"万能"纯粹是我受到中学时三角函数万能公式这一说法的影响..

@KevinLee1110
Copy link
Contributor Author

KevinLee1110 commented Dec 24, 2016

@minoriwww 嗯!你说得有道理~ 多谢~"或多或少"确实是很棒的翻译~第二个function也确实应该翻译成功能,我们观测的是细胞的功能,不是函数XD

@zdx3578
Copy link

zdx3578 commented Dec 24, 2016

@KevinLee1110 深度学习 梯度下降 就是数值计算迭代,个人觉得动词逼近比近似更传神。个人感觉。

@KevinLee1110
Copy link
Contributor Author

@zdx3578 这里所谓的approximator是一个静态的表示,并不是一个过程。对于分类问题,我们的目标是得到输入到标签的一个映射f;对于回归问题,我们的目标是得到输入到数值的一个映射f。这里的approximator就是用f'来近似这样一种映射f,是一个静态的表示f‘,并不一定涉及数值迭代的过程。例如说"多项式可以近似任意的连续函数",更加强调说多项式这种结构形成的函数可以近似任意连续函数的行为;但是如果说"多项式可以逼近任意的连续函数",更加强调说任意的连续函数都可以表示成某种类型的多项式的极限。所以这里我其实个人更倾向于翻译成"近似"。

但是其实,我觉得"逼近"和"近似"没有必要区分得那么细,换着翻也没问题,因为大家都知道它的意思呀。还是不要纠结这个问题了...

@huangpingchun
Copy link

17行:
Feedforward networks are a conceptual stepping stone on the path to recurrent networks,
stepping stone 在此处翻译成 “奠基石/进身之阶” 比较好吧,“垫脚石”有点贬义。
如:前馈网络是通往循环网络概念的进身之阶

@KevinLee1110
Copy link
Contributor Author

@huangpingchun 嗯嗯,多谢~"垫脚石"确实有点贬义,但"进身之阶"不太好理解,我改成"奠基石"吧~

@HC-2016
Copy link

HC-2016 commented Dec 30, 2016

歪个楼,关于矩阵微分,这本书区分“gradient”和“Jacobian”么?有的话在哪说明的?

@SwordYork
Copy link
Contributor

@HC-2016 区分,详见 https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter4/numerical_computation.tex#L209
对应英文书82左右。 但书中一般说成是hessian,目前暂时译成海森。

@HC-2016
Copy link

HC-2016 commented Jan 11, 2017

@SwordYork 谢了!刚看完第四章。
我是指“gradient”和“Jacobian”是否互为转置(列向量/行向量),还是不区分?第四章好像并没有明确说明。Hessian是二阶导。

@SwordYork
Copy link
Contributor

@HC-2016 我貌似还是没有理解你的意思,在我的理解中 Jacobian 和 Hessian 才可以不区分。
以下是原书4.3.1节中的话,

Sometimes we need to find all the partial derivatives of a function whose input
and output are both vectors. The matrix containing all such partial derivatives is
as a Jacobian matrix.

When our function has multiple input dimensions, there are many second
derivatives. These derivatives can be collected together into a matrix called the
Hessian matrix.

Equivalently, the Hessian is the Jacobian of the gradient.

你有没有兴趣帮忙校对第4章?

@HC-2016
Copy link

HC-2016 commented Jan 11, 2017

@SwordYork
Jacobian是一阶导数排列成矩阵,Hessian是二阶导排列成矩阵。因此,“Equivalently, the Hessian is the Jacobian of the gradient.”

正在看第6章.

@SwordYork
Copy link
Contributor

你说的是对的,Jacobian是一阶偏导排列成矩阵,但前提是这个函数输入输出都是向量。
包含这样偏导的矩阵称为Jacobian矩阵,这里偏导是指对输出是向量输入也是向量的函数求导。
对导数(输入是向量输出标量的函数的导数)求导就是其中的一种情况,也就是所谓的 Jacobian of the gradient,这句话的意思是梯度的Jacobian矩阵(也就是二阶导)。 梯度的Jacobian矩阵 特称为 Hessian矩阵

The Jacobian of the gradient of a scalar function of several variables has a special name: the Hessian matrix, which in a sense is the "second derivative" of the function in question.

from wikipedia.

@HC-2016
Copy link

HC-2016 commented Jan 12, 2017

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L680

closed form expression
“闭合的表达式” -> "闭式表达"/“闭式解”?

@HC-2016
Copy link

HC-2016 commented Jan 13, 2017

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L1153
$\nabla_{\bm{\theta}J(\bm{\theta})}$ -> $\nabla_{\bm{\theta}}{J(\bm{\theta})}$

这章中 “Jacobian matrix”翻译是"Jacobi 矩阵",和其他章节不一致。术语一章用的是 “Jacobian matrix”

@HC-2016
Copy link

HC-2016 commented Jan 13, 2017

@HC-2016
Copy link

HC-2016 commented Jan 14, 2017

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L1353
“it performs on the order of one Jacobian product per node in the graph”, "on the order of "翻译错了吧。

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L1354
$\frac{\partial u^{(i)}}{\partial u^{(j)}}$ 翻译是对的,书是错的,补充说明。

https://github.com/exacity/deeplearningbook-chinese/blob/master/Chapter6/deep_feedforward_networks.tex#L1744
同上

@KevinLee1110
Copy link
Contributor Author

@HC-2016 非常感谢你的建议!!兄台有意愿认领一下第6章的中英对比吗?我们会在纸质版正式出版的时候,在书中致谢,非常感谢~

  • closed form expression "闭合的表达式"确实没有"闭式表达"/"闭式解"好。我感觉意译的话,结合语境,用"解析表达式"可能会更好一点。你觉得怎么样?

  • 原文是这样的

The expression for the negative log-likelihood naturally weights each example’s contribution to the loss for each component by the probability that the component produced the example.

我觉得作者如果用公式直接写反而会更加简洁明了...现在翻译成"负对数似然表达式将每个样例对每个组件的贡献进行赋权,权重的大小由相应的组件产生这个样例的概率来决定。"还是很拗口...我原本想翻译成"对每个组件的损失函数的贡献",但是这样就更奇怪了...这个问题先留着,待我再想一想。

  • 你是对的,就应该翻译成"和...一样",这里是呼应前文。

  • 嗯嗯,有一些术语还是没来得及统一,我去改一下。

  • 这里是我疏漏了。

  • "on the order of" 应该翻译成"大约",我当时第一反应是"order"是数量级的意思,所以翻译成了它,现在发现还是"大约"更合适。脚注确实应该加一下,毕竟我们是翻译,不是写书...XD,当时觉得作者错了直接修正就好,省得读者看着也挺麻烦...现在想想还是以脚注的形式吧: )

@HC-2016
Copy link

HC-2016 commented Jan 14, 2017

@KevinLee1110 不好意思,可能没有足够的时间中英对照。

@minoriwww
Copy link

@KevinLee1110 咱可以领一个第六章的中英对照嘛?

@SwordYork
Copy link
Contributor

SwordYork commented Jan 15, 2017

@minoriwww 非常感谢,这就更新README。

@KevinLee1110
Copy link
Contributor Author

KevinLee1110 commented Jan 15, 2017

@minoriwww 当然可以呀~ 谢谢你~

@cfybasil
Copy link

v0.4, 166页, 倒数第三行, \alpha_i = 1, 这个地方应该是-1, 我对照了原文

SwordYork added a commit that referenced this issue Feb 28, 2017
Former-commit-id: 3e9c9adb8e0233df74f20033de618743deb0c2e0
@KevinLee1110
Copy link
Contributor Author

@cfybasil 多谢指正~

@sailordiary
Copy link

建议ReLU译为“修正线性单元”

@KevinLee1110
Copy link
Contributor Author

@sailordiary 我先前全部是修正线性单元,后来修改术语表全部改成了整流线性单元... @SwordYork 你觉得哪个更好?

@SwordYork
Copy link
Contributor

@KevinLee1110 @sailordiary 这个已经敲定 整流线性单元 。。不管了

@SwordYork
Copy link
Contributor

这个issue下的建议都很出色!非常感谢,先关了这个issue,表示本章先告一段落。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests