-
Notifications
You must be signed in to change notification settings - Fork 334
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[de] cs-229-deep-learning #106
Changes from 1 commit
e1987c1
d5c756f
efcadfa
68b133b
b8ba091
95f19f2
62155df
52c92ca
4baf5d3
b418dcd
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change |
---|---|---|
|
@@ -60,7 +60,7 @@ | |
|
||
**11. Learning rate ― The learning rate, often noted α or sometimes η, indicates at which pace the weights get updated. This can be fixed or adaptively changed. The current most popular method is called Adam, which is a method that adapts the learning rate.** | ||
|
||
⟶ Lernrate - Die Lernrate, oft mit α oder manchmal mit η bezeichnet, gibt an mit welcher Schnelligkeit die Gewichtungen aktualisiert werden. Die Lernrate kann konstant oder anpassend variierend sein. Die aktuell populärste Methode, Adam, ist eine Methode die die Lernrate anpasst. | ||
⟶ Lernrate - Die Lernrate, oft mit α oder manchmal mit η bezeichnet, gibt an mit welcher Rate die Gewichtungen aktualisiert werden. Die Lernrate kann konstant oder anpassend variierend sein. Die aktuell populärste Methode, Adam, ist eine Methode die die Lernrate anpasst. | ||
|
||
<br> | ||
|
||
|
@@ -84,7 +84,7 @@ | |
|
||
**15. Step 1: Take a batch of training data.** | ||
|
||
⟶ Schritt 1: Nimm einen Stapel von Lerndaten. | ||
⟶ Schritt 1: Nimm ein Bündel von Lerndaten. | ||
|
||
<br> | ||
|
||
|
@@ -144,13 +144,13 @@ | |
|
||
**25. Types of gates ― Here are the different types of gates that we encounter in a typical recurrent neural network:** | ||
|
||
⟶ Typen von Gattern - Dies sind die verschiedenen Typen der Gatter die wir in typischen rekurrenten neuronalen Netzen vorfinden: | ||
⟶ Typen von Toren - Dies sind die verschiedenen Typen der Tore die wir in typischen rekurrenten neuronalen Netzen vorfinden: | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**26. [Input gate, forget gate, gate, output gate]** | ||
|
||
⟶ [Eingangsgatter, Vergißgatter, Gatter, Ausgangsgatter] | ||
⟶ [Eingangstor, Vergesstor, Gatter, Ausgangstor] | ||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. [Input-Gatter, Forget-Gatter, Speicher-Gatter, Output-Gatter] for [Input gate, forget gate, gate, output gate] NOTE: the current version of the english pdf on git has a different order: [Input gate, Forget gate, Output gate, Gate) instead of [Input gate, forget gate, gate, output gate] There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Have stuck to German words ("Eingangsgatter" instead of "Input-Gatter"). Acceptable? Also, is "Gate" "Speichergatter"? |
||
|
||
<br> | ||
|
||
|
@@ -162,160 +162,160 @@ | |
|
||
**28. LSTM ― A long short-term memory (LSTM) network is a type of RNN model that avoids the vanishing gradient problem by adding 'forget' gates.** | ||
|
||
⟶ | ||
⟶ LSTM - Ein langes Kurzzeitgedächtnis (long short-term memory, LSTM) ist ein Typ eines RNN welcher durch Hinzufügen von Vergesstoren das Problem verschwindender Gradienten vermeidet. | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**29. Reinforcement Learning and Control** | ||
|
||
⟶ | ||
⟶ Bestärkendes Lernen und bestärkende Regelung | ||
|
||
<br> | ||
|
||
**30. The goal of reinforcement learning is for an agent to learn how to evolve in an environment.** | ||
|
||
⟶ | ||
⟶ Das Ziel des bestärkenden Lernens ist für einen Agenten zu lernen sich in einer Umgebung zu entwickeln. | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**31. Definitions** | ||
|
||
⟶ | ||
⟶ Definitionen | ||
|
||
<br> | ||
|
||
**32. Markov decision processes ― A Markov decision process (MDP) is a 5-tuple (S,A,{Psa},γ,R) where:** | ||
|
||
⟶ | ||
⟶ Markow-Entscheidungsproblem - Ein Markow-Entscheidungsproblem (Markow decision process, MDP) ist ein 5-Tupel, wobei | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**33. S is the set of states** | ||
|
||
⟶ | ||
⟶ S die Menge von Zuständen ist | ||
|
||
<br> | ||
|
||
**34. A is the set of actions** | ||
|
||
⟶ | ||
⟶ A die Menge von Aktionen ist | ||
|
||
<br> | ||
|
||
**35. {Psa} are the state transition probabilities for s∈S and a∈A** | ||
|
||
⟶ | ||
⟶ {Psa} die Übergangswahrscheinlichkeiten von s∈S und a∈A sind | ||
|
||
<br> | ||
|
||
**36. γ∈[0,1[ is the discount factor** | ||
|
||
⟶ | ||
⟶ γ∈[0,1[ der Discount-Faktor ist | ||
|
||
<br> | ||
|
||
**37. R:S×A⟶R or R:S⟶R is the reward function that the algorithm wants to maximize** | ||
|
||
⟶ | ||
⟶ R:S×A⟶R oder R:S⟶R die Belohnungsfunktion ist die der Algorithmus zu maximieren wünscht | ||
|
||
<br> | ||
|
||
**38. Policy ― A policy π is a function π:S⟶A that maps states to actions.** | ||
|
||
⟶ | ||
⟶ Strategie - Die Strategie π ist die Funktion π:S⟶A welche Zustände auf Aktionen abbildet. | ||
|
||
<br> | ||
|
||
**39. Remark: we say that we execute a given policy π if given a state s we take the action a=π(s).** | ||
|
||
⟶ | ||
⟶ Hinweis: wir sagen wir führen eine gegebene Strategie π aus wenn wir für einen gegebenen Zustand s die Aktion a=π(s) tätigen. | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**40. Value function ― For a given policy π and a given state s, we define the value function Vπ as follows:** | ||
|
||
⟶ | ||
⟶ Wertfunktion - Für eine gegebene Strategie π und einen gegebenen Zustand s definieren wir die Wertfunktion Vπ wie folgt: | ||
|
||
<br> | ||
|
||
**41. Bellman equation ― The optimal Bellman equations characterizes the value function Vπ∗ of the optimal policy π∗:** | ||
|
||
⟶ | ||
⟶ Bellman-Gleichung - Die optimale Bellman-Gleichung charakterisiert die Wertfunktion Vπ∗ der optimalen Strategie π∗: | ||
|
||
<br> | ||
|
||
**42. Remark: we note that the optimal policy π∗ for a given state s is such that:** | ||
|
||
⟶ | ||
⟶ Hinweis: wir bezeichnen die optimale Strategie π∗ für einen gegebenen Zustand s sodass: | ||
|
||
<br> | ||
|
||
**43. Value iteration algorithm ― The value iteration algorithm is in two steps:** | ||
|
||
⟶ | ||
⟶ Wert-Interationsalgorithmus - Der Wert-Iterationsalgorithmus hat zwei Schritte: | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**44. 1) We initialize the value:** | ||
|
||
⟶ | ||
⟶ 1) Wir initialisieren den Wert: | ||
|
||
<br> | ||
|
||
**45. 2) We iterate the value based on the values before:** | ||
|
||
⟶ | ||
⟶ 2) Wir iterieren den Wert aufbauend auf dem vorherigen Wert: | ||
|
||
<br> | ||
|
||
**46. Maximum likelihood estimate ― The maximum likelihood estimates for the state transition probabilities are as follows:** | ||
|
||
⟶ | ||
⟶ Maximum-Likelihood-Schätzung - Die Maximum-Likelihood-Schätzungen für die Zustandübergangswahrscheinlichkeiten sind wie folgt: | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**47. times took action a in state s and got to s′** | ||
|
||
⟶ | ||
⟶ Anzahl Ausführung Aktion a in Zustand s führt zu s′ | ||
|
||
<br> | ||
|
||
**48. times took action a in state s** | ||
|
||
⟶ | ||
⟶ Anzahl Ausführung Aktion a in Zustand s | ||
|
||
<br> | ||
|
||
**49. Q-learning ― Q-learning is a model-free estimation of Q, which is done as follows:** | ||
|
||
⟶ | ||
⟶ Q-Lernen - Q-Lernen ist eine modellfreie Schätzung von Q welche wie folgt durchgeführt wird: | ||
|
||
<br> | ||
|
||
**50. View PDF version on GitHub** | ||
|
||
⟶ | ||
⟶ Sieh PDF-Version auf GitHub | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**51. [Neural Networks, Architecture, Activation function, Backpropagation, Dropout]** | ||
|
||
⟶ | ||
⟶ [Neuronale Netze, Architekturen, Aktivierungsfunktion, Fehlerrückführung, Aussetzen] | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**52. [Convolutional Neural Networks, Convolutional layer, Batch normalization]** | ||
|
||
⟶ | ||
⟶ [Faltende neuronale Netzwerke, faltende Schicht, Bündelnormalisierung] | ||
|
||
<br> | ||
|
||
**53. [Recurrent Neural Networks, Gates, LSTM]** | ||
|
||
⟶ | ||
⟶ [Rekurrente neuronale Netze, Tore, LSTM] | ||
nanophilip marked this conversation as resolved.
Show resolved
Hide resolved
|
||
|
||
<br> | ||
|
||
**54. [Reinforcement learning, Markov decision processes, Value/policy iteration, Approximate dynamic programming, Policy search]** | ||
|
||
⟶ | ||
⟶ [Bestärkendes Lernen, Markow-Entscheidungsproblem, Wert-Strategie-Iteration, näherungs-dynamische Programmierung, Strategiesuche] |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Gewichtungenbut: Gewichte*) Die Lernrate kann konstant oder
anpassend variierend sein.dynamisch angepasst werden.*)
Die aktuell populärste Methode, Adam, ist eine Methode die die Lernrate anpasst.Am häufigsten wird die Methode Adam benutzt, welche die Lernrate dynamisch aktualisiert.So final correct one:
Lernrate - Die Lernrate, oft mit α oder manchmal mit η bezeichnet, gibt an mit welcher Rate die Gewichte aktualisiert werden. Die Lernrate kann konstant oder dynamisch angepasst werden. Am häufigsten wird die Methode Adam benutzt, welche die Lernrate dynamisch aktualisiert.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Very good, thank you! Perhaps also "die Adam-Methode" insetad of "die Methode Adam"?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Adam-Methods sounds nicer, indeed
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Now "Die aktuell populärste Methode, Adam, aktualisiert die Lernrate dynamisch." Good?