From perceptron to deep neural networks

### Derivatives
		      <small>
			$$ \begin{eqnarray}
			E = \sum_{k=1}^N E_k & \qquad &
			\triangle w_{ij} = -\varepsilon \frac{\delta E}{\delta
			w_{ij}} \\
			\frac{\delta E}{\delta w_{ij}} = \sum_{k=1}^N
			\frac{\delta E_k}{\delta w_{ij}}& &
			\frac{\delta E_k}{\delta w_{ij}} = \frac{\delta
			E_k}{\delta o_i} \frac{\delta o_i}{\delta \xi_i}
			\frac{\delta\xi_i}{\delta w_{ij}} \\
		      o_{ij} = \varphi (\sum_{k=1}^p (w_{ijk} x_{k} - \theta_{ij})) &\qquad &
		      \varphi(z) = \frac{1}{1 + e^{-z}}, 
		      \frac{\delta\varphi(z)}{\delta z} = \varphi(z)
			(1-\varphi(z)) \\
			\frac{\delta E_k}{\delta w_{ij}} = \frac{\delta
			E_k}{\delta o_i} o_i (1 - o_i)o_j & &\\
		      \end{eqnarray}
			$$
		      </small>
		      
		      If $o_i$ is the output neuron:
		      $ \frac{\delta E_k}{\delta o_i} = y_i - d_k $

If $o_i$ is an hidden neuron:
		      $ \frac{\delta E_k}{\delta o_i} = \sum_{r \in
		      i^{\rightarrow}} \frac{\delta E_k}{\delta o_r} o_r (1-o_r)
		      w_{ir}$

Support vector machine

Looking for a separating hyperplane with the maximal margin.