Teoria de la Informació publicada per Shannon (1948)
Vídeo que ho introdueix de la millor manera possible
https://www.youtube.com/watch?v=4ic-J79O9hg
$$ I(X|Y)=\sum_{x\in \mathcal{X}} \sum_{y\in \mathcal{Y}} P(X=x,Y=y)\log_2\frac{1}{P(X=x|Y=y)} $$
Propietats
$$ \begin{aligned} &\text{1. } H(X, Y)=H(X \mid Y)+H(Y) \\ &\text{2. } H(X \mid Y)=0 \text{ si determinista} \\ &\text{3. } H(X \mid Y)=H(X)\text{ si independent} \end{aligned} $$
Quan nosaltres tenim 1 distribució de probabilitat, podem fer servir diverses “mesures matemàtiques” per saber com d’ample és la distribució, la més coneguda i la que sol ser convenient en la majoria de casos és la “Desviació Estàndard”, però en hi ha d’altres
Al mateix temps, quan enlloc de 1 distribució de probabilitat, en tenim 2, i volem saber quina “distància” hi ha entre elles, ho podem fer de diverses maneres. La més coneguda i útil en la teoria de la informació és la divergència de “Kullback-Leibler”.
Ens ajudarà a mesurar una “Entropia relativa” entre dos sistemes.
Cas discret
$$ D_{K L}(P \| Q)=\sum_i P(i) \log \frac{P(i)}{Q(i)} $$
Cas continu
$$ D_{K L}(P \| Q)=\int P(x) \log \frac{P(x)}{Q(x)} d x $$
Propietats
$$ \begin{aligned} &\text{1. } D_{K L}(P \| Q) \geq 0 \\ &\text{2. } D_{K L}(P \| Q)=0 \text{ només si }\mathrm{P}=\mathrm{Q} \\ &\text{3. No és una mètrica: } D_{K L}(P \| Q) \neq D_{K L}(Q \| P) \\ &\hspace{1em}\text{(en general no és simètrica)} \end{aligned} $$
Visualització