Math | Haobin Tan

Math

Sat, 04 Jun 2022 00:00:00 +0000

Tutorials

Statistik: Zusammenfassung von Statistik
Statistik Tutorials von Studyflix 👍
Youtube channel “Math by Daniel Jung” (klar erklärt mit Beispiele) 👍

Ereignis und Wahrscheinlichkeit

Sat, 04 Jun 2022 00:00:00 +0000

Ereignisse

Ein endlicher Ergebnisraum eines Zufallsexperimentes ist eine nichtleere Menge

$$ \Omega=\left\{\omega_{1}, \omega_{2}, \ldots, \omega_{N}\right\}. $$ I.e., $\Omega$ enthält alle mögliche Ergebnisse.

Die Elemente $\omega_{n} \in \Omega$ heißen Ergebnisse, die möglichen Ausgänge eines Zufallsexperiments.

Jede Teilmenge $A \subset \Omega$ heißt Ereignis.

Jede einelementige Teilmenge $\left\{\omega_{n}\right\} \subset \Omega$ heißt Elementarereignis (ZUsammenfassung von einem oder mehreren Ergebnissen).

$\rightarrow$ Der Ergebnisraum $\Omega$ (das sichere Ereignis) und die leere Menge $\emptyset$ (das unmögliche Ereignis) sind stets Ereignisse.

Für zwei Ereignisse $A$ und $B$

Gilt $A \subset B$, so ist $A$ ein Teilereignis von $B$.
Der Durchschnitt $(A \cap B)$, die Vereinigung $(A \cup B)$, und die Differenz $(A-B)$ sind auch Ereignisse.
- Durchschnitt und Vereinigung sind kommutativ, assoziativ und distributiv.
Das entgegengesetzte Ereignis $\bar{A}$ von $A$ ist auch ein Ereignis und wird als Negation oder Komplement bezeichnet.
Gilt $A \cap B=\varnothing$, so heißen $A$ und $B$ disjunkt ode unvereinbar .
de MORGANschen Formeln
$$ \begin{array}{l} \overline{A \cup B}=\bar{A} \cap \bar{B} \\ \overline{A \cap B}=\bar{A} \cup \bar{B} \end{array} $$

Beispiel

Würfel werfen.

Ergebnisraum $\Omega = \\{1, 2, 3, 4, 5, 6\\}$ (Also $\|\Omega\| = 6$)
Beispiel Ereignise
- “Der Würfel zeight eine ungerade Zahl.”
- “Der Würfel zeigt eine 3.”
- “Der Würfel zeigt eine 3.” (das unmögliche Ereignis)
Ereignis $A$ = “Der Würfel zeight eine ungerade Zahl.” = $\\{1, 3, 5\\}$. Ereignis $B$ = “Der Würfel zeight eine gerade Zahl” = $\\{2, 4, 6\\}$. $A \cap B = \emptyset$ $\Rightarrow$ $A$ und $B$ sind disjunkt oder unvereinbar.

Reference:

Wahrscheinlichkeit (von Kolmogoroff)

Ein nichtleeres System $\mathfrak{B}$ von Teilmengen eines Ergebnisraums $\Omega$ heißt $\sigma$-Algebra (über $\Omega$), wenn gilt

$$ \begin{array}{c} A \in \mathfrak{B} \quad \Rightarrow \quad \bar{A} \in \mathfrak{B}, \\ A_{n} \in \mathfrak{B} ; n=1,2, \ldots \quad \Rightarrow \quad \bigcup_{n=1}^{\infty} A_{n} \in \mathfrak{B}. \end{array} $$

Ein höchstens abzählbares System

$$\left\{A_{n} \in \mathfrak{B}: A_{k} \cap A_{n}=\varnothing, k \neq n\right\}$$

heißt vollständige Ereignisdisjunktion, wenn gilt $\bigcup_{n=1}^{\infty} A_{n}=\Omega$ .

Kolmogoroffsche Axiome

Gegeben seien ein Ergebnisraum $\Omega$ und eine geeignete $\sigma$-Algebra $\mathfrak{B}$ über $\Omega$. Die Elemente von $\mathfrak{B}$ sind also die Ereignisse eines Zufallsexperiments.

Eine Funktion $P$, die jedem Ereignis $A \in \mathfrak{B}$ eine relle Zahl zuordnet, erfülle

$$ \begin{aligned} \mathrm{P}(\Omega) &=1 \quad &(\text{Normiertheit})\\ \mathrm{P}(A) & \geq 0 \quad \forall A \in \mathfrak{B} \quad &(\text{Nicht-negativität}) \\ \mathrm{P}\left(\bigcup_{n=1}^{\infty} A_{n}\right) &=\sum_{n=1}^{\infty} \mathrm{P}\left(A_{n}\right) \quad A_i \cap A_j = \emptyset, \forall i,j \quad &(\text{Additivität}) \end{aligned} $$

dann heißt $P(A)$ die Wahrscheinlichkeit des Ereignisses $A$.

Beispiel

Würfelwurf

Ergebnisraum $\Omega = \\{1, 2, 3, 4, 5, 6\\}$

Ereignis $E = \text{Zahlen von 1 bis 6}$, also $E_i$ ist die Zahl $i$ (z.B $E_1$ ist die Zahl 1).

Dann haben wir:

$$ \begin{aligned} P(E_1) &= \frac{1}{6} \\ P(E_2) &= \frac{1}{6} \\ P(\Omega) &= \frac{6}{6} = 1 \\ P(E_1 \cup E_2) &= \frac{1}{6} + \frac{1}{6} = \frac{2}{6} \quad (E_1 \cap E_2 = \emptyset) \end{aligned} $$

Reference:

<div style="position: relative; padding-bottom: 56.25%; height: 0; overflow: hidden;">
<iframe allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen="allowfullscreen" loading="eager" referrerpolicy="strict-origin-when-cross-origin" src="https://www.youtube.com/embed/GtpN4SRESaA?autoplay=0&controls=1&end=0&loop=0&mute=0&start=0" style="position: absolute; top: 0; left: 0; width: 100%; height: 100%; border:0;" title="YouTube video"
></iframe>
</div>

Hieraus folgt

$$ \begin{aligned} \mathrm{P}(\varnothing) &=0, \\ \mathrm{P}(\bar{A}) &=1-\mathrm{P}(A), \\ 0 \leq \mathrm{P}(A) & \leq 1, \\ \mathrm{P}(A \cup B) &=\mathrm{P}(A)+\mathrm{P}(B)-\mathrm{P}(A \cap B), \\ \mathrm{P}\left(\bigcup_{n=1}^{\infty} A_{n}\right) &=1 \quad \text { für jede vollständige Ereignisdisjunktion } A_{n} . \end{aligned} $$

Bedingte Wahrscheinlichkeiten

Sei $B \subset \Omega$ als vorausgesetztes Ereignis, $A, B \in \mathfrak{B}$ und $\mathrm{P}(B)>0$. Dann heißt

$$ \mathrm{P}(A \mid B)=\frac{\mathrm{P}(A \cap B)}{\mathrm{P}(B)} $$

bedingte Wahrscheinlichkeit von $A$ unter der Bedingung $B$.

Multiplikationsregel für Wahrscheinlichkeiten

$$ \mathrm{P}(A \cap B)=\mathrm{P}(A \mid B) \mathrm{P}(B) $$

Im allgemein ist $\mathrm{P}(A \mid B) \neq \mathrm{P}(B \mid A)$. Es gilt die Beziehung

$$ \mathrm{P}(A \mid B) \mathrm{P}(B)=\mathrm{P}(A \cap B) = \mathrm{P}(B \mid A) \mathrm{P}(A) $$

Verallgemeinierung: Die wiederholte Anwendung der Multiplikationsregel auf den Durchschnitt $N$ zufälliger Ereignisse liefert

$$ \begin{aligned} &\mathrm{P}\left(\bigcap_{n=1}^{N} A_{n}\right) \\ =&\mathrm{P}\left(\bigcap_{n=2}^{N} A_{n} \mid A_{1}\right) \mathrm{P}\left(A_{1}\right) \\ =&\mathrm{P}\left(\bigcap_{n=3}^{N} A_{n} \mid A_{2} \cap A_{1}\right) \mathrm{P}\left(A_{2} \mid A_{1}\right) \mathrm{P}\left(A_{1}\right) \\ =&\mathrm{P}\left(\bigcap_{n=4}^{N} A_{n} \mid A_{3} \cap A_{2} \cap A_{1}\right) \mathrm{P}\left(A_{3} \mid A_{2} \cap A_{1}\right) \mathrm{P}\left(A_{2} \mid A_{1}\right) \mathrm{P}\left(A_{1}\right) \\ =&\mathrm{P}\left(A_{N} \mid \bigcap_{n=1}^{N-1} A_{n}\right) \cdots \mathrm{P}\left(A_{4} \mid A_{3} \cap A_{2} \cap A_{1}\right) \mathrm{P}\left(A_{3} \mid A_{2} \cap A_{1}\right) \mathrm{P}\left(A_{2} \mid A_{1}\right) \mathrm{P}\left(A_{1}\right) \end{aligned} $$

Beispiel

Vereinfachung mit 3 Ereignisse

$$ \begin{array}{ll} &P(A) \cdot P(B \mid A) \cdot P(C \mid A \cap B) \\\\ =&P(A) \cdot \frac{P(A \cap B)}{P(A)} \cdot \frac{P(C \mid A \cap B)}{P(A \cap B)} \\\\ =&P(A \cap B \cap C) \end{array} $$

Ref:

Formel von der totalen Wahrscheinlichkeit

Die Ereignisse $A_{n}(1 \leq n \leq N)$ seien eine vollständige Ereignisdisjunktion (also $A_i \cap A_j = \emptyset, \forall i, j$ ) und es gelte $\mathrm{P}\left(A_{n}\right)>0, \forall n$ . Dann folgt für $\forall B \in \mathfrak{B}$ die Formel von der totalen Wahrscheinlichkeit

$$ \mathrm{P}(B)=\sum_{n=1}^{N} \mathrm{P}\left(B \mid A_{n}\right) \mathrm{P}\left(A_{n}\right) $$

Beispiel

$A \cap \bar{A} = \emptyset$

$$ \begin{array}{l} P(B)&=P(B \cap A)+P(B \cap \bar{A}) \\\\ &=P(A)P(B \mid A)+P(\bar{A})P(B \mid \bar{A}) \end{array} $$

Beispiel

Und wenn $P(B) > 0$ ist, folgt die Formel von Bayes:

$$ \mathrm{P}\left(A_{n} \mid B\right)=\frac{\mathrm{P}\left(B \mid A_{n}\right) \mathrm{P}\left(A_{n}\right)}{\sum_{k=1}^{N} \mathrm{P}\left(B \mid A_{k}\right) \mathrm{P}\left(A_{k}\right)} $$

Im allgemeinen ist $\mathrm{P}(A) \neq \mathrm{P}(A \mid B)$. Gilt aber für $A, B \in \mathfrak{B}$

$$ \mathrm{P}(A \mid B)=\mathrm{P}(A), $$

so heißt $A$ unabhängig von $B$.

Für unabhängige Ereignisse folgt hieraus

$$ \begin{array}{c} \mathrm{P}(A \cap B)=\mathrm{P}(A \mid B) \mathrm{P}(B)=\mathrm{P}(A) \mathrm{P}(B) \\ \mathrm{P}(B \mid A)=\frac{\mathrm{P}(A \cap B)}{\mathrm{P}(A)}=\mathrm{P}(B) \end{array} $$

(Diracsche) Delta-Distribution / Delta-Funktion

Sat, 04 Jun 2022 00:00:00 +0000

Definition

Die Delta-Distribution (aka. Dirac-Funktion, Dirac-Maß, Impulsfunktion) ist eine spezielle irreguläre Distribution mit kompaktem Träger.

$$ \begin{array}{c} \delta(x)=0, \quad x \neq 0 \\\\ \displaystyle \int_{a}^{b} \delta(x) \mathrm{d} x=1, \quad a<0Illustration: Delta-Funktion im Ursprung wird als Pfeil bei $x=0$ dargestellt und repräsentiert eine Punktladung (Source: Dirac’sche Delta-Funktion und ihre Eigenschaften).

Delta-Funktion im Koordinatenursprung

Betrachte ein Integral der Delta-Funktion zusammen mit einer Testfunktion $f(x)$
$$ \int_{a}^{b} f(x) \delta(x) \mathrm{d} x $$
Denn $\delta(x)$ ist überall $0$, außer an der Stelle $x=0$.

$\Rightarrow$ $f(x)\delta(x)$ ist überall $0$, außer an der Stelle $x=0$.

$\Rightarrow$ Im Integral bleibt nur der Funktionswert $f(0)$ erhalten, der nicht von $x$ abhängt.

Daher gilt:
$$ \int_{a}^{b} f(x) \delta(x) \mathrm{d} x= \int_{a}^{b} f(0)\delta(x) \mathrm{d} x=f(0) \underbrace{\int_{a}^{b} \delta(x)\mathrm{d} x}_{=1} = f(0) $$
Eigenschaften

Bei Berechnen/Verweden/Überprüfen der Eigenschaften von Dirac-Funktion ist es wichtig, die Substitutionsregel zu verwenden.

Verschobene Delta-Funktion

Verschiebe die Ladung an eine andere Stelle auf der $x$-Achse (z.B an die Stelle $x=x_0$). Das Argument der Delta-Funktion wird zu $\delta(x-x_0)$.

Die verschobene Delta-Funktion mit einer anderen Funktion $f(x)$ im Integral multipliziert:
$$ \int_{a}^{b} f(x) \delta\left(x-x_{0}\right) \mathrm{d} x=f\left(x_{0}\right) $$

Beweis

Nach rechts verschobene Delta-Funktion pickt den Wert $f(x_0)$ der Funktion an der Stelle $x=x_0$.

Beispiel

Beispiel

Eine Delta-Funktion außerhlad der Integrationsgrenzen

Symmetrie

Delta-Funktion ist symmetrisch (gerade)
$$ \delta(x) = \delta(-x) $$

Beweis

Skalierung

Skaliertes Argument der Delta-Funktion
$$ \int_{a}^{b} f(x) \delta(|k| x) \mathrm{d} x=\frac{1}{|k|} f(0) $$

Beweis

Hintereinanderausführung
$$ \int_{-\infty}^{\infty} f(x) \delta(g(x)) \mathrm{d} x=\sum_{i=1}^{n} \frac{f\left(x_{i}\right)}{\left|g^{\prime}\left(x_{i}\right)\right|} $$
wobei $g(x_i) = 0$ und $g^\prime(x_i) \neq 0$.

Beweis

Substituiere
$$ u := g(x) $$
Dann gilt:
$$ \begin{aligned} x &= g^{-1}(u) \\\\ \frac{du}{dx} &= g^\prime(x) = g^\prime(g^{-1}(u)) \end{aligned} $$
Da $\delta(x) \neq 0$ nur bei $x = 0$, können wir den Bereich des Integrals in kleine Intervalle um jede Nullstelle $x_i$ von $g(x)$ aufteilen, wobei $g(x)$ monoton und somit invertierbar ist.
$$ \begin{aligned} \int f(x) \delta(g(x)) d x &=\sum_{i} \int_{x_{i}-\varepsilon_{i}}^{x_{i}+\varepsilon_{i}} f(x) \delta(g(x)) d x \\\\ &=\sum_{i} \int_{g\left(x_{i}-\varepsilon_{i}\right)}^{g\left(x_{i}+\varepsilon_{i}\right)} f\left(g^{-1}(u)\right) \delta(u) \frac{1}{g^{\prime}\left(g^{-1}(u)\right)} d u \\\\ &=\sum_{i} \int_{g\left(x_{i}-\varepsilon_{i}\right)}^{g\left(x_{i}+\varepsilon_{i}\right)} \frac{f\left(g^{-1}(u)\right)}{g^{\prime}\left(g^{-1}(u)\right)} \delta(u) d u \\\\ &=\sum_{i} \int_{g\left(x_{i}-\varepsilon_{i}\right)}^{g\left(x_{i}+\varepsilon_{i}\right)} \frac{f\left(x_{i}\right)}{g^{\prime}\left(x_{i}\right)} \delta(u) d u \quad(\ast) \end{aligned} $$
$g^\prime (x_i) > 0$ :
$$ \begin{aligned} (\ast) &=\sum\_{i} \frac{f\left(x\_{i}\right)}{g^{\prime}\left(x\_{i}\right)} \underbrace{\int\_{g\left(x\_{i}-\varepsilon\_{i}\right)}^{g\left(x\_{i}+\varepsilon\_{i}\right)} \delta(u) d u}\_{=1} \\\\ &=\sum\_{i} \frac{f\left(x\_{i}\right)}{g^{\prime}\left(x\_{i}\right)} \\\\ &=\sum\_{i} \frac{f\left(x\_{i}\right)}{|g^{\prime}\left(x\_{i}\right)|} \end{aligned} $$
$g^\prime (x_i) < 0$ :

Dann ist
$$ g(x_i + \varepsilon_i) < g(x_i - \varepsilon_i) $$
Daher
$$ \begin{aligned} (\ast) &=\sum_{i} \int\_{g\left(x\_{i}+\varepsilon\_{i}\right)}^{g\left(x\_{i}-\varepsilon\_{i}\right)} \frac{f\left(x\_{i}\right)}{g^{\prime}\left(x\_{i}\right)} \delta(u) d u \\\\ &=\sum\_{i} \int\_{g\left(x\_{i}-\varepsilon\_{i}\right)}^{g\left(x\_{i}+\varepsilon_{i}\right)}-\frac{f\left(x_{i}\right)}{g^{\prime}\left(x\_{i}\right)} \delta(u) d u \\\\ &=\sum\_{i} \int_{g\left(x\_{i}-\varepsilon\_{i}\right)}^{g\left(x\_{i}+\varepsilon\_{i}\right)} \frac{f\left(x\_{i}\right)}{\left|g^{\prime}\left(x_{i}\right)\right|} \delta(u) d u \\\\ &=\sum\_{i} \frac{f\left(x\_{i}\right)}{\left|g^{\prime}\left(x\_{i}\right)\right|} \underbrace{\int\_{g\left(x\_{i}-\varepsilon\_{i}\right)}^{g\left(x\_{i}+\varepsilon\_{i}\right)} \delta(u) d u}\_{=1} \\\\ &=\sum_{i} \frac{f\left(x\_{i}\right)}{\left|g^{\prime}\left(x\_{i}\right)\right|} \end{aligned} $$
Also
$$ \int_{-\infty}^{\infty} f(x) \delta(g(x)) \mathrm{d} x=\sum_{i=1}^{n} \frac{f\left(x_{i}\right)}{\left|g^{\prime}\left(x_{i}\right)\right|} \qquad (\square) $$

Ref: Dirac Delta Function of a Function

Reference

Dirac’sche Delta-Funktion und ihre Eigenschaften 👍👍👍

Zufallsvariable

Sat, 04 Jun 2022 00:00:00 +0000

Zufallsvariablen

Zufallsvariablen werden auf den SI-Übungsblättern durch kleine, fettgedruckte Buchstaben gekennzeichnet, z.B. $X$.

Diese Notation wird nicht auf den handschriftlichen Mitschrieben umgesetzt, sodass Zufallsvariablen und „normale“ Variablen meistens aus dem Kontext heraus unterschieden werden müssen. 🤪

Eine Zufallsvariable ist eine Art Funktion, die jedem Ergebnis $\omega$ deines Zufallsexperiments genau eine Zahl $x$ zuordnet.

ordnet also den Ergebnissen eines Zufallsexperiments reelle Zahlen zu

beschreibt sozusagen das Ergebnis eines Zufallsexperiments, das noch nicht durchgeführt wurde

Man sagt Variable, weil deine Zahl, die du am Ende erhältst, eben variabel ist.

‼️Wichtig: zwischen $X$ und $x$ zu unterscheiden.

$X$: die tatsächliche Zufallsvariable, welche keinen festen Wert hat. Sie bildet das derzeit unbekannte Ergebnis eines Zufallsexperiments ab

$x$: das Ergebnis nach dem Experiment und steht ist somit eine konkrete Zahl.

Bsp: 2 Würfeln werfen

Zufallsvariable $X$ = Augensumme

$P(X = 6)$: “Die Wahrscheinlichkeit, dass die Summe von zwei Würfeln sechs ergibt” (Hier $x=6$)

Diskrete Zufallsvariable

Eine Zufallsvariable wird als diskret bezeichnet, wenn sie nur endlich viele oder abzählbar unendlich viele Werte annimmt.

Sklaenarten: Nominal- oder Ordinalskala

„Abzählbar unendlich“ bedeutet, dass die Menge der Ausprägungen durchnummeriert werden kann.

Bsp: Das Ergebnis beim Würfelwurf ist $x \in \Omega = \\{1, 2, 3, 4, 5, 6\\}$, also $|\Omega| = 6$.

Wahrscheinlichkeitsfunktion

Bei diskreten Zufallsvariablen ermittelt man die Wahrscheinlichkeitsfunktion (Engl. Probability mass function (PMF)), die Wahrscheinlichkeit für ein ganz konkretes Ergebnis angibt.
$$ f(x): \Omega \rightarrow[0,1], x \in \mathbb{N}_{0} $$
Die Funktionswert
$$ f(x) = P(X=x) $$
entspricht der Wahrscheinlichkeit, dass $X$ den Wert $x$ annimmt. Daher gilt
$$ \sum_{x \in \Omega} f(x)=1 $$

Man schreibt für die „Dichte“ einer diskreten Zufallsvariablen, deren Einzelwahrscheinlichkeiten $p_n = P(X = x_n)$ gegeben sind, auch
$$ > f_{X}(x)=\sum_{n=1}^{\infty} \mathrm{P}\left(X=x_{n}\right) \delta\left(x-x_{n}\right)=\sum_{n=1}^{\infty} p_{n} \delta\left(x-x_{n}\right) > $$

$\delta(\cdot)$: Delta-Distribution

Verteilungsfunktion

Die Verteilungsfunktion (aka. Kumulative Wahrscheinlichkeitsdichte, Engl,. Cumulative Distribution Function (CDF)) gibt an, mit welcher Wahrscheinlichkeit das Ergebnis des Zufallsexperiments kleiner oder gleich eines bestimmten Wertes ist.

Dafür werden alle Ergebnisse bis zu diesem Wert aggregiert, also „aufaddiert“. Deshalb spricht man auch oft von einer kumulativen Verteilungsfunktion.

Um die diskrete Verteilungsfunktion zu erhalten, werden schrittweise alle Wahrscheinlichkeitswerte kumuliert. Das heißt, man bildet das Integral unter der Wahrscheinlichkeitsfunktion.
$$ F(x): \boldsymbol{\Omega} \rightarrow[\mathbf{0}, \mathbf{1}], X \in \mathbb{N}_{\mathbf{0}} $$ $$ F(x)= P(X \leq x) = \sum_{x_{i} \leq x} f\left(x_{i}\right) $$
Eigenschaften

$\lim _{x \rightarrow-\infty} F_{X}(x)=0 ; \lim _{x \rightarrow \infty} F_{X}(x)=1$

$F(X)$ ist monoton steigend und rechtseitig stetig

Beispiel

Würfelwurf:

Wahrscheinlichkeitsfunktion:
$$ f(X=k) = \frac{1}{6} \quad k \in \\{1, 2, 3, 4, 5, 6\\} $$
Verteilungsfunktion:
$$ F(3) = P(X \leq 3) = \sum_{i\leq 3}f(X=i) = \frac{1}{3} + \frac{1}{3} + \frac{1}{3} $$

In der SI Vorlesung sowie Übung wird die Verteilungsfunktion der Zufallsvariable $X$ als $F_{X}(x)$ schreiben.

Differenz zwischen kumulativer Wahrscheinlichkeiten:
$$ F(b) - F(a) = P(a < x \leq b) = P(x\leq b) - P(x \leq a) $$
Stetige Zufallsvariable

Eine stetige Zufallsvariable

ist überabzählbar, also nimmt unendlich viele, nicht abzählbare Werte an.

meistens bei Messvorgängen der Fall (z.B. Zeit, Längen oder Temperatur)

Skalenarten: Intervall- oder Rationalskala

Für stetige Zufallsvariable können wir die Wahrscheinlichkeit nur für Intervalle und NICHT für genaue Werte bestimmen.

Es gibt doch unendlich viele Werte, also ist es unmöglich, ein exaktes Ergebnis festzulegen.

z.B.

“Mit welcher Wahrscheinlichkeit ist eine zufällig gewählte Studentin zwischen 165cm und 170cm groß?”

Man benutzt im stetigen Fall die Verteilungsfunktion zur Berechnung von Wahrscheinlichkeiten.

Dichtefunktion

Die Dichtefunktion (Engl. Probability Density Function (PDF)) oder Dichte beschreibt, “Wie dicht liegen die betrachteten Werte um einen beliebigen Punkt?”
$$ f(x): \mathbf{\Omega} \rightarrow \mathbb{R}^{+} $$

Eigenschaften von $f$:

$$ \begin{array}{l} f \text{ ist integrierbar}\\ f(x) \geq 0 \quad \forall x \in \mathbb{R} \\ \displaystyle \int_{-\infty}^{+\infty} f(x) \mathrm{d} x=1 \end{array} $$

Unterschied zu Wahrscheinlichkeitsfunktion

Die Dichtefunktion liefert nicht die Wahrscheinlichkeit, sondern NUR die “Wahrscheinlichkeitsdichte”

Bei der stetigen Zufallsvariable, überabzählbar und unendlich viele Ausprägung hat, ist die Wahrscheinlichkeit für jede konkrete Ausprägung gleich 0
$$ P(X=x) = 0 \quad \forall x \in \mathbb{R} $$

Die Wahrscheinlichkeit, dass $X$ einen Wert $x \in [a, b]$ annimmt , entspricht der Fläsche $S$
$$ P(a \leq x \leq b)=\int_{a}^{b} f(x) \mathrm{d} x=S $$
In der SI Vorlesung sowie Übung wird die Dichtefunktion der Zufallsvariable $X$ als $f_{X}(x)$ schreiben.

Verteilungsfunktion
$$ F(x): \Omega \rightarrow[0,1], x \in \mathbb{R} $$ $$ F(x)=\int f(x) \mathrm{d} x, \quad f(x)=\frac{F(x)}{\mathrm{d} x} $$
Die Verteilungsfunktion ist eigentlich die Fläche unter der Dichtfunktion:
$$ F(x)=P(X \leq x=c)=\int_{-\infty}^{c} f(x) \mathrm{d} x $$
Die Differenz zwischen zwei Verteilungsfunktion ist also:
$$ F(b)-F(a)=P(a \leq x \leq b)=\int_{a}^{b} f(x) \mathrm{d} x $$
Dichtefunktion vs. Verteilungsfunktion

Dichtfunktion beschreibt, wie sind die Wahrscheinlichkeiten konkret verteilt?

Verteilungsfunktion

Summieren der Wahrscheinlichkeiten $\rightarrow$ Bestimmung der Wahrscheinlichkeit für Intervall

liefert die Wahrscheinlichkeit dafür, dass ien Ereignis $\leq$ eines bestimmten Werted eintritt

Diskrete Vs. Stetige Zufallsvariable

Zufalls-
variable Diskret Stetig

Beispiel Würfelwurf Zeit
Temperatur

Wahrscheinlichkeit
für bestimmter/konkreter Punkt
$P(X=x) \in [0, 1]$ NUR für Intervall
($P(X=x) = 0$)

Wahrscheinlichkeitsfunktion/
Dichtefunktion Wahrscheinlichkeitsfunktion
$f(x): \Omega \rightarrow[0,1], x \in \mathbb{N}_{0}$
$f(x) = P(X=x)$
$\sum_{x \in \Omega} f(x)=1$ Dichtefunktion
$f(x): \mathbf{\Omega} \rightarrow \mathbb{R}^{+}$
$f$ ist integrierbar
$f(x) \geq 0 \quad \forall x \in \mathbb{R}$
$\displaystyle \int_{-\infty}^{+\infty} f(x) \mathrm{d} x=1$

Verteilungsfunktion $F(x): \boldsymbol{\Omega} \rightarrow[\mathbf{0}, \mathbf{1}], X \in \mathbb{N}_{\mathbf{0}}$
$F(x)= P(X \leq x) = \sum_{x_{i} \leq x} f\left(x_{i}\right)$ $F(x): \Omega \rightarrow[0,1], x \in \mathbb{R}$
$F(x)=\int f(x) \mathrm{d} x, \quad f(x)=\frac{F(x)}{\mathrm{d} x}$

Note: Man schreibt für die *„Dichte“* einer diskreten Zufallsvariablen, deren Einzelwahrscheinlichkeiten $p_n = P(\boldsymbol{x} = x_n)$ gegeben sind, auch $$ f_{\boldsymbol{x}}(x)=\sum_{n=1}^{\infty} \mathrm{P}\left(\boldsymbol{x}=x_{n}\right) \delta\left(x-x_{n}\right)=\sum_{n=1}^{\infty} p_{n} \delta\left(x-x_{n}\right), $$
wobei $\delta(\cdot)$ die Delta-Distribution ist. Damit gilt sowohl für kontinuierliche als auch für diskrete Zufallsvariablen der Zusammenhang
$$ \frac{d}{d_x} F_{\boldsymbol{x}}(x) = f_{\boldsymbol{x}}(x). $$
Kenntwerte von Zufallsvariablen

Erwartungswert

Erwartungswert (auch Mittelwert) : der Durchschnitt, wenn ein Versuch unendlich oft durchgeführt wird
$$ E_{f_X}\{X\} = \hat{X} = \mu_{X} = \int_{-\infty}^{\infty} x f_{X}(x) d x $$

Notation: $\mu$, $E(X)$, $E\[X\]$, $E\\{X\\}$

Rechenregeln
$\mathrm{E}_{f_{X}}\{aX + b\}=a \mathrm{E}_{f_{X}}\{X\}+b$

Beweis

$$ \begin{array}{ll} &\mathrm{E}\_{f\_{X}}\\{a X+b\\} \\\\ =&\int\_{-\infty}^{\infty}(a x+b) f\_{X}(x) \mathrm{d} x \\\\ =&a \int\_{-\infty}^{\infty} x f\_{X}(x) \mathrm{d} x+b \int\_{-\infty}^{\infty} f\_{X}(x) \mathrm{d} x \\\\ =&a \cdot \mathrm{E}\_{f_{X}}\\{X\\}+b \cdot 1 \end{array} $$

Mehr Regeln:

Basic expectation rules. (Source: kalmanfilter.net)

$k$-te Moment

Der Erwartungswert
$$ \mathrm{E}_{f_X}\left\{X^{k}\right\}=\int_{-\infty}^{\infty} x^{k} f_{X}(x) \mathrm{d} x $$
ist das $k$-te Moment der Zufallsvariable $X$.

Der Erwartungswert
$$ \mathrm{E}_{f_X}\left\{\left(X-\mathrm{E}\{X\}\right)^{k}\right\}=\int_{-\infty}^{\infty}\left(x-\mu_{X}\right)^{k} f_{X}(x) \mathrm{d} x $$
ist das $k$-te zentrale Moment der Zufallsvariable $X$.

Varianz

Varianz := die erwartete quadratische Abweichung vom Erwartungswert
$$ E_{f_X}\{(X - \mu_X)^2\} = \operatorname{Var}(X) = \sigma_X^2 $$

das zweite zentrale Moment

Je größer die Varianz, desto weiter streuen die Werte um $E(X)$

Notationen: $\sigma^2$, $\operatorname{Var}(X)$, $\operatorname{Var}\[X\]$

Rechenregeln
$\operatorname{Var}_{f_X}\{aX+b\} = a^2 \operatorname{Var}_{f_X}\{X\}$

Beweis

$$ \begin{array}{l} &\operatorname{Var}\_{f\_{X}}\\{a X+b\\} \\\\ =&\mathrm{E}\_{f\_{X}}\left\\{\left(a X+b-\mathrm{E}\_{f\_{X}}\\{a X+b\\}\right)^{2}\right\\} \\\\ =&\mathrm{E}\_{f\_{X}}\left\\{\left(a X+b-\left(a \mu\_{X}+b\right)\right)^{2}\right\\}\\\\ =&\mathrm{E}\_{f\_{X}}\left\\{\left(a\left(X-\mu\_{X}\right)\right)^{2}\right\\} \\\\ =&\int\_{-\infty}^{\infty}\left(a\left(X-\mu\_{X}\right)\right)^{2} f\_{X}(x) \mathrm{d} x \\\\ =&a^{2} \int\_{-\infty}^{\infty}\left(X-\mu\_{X}\right)^{2} f\_{X}(x) \mathrm{d} x \\\\ =&a^{2} \mathrm{E}\_{f\_{X}}\left\\{\left(X-\mu\_{X}\right)^{2}\right\\} \\\\ =&a^{2} \operatorname{Var}\_{f\_{X}}\\{X\\} \end{array} $$

$\operatorname{Var}_{f_{X}}\{X\}=\mathrm{E}_{f_{X}}\left\{X^{2}\right\}-\left(\mathrm{E}_{f_{X}}\{X\}\right)^{2}$

Beweis

$$ \begin{aligned} \operatorname{Var}\_{f\_{X}}\\\{X\\}=& \int\_{-\infty}^{\infty}\left(x-\mathrm{E}\_{f\_{X}}\\{X\\}\right)^{2} f\_{X}(x) \mathrm{d} x \\\\ =& \int\_{-\infty}^{\infty}\left(x-\mu\_{X}\right)^{2} f\_{X}(x) \mathrm{d} x \\\\ =& \int\_{-\infty}^{\infty}\left(x^{2}-2 x \mu\_{X}+\mu\_{X}^{2}\right) f\_{X}(x) \mathrm{d} x \\\\ =& \int\_{-\infty}^{\infty} x^{2} f\_{X}(x) \mathrm{d} x-2 \mu\_{X} \int\_{-\infty}^{\infty} x f\_{X}(x) \mathrm{d} x+\mu\_{X}^{2} \int\_{-\infty}^{\infty} f\_{X}(x) \mathrm{d} x \\\\ =& \mathrm{E}\_{f\_{X}}\left\\{X^{2}\right\\}-2 \mu\_{X} \mathrm{E}\_{f\_{X}}\\{X\\}+\mu\_{X}^{2} \cdot 1 \\\\ =& \mathrm{E}\_{f\_{X}}\left\\{X^{2}\right\\}-2 \mu\_{X} \mu\_{X}+\mu\_{X}^{2} \cdot 1 \\\\ =& \mathrm{E}\_{f\_{X}}\left\\{X^{2}\right\\}-\mu\_{X}^{2} \end{aligned} $$

Mehr Regeln:

Basic variance and covariance rules. (Source: kalmanfilter.net)

Beweis für Regel 10

Beweis für Regel 11

Beweis für Regel 13

Beweis für Regel 14

Standardabweichung

Standardabweichung: Streumaß, das die selbe Einheit wie $X$ hat
$$ \sigma=\sqrt{\operatorname{Var}(X)} $$
Groß $\sigma$ $\rightarrow$ große Streuung

Zufalls-
variable Diskret Stetig

Erwartungswert
($\mu$, $E(x)$) $\sum_{i \in \Omega} x_{i} \cdot p_{i}$ $\int_{-\infty}^{+\infty} x \cdot f(x) \mathrm{d} x$

Varianz
($\sigma^2$, $Var(x)$) $\sum_{i \in \Omega}\left(x_{i}-\mu\right)^{2} \cdot p_{i}$ $\int_{-\infty}^{+\infty}(x-\mu)^{2} \cdot f(x) \mathrm{d} x$

Standardabweichung
($\sigma$) $\sqrt{Var(x)}$ $\sqrt{Var(x)}$

Normalverteilte Zufallsvariable

Ein normalverteilte Zufallsvariable $X$ hat die Dichte
$$ f_{X}(x)=\mathcal{N}\left(x-\mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{2}} $$
Ihr $k$-tes zentrales Moment ist allgemein
$$ \mathrm{E}_{f_{X}}\left\{(X-\mu)^{k}\right\}=\left\{\begin{array}{ll} 1 \cdot 3 \cdot 5 \cdots(k-1) \sigma^{k} & \text { falls } k \text { gerade } \\ 0 & \text { falls } k \text { ungerade } \end{array}\right. $$
Die Normalverteilung ist also vollständig durch $\mu$ und $\sigma$ charakterisiert.

Standardisierte Zufallsvariable

Eine Zufallsvariable $X$ mit dem Erwartungswert $\mu_X = E_{f_X}\{X\}$ und der Varianz $\sigma_X^2$ wird durch
$$ Y = \frac{X - \mu_X}{\sigma_X} $$
in eine standardisierte Zufallsvariable $Y$, die den Erwartungswert 0 und die Varianz 1 besitzt, transformiert.

Modalwert, Quantil, Median

Ein Wert, für den die Dichtefunktion $f_X(x)$ ein lokales Maximum annimmt, heißt Modalwert der stetigen Zufallsvariablen $X$.

Ein Wert $x_p$, der den Ungleichungen
$$ P(X < x_p) \leq p, \quad P(X > x_p) \leq 1 - p \quad (0 < p < 1) $$
genügt, heißt $p$-tes Quantil.

Für eine stetige Zufallsvariable X ist ein $p$-tes Quantil $x_p$ gegeben durch $F_X(x_p) = p$

Ein Quantil der Ordnung $p=\frac{1}{2}$ heißt Median der Zufallsvariable $X$

Für normalverteilte Zufallsvariablen fallen Erwartungswert, Modalwert und Median zusammen.

Reference

Wahrscheinlichkeits-, Dichte- und Verteilungsfunktion diskreter und stetiger Zufallsvariablen

Erwartungswert

Kenngrößen (Momente) von Zufallsvariablen I: Erwartungswert, Varianz, Standardabweichung

Zweidimensionale Zufallsvariable

Sun, 05 Jun 2022 00:00:00 +0000

Verteilungsfunktion und Dichte

Eine vektorwertige Funktion
$$ \underline{X}=\underline{X}(\omega): \Omega \rightarrow \mathbb{R}^{2} $$
die jedem Ergebnis $\omega \in \Omega$ einen Vektor $\underline{x}=\left[\begin{array}{l}x_{1} \\ x_{2}\end{array}\right]$ zuordnet, heißt mehrdimensionale Zufallsvariable, wenn das Urbild eines jeden Intervalls $I_{\underline{a}}=\left(-\infty, a_{1}\right] \times\left(-\infty, a_{2}\right] \subset \mathbb{R}^{2}$ ein Ereignis ist
$$ X^{-1}\left(I_{a}\right) \in \mathfrak{B}, \quad \forall \underline{a} \in \mathbb{R}^{2}. $$
Verteilungsfunktion

Die Funktion
$$ \begin{aligned} F_{\underline{X}}(\underline{x}) &=F_{X_{1}, X_{2}}\left(x_{1}, x_{2}\right) \\ &=\mathrm{P}\left(X_{1} \leq x_{1}, X_{2} \leq x_{2}\right) \end{aligned} $$
der zweidimensionalen Zufallsvariablen $\underline{X}$ heißt Verteilungsfunktion von $\underline{X}$.

Dichte

Die Dichte der zweidimensionalen Zufallsvariablen $\underline{X}$: partielle Ableitungen der Verteilungsfunktion $F_{\underline{X}}(\underline{x})$
$$ f_{\underline{X}}(\underline{x})=f_{X_{1}, X_{2}}\left(x_{1}, x_{2}\right)=\frac{\partial^{2}}{\partial x_{1} \partial x_{2}} F_{X_{1}, X_{2}}\left(x_{1}, x_{2}\right) $$
Sind beide Komponenten diskret verteilt, schreibt man für deren „Dichte“
$$ f_{\underline{X}}(\underline{x})=\sum_{n=1}^{\infty} \sum_{k=1}^{\infty} \mathrm{P}\left(X_{1}=x_{1, n}, X_{2}=x_{2, k}\right) \cdot \delta\left(x_{1}-x_{1, n}, x_{2}-x_{2, k}\right) $$
mit der zweidimensionalen $\delta$- Distribution $\delta(x_1, x_2)$ und den Einzelwahrscheinlichkeiten $\mathrm{P}\left(X_{1}=x_{1, n}, X_{2}=x_{2, k}\right)$.

Randdichten und bedingte Dichten

$\underline{X}$ sei eine zweidimensionale Zufallsvariable mit der Dichte $f(\underline{X})=f_{\underline{X}}\left(x_{1}, x_{2}\right)$. Dann heißen
$$ \begin{array}{l} f_{X_{1}}\left(x_{1}\right)=\int_{-\infty}^{\infty} f_{\underline{X}}\left(x_{1}, x_{2}\right) \mathrm{d} x_{2} \\ f_{X_{2}}\left(x_{2}\right)=\int_{-\infty}^{\infty} f_{\underline{X}}\left(x_{1}, x_{2}\right) \mathrm{d} x_{1} \end{array} $$
Randdichten von $X$.

$X$ sei eine zweidimensionale Zufallsvariable mit der Dichte $f_X(x_1, x_2)$ und es gelte $f_{X_1}(x_1) > 0$ und $f_{X_2}(x_2) > 0$ . Dann heißt
$$ f_{X_{1}}\left(x_{1} \mid X_{2}=x_{2}\right)=\frac{f_{\underline{X}}\left(x_{1}, x_{2}\right)}{f_{X_{2}}\left(x_{2}\right)} $$
die bedingte Dichte von $X_1$ unter der Bedingung $X_2 = x_2$.
$$ f_{X_{2}}\left(x_{2} \mid X_{1}=x_{1}\right)=\frac{f_{\underline{X}}\left(x_{1}, x_{2}\right)}{f_{X_{1}}\left(x_{1}\right)} $$
ist die bedingte Dichte von $X_2$ unter der Bedingung $X_1 = x_1$.

Formel von der totalen Wahrscheinlichkeit für Dichten
$$ f\_{X\_{1}}\left(x\_{1}\right)=\int\_{-\infty}^{\infty} f\_{X\_{1}}\left(x\_{1} \mid X\_{2}=x_{2}\right) f\_{X\_{2}}\left(x\_{2}\right) \mathrm{d} x\_{2} $$

Satz von Bayes für Dichten
$$ f\_{X\_{2}}\left(x\_{2} \mid X\_{1}=x\_{1}\right)=\frac{f\_{X\_{1}}\left(x\_{1} \mid X\_{2}=x\_{2}\right) f\_{X\_{2}}\left(x\_{2}\right)}{\int\_{-\infty}^{\infty} f\_{X\_{1}}\left(x\_{1} \mid X\_{2}=x\_{2}\right) f\_{X\_{2}}\left(x\_{2}\right) \mathrm{d} x\_{2}} $$

Der bedingte Erwartungswert einer Zufallsvariablen $X_1$ unter der Bedingung $X_2 = x_2$ ist
$$ \mathrm{E}_{f_{\underline{\underline{x}}}}\left\{X_{1} \mid X_{2}=x_{2}\right\}=\int_{-\infty}^{\infty} x_{1} f_{X_{1}}\left(x_{1} \mid X_{2}=x_{2}\right) \mathrm{d} x_{1} $$
Unabhängigkeit von Zufallsvariablen

Zwei Zufallsvariablen $X, Y$ heißen unabhängig , wenn gilt
$$ f_{X, Y}(x, y)=f_{X}(x) \cdot f_{Y}(y) $$
Damit gilt auch
$$ f_{X}(x \mid Y=y)=f_{X}(x) $$
Erwartungswert für zweidimensionale Zufallsvariablen:
$$ \mathrm{E}_{f_{X, Y}}\{g(X, Y)\}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X, Y}(x, y) \mathrm{d} x \mathrm{~d} y $$
Die Kovarianz $\sigma_{X, Y}=\operatorname{Cov}_{\boldsymbol{f}_{X, Y}}\{X, Y\}$ von zwei Zufallsvariablen $X$ und $Y$ ist
$$ \sigma_{X, Y}=\operatorname{Cov}_{f_{X, Y}}\{X, Y\}=\mathrm{E}\{(X-\mathrm{E}\{X\}) \cdot(Y-\mathrm{E}\{Y\})\}=\mathrm{E}\left\{\left(X-\mu_{x}\right) \cdot\left(Y-\mu_{y}\right)\right\} $$
Der Korrelationskoeffizient von $X$ und $Y$:
$$ \rho_{X, Y}=\frac{\operatorname{Cov}_{f_{X, Y}}\{X, Y\}}{\sqrt{\operatorname{Var}_{f_{X}}\{X\} \operatorname{Var}_{f_{Y}}\{Y\}}}=\frac{\sigma_{X, Y}}{\sigma_{X} \cdot \sigma_{Y}} \in [-1, 1] $$

stellt ein Ähnlichkeitsmaß der Zufallsvariablen $X$ und $Y$ dar

$\left|\rho_{X, Y}\right|=1$: $X$ und $Y$ sind maximal ähnlich

$\left|\rho_{X, Y}\right|=0$: $X$ und $Y$ sind komplett unähnlich (i.e., $X$ und $Y$ sind unkorreliert)

Unabhängige Zufallsvariablen sind unkorreliert. (Die Umkehrung dieser Aussage gilt im allgemeinen NICHT!)

Haben $X$ und $Y$ eine Normalevwrteilung und hat $[X, Y]^\top$ eine zweidimensionale Normalverteilung, folgt aus Unkorreliertheit $\rho_{X, Y} = 0$ auch die Unabhängigkeit von $X$ und $Y$

Ist $\underline{X}=\left\{X_{1}, X_{2}, \ldots, X_{N}\right\}^{\top}$ ein $N$-dimensional Zufallsvektor, seine Kovarianzmatrix ist
$$ \begin{array}{l} \operatorname{Cov}_{f_{\underline{x}}}\{\underline{X}\}=\mathrm{E}_{f_{\underline{\underline{x}}}}\left\{(\underline{X}-\underline{\mu})(\underline{X}-\underline{\mu})^{\top}\right\}\\ \newline =\left[\begin{array}{cccc} \operatorname{Var}_{X_{1}}\left\{X_{1}\right\} & \operatorname{Cov}_{X_{1}, X_{2}}\left\{X_{1}, X_{2}\right\} & \cdots & \operatorname{Cov}_{X_{1}, X_{N}}\left\{X_{1}, X_{N}\right\} \\ \operatorname{Cov}_{X_{2}, X_{1}}\left\{X_{2}, X_{1}\right\} & \operatorname{Var}_{X_{2}}\left\{X_{2}\right\} & \cdots & \mathrm{Cov}_{X_{2}, X_{N}}\left\{X_{2}, X_{N}\right\} \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}_{X_{N}, X_{1}}\left\{X_{N}, X_{1}\right\} & \operatorname{Cov}_{X_{N}, X_{2}}\left\{X_{N}, X_{2}\right\} & \cdots & \operatorname{Var}_{X_{N}}\left\{X_{N}\right\} \end{array}\right]\\ \newline =\left[\begin{array}{cccc} \sigma_{X_{1}}^{2} & \rho_{X_{1}, X_{2}} \sigma_{X_{1}} \sigma_{X_{2}} & \cdots & \rho_{X_{1}, X_{N}} \sigma_{X_{1}} \sigma_{X_{N}} \\ \rho_{X_{2}, X_{1}} \sigma_{X_{2}} \sigma_{X_{1}} & \sigma_{X_{2}}^{2} & \cdots & \rho_{X_{2}, X_{N}} \sigma_{X_{2}} \sigma_{X_{N}} \\ \vdots & \vdots & \ddots & \vdots \\ \rho_{X_{N}, X_{1}} \sigma_{X_{N}} \sigma_{X_{1}} & \rho_{X_{N}, X_{2}} \sigma_{X_{N}} \sigma_{X_{2}} & \cdots & \sigma_{X_{N}}^{2} \end{array}\right] \end{array} $$

Detail

Eine Kovarianzmatrix ist stets symmetrisch und positiv definit (oder positiv semidefinit).

Differenzierensregeln für Matrizen

Fri, 17 Jun 2022 00:00:00 +0000

Für eine Matrix $\mathbf{C}$ gilt
$$ \frac{\partial}{\partial \mathbf{C}}\left(\underline{a}^{\top} \cdot \mathbf{C} \cdot \underline{b}\right)=\underline{a} \cdot \underline{b}^{\top} $$

Beispiel
$$ Q=\underbrace{\left[\begin{array}{ll} a_{1} & a_{2} \end{array}\right]}_{\boldsymbol{a}^\top}\left[\begin{array}{ll} c_{11} & c_{12} \\ c_{21} & c_{22} \end{array}\right]\underbrace{\left[\begin{array}{l} b_{1} \\ b_{2} \end{array}\right]}_{\boldsymbol{b}}=a_{1} b_{1} \cdot c_{11}+a_{2} b_{1} c_{21}+a_{1} b_{2} c_{12}+a_{2} b_{2} c_{22} = \boldsymbol{a} \cdot \boldsymbol{b}^\top $$ $$ \frac{\partial Q}{\partial \mathbf{C}}=\left[\begin{array}{ll} \frac{\partial Q}{\partial C_{12}} & \frac{\partial Q}{\partial C_{12}} \\ \frac{\partial Q}{\partial C_{21}} & \frac{\partial Q}{\partial C_{22}} \end{array}\right]=\left[\begin{array}{ll} a_{1} b_{1} & a_{1} b_{2} \\ a_{2} b_{1} & a_{2} b_{2} \end{array}\right]=\left[\begin{array}{l} a_{1} \\ a_{2} \end{array}\right]\left[\begin{array}{ll} b_{1} & b_{2} \end{array}\right] $$
Für eine symmetrische Matrix $\mathbf{C}$:

Mit $\underline{a}=\underline{e}$ und $\underline{b} = D \cdot \underline{e}$:
$$ \frac{\partial}{\partial \mathbf{C}} (\underline{e}^\top \mathbf{C} D \underline{e}) = \underline{e} \cdot \underline{e}^\top \cdot D^\top $$

Mit $\underline{a}=D \cdot \underline{e}$ und $\underline{b} = \underline{e}$:
$$ \frac{\partial}{\partial \mathbf{C}} (\underline{e}^\top D^\top \mathbf{C} \underline{e}) = D\cdot \underline{e}\cdot \underline{e}^\top $$

$$ \frac{\partial}{\partial \mathbf{K}}\left(\boldsymbol{a}^{\top} \cdot \mathbf{K} \cdot \mathbf{C} \cdot \mathbf{K}^{\top} \boldsymbol{b} \right)=\boldsymbol{a} \boldsymbol{b}^{\top} \mathbf{K} \mathbf{C}^{\top}+\boldsymbol{b} \boldsymbol{a}^{\top} \mathbf{K} \mathbf{C} $$

Seien $\boldsymbol{a} = \boldsymbol{e}, \boldsymbol{b} = \boldsymbol{e}$, $\mathbf{C}$ symmetrisch, dann gilt
$$ \frac{\partial}{\partial \mathbf{K}}\left(\boldsymbol{e}^{\top} \cdot \mathbf{K} \cdot \mathbf{C} \cdot \mathbf{K}^{\top} \boldsymbol{e} \right)=\boldsymbol{e} \boldsymbol{e}^{\top} \mathbf{K} \mathbf{C}^{\top}+\boldsymbol{e} \boldsymbol{e}^{\top} \mathbf{K} \mathbf{C} = 2\boldsymbol{e} \boldsymbol{e}^{\top} \mathbf{K} \mathbf{C} $$

HMM und Wonham Filter

Wed, 29 Jun 2022 00:00:00 +0000

Das Hidden Markov Model (HMM) ist ein stochastisches Modell, in dem ein System durch eine Markowkette mit unbeobachteten Zuständen modelliert wird.

Die Modellierung als Markowkette bedeutet, dass das System auf zufällige Weise von einem Zustand in einen anderen übergeht, wobei die Übergangswahrscheinlichkeiten nur jeweils vom aktuellen Zustand abhängen, aber nicht von den davor eingenommenen Zuständen.

Ein HMM besteht aus

Systemmodell / Übergangswahrscheinlichkeiten / Transitionsmatrix $\mathbf{A}$

Messmodell / Emissionswahrscheinlichkeiten / Messmatrix $\mathbf{B}$

Zustandsraum; Zustandswahrscheinlichkeiten $\xi_{k}^{\boldsymbol{x}}$

Messungen; Emissionswahrscheinlichkeiten $\xi_{k}^{\boldsymbol{y}}$

Initialer Zustand $x_0$ oder initiale Zustandswahrscheinlichkeit $\xi_{0}^{\boldsymbol{x}}$

Beispiel (Übungsblatt 4.2)

Zustandsraum
$$ \begin{aligned} S &=\{\text { Sonniger Tag }\} \\ R &=\{\text { Regnerischer Tag }\} \\ N &=\{\text { Nebliger Tag }\} \end{aligned} $$

Zustandsvektor
$$ \xi_{k}^{\boldsymbol{x}}=\left[\begin{array}{l} \mathrm{P}\left(\boldsymbol{x}_{k}=S\right) \\ \mathrm{P}\left(\boldsymbol{x}_{k}=R\right) \\ \mathrm{P}\left(\boldsymbol{x}_{k}=N\right) \end{array}\right] $$

Transiitonsmatrix
$$ \mathbf{A}=\left[\begin{array}{lll} 0.7 & 0.2 & 0.1 \\ 0.2 & 0.6 & 0.2 \\ 0.4 & 0.3 & 0.3 \end{array}\right] $$

Messwerte
$$ \begin{array}{l} d=\{\text { dreckige Schuhe }\} \\ s=\{\text { saubere Schuhe }\} \end{array} $$

Messvektor
$$ \underline{\xi}_{k}^{\boldsymbol{y}}=\left[\begin{array}{l} \mathrm{P}\left(\boldsymbol{z}_{k}=d\right) \\ \mathrm{P}\left(\boldsymbol{z}_{k}=s\right) \end{array}\right] $$

Messmatrix
$$ \mathbf{B}=\left[\begin{array}{ll} 0.1 & 0.9 \\ 0.8 & 0.2 \\ 0.4 & 0.6 \end{array}\right] $$

Initiale Zustandswahrscheinlichkeit $\xi_{0}^{\boldsymbol{x}}$ und initialer Zustand $x_0$
$$ \underline{\xi}_{0}^{\boldsymbol{x}}=\left[\begin{array}{l} 1 \\ 0 \\ 0 \end{array}\right] ; \quad x_{0}=S $$

Modell als Zustandsdiagramm mit Übergangswahrscheinlichkeiten

Wonham-Filter

Das Wonham Filter ist ein rekursives Filter für Zustandschätzung für wertdiskrete Systeme.

Das Wonham Filter besteht aus zwei Phasen

Prädiktion
$$ \underline{\xi}_{k \mid 1: k-1}^{x}=\mathbf{A}_{k}^{\top} \underline{\xi}_{k-1\mid1: k-1}^{x} $$

$\mathbf{A}_k$ : Transitionsmatrix

$\underline{\xi}_{k-1\mid1: k-1}^{x}$ : letzte Zustandsschätzung

Filterung

Für Messung $y_k = m$:
$$ \underline{\xi}_{k \mid 1: k}^{x} =\frac{\mathbf{B}(:, m) \odot \xi_{k \mid 1: k-1}^{x}}{\mathbb{1}_{N}^{T} \operatorname{diag}(\mathbf{B}(:, m)) \cdot \xi_{k \mid 1: k-1}^{x}} =\frac{\mathbf{B}(:, m) \odot \xi_{k \mid 1: k-1}^{x}}{\mathbf{B}(:, m)^\top \cdot \xi_{k \mid 1: k-1}^{x}} $$

(Mehr über Wonham filter siehe hier)

Beispiel (weiter)

Zeitpunkt $k=1$:
$$ \begin{array}{l} \underline{\xi}_{1}^{p}=\mathbf{A}^{\top} \underline{\xi}_{0}^{\boldsymbol{x}}=\left[\begin{array}{l} 0.7 \\ 0.2 \\ 0.1 \end{array}\right] \\\\ \underline{\xi}_{1}^{e}=\frac{\mathbf{B}(:, 1) \odot \underline{\xi}_{1}^{p}}{\mathbf{B}(:, 1)^{\top} \underline{\xi}_{1}^{p}}=\frac{\left[\begin{array}{l} 0.1 \\ 0.8 \\ 0.4 \end{array}\right] \odot\left[\begin{array}{l} 0.7 \\ 0.2 \\ 0.1 \end{array}\right]}{\left[\begin{array}{lll} 0.1 & 0.8 & 0.4 \end{array}\right]\left[\begin{array}{l} 0.7 \\ 0.2 \\ 0.1 \end{array}\right]}=\frac{\left[\begin{array}{l} 0.07 \\ 0.16 \\ 0.04 \end{array}\right]}{0.27}=\left[\begin{array}{l} 0.25926 \\ 0.59259 \\ 0.14815 \end{array}\right] \end{array} $$
$P(\boldsymbol{x}_1 = R) = 0.59259$ ist die größst in $\underline{\xi}_{1}^{e}$. $\Rightarrow$ Die Schätzung deutet auf einen regnerischen Tag.

Zeitpunkt $k=2$:
$$ \begin{aligned} \underline{\xi}_{2}^{p} &=\mathbf{A}^{\top} \underline{\xi}_{1}^{e}=\left[\begin{array}{l} 0.35926 \\ 0.45185 \\ 0.18889 \end{array}\right] \\ \underline{\xi}_{2}^{e} &=\frac{\mathbf{B}(:, 1) \odot \xi_{2}^{p}}{\mathbf{B}(:, 1)^{\top} \xi_{2}^{p}}=\left[\begin{array}{l} 0.07596 \\ 0.76429 \\ 0.15975 \end{array}\right] \end{aligned} $$
$\Rightarrow$ Die Schätzung deutet auf einen regnerischen Tag.

Zeitpunkt $k=3$:
$$ \underline{\xi}_{3}^{p}=\mathbf{A}^{\top} \underline{\xi}_{2}^{e}=\left[\begin{array}{l} 0.26993 \\ 0.52169 \\ 0.20838 \end{array}\right] $$ $$ \xi_{3}^{e}=\frac{\mathbf{B}(:, 2) \odot \xi_{3}^{p}}{\mathbf{B}(:, 2)^{\top} \xi_{3}^{p}}=\left[\begin{array}{l} 0.51437 \\ 0.22091 \\ 0.26472 \end{array}\right] $$
$\Rightarrow$ Die Schätzung deutet auf einen sonnigen Tag.

Zeitpunkt $k=4$:
$$ \begin{array}{l} \underline{\xi}_{4}^{p}=\mathbf{A}^{\top} \underline{\xi}_{3}^{e}=\left[\begin{array}{ll} 0.510 & 13 \\ 0.314 & 84 \\ 0.175 & 04 \end{array}\right]\\ \xi_{4}^{e}=\frac{\mathbf{B}(:, 2) \odot \xi_{4}^{p}}{\mathbf{B}(:, 2)^{\top} \xi_{4}^{p}}=\left[\begin{array}{l} 0.73212 \\ 0.10041 \\ 0.16747 \end{array}\right] \end{array} $$
$\Rightarrow$ Die Schätzung deutet auf einen sonnigen Tag.

Beispiel (weiter)

Lösung:

Gaußverteilung

Sun, 03 Jul 2022 00:00:00 +0000

Skalarer Fall (1D)
$$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{1}{2} \frac{(x-\hat{x})^{2}}{\sigma^{2}}\right\} $$

Erwartungswert
$$ E_{f}\{x\}=\hat{x} $$

Varianz
$$ E_{f}\left\{(x-\hat{x})^{2}\right\}=\sigma^{2} $$

Given the parameters $\mu$ and $\sigma$ of a Gaussian density, mean and variance are already given. On the other hand, assume that we wish to approximate a given density $\tilde{f}_x$ with a simpler density of the same mean and standard deviation. Then, given the mean and the standard deviation of the density $\tilde{f}_x$, an appropriate Gaussian density is immediately obtained. This is a property not generally shared by more complicated densities.

2D Normalverteilung
$$ \begin{aligned} f_{x y}(x, y)&=\frac{1}{2 \pi \sigma_{x} \sigma_{y} \sqrt{1-r^{2}}} \exp \left\{-\frac{1}{2} Q(x, y)\right\} \\ Q(x, y)&=\frac{1}{1-r}\left\{\frac{(x-\hat{x})^{2}}{\sigma_{x}^{2}}-2 r \frac{x-\hat{x}}{\sigma_{x}} \frac{y-\hat{y}}{\sigma_{y}}+\frac{(y-\hat{y})^{2}}{\sigma_{y}^{2}}\right\} \end{aligned} $$

$r \in [-1, 1]$: Korrelationskoeffizent (in some literature also written as $\rho$)

Alternativ
$$ f_{x y}(x, y)=\mathcal{N} \left(\left[\begin{array}{l} x \\ y \end{array}\right],\left[\begin{array}{l} \hat{x} \\ \hat{y} \end{array}\right],\left[\begin{array}{ll} C_{x x} & C_{x y} \\ C_{y x} & C_{y y} \end{array}\right]\right) $$
mit
$$ \left[\begin{array}{ll} c_{x x} & c_{x y} \\ c_{y x} & c_{y y} \end{array}\right]=\left[\begin{array}{lc} \sigma_{x}^{2} & r \sigma_{x} \sigma_{y} \\ r \sigma_{x} \sigma_{y} & \sigma_{y}^{2} \end{array}\right] $$
Correlationskoeffizient

Correlation of bivariate Gaussian distribution ($\rho$ is the correlation coefficient). (Source: )

unkorreliert ($r = 0$) (Figure 1 right)

$\Rightarrow \boldsymbol{x}, \boldsymbol{y}$ unkorreliert

$\Rightarrow$ (nur für Gauß) $\boldsymbol{x}, \boldsymbol{y}$ unabhängig ($f_{\boldsymbol{x}, \boldsymbol{y}} = f_{\boldsymbol{x}}(x) f_{\boldsymbol{y}}(y)$ )

positiv korreliert ($r > 0$) (Figure 1 left)

positiv korreliert ($r < 0$) (Figure 1 middle)

$N$-dim. Normalverteilung
$$ f_{\boldsymbol{x}}(x)=\frac{1}{\sqrt{(2 \pi)^{N} \cdot|\mathbf{C}|}} \exp \left\{-\frac{1}{2}(\underline{x}-\underline{\hat{x}})^{\top} \mathbf{C}^{-1}(\underline{x}-\underline{\hat{x}})\right\} $$

$\underline{\hat{x}}$ : Mean

$\mathbf{C}$ : Kovarianzmatrix

Math Basics

Mon, 17 Aug 2020 00:00:00 +0000

Linear Algebra

Vectors

Vector: multi-dimensional quantity

Each dimension contains different information (e.g.: Age, Weight, Height…)

represented as bold symbols

A vector $\boldsymbol{x}$ is always a column vector
$$ \boldsymbol{x}=\left[\begin{array}{l} {1} \\\\ {2} \\\\ {4} \end{array}\right] $$

A transposed vector $\boldsymbol{x}^T$ is a row vector
$$ \boldsymbol{x}^{T}=\left[\begin{array}{lll} {1} & {2} & {4} \end{array}\right] $$

Vector Operations

Multiplication by scalars
$$ 2\left[\begin{array}{l} {1} \\\\ {2} \end{array}\right]=\left[\begin{array}{l} {2} \\\\ {4} \end{array}\right] $$

Addtition of vectors
$$ \left[\begin{array}{l}{1} \\\\ {2} \end{array}\right]+\left[\begin{array}{l}{3} \\\\ {1}\end{array}\right]=\left[\begin{array}{l}{4} \\\\ {3} \end{array}\right] $$

Scalar (Inner) products: Sum the element-wise products
$$ \boldsymbol{v}=\left[\begin{array}{c}{1} \\\\ {2} \\\\ {4}\end{array}\right], \quad \boldsymbol{w}=\left[\begin{array}{l}{2} \\\\ {4} \\\\ {8}\end{array}\right] $$

$$ \langle v, w\rangle= 1 \cdot 2+2 \cdot 4+4 \cdot 8=42 $$

Length of a vector: Square root of the inner product with itself $$ \|\boldsymbol{v}\|=\langle\boldsymbol{v}, \boldsymbol{v}\rangle^{\frac{1}{2}}=\left(1^{2}+2^{2}+4^{2}\right)^{\frac{1}{2}}=\sqrt{21} $$

Matrices

Matrix: rectangular array of numbers arranged in rows and columns

denoted with bold upper-case letters
$$ \boldsymbol{X}=\left[\begin{array}{ll}{1} & {3} \\\\ {2} & {3} \\\\ {4} & {7}\end{array}\right] $$

Dimension: $\\#rows \\times \\#columns$ (E.g.: 👆$X \in \mathbb{R}^{3 \times 2}$)

Vectors are special cases of matrices
$$ \boldsymbol{x}^{T}=\underbrace{\left[\begin{array}{ccc}{1} & {2} & {4}\end{array}\right]}_{1 \times 3 \text { matrix }} $$

####Matrices in ML

Data set can be represented as matrix, where single samples are vectors

e.g.:

Age Weight Height

Joe 37 72 175

Mary 10 30 61

Carol 25 65 121

Brad 66 67 175

$$ \text { Joe: } \boldsymbol{x}\_{1}=\left[\begin{array}{c}{37} \\\\ {72} \\\\ {175}\end{array}\right], \qquad \text { Mary: } \boldsymbol{x}\_{2}=\left[\begin{array}{c}{10} \\\\ {30} \\\\ {61}\end{array}\right] \\\\ $$ $$ \text { Carol: } \boldsymbol{x}\_{3}=\left[\begin{array}{c}{25} \\\\ {65} \\\\ {121}\end{array}\right], \qquad \text { Brad: } \boldsymbol{x}\_{4}=\left[\begin{array}{c}{66} \\\\ {67} \\\\ {175}\end{array}\right] $$

Most typical representation:

row ~ data sample (e.g. Joe)

column ~ data entry (e.g. age)

$$ \boldsymbol{X}=\left[\begin{array}{l}{\boldsymbol{x}\_{1}^{T}} \\\\ {\boldsymbol{x}\_{2}^{T}} \\\\ {\boldsymbol{x}\_{3}^{T}} \\\\ {\boldsymbol{x}\_{4}^{T}}\end{array}\right]=\left[\begin{array}{ccc}{37} & {72} & {175} \\\\ {10} & {30} & {61} \\\\ {25} & {65} & {121} \\\\ {66} & {67} & {175}\end{array}\right] $$

Matrice Operations

Multiplication with scalar
$$ 3 \boldsymbol{M}=3\left[\begin{array}{lll}{3} & {4} & {5} \\\\ {1} & {0} & {1}\end{array}\right]=\left[\begin{array}{ccc}{9} & {12} & {15} \\\\ {3} & {0} & {3}\end{array}\right] $$

Addition of matrices
$$ \boldsymbol{M} + \boldsymbol{N}=\left[\begin{array}{lll}{3} & {4} & {5} \\\\ {1} & {0} & {1}\end{array}\right]+\left[\begin{array}{lll}{1} & {2} & {1} \\\\ {3} & {1} & {1}\end{array}\right]=\left[\begin{array}{lll}{4} & {6} & {6} \\\\ {4} & {1} & {2}\end{array}\right] $$

Transposed
$$ \boldsymbol{M}=\left[\begin{array}{lll}{3} & {4} & {5} \\\\ {1} & {0} & {1}\end{array}\right], \boldsymbol{M}^{T}=\left[\begin{array}{ll}{3} & {1} \\\\ {4} & {0} \\\\ {5} & {1}\end{array}\right] $$

Matrix-Vector product (Vector need to have same dimensionality as number of columns)
$$ \underbrace{\left[\boldsymbol{w}\_{1}, \ldots, \boldsymbol{w}\_{n}\right]}_{\boldsymbol{W}} \underbrace{\left[\begin{array}{c}{v\_{1}} \\\\ {\vdots} \\\\ {v\_{n}}\end{array}\right]}\_{\boldsymbol{v}}=\underbrace{\left[\begin{array}{c}{v\_{1} \boldsymbol{w}\_{1}+\cdots+v\_{n} \boldsymbol{w}\_{n}}\end{array}\right]}\_{\boldsymbol{u}} $$
E.g.:
$$ \boldsymbol{u}=\boldsymbol{W} \boldsymbol{v}=\left[\begin{array}{ccc}{3} & {4} & {5} \\\\ {1} & {0} & {1}\end{array}\right]\left[\begin{array}{l}{1} \\\\ {0} \\\\ {2}\end{array}\right]=\left[\begin{array}{l}{3 \cdot 1+4 \cdot 0+5 \cdot 2} \\\\ {1 \cdot 1+0 \cdot 0+1 \cdot 2}\end{array}\right]=\left[\begin{array}{c}{13} \\\\ {3}\end{array}\right] $$
💡 Think as: We sum over the columns $\boldsymbol{w}_i$ of $\boldsymbol{W}$ weighted by $v_i$

$$ u=v\_{1} w\_{1}+\cdots+v\_{n} w\_{n}=1\left[\begin{array}{l}{3} \\\\ {1}\end{array}\right]+0\left[\begin{array}{l}{4} \\\\ {0}\end{array}\right]+2\left[\begin{array}{l}{5} \\\\ {1}\end{array}\right]=\left[\begin{array}{c}{13} \\\\ {3}\end{array}\right] $$

Matrix-Matrix product
$$ \boldsymbol{U} = \boldsymbol{W} \boldsymbol{V}=\left[\begin{array}{lll}{3} & {4} & {5} \\\\ {1} & {0} & {1}\end{array}\right]\left[\begin{array}{ll}{1} & {0} \\\\ {0} & {3} \\\\ {2} & {4}\end{array}\right]=\left[\begin{array}{ll}{3 \cdot 1+4 \cdot 0+5 \cdot 2} & {3 \cdot 0+4 \cdot 3+5 \cdot 4} \\\\ {1 \cdot 1+0 \cdot 0+1 \cdot 2} & {1 \cdot 0+0 \cdot 3+1 \cdot 4}\end{array}\right]=\left[\begin{array}{cc}{13} & {32} \\\\ {3} & {4}\end{array}\right] $$
💡 Think of it as: Each column $\boldsymbol{u}\_i = \boldsymbol{W} \boldsymbol{v}\_i$ can be computed by a matrix-vector product
$$ \boldsymbol{W} \underbrace{\left[\boldsymbol{v}\_{1}, \ldots, \boldsymbol{v}\_{n}\right]}\_{\boldsymbol{V}}=[\underbrace{\boldsymbol{W} \boldsymbol{v}\_{1}}_{\boldsymbol{u}\_{1}}, \ldots, \underbrace{\boldsymbol{W} \boldsymbol{v}\_{n}}\_{\boldsymbol{u}\_{n}}]=\boldsymbol{U} $$

Non-commutative: $\boldsymbol{V} \boldsymbol{W} \neq \boldsymbol{W} \boldsymbol{V}$

Associative: $\boldsymbol{V}(\boldsymbol{W} \boldsymbol{X})=(\boldsymbol{V} \boldsymbol{W}) \boldsymbol{X}$

Transpose product:
$$ (\boldsymbol{V} \boldsymbol{W}) ^{T}=\boldsymbol{W}^{T} \boldsymbol{V}^{T} $$

Matrix inverse

scalar
$$ w \cdot w^{-1}=1 $$

matrices
$$ \boldsymbol{W} \boldsymbol{W}^{-1}=\boldsymbol{I}, \quad \boldsymbol{W}^{-1} \boldsymbol{W}=\boldsymbol{I} $$

Important Special Cases

Scalar (Inner) product:
$$ \langle\boldsymbol{w}, \boldsymbol{v}\rangle = \boldsymbol{w}^{T} \boldsymbol{v}=\left[w\_{1}, \ldots, w\_{n}\right]\left[\begin{array}{c}{v\_{1}} \\\\ {\vdots} \\\\ {v\_{n}}\end{array}\right]=w\_{1} v\_{1}+\cdots+w\_{n} v\_{n} $$

Compute row/column averages of matrix
$$ \boldsymbol{X}=\underbrace{\left[\begin{array}{ccc}{X\_{1,1}} & {\dots} & {X\_{1, m}} \\\\ {\vdots} & {} & {\vdots} \\\\ {X\_{n, 1}} & {\dots} & {X\_{n, m}}\end{array}\right]}\_{n \text { (samples) } \times m \text { (entries) }} $$

Vector of row averages (average over all entries per sample)
$$ \left[\begin{array}{cc}{\frac{1}{m} \sum\_{i=1}^{m} X\_{1, i}} \\\\ {\vdots} & {} \\\\ {\frac{1}{m} \sum_{i=1}^{m} X\_{n, i}}\end{array}\right]=\boldsymbol{X}\left[\begin{array}{c}{\frac{1}{m}} \\\\ {\vdots} \\\\ {\frac{1}{m}}\end{array}\right]=\boldsymbol{X} \boldsymbol{a}, \quad \text { with } \boldsymbol{a}=\left[\begin{array}{c}{\frac{1}{m}} \\\\ {\vdots} \\\\ {\frac{1}{m}}\end{array}\right] $$

Vector of column averages (average over all samples per entry)
$$ \left[\frac{1}{n} \sum_{i=1}^{n} X\_{i, 1}, \ldots, \frac{1}{n} \sum\_{i=1}^{n} X\_{i, m}\right]=\left[\frac{1}{n}, \ldots, \frac{1}{n}\right] \boldsymbol{X}=\boldsymbol{b}^{T} \boldsymbol{X}, \text { with } \boldsymbol{b}=\left[\begin{array}{c}{\frac{1}{n}} \\\\ {\vdots} \\\\ {\frac{1}{n}}\end{array}\right] $$

Calculus

“The derivative of a function of a real variable measures the sensitivity to change of a quantity (a function value or dependent variable) which is determined by another quantity (the independent variable)”

Scalar Vector

Function $f(x)$ $f(\boldsymbol{x})$

Derivative $\frac{\partial f(x)}{\partial x}=g$ $\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=\left[\frac{\partial f(\boldsymbol{x})}{\partial x\_{1}}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x\_{d}}\right]^{T} =: \nabla f(x)\quad$
(👆 gradient of function $f$ at $\boldsymbol{x}$)

Min/Max $\frac{\partial f(x)}{\partial x}=0$ $\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=[0, \ldots, 0]^{T}=\mathbf{0}$

Matrix Calculus

Scalar Vector

Linear $\frac{\partial a x}{\partial x}=a$ $\nabla\_{\boldsymbol{x}} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{A}^{T}$

Quadratic $\frac{\partial x^{2}}{\partial x}=2 x$ $\begin{array}{l}{\nabla\_{\boldsymbol{x}} \boldsymbol{x}^{T} \boldsymbol{x}=2 \boldsymbol{x}} \\\\ {\nabla\_{\boldsymbol{x}} \boldsymbol{x}^{T} \boldsymbol{A} \boldsymbol{x}=2 \boldsymbol{A} \boldsymbol{x}}\end{array}$

Zufalls- variable	Diskret	Stetig
Beispiel	Würfelwurf	Zeit Temperatur
Wahrscheinlichkeit für	bestimmter/konkreter Punkt $P(X=x) \in [0, 1]$	NUR für Intervall ($P(X=x) = 0$)
Wahrscheinlichkeitsfunktion/ Dichtefunktion	Wahrscheinlichkeitsfunktion $f(x): \Omega \rightarrow[0,1], x \in \mathbb{N}_{0}$ $f(x) = P(X=x)$ $\sum_{x \in \Omega} f(x)=1$	Dichtefunktion $f(x): \mathbf{\Omega} \rightarrow \mathbb{R}^{+}$ $f$ ist integrierbar $f(x) \geq 0 \quad \forall x \in \mathbb{R}$ $\displaystyle \int_{-\infty}^{+\infty} f(x) \mathrm{d} x=1$
Verteilungsfunktion	$F(x): \boldsymbol{\Omega} \rightarrow[\mathbf{0}, \mathbf{1}], X \in \mathbb{N}_{\mathbf{0}}$ $F(x)= P(X \leq x) = \sum_{x_{i} \leq x} f\left(x_{i}\right)$	$F(x): \Omega \rightarrow[0,1], x \in \mathbb{R}$ $F(x)=\int f(x) \mathrm{d} x, \quad f(x)=\frac{F(x)}{\mathrm{d} x}$

Zufalls- variable	Diskret	Stetig
Erwartungswert ($\mu$, $E(x)$)	$\sum_{i \in \Omega} x_{i} \cdot p_{i}$	$\int_{-\infty}^{+\infty} x \cdot f(x) \mathrm{d} x$
Varianz ($\sigma^2$, $Var(x)$)	$\sum_{i \in \Omega}\left(x_{i}-\mu\right)^{2} \cdot p_{i}$	$\int_{-\infty}^{+\infty}(x-\mu)^{2} \cdot f(x) \mathrm{d} x$
Standardabweichung ($\sigma$)	$\sqrt{Var(x)}$	$\sqrt{Var(x)}$

	Scalar	Vector
Function	$f(x)$	$f(\boldsymbol{x})$
Derivative	$\frac{\partial f(x)}{\partial x}=g$	$\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=\left[\frac{\partial f(\boldsymbol{x})}{\partial x\_{1}}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x\_{d}}\right]^{T} =: \nabla f(x)\quad$ (👆 gradient of function $f$ at $\boldsymbol{x}$)
Min/Max	$\frac{\partial f(x)}{\partial x}=0$	$\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=[0, \ldots, 0]^{T}=\mathbf{0}$

	Scalar	Vector
Linear	$\frac{\partial a x}{\partial x}=a$	$\nabla\_{\boldsymbol{x}} \boldsymbol{A} \boldsymbol{x}=\boldsymbol{A}^{T}$
Quadratic	$\frac{\partial x^{2}}{\partial x}=2 x$	$\begin{array}{l}{\nabla\_{\boldsymbol{x}} \boldsymbol{x}^{T} \boldsymbol{x}=2 \boldsymbol{x}} \\\\ {\nabla\_{\boldsymbol{x}} \boldsymbol{x}^{T} \boldsymbol{A} \boldsymbol{x}=2 \boldsymbol{A} \boldsymbol{x}}\end{array}$