Lorenz-Kurve

Die Lorenz-Kurve (auch: Lorenzkurve) wurde 1905 vom US-amerikanischen Statistiker und Ökonomen Max Otto Lorenz (1876–1959) entwickelt. Sie stellt statistische Verteilungen grafisch dar und veranschaulicht dabei das Ausmaß an Disparität (Ungleichheit) beziehungsweise relativer Konzentration innerhalb der Verteilung. Deshalb wird sie auch als Disparitätskurve bezeichnet. Amtliche Statistiken nutzen die Lorenz-Kurve, um die Einkommensverteilung in einem Land zu verdeutlichen.^[1] Grundlage dieser Berechnungen ist eine Liste der von links nach rechts aufsteigend sortierten Einzeleinkommen oder Einzelvermögen (siehe auch: Pen’s Parade).

Aufbau und Erläuterung

Die Lorenz-Kurve ist eine Funktion im Einheitsquadrat des 1. Quadranten. Sie stellt dar, welche Anteile der gesamten Merkmalssumme auf welche Anteile der Grundmenge mit $n$ Merkmalsträgern entfallen. So werden auf der $x$ -Achse (Abszisse) die Anteile an der Gesamtheit der Merkmalsträger (zum Beispiel Bevölkerung), auf der $y$ -Achse (Ordinate) die Anteile an der gesamten Merkmalssumme (beispielsweise Einkommen) abgetragen. Zunächst werden die Daten dafür aufsteigend sortiert – beginnend mit dem geringsten Anteil an der Merkmalssumme – und dann kumuliert (summiert). Dadurch entsteht der charakteristische „Bauch“ der Lorenz-Kurve unterhalb der Diagonalen, welcher das Maß der Ungleichverteilung wiedergibt. Jeder Punkt auf der Lorenz-Kurve steht für eine Aussage wie „die unteren 20 % aller Haushalte beziehen 10 % des Gesamteinkommens“ (siehe: Paretoprinzip). Eine perfekte Einkommensgleichverteilung wäre eine Einkommensverteilung, bei der alle Personen das gleiche Einkommen besitzen. In diesem Falle würden stets die unteren $N\,\%$ der Gesellschaft $N\,\%$ des Einkommens haben. Dies lässt sich anschaulich durch eine Gerade $y=x$ darstellen. Man nennt sie perfekte Gleichverteilungsgerade (line of perfect equality). Dagegen wäre die perfekte Ungleichverteilung eine Verteilung, bei der eine Person über das gesamte Einkommen verfügt und alle anderen Personen kein Einkommen beziehen. In diesem Fall wäre die Kurve $y=0=0\,\%$ für alle $x<1=100\,\%$ und $y=1=100\,\%$ bei $x=1=100\,\%$ . Diese Kurve wird als perfekte Ungleichverteilungsgerade (line of perfect inequality) bezeichnet.

Der Gini-Koeffizient ist der Anteil der Fläche zwischen der perfekten Gleichverteilungsgerade und der beobachteten Lorenz-Kurve an der Fläche unter der Gleichverteilungsgerade. Der Gini-Koeffizient ist damit eine Zahl zwischen 0 und 1, je höher er ist, desto ungleicher ist die Verteilung.

Berechnung

Diskreter Fall

Die Lorenz-Kurve ist als abschnittsweise lineare Kurve (d. h. als Polygonzug) durch die Punkte $(0\vert 0),\left(u_{1}\vert v_{1}\right),\left(u_{2}\vert v_{2}\right),\ldots ,\left(u_{n}\vert v_{n}\right),(1\vert 1)$ definiert. Sind die $x_{j}$ Anteile an der Gesamtheit der Merkmalsträger und die $y_{j}$ Anteile an der gesamten Merkmalssumme, so sind die Koordinaten der Punkte für $i=1,\ldots ,n$ definiert mit:

u_{i}=\sum \limits _{j=1}^{i}x_{j}

und

v_{i}=\sum \limits _{j=1}^{i}y_{j}

Stetiger/Kontinuierlicher Fall

Generell

Die Lorenz-Kurve kann häufig durch eine Funktion $L(F)$ dargestellt werden, wobei $F$ auf der Abszisse und $L$ auf der Ordinate abgetragen wird.

Für eine Population der Größe $n$ mit einer Folge von Werten $y_{i}$ , $i=1,2,\ldots ,n$ , die nach aufsteigender Reihenfolge indiziert werden $\left(y_{i}\leq y_{i+1}\right)$ , ist die Lorenz-Kurve die stetige, abschnittsweise lineare Funktion, die die Punkte ( $F_{i}$ , $L_{i}$ ), $i=0,1,\ldots ,n$ verbindet, wobei $F_{0}=0$ , $L_{0}=0$ ist und für $i=1,2,\ldots ,n$ :

F_{i}={\frac {i}{n}}

S_{i}=\sum \limits _{j=1}^{i}y_{j}

L_{i}={\frac {S_{i}}{S_{n}}}

Dabei nennt man $S_{i}$ auch Lorenz-Asymmetrie-Koeffizient.

Für eine diskrete Wahrscheinlichkeitsfunktion $f(y)$ seien $y_{i}$ , $i=1,2,\ldots ,n$ , die Punkte mit Non-/Nicht-Null-Wahrscheinlichkeiten nach steigender Reihenfolge indiziert $\left(y_{i}<y_{i+1}\right)$ . Die Lorenz-Kurve ist die stetige, abschnittsweise definierte, lineare Funktion, welche die Punkte ( $F_{i}$ , $L_{i}$ ), $i=0,1,\ldots ,n$ , miteinander verbindet, wobei $F_{0}={0}$ , $L_{0}=0$ ist und für $i=1,2,\ldots ,n$ gilt:

F_{i}=\sum \limits _{j=1}^{i}f(y_{j})

S_{i}=\sum \limits _{j=1}^{i}f(y_{j})\cdot y_{j}

L_{i}={\frac {S_{i}}{S_{n}}}

Für die Laplace-Verteilung, das heißt $f(y_{i})={\frac {1}{n}}$ für alle $i=1\ldots ,n$ , erhält man genau die oben genannten Formeln für $F_{i}$ und $L_{i}$ .

Für eine Wahrscheinlichkeitsdichtefunktion $f(x)$ mit der kumulierten Wahrscheinlichkeitsverteilungsfunktion $F(x)$ ist die Lorenz-Kurve $L[F(x)]$ definiert durch:

L[F(x)]={\frac {\int \limits _{-\infty }^{x}t\cdot f(t)\,\mathrm {d} t}{\int \limits _{-\infty }^{\infty }t\cdot f(t)\,\mathrm {d} t}}\,={\frac {\int \limits _{-\infty }^{x}t\cdot f(t)\,\mathrm {d} t}{\mu }}

wobei μ der Erwartungswert der Verteilung ist. Für eine kumulierte Verteilungsfunktion $F(x)$ mit der Umkehrfunktion $x(F)$ ist die Lorenz-Kurve $L(F)$ gegeben durch:

L(F)={\frac {\int \limits _{0}^{F}x(F_{1})\,\mathrm {d} F_{1}}{\int \limits _{0}^{1}x(F_{1})\,\mathrm {d} F_{1}}}

Die Umkehrfunktion $x(F)$ könnte nicht existieren, da die kumulierte Verteilungsfunktion Sprungstellen (Unstetigkeitsstellen) oder Intervalle konstanter Werte aufweist. Die vorherige Gleichung behält ihre Gültigkeit, wenn man allgemeiner $x(F_{1})$ durch folgende Formel definiert:^[2]

$x(F_{1})=\inf \left\{y\colon F(y)\geq F_{1}\right\}$

Gastwirths Definition

Betrachtet werde eine nichtnegative Zufallsvariable $X$ mit der dazugehörigen normierten Quantilsfunktion $Q^{*}$ . Nach Joseph Lewis Gastwirth wird die Abbildung

{\begin{aligned}L\colon [0,1]\rightarrow &[0,1]\\\alpha \mapsto &L(\alpha )=\int \limits _{0}^{\alpha }Q^{*}({\tilde {\alpha }})\mathrm {d} {\tilde {\alpha }}\end{aligned}}

als (stetige) Lorenz-Kurve von $X$ oder zur Verteilung von $X$ bezeichnet.^[3]^[2]

Eigenschaften

Die Lorenz-Kurve hat folgende Eigenschaften:^[4]

Sie beginnt stets im Koordinatenursprung $(0\vert 0)$ und endet im Punkt $(1\vert 1)$ .
Die Ableitung der Kurve ist monoton steigend, weshalb die Kurve selber konvex ist und unterhalb der Diagonalen liegt.
Die Lorenzkurve ist stetig auf dem offenen Intervall $(0,1)$ , im diskreten Fall sogar stückweise linear.

Die Lorenz-Kurve ist für einen Mittelwert der Wahrscheinlichkeitsverteilung von null oder unendlich nicht definiert.

Die Lorenz-Kurve für eine Wahrscheinlichkeitsverteilung ist eine stetige Funktion. Aber Lorenz-Kurven unstetiger Funktionen können als Grenzwert (Limes) der Lorenz-Kurven der Wahrscheinlichkeitsverteilungen formuliert werden – wie beispielsweise die perfekte Ungleichheitsgerade (line of perfect inequality).

Die Daten einer Lorenz-Kurve können durch den Gini-Koeffizienten und den Lorenz-Asymmetrie-Koeffizienten zusammengefasst werden.^[5]

Die Lorenz-Kurve ist invariant unter positiver Skalierung. Falls $X$ eine Zufallsvariable ist, so besitzt die Zufallsvariable $c\cdot X$ für jede positive Zahl $c$ die gleiche Lorenz-Kurve wie $X$ , wobei man unter der Lorenzkurve einer Zufallsvariablen natürlich diejenige der zugehörigen Verteilung versteht.

Die Lorenz-Kurve ist nicht invariant unter Translationen, das heißt unter einer konstanten Verschiebung der Werte. Ist $X$ eine Zufallsvariable mit einer Lorenz-Kurve $L_{X}(F)$ und dem Mittel $\mu _{X}$ ist, dann erhält man für die Lorenz-Kurve $L_{X+c}(F)$ der verschobenen Zufallsvariablen $X+c$ , wobei $c\neq -\mu _{X}$ eine feste Konstante sei, folgende Formel:

F-L_{X+c}(F)={\frac {\mu _{X}}{\mu _{X}+c}}\cdot (F-L_{X}(F))

Für eine kumulierte Verteilungsfunktion $F(x)$ mit dem Mittelwert $\mu$ und der (verallgemeinerten) Umkehrfunktion $x(F)$ gilt für jedes $F$ mit $0<F<1\colon$

Falls die Lorenz-Kurve differenzierbar ist, gilt:

{\frac {\mathrm {d} L(F)}{\mathrm {d} F}}={\frac {x(F)}{\mu }}

Wenn die Lorenz-Kurve zweifach differenzierbar ist, dann existiert die Wahrscheinlichkeitsdichtefunktion $f(x)$ in diesem Punkt und:

{\frac {\mathrm {d} ^{2}L(F)}{\mathrm {d} F^{2}}}={\frac {1}{\mu \cdot f(x(F))}}

Falls $L(F)$ stetig-differenzierbar ist, so ist die Tangente von $L(F)$ parallel zur perfekten Gleichheitsgerade im Punkt $F(\mu )$ . Dies ist auch der Punkt, in welchem die Gleichheitsdiskrepanz $F-L(F)$ , der vertikale Abstand zwischen der Lorenz-Kurve und der perfekten Gleichheitsgerade, am größten ist. Die Größe der Diskrepanz ist gleich der Hälfte der relativen mittleren Abweichung:

F(\mu )-L[F(\mu )]={\frac {\text{mittlere Abweichung}}{2\mu }}

Die Lorenz-Kurve einer Zufallsvariablen $X$ wird am Punkt $(0,5\vert 0,5)$ gespiegelt, wenn man von $X$ zu $-X$ übergeht, das heißt mit oben eingeführten Bezeichnungen:

L_{-X}(F)=1-L_{X}(1-F)

Extremfälle

Je gleichmäßiger die Merkmalssumme unter den Trägern verteilt ist, desto stärker nähert sich die Lorenz-Kurve der Diagonalen an. Im Extremfall der ökonomischen Gleichverteilung (statistische Einpunktverteilung) fällt sie mit ihr zusammen.

Im Falle größerer Disparität bewegt sich die Kurve nach unten in Richtung der Abszisse. Für den Extremfall der maximalen Ungleichverteilung (ein Merkmalsträger vereinigt die gesamte Merkmalssumme auf sich) verläuft die Lorenz-Kurve als Streckenzug auf der Abszisse bis $1-{\tfrac {1}{n}}$ und führt von dort zum Punkt $(1\vert 1)$ .

Stetig und diskret klassierte Daten

Welche Form die Lorenz-Kurve genau annimmt, hängt davon ab, welcher Art die Daten des Merkmals sind. Grundsätzlich sind stetige Daten (siehe Beispielbild oben) von diskreten Daten zu unterscheiden. Im zweiten Fall ist die Lorenzkurve ein Streckenzug durch die Punkte $\left(F_{j}\vert L_{j}\right)$ .

Messung der relativen Konzentration (Disparität)

Die Lorenz-Kurve bietet eine grafische Möglichkeit, das Ausmaß an Disparität innerhalb einer Verteilung zu betrachten. Je stärker sich die Kurve nach unten wölbt, desto größer die Disparität (siehe Abschnitt Extremfälle). Für den Fall, dass sich zwei Lorenz-Kurven schneiden, lässt sich anhand der Grafik jedoch nicht mehr eindeutig bestimmen, welche die größere Disparität aufweist. Auch ist die Messung mittels Grafik zu ungenau. Präzise Werte liefern dafür die Maßzahlen Gini-Koeffizient und Variationskoeffizient. Der Gini-Koeffizient steht dabei in einem direkten Zusammenhang mit der Lorenz-Kurve: Er ist das Zweifache der Fläche zwischen Lorenz-Kurve und Diagonale im Einheitsquadrat.

Beispieltabelle für diskret klassierte Daten

Eine Datenerhebung habe für 5 Klassen, die mit einem Index $j=1,\ldots ,n$ benannt seien, die relativen Häufigkeiten (Anteil der Merkmalsträger der Klasse $j$ an der Gesamtheit der Merkmalsträger) $f_{j}$ und die Anteile $h_{j}$ der Merkmalssumme, die auf die Klasse $j$ entfallen, der unten stehenden Tabelle ergeben. Daraus ermitteln wir

$F_{j}\colon$ kumulierte (relative Häufigkeit),
$L_{j}\colon$ kumulierte (Disparität) $h_{j}$ .

Index $j$	Relative Häufigkeit $f_{j}$	Kumulierte relative Häufigkeit $F_{j}$	Disparität $h_{j}$	Kumulierte Disparität $L_{j}$
1	0,2	0,2	0,00	0,00
2	0,4	0,6	0,05	0,05
3	0,1	0,7	0,15	0,20
4	0,1	0,8	0,30	0,50
5	0,2	1,0	0,50	1,00

Erläuterung:

Die Lorenz-Kurve entsteht, indem man $F_{j}$ auf der Abszisse, $L_{j}$ auf der Ordinate aufträgt und die Punkte durch einen Streckenzug verbindet.

Der Artikel zur Paretoverteilung enthält ein weiteres Beispiel für eine Lorenz-Kurve.

Lorenz-Dominanz

Mittels der Lorenz-Dominanz kann das Verhältnis unterschiedlicher Lorenz-Kurven beschrieben werden. Für alle $x\in \mathbb {R} _{+}^{n}$ ordnet der Vektor ${\hat {x}}=({\hat {x}}_{1},{\hat {x}}_{2},...,{\hat {x}}_{n})$ die zugehörigen Koordinaten in nicht-absteigender Reihenfolge: ${\hat {x}}_{1}\leq {\hat {x}}_{2}\leq \ ...\ \leq {\hat {x}}_{n}$ . Der Vektor $x\in \mathbb {R} _{+}^{n}$ Lorenz-dominiert den Vektor $y\in \mathbb {R} _{+}^{n}$ mit

\sum \limits _{i=1}^{n}x_{i}=\sum \limits _{i=1}^{n}y_{i}

sofern gilt: $\sum \limits _{i=1}^{p}{\hat {x}}_{i}\geq \sum \limits _{i=1}^{p}{\hat {y}}_{i}$ für alle $p\in \{1,2,\ldots ,n-1\}$ und $\sum \limits _{i=1}^{p}{\hat {x}}_{i}>\sum \limits _{i=1}^{p}{\hat {y}}_{i}$ für mindestens ein $p$ .

Diese Form wird auch als starke Lorenz-Dominanz bezeichnet. Dementsprechend Lorenz-dominiert ein Vektor $x$ einen anderen Vektor $y$ , sobald die zugehörige Lorenz-Kurve $L[F({\hat {x}})]$ nicht unterhalb sowie mindestens einmal oberhalb der Lorenz-Kurve $L[F({\hat {y}})]$ liegt. Eine Kurzschreibweise ist: $x\succ _{Lor}y$ .^[6]

Satz von Rothschild und Stiglitz

Gegeben seien zwei Verteilungen $\left(x_{1},\ldots ,x_{n}\right)$ und $\left(x_{1}^{*},\ldots ,x_{n}^{*}\right)$ mit $\sum x_{v}=\sum x_{v}^{*}$ . Die Lorenz-Kurve von $\left(x_{1},\ldots ,x_{n}\right)$ liegt genau dann oberhalb der Lorenz-Kurve von $\left(x_{1}^{*},\ldots ,x_{n}^{*}\right)$ , wenn für jede symmetrische und quasikonvexe Funktion $F$ gilt:

F\left(x_{1},\ldots ,x_{n}\right)\leq F\left(x_{1}^{*},\ldots ,x_{n}^{*}\right)

Folgerung: Wenn sich zwei Lorenz-Kurven schneiden, hängt es von der Wahl der jeweiligen symmetrischen und quasikonvexen Funktion $F$ ab, welche der beiden Kurven als die mit der größeren Ungleichheit zu bezeichnen ist.^[7]

Länge

Als Disparitätsmaß (Maß der relativen Konzentration) lässt sich auch die Lorenz-Kurven-Länge $L_{L}$ anführen. Der Wertebereich ist $\mathbb {W} _{L_{L}}=\left\{L\in \mathbb {R} {\bigg \vert }{\sqrt {2}}\leq L\leq 2\right\}$ für den Definitionsbereich gilt:

\mathbb {D} _{L_{L}}=\left\{x\in \mathbb {R} \vert 0\leq x\leq 1\right\}