Kapitel 4. Lineare Algebra und Kalkül für Deep Learning

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Algebra und Kalkül sind integrale Bestandteile der Datenwissenschaft. Algorithmen für maschinelles Lernen und Deep Learning basieren meist auf Algebra- und Kalkültechniken. In diesem Kapitel werden einige wichtige Themen auf eine Art und Weise eingeführt, die jeder verstehen kann.

Algebra ist die Lehre von den Operationen und Beziehungsregeln sowie von den Konstruktionen und Ideen, die sich daraus ergeben. Algebra umfasst Themen wie lineare Gleichungen und Matrizen. Du kannst Algebra als den ersten Schritt zur Infinitesimalrechnung betrachten.

Kalkulation ist die Lehre von Kurvenverläufen und Änderungsraten. Die Kalkulation umfasst Themen wie Ableitungen und Integrale. Sie wird in vielen Bereichen wie Wirtschaft und Technik eingesetzt. Viele Lernalgorithmen beruhen auf den Konzepten der Infinitesimalrechnung, um ihre komplexen Operationen durchzuführen.

Der Unterschied zwischen den beiden besteht darin, dass sich die Infinitesimalrechnung mit den Ideen von Veränderung, Bewegung und Akkumulation beschäftigt, während die Algebra mathematische Symbole und die Regeln für den Umgang mit diesen Symbolen behandelt. Die Infinitesimalrechnung konzentriert sich auf die Eigenschaften und das Verhalten von sich verändernden Funktionen, während die Algebra die Grundlage für das Lösen von Gleichungen und das Verstehen von Funktionen bietet.

Lineare Algebra

Die Algebra umfasst verschiedene mathematische Strukturen, darunter Zahlen, Variablen und Operationen wie Addition, Subtraktion, Multiplikation und Division. Die lineare Algebra ist ein grundlegender Zweig der Algebra, der sich mit Vektorräumen und linearen Transformationen beschäftigt. Sie wird beim maschinellen Lernen und beim Deep Learning häufig für Aufgaben wie die Datenvorverarbeitung, die Dimensionalitätsreduktion und das Lösen von linearen Gleichungssystemen verwendet. Matrizen und Vektoren sind zentrale Datenstrukturen in der linearen Algebra, und Operationen wie die Matrixmultiplikation sind in verschiedenen Algorithmen üblich.

Vektoren und Matrizen

Ein Vektor ist ein Objekt, das eine Größe (Länge) und eine Richtung (Pfeilspitze) hat. Die grundlegende Darstellung eines Vektors ist ein Pfeil mit Koordinaten auf der Achse. Aber zuerst wollen wir uns ansehen, was eine Achse ist.

Die x-Achse und die y-Achse sind senkrechte Linien, die die Grenzen einer Ebene und die Lage der verschiedenen Punkte innerhalb dieser Ebene in einem zweidimensionalen kartesischen Koordinatensystem festlegen. Die x-Achse ist horizontal und die y-Achse ist vertikal.

Diese Achsen können Vektoren darstellen, wobei die x-Achse die horizontale Komponente des Vektors und die y-Achse die vertikale Komponente darstellt.

Hinweis

Bei der Zeitreihenanalyse ist die x-Achse in der Regel der Zeitschritt (Stunden, Tage usw.) und die y-Achse der Wert zum jeweiligen Zeitschritt (Preis, Rendite usw.).

Abbildung 4-1 zeigt ein einfaches zweidimensionales kartesisches Koordinatensystem mit beiden Achsen.

Das zweidimensionale kartesische Koordinatensystem verwendet einfache Klammern, um die Lage der verschiedenen Punkte in dieser Reihenfolge darzustellen:

  • Punktkoordinaten = (x, y)

  • Die Variable x steht für die horizontale Lage

  • Die Variable y steht für die horizontale Lage

Abbildung 4-1. Ein zweidimensionales kartesisches Koordinatensystem

Wenn du also den Punkt A zeichnen willst, der (2, 3) als Koordinaten hat, wirst du wahrscheinlich eine Grafik vom Punkt Null aus betrachten, zwei Punkte nach rechts und von dort aus drei Punkte nach oben bewegen. Das Ergebnis des Punktes sollte wie in Abbildung 4-2 aussehen.

Abbildung 4-2. Die Lage von A im Koordinatensystem

Fügen wir nun einen weiteren Punkt hinzu und zeichnen einen Vektor zwischen ihnen. Nehmen wir an, du hast einen Punkt B mit den Koordinaten (4, 5). Da die Koordinaten von B höher sind als die Koordinaten von A, würdest du natürlich erwarten, dass der Vektor AB nach oben geneigt ist. Abbildung 4-3 zeigt den neuen Punkt B und den Vektor AB.

Abbildung 4-3. Vektor AB, der die Punkte A und B nach Betrag und Richtung miteinander verbindet

Aber wenn du den Vektor mit den Koordinaten der beiden Punkte gezeichnet hast, wie würdest du dich dann auf den Vektor beziehen? Ganz einfach: Der Vektor AB hat seine eigenen Koordinaten, die ihn darstellen. Erinnere dich daran, dass der Vektor die Bewegung von Punkt A nach Punkt B darstellt. Das bedeutet, dass die Bewegung der beiden Punkte entlang der x- und der y-Achse der Vektor ist. Um den Vektor zu finden, musst du die beiden Koordinatenpunkte voneinander subtrahieren und dabei die Richtung beachten. So geht's:

  • Vektor AB bedeutet, dass du von A nach B gehst; deshalb musst du die Koordinaten von Punkt B von den Koordinaten von Punkt A abziehen:

    AB = 4 - 2 , 5 - 3 AB = 2 , 2

  • Vektor BA bedeutet, dass du von B nach A gehst; deshalb musst du die Koordinaten von Punkt A von den Koordinaten von Punkt B abziehen:

    BA = 2 - 4 , 3 - 5 BA = - 2 , - 2

Um die Vektoren AB und BA zu interpretieren, musst du an eine Bewegung denken. Der Vektor AB bedeutet, dass du von Punkt A nach Punkt B gehst, also zwei positive Punkte horizontal und vertikal (nach rechts bzw. nach oben). Der Vektor BA bedeutet, dass du von Punkt B nach Punkt A gehst, also zwei negative Punkte horizontal und vertikal (nach links bzw. nach unten).

Hinweis

Die Vektoren AB und BA sind nicht dasselbe, auch wenn sie die gleiche Steigung haben. Aber was ist überhaupt eine Steigung?

Die Steigung ist das Verhältnis zwischen der vertikalen Veränderung zwischen zwei Punkten auf der Linie und der horizontalen Veränderung zwischen denselben zwei Punkten. Du berechnest die Steigung mit dieser mathematischen Formel:

S l o p e = (ΔY) (ΔX) S l o p e o f AB = 2 2 = 1 S l o p e o f BA = -2 -2 = 1

Wären die beiden Vektoren einfach Linien (ohne Richtung), dann wären sie dasselbe Objekt. Durch das Hinzufügen der Richtungskomponente werden sie jedoch zu zwei unterscheidbaren mathematischen Objekten.

Abbildung 4-4 verdeutlicht das Konzept der Steigung, denn x hat sich um zwei Punkte nach rechts und y um zwei Punkte nach links verschoben.

Abbildung 4-4. Die Änderung von x und die Änderung von y für den Vektor AB
Hinweis

Ein Vektor, der den Betrag von 1 hat, wird als Einheitsvektor bezeichnet.

Abbildung 4-5 zeigt die Änderung von x und die Änderung von y im Fall des Vektors BA.

Abbildung 4-5. Die Änderung von x und die Änderung von y für den Vektor BA

In der Forschung werden Vektoren in der Regel zur Darstellung von Geschwindigkeit verwendet, vor allem in der Technik. Die Navigation ist ein Bereich, der stark auf Vektoren angewiesen ist. Sie ermöglicht es Navigatoren, ihre Position zu bestimmen und ihr Ziel zu planen. Natürlich steht der Betrag für die Geschwindigkeit und die Richtung für das Ziel.

Du kannst Vektoren zueinander und zu Skalaren addieren und subtrahieren. Dies ermöglicht eine Verschiebung der Richtung und des Betrags. Was du aus der vorherigen Diskussion behalten solltest, ist, dass Vektoren Richtungen zwischen verschiedenen Punkten auf der Achse angeben.

Hinweis

Ein Skalar ist ein Wert mit einem bestimmten Betrag, aber ohne Richtung. Im Gegensatz zu Vektoren werden Skalare verwendet, um Elemente wie Temperaturen und Preise darzustellen. Im Grunde sind Skalare Zahlen.

Eine Matrix ist ein rechteckiges Feld, das Zahlen enthält und in Zeilen und Spalten angeordnet ist.1 Matrizen sind in der Computergrafik und in anderen Bereichen nützlich, aber auch um lineare Gleichungssysteme zu definieren und zu bearbeiten. Wodurch unterscheidet sich eine Matrix von einem Vektor? Die einfachste Antwort ist, dass ein Vektor eine Matrix mit einer einzigen Spalte oder einer einzigen Zeile ist. Hier ist ein einfaches Beispiel für eine 3 × 3 Matrix:

[ 5 2 9 - 8 10 13 1 5 12 ]

Die Größe einer Matrix ist die Anzahl der Zeilen und Spalten, die sie enthält. Eine Zeile ist eine horizontale Linie und eine Spalte ist eine vertikale Linie. Die folgende Darstellung ist eine 2 × 4-Matrix (d. h. zwei Zeilen mal vier Spalten):

[ 5 2 1 3 - 8 10 9 4 ]

Die folgende Darstellung ist eine 4 × 2-Matrix (d. h. vier Zeilen mal zwei Spalten):

[ 5 2 - 8 10 8 22 7 3 ]

Hinweis

Matrizen werden beim maschinellen Lernen häufig verwendet. Die Zeilen stehen in der Regel für die Zeit und die Spalten für die Merkmale.

Die Summierung verschiedener Matrizen ist einfach, darf aber nur verwendet werden, wenn die Matrizen von der Größe her übereinstimmen (das heißt, sie haben die gleiche Anzahl von Spalten und Zeilen). Fügen wir zum Beispiel die folgenden zwei Matrizen zusammen:

[ 1 2 5 8 ] + [ 3 9 1 5 ] = [ 4 11 6 13 ]

Du siehst, dass du zum Addieren zweier Matrizen einfach die Zahlen an den gleichen Stellen addieren musst. Wenn du nun versuchst, das nächste Paar Matrizen zu addieren, wird das nicht möglich sein, da die zu addierenden Zahlen nicht übereinstimmen:

[ 8 3 3 2 ] + [ 3 9 1 5 5 4 ]

Auch die Subtraktion von Matrizen ist einfach und folgt den gleichen Regeln wie die Addition von Matrizen. Nehmen wir das folgende Beispiel:

[ 5 2 - 8 10 ] - [ 3 9 - 1 - 5 ] = [ 2 - 7 - 9 15 ]

Offensichtlich ist die Subtraktion von Matrizen auch eine Summierung von Matrizen mit einem Vorzeichenwechsel in einer von ihnen.

Die Multiplikation einer Matrix mit einem Skalar ist ganz einfach. Nehmen wir das folgende Beispiel:

3 × [ 5 2 8 22 ] = [ 15 6 24 66 ]

Im Grunde multiplizierst du also jede Zelle der Matrix mit dem Skalar. Die Multiplikation einer Matrix mit einer anderen Matrix ist etwas komplizierter, da sie die Punktproduktmethode verwendet. Um zwei Matrizen miteinander zu multiplizieren, müssen sie zunächst diese Bedingung erfüllen:

Matrix xy × Matrix yz = Matrix xz

Das bedeutet, dass die Anzahl der Spalten der ersten Matrix gleich der Anzahl der Zeilen der zweiten Matrix sein muss. Die sich aus dem Punktprodukt ergebende Matrix ist eine Matrix, die die Anzahl der Zeilen der ersten Matrix und die Anzahl der Spalten der zweiten Matrix hat. Das Punktprodukt wird in der folgenden Beispieldarstellung einer 1 × 3 und 3 × 1 Matrixmultiplikation erklärt (beachte die gleiche Anzahl von Spalten und Zeilen):

[ 1 2 3 ] × [ 3 2 1 ] = [ ( 1 × 3 ) + ( 2 × 2 ) + ( 3 × 1 ) ] = [ 10 ]

Nehmen wir nun ein Beispiel für eine 2 × 2-Matrixmultiplikation:

[ 1 2 0 1 ] × [ 3 0 2 1 ] = [ 7 2 2 1 ]

Es gibt eine besondere Art von Matrix, die sogenannte Identitätsmatrix, die im Grunde die Zahl 1 für Matrizen ist. Sie ist für eine Dimension von 2 × 2 wie folgt definiert:

I = [ 1 0 0 1 ]

und wie folgt für eine 3 × 3 Dimension:

I = [ 1 0 0 0 1 0 0 0 1 ]

Multipliziert man eine beliebige Matrix mit der Identitätsmatrix, erhält man dieselbe ursprüngliche Matrix. Deshalb kann man sie auch als die 1 der Matrizen bezeichnen (die Multiplikation einer beliebigen Zahl mit 1 ergibt dieselbe Zahl). Es ist wichtig zu wissen, dass die Matrixmultiplikation nicht kommutativ ist, d.h. die Reihenfolge der Multiplikation verändert das Ergebnis:

A B B A

DasTransponieren einer Matrix ist ein Prozess, bei dem die Zeilen in Spalten umgewandelt werden und umgekehrt. Die Transponierung einer Matrix erhält man, indem man die Matrix an ihrer Hauptdiagonale spiegelt:

[461142] T = [ 4 1 6 4 1 2 ]

Das Transponieren wird in einigen Algorithmen des maschinellen Lernens verwendet und ist keine ungewöhnliche Operation, wenn man mit solchen Modellen arbeitet. Wenn du dich fragst, welche Rolle Matrizen in den Datenwissenschaften und beim maschinellen Lernen spielen, kannst du diese nicht erschöpfende Liste lesen:

Darstellung der Daten

Matrizen stellen oft Daten dar, wobei die Zeilen die Proben und die Spalten die Merkmale repräsentieren. Eine Zeile in einer Matrix kann zum Beispiel OHLC-Daten in einem Zeitschritt darstellen.

Lineare Algebra

Matrizen und lineare Algebra sind eng miteinander verknüpft, und viele Lernalgorithmen nutzen die Konzepte von Matrizen für ihre Operationen. Ein grundlegendes Verständnis dieser mathematischen Konzepte hilft, die Lernkurve beim Umgang mit Algorithmen für maschinelles Lernen zu glätten.

Datenbeziehungsmatrizen

Kovarianz- und Korrelationsmaße werden oft als Matrizen dargestellt. Diese Beziehungsberechnungen sind wichtige Konzepte in der Zeitreihenanalyse.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Ein Vektor ist ein Objekt, das einen Betrag (Länge) und eine Richtung (Pfeilspitze) hat. Mehrere Vektoren, die zusammengefügt werden, bilden eine Matrix.
  • Eine Matrix kann verwendet werden, um Daten zu speichern. Sie hat ihre eigenen Möglichkeiten, Operationen durchzuführen.
  • Die Matrixmultiplikation verwendet die Punktproduktmethode.
  • Eine Matrix zu transponieren bedeutet, ihre Zeilen und Spalten zu vertauschen.

Einführung in lineare Gleichungen

Ein Beispiel für eine lineare Gleichung hast du in "Regressionsanalyse und statistische Schlussfolgerungen" gesehen . Lineare Gleichungen sind im Grunde Formeln, die eine Gleichheitsbeziehung zwischen verschiedenen Variablen und Konstanten darstellen. Im Fall des maschinellen Lernens handelt es sich oft um eine Beziehung zwischen einer abhängigen Variablen (der Ausgabe) und einer unabhängigen Variablen (der Eingabe). Der beste Weg, lineare Gleichungen zu verstehen, sind Beispiele.

Hinweis

Bei linearen Gleichungen geht es darum, eine unbekannte Variable zu finden, die normalerweise mit dem Buchstaben x bezeichnet wird.

Wir beginnen mit einem sehr einfachen Beispiel, das du als ersten Baustein für die fortgeschrittenen Konzepte betrachten kannst, die du später kennenlernen wirst. Im folgenden Beispiel geht es darum, den Wert von x zu finden , der die Gleichung erfüllt:

10 x = 20

Du solltest die Gleichung so verstehen: "10 mal welche Zahl ist gleich 20?" Wenn eine Konstante direkt an eine Variable wie x angehängt wird, bezieht sie sich auf eine Multiplikationsoperation. Um nun x zu lösen ( d.h. den Wert von x zu finden , der die Gleichung ausgleicht), gibt es eine offensichtliche Lösung: Du musst 10 weglassen, damit x auf der einen Seite der Gleichung steht und der Rest auf der anderen Seite.

Um 10 loszuwerden, teilst du natürlich durch 10, so dass 1 übrig bleibt, die, wenn sie mit der Variablen x multipliziert wird , nichts bewirkt . Behalte jedoch zwei wichtige Dinge im Hinterkopf:

  • Wenn du eine mathematische Operation auf einer Seite einer Gleichung durchführst, musst du sie auch auf der anderen Seite durchführen. Deshalb nennt man sie Gleichungen.
  • Der Einfachheit halber solltest du die Konstante nicht durch sie dividieren, sondern mit ihrem Kehrwert multiplizieren.

Der Kehrwert einer Zahl ist 1 geteilt durch diese Zahl. Hier ist die mathematische Darstellung davon:

R e c i p r o c a l ( x ) = 1 x

Zurück zu unserem Beispiel: Um x zu finden, kannst du Folgendes tun:

( 1 10 ) 10 x = 20 ( 1 10 )

Wenn du die Multiplikation durchführst und vereinfachst, erhältst du das folgende Ergebnis:

x = 2

Das bedeutet, dass die Lösung der Gleichung 2 ist. Um das zu überprüfen, musst du einfach 2 wie folgt in die ursprüngliche Gleichung einsetzen:

10 × 2 = 20

Man braucht also zwei 10er, um 20 zu bekommen.

Hinweis

Eine Zahl durch sich selbst zu dividieren, ist dasselbe wie sie mit ihrem Kehrwert zu multiplizieren.

Nehmen wir ein weiteres Beispiel dafür, wie man x durch lineare Techniken lösen kann. Betrachte das folgende Problem:

8 6 x = 24

Wenn du die Multiplikation durchführst und vereinfachst, erhältst du das folgende Ergebnis:

( 6 8 ) 8 6 x = 24 ( 6 8 )

x = 18

Das bedeutet, dass die Lösung der Gleichung 18 ist. Um das zu überprüfen, musst du einfach 18 wie folgt in die ursprüngliche Gleichung einsetzen:

8 6 × 18 = 24

Normalerweise sind lineare Gleichungen nicht so einfach. Manchmal enthalten sie mehr Variablen und mehr Konstanten, die detailliertere Lösungen erfordern, aber lass uns Schritt für Schritt vorgehen. Betrachte das folgende Beispiel:

3 x - 6 = 12

Um die Lösung für x zu finden , musst du die Gleichung ein wenig umstellen. Erinnere dich daran, dass das Ziel ist, x auf der einen Seite und den Rest auf der anderen Seite zu lassen. Hier musst du die Konstante 6 loswerden, bevor du dich um 3 kümmerst. Der erste Teil der Lösung lautet wie folgt:

3 x - 6 ( + 6 ) = 12 ( + 6 )

Beachte, dass du zu beiden Teilen der Gleichung 6 addieren musst. Der Teil auf der linken Seite hebt sich selbst auf, während der Teil auf der rechten Seite die Summe 18 ergibt:

3 x = 18

Jetzt kannst du mit dem Kehrwert der Konstante multiplizieren, die an die Variable x angehängt ist:

( 1 3 ) 3 x = 18 ( 1 3 )

Die Vereinfachung und die Lösung für x ergibt die folgende Lösung:

x = 6

Das bedeutet, dass die Lösung der Gleichung 6 ist. Um das zu überprüfen, setze die 6 einfach wie folgt in die ursprüngliche Gleichung ein:

( 3 × 6 ) - 6 = 12

Inzwischen solltest du gemerkt haben, dass es in der linearen Algebra darum geht, Abkürzungen und schnelle Techniken zu verwenden, um Gleichungen zu vereinfachen und unbekannte Variablen zu finden. Das nächste Beispiel zeigt, dass die Variable x manchmal an mehreren Stellen vorkommen kann :

6 x + x = 27 - 2 x

Erinnere dich daran, dass das Hauptaugenmerk darauf liegt, dass x auf der einen Seite der Gleichung steht und der Rest auf der anderen:

6 x + x + 2 x = 27

Wenn du die Konstanten von x addierst , erhältst du Folgendes:

9 x = 27

Im letzten Schritt teilst du durch 9, so dass nur noch x übrig bleibt :

x = 3

Du kannst dies nun überprüfen, indem du 3 anstelle von x in die ursprüngliche Gleichung einsetzt. Du wirst feststellen, dass beide Seiten der Gleichung gleich sind.

Hinweis

Auch wenn dieser Abschnitt recht einfach ist, enthält er die Grundlagen, die du brauchst, um in Algebra und Infinitesimalrechnung voranzukommen. Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Eine lineare Gleichung ist eine Darstellung, bei der der höchste Exponent einer Variablen eins ist. Das bedeutet, dass es keine Variablen gibt, die mit zwei und mehr hochgezählt werden.
  • Eine lineare Gleichungslinie ist gerade, wenn sie in ein Diagramm eingetragen wird.
  • Die Anwendung von linearen Gleichungen bei der Modellierung einer Vielzahl von realen Ereignissen macht sie in vielen Zweigen der Mathematik und Forschung zu einem wichtigen Instrument. Auch beim maschinellen Lernen werden sie häufig eingesetzt.
  • Beim Lösen von x geht es darum, für x einen Wert zu finden, der beide Seiten der Gleichung ausgleicht.
  • Wenn du eine Operation (z. B. das Addieren einer Konstante oder das Multiplizieren mit einer Konstante) auf einer Seite der Gleichung durchführst, musst du sie auch auf der anderen Seite durchführen.

Gleichungssysteme

Von einem Gleichungssystem spricht man, wenn zwei oder mehr Gleichungen zusammenwirken, um eine oder mehrere Variablen zu lösen. Statt der üblichen Einzelgleichung gibt es also ein Gleichungssystem:

x + 10 = 20

Gleichungssysteme ähneln den folgenden:

x + 10 = 20

y + 2 x = 10

Gleichungssysteme sind beim maschinellen Lernen nützlich und werden in vielen seiner Aspekte verwendet.

Schauen wir uns das vorherige Gleichungssystem vom Anfang dieses Abschnitts an und lösen es grafisch. Wenn du die beiden Funktionen grafisch darstellst, kannst du die Lösung tatsächlich direkt ablesen. Der Schnittpunkt ist die Lösung. Daher beziehen sich die Koordinaten des Schnittpunkts(x, y) auf die Lösungen von x bzw. y.

Aus Abbildung 4-6 geht hervor, dass x = 10 und y = -10 ist. Wenn du diese Werte in die entsprechenden Variablen einsetzt, erhältst du die richtige Antwort:

10 + 10 = 20

(-10) + (2 × 10) = 10

Abbildung 4-6. Ein Diagramm, das die beiden Funktionen und ihren Schnittpunkt zeigt (Lösung)

Da die Funktionen linear sind, kann die Lösung zu einem von drei Ergebnissen führen:

  1. Für jede Variable gibt es nur eine Lösung.
  2. Es gibt keine Lösung. Das passiert, wenn die Funktionen parallel sind (das bedeutet, dass sie sich nie schneiden).
  3. Es gibt eine unendliche Anzahl von Lösungen. Das ist der Fall, wenn durch Vereinfachung beide Funktionen gleich sind (da alle Punkte auf die Gerade fallen).

Bevor wir uns dem Lösen von Gleichungssystemen mithilfe der Algebra zuwenden, wollen wir uns ansehen, wie es keine Lösung und eine unendliche Anzahl von Lösungen geben kann. Betrachte das folgende System:

2 x = 10

4 x = 20

Abbildung 4-7 zeigt die beiden Gleichungen zusammen. Da es sich um genau dieselbe Gleichung handelt, fallen sie auf dieselbe Linie. In Wirklichkeit gibt es in Abbildung 4-7 zwei Linien, aber da sie identisch sind, sind sie nicht zu unterscheiden. Für jedes x auf der Linie gibt es ein entsprechendes y.

Abbildung 4-7. Ein Diagramm, das die beiden Funktionen und ihre unendlichen Schnittpunkte zeigt

Betrachte nun das folgende System:

3 x = 10

6 x = 10

Abbildung 4-8 zeigt, dass sie sich nie überschneiden. Das ist intuitiv, denn du kannst nicht dieselbe Zahl (die durch die Variable x repräsentiert wird) mit verschiedenen Zahlen multiplizieren und erwarten, dass du das gleiche Ergebnis erhältst.

Abbildung 4-8. Ein Diagramm, das die beiden Funktionen und ihren unmöglichen Schnittpunkt zeigt

Algebraische Methoden werden verwendet, wenn es mehr als zwei Variablen gibt, da sie nicht durch Graphen gelöst werden können. Dazu gehören vor allem zwei Methoden: Substitution und Elimination.

DieSubstitution wird verwendet, wenn du den Wert einer Variablen in einer Gleichung ersetzen und in die zweite Gleichung einsetzen kannst. Betrachte das folgende Beispiel:

x + y = 2

10 x + y = 10

Die einfachste Methode ist, die erste Gleichung so umzustellen, dass du y als Ausdruck von x hast:

y = 2 - x

10 x + ( 2 - x ) = 10

Die Lösung für x in der zweiten Gleichung ist einfach:

10 x + ( 2 - x ) = 10 10 x + 2 - x = 10 10 x - x = 10 - 2 9 x = 8 x = 8 9 x = 0 . 8889

Da du nun den Wert von x gefunden hast, kannst du y ganz einfach ermitteln, indem du den Wert von x in die erste Gleichung einsetzt:

0 . 8889 + y = 2 y = 2 - 0 . 8889 y = 1 . 111

Um zu überprüfen, ob deine Lösung richtig ist, kannst du die Werte von x und y in beide Formeln einsetzen:

0 . 8889 + 1 . 111 = 2 ( 10 × 0 . 8889 ) + 1 . 111 = 10

Grafisch bedeutet das, dass sich die beiden Gleichungen bei (0,8889, 1,111) schneiden. Diese Methode kann auch bei mehr als zwei Variablen angewendet werden. Gehe genauso vor, bis die Gleichungen so weit vereinfacht sind, dass du die Antworten erhältst. Das Problem bei der Substitution ist, dass es einige Zeit dauern kann, wenn du mit mehr als zwei Variablen zu tun hast.

DieEliminierung ist eine schnellere Alternative. Dabei geht es darum, Variablen zu eliminieren, bis nur noch eine übrig ist. Betrachte das folgende Beispiel:

2 x + 4 y = 20 3 x + 2 y = 10

Wenn du feststellst, dass es 4y und 2y gibt, kannst du die zweite Gleichung mit 2 multiplizieren, so dass du die Gleichungen voneinander subtrahieren kannst (wodurch die Variable y entfernt wird ):

2 x + 4 y = 20 6 x + 4 y = 20

Wenn du die beiden Gleichungen voneinander subtrahierst, erhältst du das folgende Ergebnis:

- 4 x = 0 x = 0

Daher ist x = 0. Grafisch bedeutet das, dass sie sich immer dann schneiden, wenn x = 0 ist (genau an der senkrechten y-Linie ). Setzt man den Wert von x in die erste Formel ein, erhält man y = 5:

( 2 × 0 ) + 4 y = 20 4 y = 20 y = 5

Ähnlich kann auch die Eliminierung Gleichungen mit drei Variablen lösen. Die Wahl zwischen Substitution und Eliminierung hängt von der Art der zu lösenden Gleichung ab.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Gleichungssysteme lösen Variablen gemeinsam. Sie sind beim maschinellen Lernen sehr nützlich und werden in einigen Algorithmen verwendet.
  • Für einfache Gleichungssysteme werden grafische Lösungen bevorzugt .
  • Das Lösen von Gleichungssystemen mit Hilfe der Algebra erfordert den Einsatz von Substitutions- und Eliminationsmethoden.
  • Die Substitution wird bevorzugt, wenn das System einfach ist, aber die Eliminierung ist der richtige Weg, wenn das System etwas komplexer ist.

Trigonometrie

Die Trigonometrie erforschtdas Verhalten der so genannten trigonometrischen Funktionen, die die Winkel eines Dreiecks mit den Längen seiner Seiten in Beziehung setzen. Das gebräuchlichste Dreieck ist das rechtwinklige Dreieck, bei dem ein Winkel90° beträgt. Abbildung 4-9 zeigt ein Beispiel für ein rechtwinkliges Dreieck.

Abbildung 4-9. Ein rechtwinkliges Dreieck

Definieren wir die wichtigsten Merkmale eines rechtwinkligen Dreiecks:

  • Die längste Seite des Dreiecks wird Hypotenuse genannt .
  • Der Winkel, der vor der Hypotenuse liegt, ist der rechte Winkel (der mit90°).
  • Je nachdem, welchen anderen Winkel (θ) du wählst (von den beiden verbleibenden), wird die Linie zwischen diesem Winkel und der Hypotenuse als Ankathete und die andere Linie als Gegenkathete bezeichnet.
Hinweis

Trigonometrische Funktionen sind mathematische Funktionen, die verwendet werden, um die Winkel eines rechtwinkligen Dreiecks mit den Verhältnissen der Seiten in Beziehung zu setzen. Sie finden vielfältige Anwendung in Bereichen wie Geometrie, Physik, Technik und mehr. Sie helfen bei der Analyse und Lösung von Problemen, die unter anderem mit Winkeln, Abständen, Schwingungen und Wellenformen zu tun haben.

Trigonometrische Funktionen sind einfach die Teilung einer Linie durch eine andere Linie. Erinnere dich daran, dass es in einem Dreieck drei Geraden gibt (Hypotenuse, gegenüberliegende und angrenzende). Die trigonometrischen Funktionen werden wie folgt gefunden:

s i n ( θ ) = Gegenüber Hypotenuse

c o s ( θ ) = Angrenzend Hypotenuse

t a n ( θ ) = Gegenüber Angrenzend

Aus den drei vorangegangenen trigonometrischen Funktionen kann man mit Hilfe der grundlegenden linearen Algebra eine trigonometrische Identität ableiten, die tan aus sin und cos erreicht:

t a n ( θ ) = sin(θ) cos(θ)

Hyperbolische Funktionen sind den trigonometrischen Funktionen ähnlich, werden aber mit Hilfe von Exponentialfunktionen definiert. Um hyperbolische Funktionen zu verstehen, muss man die Eulersche Zahl verstehen.

Hinweis

Dieser Teil über hyperbolische Funktionen ist interessant, denn er bildet die Grundlage für die sogenannten Aktivierungsfunktionen, ein Schlüsselkonzept in neuronalen Netzen, den Protagonisten von Deep Learning-Modellen. Du wirst sie in Kapitel 8 im Detail kennenlernen.

Die Eulersche Zahl (bezeichnet als e) ist eine der wichtigsten Zahlen in der Mathematik. Sie ist eine irrationale Zahl, also eine reelle Zahl, die nicht als Bruch ausgedrückt werden kann. Das Wort irrational kommt daher, dass es kein Verhältnis gibt, um sie auszudrücken; es hat nichts mit ihrer Persönlichkeit zu tun. Die Eulersche Zahl ist auch die Basis des natürlichen Logarithmus ln, und die ersten Ziffern davon sind 2,71828. Eine der besten Näherungen, um e zu erhalten , ist die folgende Formel:

e = (1+1 n) n

Wenn du n in der vorherigen Formel erhöhst, näherst du dich dem Wert von e. Die Eulersche Zahl hat viele interessante Eigenschaften, vor allem die Tatsache, dass ihre Steigung ihr eigener Wert ist. Betrachte die folgende Funktion (auch die Funktion des natürlichen Exponenten genannt):

f ( x ) = e x

An jedem Punkt ist die Steigung der Funktion derselbe Wert. Sieh dir Abbildung 4-10 an.

Abbildung 4-10. Ein Graph der Funktion des natürlichen Exponenten
Hinweis

Du fragst dich vielleicht, warum ich in diesem Buch Exponenten und Logarithmen erkläre. Dafür gibt es hauptsächlich zwei Gründe:

  • Exponenten und vor allem die Eulersche Zahl werden in hyperbolischen Funktionen verwendet. tanh(x) ist eine der wichtigsten Aktivierungsfunktionen für neuronale Netze, eine Art von Maschinen- und Deep-Learning-Modell.
  • Logarithmen sind bei Verlustfunktionen nützlich, ein Konzept, das du in späteren Kapiteln kennenlernen wirst.

Hyperbolische Funktionen verwenden die natürliche Exponentenfunktion und sind wie folgt definiert:

s i n h ( x ) = e x -e -x 2

c o s h ( x ) = e x +e -x 2

t a n h ( x ) = e x -e -x e x +e -x

Zu den wichtigsten Merkmalen von tanh(x) gehören die Nichtlinearität, die Begrenzung zwischen [-1, 1] und die Tatsache, dass sie bei Null zentriert ist. Abbildung 4-11 zeigt den Graphen von tanh(x).

Abbildung 4-11. Ein Graph von tanh(x), der zeigt, wie er zwischen -1 und 1 begrenzt ist
Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Trigonometrie ist ein Fachgebiet, das sich mit dem Verhalten trigonometrischer Funktionen beschäftigt, die die Winkel eines Dreiecks mit den Längen seiner Seiten verbinden.
  • Eine trigonometrische Identität ist eine Abkürzung, die die trigonometrischen Funktionen miteinander in Beziehung setzt.
  • Die Eulersche Zahl e ist irrational und ist die Basis des natürlichen Logarithmus. Sie hat viele Anwendungen beim exponentiellen Wachstum und bei hyperbolischen Funktionen.
  • Die hyperbolische Tangensfunktion wird in neuronalen Netzen verwendet, einem Deep Learning-Algorithmus.

Kalkulation

Wie bereits erwähnt, ist die Infinitesimalrechnung ein Teilgebiet der Mathematik, das sich mit der Untersuchung von Veränderungsraten und der Akkumulation von Größen beschäftigt. Sie besteht aus zwei Hauptzweigen: der Differentialrechnung (die sich mit Ableitungen beschäftigt) und der Integralrechnung (die sich mit der Integration beschäftigt). In diesem Abschnitt werden beide Arten der Kalkulation kurz vorgestellt und Themen wie Grenzwerte und Optimierung besprochen.

Grenzen und Kontinuität

Die Infinitesimalrechnung funktioniert, indem sie das unendlich Kleine sichtbar macht.

-Keith Devlin

Grenzen müssen nicht alptraumhaft sein. Ich habe immer festgestellt, dass sie missverstanden werden. Sie sind eigentlich ganz einfach zu bekommen. Aber zuerst brauchst du Motivation, und die kommt aus dem Wissen um den Mehrwert des Lernens von Grenzen.

Das Verständnis von Grenzen ist bei Modellen für maschinelles Lernen aus vielen Gründen wichtig:

Optimierung

Bei Optimierungsmethoden wie dem Gradientenabstieg können Grenzwerte verwendet werden, um die Schrittgröße zu regulieren und die Konvergenz zu einem lokalen Minimum zu garantieren.

Auswahl der Merkmale

Grenzwerte können dazu verwendet werden, die Bedeutung verschiedener Modellmerkmale zu bewerten und eine Merkmalsauswahl vorzunehmen, die das Modell einfacher und leistungsfähiger macht.

Sensitivitätsanalyse

Die Empfindlichkeit eines maschinellen Lernmodells gegenüber Änderungen der Eingabedaten und seine Fähigkeit, auf neue Daten zu verallgemeinern, können genutzt werden, um das Verhalten eines Modells zu untersuchen.

Außerdem werden Grenzwerte in fortgeschritteneren Konzepten der Infinitesimalrechnung verwendet, die du in Kürze kennenlernen wirst .

Das Hauptziel von Grenzwerten ist es, den Wert einer Funktion zu kennen, wenn sie undefiniert ist. Aber was ist eine undefinierte Funktion? Wenn du eine Funktion hast, deren Lösung nicht möglich ist (z. B. Dividieren durch Null), helfen dir Grenzwerte, dieses Problem zu umgehen, um den Wert der Funktion an diesem Punkt zu erfahren. Das Ziel von Grenzwerten ist es also, Funktionen zu lösen, auch wenn sie undefiniert sind.

Erinnere dich daran, dass die Lösung einer Funktion, die x als Eingabe hat, ein Wert auf der y-Achse ist. Abbildung 4-12 zeigt einen linearen Graphen der folgenden Funktion:

f ( x ) = x + 2

Abbildung 4-12. Ein Graph der Funktion f(x) = x + 2

Die Lösung der Funktion im Diagramm ist diejenige, die auf der Geraden liegt, wobei der Wert von x jedes Mal berücksichtigt wird.

Was wäre die Lösung der Funktion (der Wert von y), wenn x = 4 ist? Die Antwort ist eindeutig 6, denn wenn du den Wert von x durch 4 ersetzt, erhältst du 6:

f ( 4 ) = 4 + 2 = 6

Diese Lösung in Form von Grenzwerten zu denken, wäre so, als würde man nach der Lösung der Funktion fragen, wenn sich x von beiden Seiten (der negativen/abnehmenden Seite und der positiven/steigenden Seite) 4 nähert. Tabelle 4-1 vereinfacht dieses Dilemma.

Tabelle 4-1. Finde x, wenn es sich 4 nähert
f(x) x
5.998 3.998
5.999 3.999
6.000 4.000
6.001 4.001
6.002 4.002

Wenn du dich von der negativen Seite her annäherst, ist das so, als ob du einen Bruchteil einer Zahl unter 4 addierst und das Ergebnis jedes Mal analysierst. Eine Annäherung von der positiven Seite ist gleichbedeutend damit, einen Bruchteil einer Zahl zu entfernen, während man über 4 ist, und das Ergebnis jedes Mal zu analysieren. Die Lösung scheint zu 6 zu konvergieren, wenn x sich 4 nähert. Das ist die Lösung für den Grenzwert.

Grenzwerte in der allgemeinen Form werden nach dieser Konvention geschrieben:

lim xa f ( x ) = L

Die allgemeine Form des Grenzwerts lautet wie folgt: Wenn du dich a entlang der x-Achse näherst (egal ob von der positiven oder der negativen Seite), nähert sich die Funktion f(x) dem Wert von L.

Hinweis

Die Idee des Grenzwerts besagt, dass sich die Lösung der Gleichung einer bestimmten Zahl nähert, wenn du dich einer Zahl von beiden Seiten (negativ oder positiv) annäherst, und die Lösung des Grenzwerts ist diese Zahl.

Wie bereits erwähnt, sind Grenzwerte nützlich, wenn der genaue Punkt der Lösung mit der herkömmlichen Methode der Substitution nicht bestimmt werden kann.

Eine einseitige Grenze unterscheidet sich von einer allgemeinen Grenze. Bei einer linksseitigen Grenze suchst du die Grenze, die von der negativen Seite zur positiven Seite geht, und bei einer rechtsseitigen Grenze suchst du die Grenze, die von der positiven Seite zur negativen Seite geht. Die allgemeine Grenze existiert, wenn die beiden einseitigen Grenzen existieren und gleich sind. Die vorherigen Aussagen lassen sich also wie folgt zusammenfassen:

  • Die linke Grenze existiert.
  • Die rechte Grenze existiert.
  • Die linke Grenze ist gleich der rechten Grenze.

Die linke Grenze ist wie folgt definiert:

lim xa - f ( x ) = L

Die rechte Grenze ist wie folgt definiert:

lim xa + f ( x ) = L

Betrachte die folgende Gleichung:

f ( x ) = x 3 -27 x-3

Wie lautet die Lösung der Funktion, wenn x = 3 ist? Die Substitution führt zu der folgenden Frage:

f ( 3 ) = 3 3 -27 3-3 = 27-27 3-3 = 0 0 = Unbestimmt

Betrachtet man dies jedoch in Form von Grenzwerten, wie sie in Tabelle 4-2 dargestellt sind, scheint es, dass sich die Lösung auf 27 zubewegt, wenn du dich x = 3 näherst, entweder von der linken oder von der rechten Seite.

Tabelle 4-2. Finden von x, wenn es sich 3 nähert
f(x) x
2.9998 26.9982
2.9999 26.9991
3.0000 Unbestimmt
3.0001 27.0009
3.0002 27.0018

Grafisch lässt sich dies als Unstetigkeit im Diagramm entlang beider Achsen erkennen. Die Unstetigkeit liegt auf der Linie um die Koordinate (3, 27). Manche Funktionen haben keine Grenzwerte. Was ist zum Beispiel der Grenzwert der folgenden Funktion, wenn x sich 5 nähert?

lim x5 1 x-5

Ein Blick auf Tabelle 4-3 zeigt, dass die Ergebnisse bei einer Annäherung von x an 5 von beiden Seiten stark voneinander abweichen. Bei einer Annäherung von der negativen Seite liegt der Grenzwert von 4,9999 bei -10.000 und bei einer Annäherung von der positiven Seite liegt der Grenzwert von 5,0001 bei 10.000.

Tabelle 4-3. Finde x, wenn es sich 5 nähert
f(x) x
4.9998 -5000
4.9999 -10000
5.0000 Unbestimmt
5.0001 10000
5.0002 5000

Erinnere dich daran, dass die allgemeine Grenze nur dann existiert, wenn beide einseitigen Grenzen existieren und gleich sind, was hier nicht der Fall ist. Wenn du dies grafisch darstellst, erhältst du Abbildung 4-13, die dir helfen kann zu verstehen, warum der Grenzwert nicht existiert.

Abbildung 4-13. Ein Graph der Funktion, der beweist, dass der Grenzwert nicht existiert

Aber was ist, wenn die Funktion, die du analysieren willst, wie folgt aussieht?

lim x5 1 |x-5|

Ein Blick auf Tabelle 4-3 zeigt, dass sich die Ergebnisse rapide beschleunigen, wenn sich x der Zahl 5 nähert, da sie bis zu einer sehr großen Zahl, die als Unendlichkeit (∞) bezeichnet wird, divergieren:

f ( x ) = 1 |x-5|

Wirf einen Blick auf Tabelle 4-4:

Tabelle 4-4. Ein weiterer Versuch, x zu finden, wenn es sich 5 nähert
f(x) x
4.99997 334333.33
4.99998 50000
4.99999 100000
4.9999999 10000000
5.00000 Unbestimmt
5.0000001 10000000
5.00001 100000
5.00002 50000
5.00003 334333.33

Bei jedem kleinen Schritt nähert sich x der Zahl 5 und y der positiven Unendlichkeit. Die Antwort auf die Grenzwertfrage ist also positiv unendlich (+∞). Abbildung 4-14 zeigt den Graphen der Funktion. Beachte, wie beide Seiten an Wert zunehmen, wenn x sich 5 nähert.

Abbildung 4-14. Ein Graph der Funktion, der beweist, dass der Grenzwert existiert, wenn x sich 5 nähert

Kontinuierliche Funktionen sind Funktionen, die ohne Lücken oder Löcher im Graphen gezeichnet werden, während diskontinuierliche Funktionen solche Lücken und Löcher enthalten. Das bedeutet in der Regel, dass letztere Punkte enthalten, an denen die Lösung der Funktionen undefiniert ist und eventuell durch Grenzwerte angenähert werden muss. Kontinuität und Grenzwerte sind also zwei verwandte Konzepte.

Machen wir weiter mit dem Lösen von Grenzwerten; schließlich wirst du nicht jedes Mal eine Tabelle erstellen und die Ergebnisse subjektiv auswerten, um die Grenzwerte zu finden. Es gibt drei Möglichkeiten, Grenzwerte zu lösen:

  • Substitution: Dies ist die einfachste Regel und wird in der Regel zuerst angewendet.
  • Factoring: Das kommt, wenn die Substitution nicht funktioniert.
  • Konjugierte Methoden: Diese Lösung kommt, wenn die ersten beiden nicht funktionieren.

Bei derSubstitution setzt du einfach den Wert ein, dem sich x nähert . Im Grunde sind das Funktionen, die Lösungen haben, bei denen die Grenzwerte verwendet werden. Nimm das folgende Beispiel:

lim x5 x + 10 - 2 x

Durch Substitution wird der Grenzwert der Funktion wie folgt ermittelt:

lim x5 x + 10 - 2 x = 5 + 10 - ( 2 × 5 ) = 5

Daher ist die Antwort auf die Grenze 5.

DasFaktorisieren ist die nächste Option, wenn die Substitution nicht funktioniert (z. B. wenn der Grenzwert nach dem Einsetzen des Wertes von x in die Funktion nicht definiert ist). Beim Faktorisieren geht es darum, die Form der Gleichung mithilfe von Faktoren so zu ändern, dass die Gleichung bei der Substitution nicht mehr undefiniert ist. Nimm das folgende Beispiel:

lim x-6 (x+6)(x 2 -x+1) x+6

Wenn du die Ersetzung versuchst, erhältst du einen undefinierten Wert wie folgt:

lim x-6 (x+6)(x 2 -x+1) x+6 = (-6+6)((-6) 2 -(-6)+1) -6+6 = 0 0 = Unbestimmt

In diesem Fall kann das Faktorisieren helfen. Zum Beispiel wird der Nominator mit(x + 6) multipliziert und dann durch(x + 6) geteilt. Die Vereinfachung durch Streichung der beiden Terme könnte eine Lösung ergeben:

lim x-6 (x+6)(x 2 -x+1) x+6 = lim x-6 x 2 - x + 1

Jetzt, wo das Factoring abgeschlossen ist, kannst du die Substitution noch einmal versuchen:

lim x-6 x 2 - x + 1 = (-6) 2 - ( - 6 ) + 1 = 43

Der Grenzwert der Funktion, wenn x gegen -6 tendiert , ist also 43.

Die Bildung einer Konjugation ist die nächste Option, wenn Substitution und Faktorisierung nicht funktionieren. Eine Konjugierte wird gebildet, indem man einfach die Vorzeichen zwischen zwei Variablen tauscht. Zum Beispiel ist die Konjugierte von x + y x - y. Bei einem Bruch multipliziert man den Zähler und den Nenner mit der Konjugierten einer der beiden Variablen (vorzugsweise mit der Konjugierten des Terms, der eine Quadratwurzel hat, da diese sich aufhebt). Betrachte das folgende Beispiel:

lim x9 x-9 x-3

Indem du beide Terme mit dem Konjugierten des Nenners multiplizierst, hast du begonnen, die konjugierte Methode zur Lösung der Aufgabe anzuwenden:

lim x9 x-9 x-3 ( x+3 x+3 )

Wenn du die Multiplikation berücksichtigst und dann vereinfachst, ergibt sich folgendes:

lim x9 (x-9)(x+3) (x-3)(x+3)

Du wirst mit der folgenden vertrauten Situation konfrontiert:

lim x9 (x-9)(x+3) x-9

lim x9 x + 3

Jetzt ist die Funktion bereit für die Ersetzung:

lim x9 9 + 3 = 3 + 3 = 6

Die Lösung der Funktion ist also 6. Wie du siehst, muss manchmal noch an den Gleichungen gearbeitet werden, bevor sie eingesetzt werden können.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Grenzwerte helfen dabei, Lösungen für Funktionen zu finden, die an bestimmten Stellen undefiniert sein können.
  • Damit die allgemeine Grenze existiert, müssen die beiden einseitigen Grenzen existieren und gleich sein.
  • Es gibt verschiedene Möglichkeiten, den Grenzwert einer Funktion zu finden, vor allem die Substitution, das Ausrechnen und die Bildung der Konjugierten.

Derivate

Eine Ableitung misst die Änderung einer Funktion bei einer Änderung einer oder mehrerer ihrer Eingaben. Mit anderen Worten: Sie ist die Änderungsrate einer Funktion an einem bestimmten Punkt.

Ein solides Verständnis von Derivaten ist aus mehreren Gründen wichtig, um Modelle für maschinelles Lernen zu erstellen:

Optimierung

Um die Verlustfunktion zu minimieren, verwenden Optimierungsmethoden Ableitungen, um die Richtung des steilsten Abstiegs zu bestimmen und die Parameter des Modells zu verändern .

Backpropagation

Um den Gradientenabstieg beim Deep Learning durchzuführen, verwendet die Backpropagation-Technik Ableitungen, um die Gradienten der Verlustfunktion in Bezug auf die Parameter des Modells zu berechnen.

Hyperparameter-Abstimmung

Um die Leistung des Modells zu verbessern, werden Ableitungen für die Sensitivitätsanalyse und die Abstimmung der Hyperparameter verwendet.

Vergiss nicht, was du im vorherigen Abschnitt über Grenzwerte gelernt hast, denn du wirst dieses Wissen auch für diesen Abschnitt brauchen. In der Kalkulation geht es hauptsächlich um Ableitungen und Integrale. In diesem Abschnitt geht es um Ableitungen und ihre Anwendung.

Du kannst Ableitungen als Funktionen betrachten, die die Steigung einer anderen Funktion an einem bestimmten Punkt darstellen (oder modellieren). Eine Steigung ist ein Maß für die Position einer Linie im Verhältnis zu einer horizontalen Linie. Eine positive Steigung zeigt an, dass sich eine Linie nach oben bewegt, während eine negative Steigung anzeigt, dass sich eine Linie nach unten bewegt.

Derivate und Steigungen sind verwandte Konzepte, aber sie sind nicht dasselbe. Hier ist der Hauptunterschied zwischen den beiden:

Piste

Die Steigung misst die Steilheit einer Linie. Sie ist das Verhältnis zwischen der Veränderung auf der y-Achse und der Veränderung auf der x-Achse.

Derivat

Die Ableitung beschreibt die Änderungsrate einer bestimmten Funktion. Wenn der Abstand zwischen zwei Punkten einer Funktion gegen Null geht, ist die Ableitung dieser Funktion an diesem Punkt der Grenzwert der Steigung der Tangente.

Bevor wir die Derivate in Laiensprache erklären und einige Beispiele zeigen, wollen wir uns ihre formale Definition ansehen:

f ' ( x ) = lim h0 f(x+h)-f(x) h

Die Gleichung bildet die Grundlage für das Lösen von Ableitungen, obwohl es viele Abkürzungen gibt, die du kennenlernen wirst. Versuchen wir, die Ableitung einer Funktion mithilfe der formalen Definition zu finden. Betrachte die folgende Gleichung:

f ( x ) = x 2 + 4 x - 2

Um die Ableitung zu finden, setze f(x) in die formale Definition ein und löse dann den Grenzwert:

f ' ( x ) = lim h0 f(x+h)-f(x) h

Um die Dinge zu vereinfachen, finden wir f(x + h), damit das Einsetzen in die formale Definition einfacher wird:

f ( x + h ) = (x+h) 2 + 4 ( x + h ) - 2

f ( x + h ) = x 2 + 2 x h + h 2 + 4 x + 4 h - 2

Jetzt setzen wir f(x + h) in die Definition ein:

f ' ( x ) = lim h0 x 2 +2xh+h 2 +4x+4h-2-x 2 -4x+2 h

Beachte, dass es viele Begriffe gibt, die vereinfacht werden können, damit die Formel klarer wird. Erinnere dich daran, dass du im Moment versuchst, den Grenzwert zu finden, und die Ableitung erst nach der Lösung des Grenzwerts ermittelt wird:

f ' ( x ) = lim h0 2xh+h 2 +4h h

Die Division durch h bietet weiteres Vereinfachungspotenzial, da du alle Terme im Zähler durch den Nenner h dividieren kannst:

f ' ( x ) = lim h0 2 x + h + 4

Jetzt ist es an der Zeit, den Grenzwert zu lösen. Da die Gleichung einfach ist, besteht der erste Versuch in der Substitution, die, wie du schon vermutet hast, möglich ist. Indem du die Variable h substituierst und sie zu Null machst (gemäß dem Grenzwert), erhältst du folgendes Ergebnis:

f ' ( x ) = 2 x + 4

Das ist die Ableitung der ursprünglichen Funktion f(x). Wenn du die Ableitung der Funktion bei x = 2 finden willst, musst du einfach 2 in die Ableitungsfunktion einsetzen:

f ' ( 2 ) = 2 ( 2 ) + 4 = 8

Abbildung 4-15 zeigt den Graphen der ursprünglichen Funktion mit der Ableitung (der Geraden). Beachte, dass f'(2) genau bei 8 liegt. Die Steigung von f(x) bei x = 2 ist 8.

Abbildung 4-15. Das ursprüngliche f(x) mit seiner Ableitung f'(x)
Hinweis

Beachte, dass f '( x ) die Nulllinie durchquert, wenn f(x) den Boden erreicht und zu steigen beginnt.

Es ist unwahrscheinlich, dass du jedes Mal die formale Definition verwendest, wenn du eine Ableitung finden willst. Es gibt Ableitungsregeln, mit denen du durch Abkürzungen eine Menge Zeit sparen kannst. Die erste Regel wird als Potenzregel bezeichnet und ist eine Möglichkeit, die Ableitung von Funktionen mit Exponenten zu finden.

Es ist üblich, auch Ableitungen mit dieser Schreibweise zu bezeichnen (was dasselbe ist wie f'(x)):

dy dx

Die Potenzregel zum Finden von Ableitungen lautet wie folgt:

dy dx ( a x n ) = ( a . n ) x n-1

Grundsätzlich bedeutet das, dass die Ableitung gefunden wird, indem man die Konstante mit dem Exponenten multipliziert und dann 1 vom Exponenten subtrahiert. Hier ist ein Beispiel:

f ( x ) = x 4

f ' ( x ) = ( 1 × 4 ) x (4-1) = 4 x 3

Erinnere dich daran, dass eine Variable ohne Konstante bedeutet, dass die Konstante gleich 1 ist. Hier ist ein komplexeres Beispiel mit demselben Prinzip:

f ( x ) = 2 x 2 + 3 x 7 - 2 x 3

f ' ( x ) = 4 x + 21 x 6 - 6 x 2

Es ist erwähnenswert, dass die Regel auch für Konstanten gilt, auch wenn sie nicht die allgemeine Form der Potenzregel erfüllen. Die Ableitung einer Konstanten ist Null. Es ist zwar hilfreich zu wissen, warum das so ist, aber zuerst musst du dir über das folgende mathematische Konzept im Klaren sein:

x 0 = 1

Abgesehen davon kannst du dir vorstellen, dass Konstanten immer mit x hoch Null multipliziert werden (da dies ihren Wert nicht ändert). Wenn du nun die Ableitung von 17 finden willst, würde das folgendermaßen funktionieren:

17 = 17 x 0 = ( 0 × 17 ) x 0-1 = 0 x -1 = 0

Wie du weißt, ergibt alles, was mit Null multipliziert wird, Null als Ergebnis. Daraus ergibt sich die Konstantenregel für Ableitungen wie folgt:

dy dx ( a ) = 0

Du folgst der gleichen Logik, wenn du bei den Exponenten auf Brüche oder negative Zahlen stößt.

Die Produktregel der Ableitungen ist nützlich, wenn es zwei Funktionen gibt, die miteinander multipliziert werden. Die Produktregel lautet wie folgt:

dy dx [ f ( x ) g ( x ) ] = f ' ( x ) g ( x ) + f ( x ) g ' ( x )

Nehmen wir ein Beispiel und finden wir die Ableitung mithilfe der Produktregel:

h ( x ) = ( x 2 + 2 ) ( x 3 + 1 )

Die Gleichung lässt sich ganz klar in zwei Terme aufteilen, f(x) und g(x), wie folgt:

f ( x ) = ( x 2 + 2 )

g ( x ) = ( x 3 + 1 )

Bevor wir die Produktregel anwenden, müssen wir die Ableitungen der beiden Terme bestimmen. Beachte, dass es einfach ist, die Ableitung von f(x) und g(x) zu finden, wenn du die Potenzregel verstanden hast:

f ' ( x ) = 2 x

g ' ( x ) = 3 x 2

Wenn du die Produktregel anwendest, solltest du folgendes erhalten:

h ' ( x ) = ( x 2 + 2 ) ( 3 x 2 ) + ( 2 x ) ( x 3 + 1 )

h ' ( x ) = 3 x 4 + 6 x 2 + 2 x 4 + 2 x

h ' ( x ) = 5 x 4 + 6 x 2 + 2 x

Abbildung 4-16 zeigt den Graphen von h(x) und h'(x).

Abbildung 4-16. Das ursprüngliche h(x) mit seiner Ableitung h'(x)

Wenden wir uns nun der Quotientenregel zu, die sich mit der Division von zwei Funktionen befasst. Die formale Definition lautet wie folgt:

dy dx [ f(x) g(x) ] = f ' (x)g(x)-f(x)g ' (x) [g(x)] 2

Wenden wir sie auf die folgende Funktion an:

f ( x ) = x 2 -x+1 x 2 +1

Wie üblich ist es besser, zunächst die Ableitungen von f(x) und g(x) zu finden, die in diesem Fall klar getrennt sind, wobei f(x) der Zähler und g(x) der Nenner ist. Wenn du die Quotientenregel anwendest, solltest du folgendes erhalten:

f ' ( x ) = (2x-1)(x 2 +1)-(x 2 -x+1)(2x) (x 2 +1) 2

f ' ( x ) = 2x 3 +2x-x 2 -1-2x 3 +2x 2 -2x (x 2 +1) 2

f ' ( x ) = x 2 -1 (x 2 +1) 2

BeiExponentialableitungen wird die Potenzregel auf Konstanten angewendet. Sieh dir die folgende Gleichung an. Wie würdest du ihre Ableitung finden?

f ( x ) = a x

Anstelle des üblichen Variablen-Basis-Konstanten-Exponenten ist es ein Konstanten-Basis-Variablen-Exponent. Dies wird bei der Berechnung der Ableitung anders behandelt. Die formale Definition lautet wie folgt:

dy dx a x = a x ( ln a )

Das folgende Beispiel zeigt, wie das gemacht wird:

dy dx 4 x = 4 x ( ln 4 )

Die bereits erwähnte Eulersche Zahl hat eine spezielle Ableitung. Wenn es darum geht, die Ableitung von e zu finden, ist die Antwort interessant:

dy dx e x = e x ( ln e ) = e x

Das liegt daran, dass die natürliche Logarithmusfunktion und die Exponentialfunktion einander invers sind, sodass der Term ln e gleich 1 ist. Daher ist die Ableitung der Exponentialfunktion e selbst.

Parallel dazu wollen wir die logarithmischen Ableitungen besprechen. Inzwischen solltest du wissen, was Exponenten und Logarithmen sind. Die allgemeine Definition für beide Arten von Logarithmen lautet wie folgt:

dy dx loggen a x = 1 xlna

dy dx ln x = loggen e x = 1 xlne = 1 x

Beachte, dass in der zweiten Ableitungsfunktion des natürlichen Logarithmus der Term ln e wieder auftaucht, was die Vereinfachung recht einfach macht, da er gleich 1 ist.

Nimm das folgende Beispiel:

f ( x ) = 7 l o g 2 ( x )

Nach der formalen Definition lautet die Ableitung dieser logarithmischen Funktion wie folgt:

f ' ( x ) = 7 ( 1 xln2 ) = 7 xln2

Hinweis

Der Logarithmus log hat eine Basis von 10, aber der natürliche Logarithmus ln hat eine Basis von e (~2,7182).

Der natürliche Logarithmus und die Logarithmusfunktion sind eigentlich durch einfache Multiplikation linear verwandt. Wenn du den Logarithmus der Konstante a kennst, kannst du ihren natürlichen Logarithmus ln ermitteln, indem du den Logarithmus von a mit 2,4303 multiplizierst.

Ein wichtiges Konzept bei Ableitungen ist die Kettenregel. Gehen wir zurück zur Potenzregel, die sich mit Exponenten von Variablen beschäftigt. Erinnere dich an die folgende Formel, um die Ableitung zu finden:

dy dx ( a x n ) = ( a . n ) x n-1

Dies ist eine vereinfachte Version, weil es nur x gibt, aber in Wirklichkeit musst du mit der Ableitung des Terms unter dem Exponenten multiplizieren. Bis jetzt hast du nur x als die Variable unter dem Exponenten gesehen. Die Ableitung von x ist 1, deshalb wird sie vereinfacht und unsichtbar gemacht. Bei komplexeren Funktionen, wie dieser hier, ist die Ableitung von x jedoch unsichtbar:

f ( x ) = (4x+1) 2

Die Ableitung der Funktion wird durch diese beiden Schritte ermittelt:

  1. Finde die Ableitung der äußeren Funktion, ohne die innere Funktion zu berühren.
  2. Finde die Ableitung der inneren Funktion und multipliziere sie mit dem Rest der Funktion.

Die Lösung lautet also wie folgt (wobei du weißt, dass die Ableitung von 4x + 1 nur 4 ist):

f ' ( x ) = 2 ( 4 x + 1 ) . 4

f ' ( x ) = 8 ( 4 x + 1 )

f ' ( x ) = 32 x + 8

Das Gleiche gilt für die Exponentialfunktionen. Nimm das folgende Beispiel:

f ( x ) = e x

f ' ( x ) = e x ( 1 ) = e x

Die Kettenregel kann eigentlich als Hauptregel betrachtet werden, da sie überall gilt, sogar in der Produkt- und der Quotientenregel.

Es gibt noch mehr Konzepte, die du bei den Ableitungen beherrschen musst. Da dieses Buch aber kein kompletter Mathekurs sein soll, solltest du zumindest wissen, was eine Ableitung bedeutet, wie sie gefunden wird, was sie darstellt und wie sie beim maschinellen und tiefen Lernen eingesetzt werden kann.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind die folgenden:

  • Eine Ableitung misst die Veränderung einer Funktion bei einer Änderung einer oder mehrerer ihrer Eingaben.
  • Die Potenzregel wird verwendet, um die Ableitung einer Funktion zu finden, die mit einer Potenz erhöht wird.
  • Die Produktregel wird verwendet, um die Ableitung von zwei Funktionen zu finden, die miteinander multipliziert werden.
  • Die Quotientenregel wird verwendet, um die Ableitung von zwei Funktionen zu finden, die durcheinander geteilt werden.
  • Die Kettenregel ist die wichtigste Regel beim Differenzieren (d.h. beim Finden der Ableitung). Aufgrund ihrer Einfachheit wird sie oft übersehen.
  • Ableitungen spielen beim maschinellen Lernen eine wichtige Rolle, z. B. bei Optimierungsverfahren, beim Training von Modellen und bei der Verbesserung der Interpretierbarkeit der Modelle.

Integrale und der Fundamentalsatz der Infinitesimalrechnung

Ein Integral ist eine Operation, die die Fläche unter einer Kurve einer Funktion in einem Intervall darstellt. Es ist der Kehrwert einer Ableitung, weshalb es auch als Antiderivativ bezeichnet wird .

Der Prozess der Ermittlung von Integralen wird als Integration bezeichnet. Integrale können verwendet werden, um Flächen unter einer Kurve zu finden, und sie werden in der Finanzwelt in Bereichen wie Risikomanagement, Portfoliomanagement, probabilistischen Methoden und sogar bei der Optionsbewertung häufig eingesetzt.

Der einfachste Weg, ein Integral zu verstehen, ist die Berechnung der Fläche unter der Kurve einer Funktion. Das kann man tun, indem man die verschiedenen Änderungen an der x-Achse manuell berechnet, aber das Addieren dieser Schnitte, um die Fläche zu ermitteln, ist ein mühsamer Prozess. An dieser Stelle kommen Integrale zur Hilfe.

Denke daran, dass ein Integral der Kehrwert einer Ableitung ist. Das ist wichtig, weil es eine direkte Beziehung zwischen den beiden impliziert. Die grundlegende Definition eines Integrals lautet wie folgt:

f ( x ) d x = F ( X ) + C

Die Symbol steht für Die Integration Prozess

f ( x ) ist Die Derivat von Die allgemein Funktion F ( x )

C steht für Die verloren Konstante in Die Differenzierung Prozess

d x steht für Schneiden entlang x als es nähert sich null

Die vorhergehende Gleichung bedeutet, dass das Integral von f(x) die allgemeine Funktion F(x) plus eine Konstante C ist, die beim anfänglichen Differenzieren verloren gegangen ist. Hier ist ein Beispiel, um die Notwendigkeit der Konstante besser zu erklären.

Betrachte die folgende Funktion:

f ( x ) = x 2 + 5

Wenn du die Ableitung berechnest, erhältst du das folgende Ergebnis:

f ' ( x ) = 2 x

Was wäre, wenn du sie so integrieren wolltest, dass du zur ursprünglichen Funktion zurückkehrst (die in diesem Fall durch den Großbuchstaben F(x) statt f(x) dargestellt wird)?

2 x d x

Normalerweise würdest du, nachdem du den Differenzierungsprozess gesehen hast (was bedeutet, dass du die Ableitung nimmst), 2 als Exponent zurückgeben, was dir die folgende Antwort gibt:

2 x d x = x 2

Das sieht nicht wie die ursprüngliche Funktion aus. Es fehlt die Konstante 5. Aber das kannst du nicht wissen, und selbst wenn du wüsstest, dass es eine Konstante gibt, könntest du nicht wissen, wie sie lautet: 1? 2? 677? Deshalb wird bei der Integration eine Konstante C hinzugefügt, um die verlorene Konstante darzustellen. Die Antwort auf die Integrationsaufgabe lautet also wie folgt:

2 x d x = x 2 + C

Hinweis

Bis jetzt hat sich die Diskussion auf unbestimmte Integrale beschränkt, bei denen das Integrationssymbol nackt ist (was bedeutet, dass es keine Grenzen gibt). Was das bedeutet, wirst du gleich sehen, nachdem wir die notwendigen Regeln für die Integration definiert haben.

Für die Potenzfunktion (genau wie für die vorherige Funktion) lautet die allgemeine Regel für die Integration wie folgt:

x a d x = x a+1 a+1 + C

Das ist viel einfacher, als es aussieht. Du kehrst einfach die Potenzregel um, die du zuvor gesehen hast . Betrachte das folgende Beispiel:

2 x 6 d x

2 x 6 d x = 2x 7 7 + C

2 x 6 d x = 2 7 x 7 + C

Um deine Antwort zu überprüfen, kannst du die Ableitung des Ergebnisses ermitteln (mit Hilfe der Potenzregel):

F ( x ) = 2 7 x 7 + C

f ' ( x ) = ( 7 ) 2 7 x 7-1 + 0

f ' ( x ) = 2 x 6

Nehmen wir ein anderes Beispiel. Betrachte das folgende Integrationsproblem:

2 d x

Wenn du die Regel anwendest, solltest du natürlich das folgende Ergebnis erhalten:

2 d x = 2 x + C

Kommen wir nun zu den definitiven Integralen. Das sind Integrale mit Zahlen oben und unten, die Intervalle unterhalb einer Kurve einer Funktion darstellen. Unbestimmte Integrale finden also überall die Fläche unter der Kurve, während bestimmte Integrale innerhalb eines Intervalls begrenzt sind, das durch die Punkte a und b gegeben ist. Die allgemeine Definition von unbestimmten Integralen lautet wie folgt:

a b f ( x ) d x = F ( B ) - F ( A )

Das ist so einfach wie möglich. Du wirst das Integral lösen, dann die beiden Zahlen einsetzen und die beiden Funktionen voneinander subtrahieren. Betrachte die folgende Auswertung eines Integrals (das Lösen eines Integrals wird gemeinhin als Auswerten des Integrals bezeichnet):

0 6 3 x 2 - 10 x + 4 d x

Der erste Schritt besteht darin, zu verstehen, was gefragt wird. Aus der Definition von Integralen geht hervor, dass die Fläche zwischen [0, 2] auf der x-Achse mithilfe der gegebenen Funktion berechnet werden soll:

F ( x ) = ( [ x 3 - 5 x 2 + 4 x + C ] ) | 0 6

Um das Integral an den gegebenen Punkten auszuwerten, setze die Werte einfach wie folgt ein:

F ( x ) = ( [ 6 3 - 5 (6) 2 + 4 ( 6 ) + C ] ) - ( [ 0 3 - 5 (0) 2 + 4 ( 0 ) + C ] )

F ( x ) = ( [ 216 - 180 + 24 + C ] ) - ( [ 0 - 0 + 0 + C ] )

F ( x ) = ( [ 60 + C ] ) - ( [ 0 + C ] )

F ( x ) = ( 60 - 0 )

F ( x ) = 60

Hinweis

Die Konstante C hebt unbestimmte Integrale immer auf, daher kannst du sie bei dieser Art von Problem weglassen.

Die Fläche unterhalb des Graphen von f(x) und oberhalb der x-Achse sowie zwischen [0, 6] auf der x-Achse ist also gleich 60 Quadrateinheiten. Im Folgenden findest du ein paar Faustregeln zu Integralen (schließlich soll dieses Kapitel dein Wissen auffrischen oder dir ein grundlegendes Verständnis für einige wichtige mathematische Konzepte vermitteln):

  • Um das Integral einer Konstanten zu finden:

    a d x = a x + C

  • Um das Integral einer Variablen zu finden:

    x d x = 1 2 x 2 + C

  • Um das Integral eines Kehrwerts zu finden:

    1 x d x = ln | x | + C

  • Um das Integral eines Exponentials zu finden:

    a x d x = a x ln(a) + C

    e x d x = e x + C

Der Fundamentalsatz der Infinitesimalrechnung verknüpft Ableitungen mit Integralen. Das bedeutet, dass er Ableitungen in Form von Integralen definiert und vice versa. Der Hauptsatz der Infinitesimalrechnung besteht eigentlich aus zwei Teilen:

Teil I

Der erste Teil des Fundamentalsatzes der Infinitesimalrechnung besagt, dass bei einer stetigen Funktion f(x) die ursprüngliche Funktion F(x), die als Antiderivative von f(x) von einem festen Startpunkt a bis x definiert ist, eine Funktion ist, die überall von a bis x differenzierbar ist, und ihre Ableitung ist einfach f(x), ausgewertet bei x.

Teil II

Der zweite Teil des Fundamentalsatzes der Infinitesimalrechnung besagt, dass, wenn du eine Funktion f(x) hast, die über ein bestimmtes Intervall[a, b] stetig ist, und du eine neue Funktion F(x) als das Integral von f(x) von a nach x definierst, dann kann das bestimmte Integral von f(x) über dasselbe Intervall[a, b] als F(b) - F(a) berechnet werden.

Das Theorem ist in vielen Bereichen nützlich, unter anderem in der Physik und im Ingenieurwesen, aber auch die Optimierung und andere mathematische Modelle profitieren davon. Einige Beispiele für die Verwendung von Integralen in den verschiedenen Lernalgorithmen lassen sich wie folgt zusammenfassen:

Dichteschätzung

Integrale werden in der Dichteschätzung, einem Teil vieler Algorithmen des maschinellen Lernens, verwendet, um die Wahrscheinlichkeitsdichtefunktion zu berechnen.

Verstärkungslernen

Integrale werden beim Reinforcement Learning verwendet, um erwartete Werte von Belohnungsfunktionen zu berechnen. Das Verstärkungslernen wird in Kapitel 10 behandelt.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind wie folgt:

  • Integrale werden auch als Antiderivate bezeichnet und sind das Gegenteil von Ableitungen.
  • Unbestimmte Integrale finden die Fläche unter der Kurve überall, während bestimmte Integrale innerhalb eines Intervalls begrenzt sind, das durch Punkt a und Punkt b gegeben ist.
  • Der Fundamentalsatz der Infinitesimalrechnung ist die Brücke zwischen Ableitungen und Integralen.
  • Beim maschinellen Lernen werden Integrale zur Modellierung von Unsicherheiten, zur Erstellung von Vorhersagen und zur Schätzung von Erwartungswerten verwendet.

Optimierung

Verschiedene Algorithmen des maschinellen Lernens und des Deep Learning sind auf Optimierungstechniken angewiesen, um Fehlerfunktionen zu verringern.

Optimierung ist der Prozess der Suche nach der besten Lösung unter allen möglichen Lösungen. Bei der Optimierung geht es darum, den höchsten und den niedrigsten Punkt einer Funktion zu finden. Abbildung 4-17 zeigt das Diagramm für die folgende Formel:

f ( x ) = x 4 - 2 x 2 + x

Abbildung 4-17. Ein Graph der Funktion f ( x ) = x 4 - 2 x 2 + x

Ein lokales Minimum liegt vor, wenn die Werte auf der rechten Seite der x-Achse abnehmen, bis sie einen Punkt erreichen, an dem sie ansteigen. Der Punkt muss nicht unbedingt der niedrigste Punkt der Funktion sein, daher der Name "lokal". In Abbildung 4-17 hat die Funktion ein lokales Minimum am Punkt A.

Ein lokales Maximum liegt vor, wenn die Werte auf der rechten Seite der x-Achse ansteigen, bis sie einen Punkt erreichen, an dem sie zu sinken beginnen. Der Punkt muss nicht unbedingt der höchste Punkt der Funktion sein. In Abbildung 4-17 hat die Funktion ein lokales Maximum am Punkt B.

Ein globales Minimum liegt vor, wenn die Werte auf der rechten Seite der x-Achse abnehmen, bis sie einen Punkt erreichen, an dem sie ansteigen. Der Punkt muss der niedrigste Punkt der Funktion sein, daher der Name globales Minimum. In Abbildung 4-17 hat die Funktion ein globales Minimum am Punkt C.

Ein globales Maximum liegt vor, wenn die Werte auf der rechten Seite der x-Achse ansteigen, bis sie einen Punkt erreichen, an dem sie zu sinken beginnen. Dieser Punkt muss der höchste Punkt der Funktion sein. In Abbildung 4-17 gibt es kein globales Maximum, da sich die Funktion unendlich fortsetzt, ohne einen höchsten Punkt zu bilden. Du kannst deutlich sehen, wie die Funktion nach oben beschleunigt.

Bei maschinellen und Deep-Learning-Modellen geht es darum, Modellparameter (oder Eingaben) zu finden, die die so genannte Verlustfunktion (eine Funktion, die den Fehler der Vorhersagen angibt) minimieren. Wenn die Verlustfunktion konvex ist, sollten Optimierungsverfahren die Parameter finden, die zum globalen Minimum tendieren, bei dem die Verlustfunktion minimiert ist.

Wenn die Verlustfunktion nicht konvex ist, ist die Konvergenz nicht garantiert, und die Optimierung kann nur dazu führen, dass man sich einem lokalen Minimum nähert, was ein Teil des Ziels ist, aber das globale Minimum, das das endgültige Ziel ist, bleibt.

Aber wie werden diese Minima und Maxima gefunden? Schauen wir es uns Schritt für Schritt an:

  1. Der erste Schritt besteht darin, die erste Ableitungsprüfung durchzuführen (d.h. die Ableitung der Funktion zu berechnen). Wenn du dann die Funktion gleich Null setzt und nach x auflöst, erhältst du die sogenannten kritischen Punkte. Kritische Punkte sind die Punkte, an denen die Funktion ihre Richtung ändert (die Werte gehen nicht mehr in eine Richtung, sondern in eine andere). Diese Punkte sind also Maxima und Minima.
  2. Der zweite Schritt besteht darin, die zweite Ableitung zu testen (das heißt, einfach die Ableitung der Ableitung zu berechnen). Wenn du dann die Funktion gleich Null setzt und nach x auflöst, erhältst du die sogenannten Wendepunkte. Wendepunkte zeigen an, wo die Funktion konkav nach oben und wo sie konkav nach unten ist.

Mit anderen Worten: Kritische Punkte sind die Stellen, an denen die Funktion ihre Richtung ändert, und Wendepunkte sind die Stellen, an denen die Funktion ihre Konkavität ändert. Abbildung 4-18 zeigt den Unterschied zwischen einer konkaven Funktion nach oben und einer konkaven Funktion nach unten.

Konkav auf Funktion = x 2

Konkav unten Funktion = - x 2

Abbildung 4-18. Eine konkave Funktion nach oben und eine konkave Funktion nach unten

Die Schritte, um die Extrema zu finden, sind wie folgt:

  1. Finde die erste Ableitung und setze sie auf Null.
  2. Löse die erste Ableitung, um x zu finden. Die Werte werden kritische Punkte genannt und stellen die Punkte dar, an denen die Funktion ihre Richtung ändert.
  3. Setze die Werte in die Formel ein, die entweder unterhalb oder oberhalb der kritischen Punkte liegen. Wenn das Ergebnis der ersten Ableitung positiv ist, bedeutet das, dass sie um diesen Punkt herum zunimmt, und wenn sie negativ ist, bedeutet das, dass sie um diesen Punkt herum abnimmt.
  4. Finde die zweite Ableitung und setze sie auf Null.
  5. Löse die zweite Ableitung, um x zu finden. Die Werte, die Wendepunkte genannt werden, stellen die Punkte dar, an denen die Konkavität von oben nach unten und umgekehrt wechselt.
  6. Setze Werte in die Formel ein, die entweder unter oder über den Wendepunkten liegen. Wenn das Ergebnis der zweiten Ableitung positiv ist, bedeutet das, dass es an diesem Punkt ein Minimum gibt, und wenn es negativ ist, bedeutet das, dass es an diesem Punkt ein Maximum gibt.

Es ist wichtig zu verstehen, dass sich die erste Ableitungsprüfung auf die kritischen Punkte und die zweite Ableitungsprüfung auf die Wendepunkte bezieht. Im folgenden Beispiel werden die Extrema der Funktion ermittelt:

f ( x ) = x 2 + x + 4

Der erste Schritt besteht darin, die erste Ableitung zu nehmen, sie auf Null zu setzen und nach x zu lösen:

f ' ( x ) = 2 x + 1

2 x + 1 = 0

x = - 1 2

Das Ergebnis zeigt, dass es bei diesem Wert einen kritischen Punkt gibt. Finde nun die zweite Ableitung:

f '' ( x ) = 2

Als nächstes muss der kritische Punkt in die Formel für die zweite Ableitung eingesetzt werden:

f '' ( - 1 2 ) = 2

Die zweite Ableitung ist am kritischen Punkt positiv. Das bedeutet, dass es an diesem Punkt ein lokales Minimum gibt.

In den kommenden Kapiteln wirst du komplexere Optimierungstechniken wie den Gradientenabstieg und den stochastischen Gradientenabstieg kennenlernen, die in Algorithmen für maschinelles Lernen recht verbreitet sind. Beachte, dass du die Details der Optimierung und das Lösen der unbekannten Variablen nicht vollständig verstehen musst, da die Algorithmen dies von selbst tun.

Hinweis

Die wichtigsten Erkenntnisse aus diesem Abschnitt sind wie folgt:

  • Bei der Optimierung geht es darum, die Extrema der Funktion zu finden.
  • Kritische Punkte sind die Punkte, an denen die Funktion ihre Richtung ändert.
  • Wendepunkte geben an, wo die Funktion konkav nach oben und wo sie konkav nach unten ist.
  • Eine Verlustfunktion ist eine Funktion, die den Fehler von Vorhersagen beim prädiktiven maschinellen Lernen misst.

Zusammenfassung

In den Kapiteln 2, 3 und 4 wurden die wichtigsten numerischen Konzepte vorgestellt, um dir zu helfen, die grundlegenden Modelle für maschinelles und tiefes Lernen zu verstehen. Ich habe mich bemüht, die technischen Details so weit wie möglich zu vereinfachen. Ich empfehle dir jedoch, diese drei Kapitel mindestens zweimal zu lesen, damit dir alles, was du gelernt hast, zur zweiten Natur wird. Ich empfehle dir auch, diese Konzepte in anderen Materialien zu vertiefen.

Natürlich erfordert Deep Learning tiefere Kenntnisse in Mathematik, aber ich glaube, dass du mit den Konzepten in diesem Kapitel deine Zehen in die Erstellung von Algorithmen tauchen kannst. Schließlich werden sie von Paketen und Bibliotheken vorgefertigt, und das Ziel dieses Kapitels war es, dir zu helfen zu verstehen, womit du arbeitest. Es ist unwahrscheinlich, dass du die Modelle von Grund auf mit archaischen Werkzeugen erstellst.

Inzwischen solltest du ein gewisses Verständnis für Data Science und die mathematischen Anforderungen gewonnen haben, die dir den Einstieg erleichtern. Bevor du mit der Erstellung deines ersten maschinellen Lernmodells beginnen kannst, müssen wir noch zwei weitere Themen behandeln: technische Analyse und Python für die Datenwissenschaft.

1 Matrizen können auch Symbole und Ausdrücke enthalten, aber der Einfachheit halber bleiben wir bei den Zahlen.

Get Deep Learning für Finanzen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.