Machine Learning Glossary

In diesem Glossar werden allgemeine Begriffe zum Thema maschinelles Lernen sowie TensorFlow-spezifische Begriffe definiert.

A

Ablation

Verfahren zur Bewertung der Bedeutung einer Funktion oder Komponente, indem Sie sie vorübergehend aus einem Modell entfernen. Anschließend das Modell ohne dieses Feature oder diese Komponente neu zu trainieren und wenn das neu trainierte Modell erheblich schlechter ist, wurde die entfernte Funktion oder Komponente wahrscheinlich wichtig.

Angenommen, Sie trainieren ein Klassifizierungsmodell auf 10 Funktionen und eine Genauigkeit von 88% auf der Test-Dataset Um die Wichtigkeit zu prüfen können Sie das Modell mit den neun anderen Funktionen. Wenn das neu trainierte Modell eine erheblich schlechtere Leistung erbringt (z. B. 55% Präzision), dann war das entfernte Element wahrscheinlich wichtig. Wenn das neu trainierte Modell hingegen gleich gut abschneidet, war dieses Merkmal wahrscheinlich nicht so wichtig.

Die Ablation kann auch helfen, die Bedeutung von Folgendem zu bestimmen:

  • Größere Komponenten, z. B. das gesamte Subsystem eines größeren ML-Systems
  • Prozesse oder Verfahren, z. B. ein Schritt zur Datenvorverarbeitung

In beiden Fällen beobachten Sie, ob sich die Leistung des Systems ändert, nachdem Sie die Komponente entfernt haben.

A/B-Tests

Eine statistische Methode zum Vergleich von zwei (oder mehr) Verfahren – dem A und das B. Normalerweise ist A eine vorhandene Methode und B eine neue Methode. Durch A/B-Tests wird nicht nur ermittelt, welche Technik besser funktioniert. sondern auch, ob der Unterschied statistisch signifikant ist.

Bei A/B-Tests wird in der Regel ein einzelner Messwert für zwei Methoden verglichen. Beispiel: Wie schneidet die Genauigkeit des Modells bei zwei Methoden ab? Bei A/B-Tests kann jedoch auch eine beliebige endliche Anzahl von Messwerte.

Beschleunigerchip

#GoogleCloud

Kategorie spezieller Hardwarekomponenten, die für die Ausführung wichtiger Berechnungen für Deep-Learning-Algorithmen.

Beschleunigerchips (kurz Beschleuniger) können die Geschwindigkeit und Effizienz von Trainings- und Inferenzaufgaben im Vergleich zu einer allgemeinen CPU erheblich steigern. Sie eignen sich ideal für das Training von neuronalen Netzwerken und ähnlichen rechenintensiven Aufgaben.

Beispiele für Beschleunigerchips:

  • Tensor Processing Units (TPUs) von Google mit spezieller Hardware für Deep Learning
  • Die GPUs von NVIDIA, die ursprünglich für die Grafikverarbeitung entwickelt wurden, ermöglichen die parallele Verarbeitung, was die Verarbeitungsgeschwindigkeit erheblich steigern kann.

Genauigkeit

#fundamentals

Die Anzahl der korrekten Klassifizierungsvorhersagen geteilt durch die Gesamtzahl der Vorhersagen. Das bedeutet:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ein Modell mit 40 richtigen und 10 falschen Vorhersagen hat beispielsweise eine Genauigkeit von:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Bei der binären Klassifizierung werden die verschiedenen Kategorien von richtigen Vorhersagen und falschen Vorhersagen mit bestimmten Namen versehen. Die Genauigkeitsformel für die binäre Klassifizierung lautet:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Dabei gilt:

Vergleichen und kontrastieren Sie die Genauigkeit mit Genauigkeit und Erinnerung.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: Genauigkeit, Rückruf, Präzision und zugehörige Messwerte.

Aktion

#rl

Im Bereich bestärkendes Lernen den Mechanismus, mit dem der Agent Übergänge zwischen Bundesstaaten des Umgebung. Der Kundenservicemitarbeiter wählt die Aktion mithilfe einer Richtlinie

Aktivierungsfunktion

#fundamentals

Eine Funktion, mit der neuronale Netzwerke lernen können nonlinear (komplexe) Beziehungen zwischen Elementen und das Label.

Zu den beliebten Aktivierungsfunktionen gehören:

Die Diagramme von Aktivierungsfunktionen sind niemals gerade Linien. Das Diagramm der ReLU-Aktivierungsfunktion besteht beispielsweise aus zwei gerade Linien:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Zeile beginnt bei 0,0. Diese Linie hat eine Steigung von +1,
          von 0,0 bis +unendlich,+unendlich.

Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionaler gekrümmter Plot mit X-Werten von –unendlich bis +positiv, während die Y-Werte den Bereich von fast 0 bis fast 1 umfassen. Wenn x = 0 ist, ist y = 0,5. Die Steigung der Kurve ist immer gleich
          positiv, wobei die höchste Steigung bei 0,0,5 liegt und allmählich abnimmt.
          wenn der Absolutwert von x ansteigt.

Siehe Neuronale Netzwerke: Aktivierung Funktionen im Crashkurs „Machine Learning“.

aktives Lernen

Ein Trainingsansatz, bei dem der Algorithmus einige der Daten auswählt, aus denen er lernt. Aktives Lernen ist besonders wertvoll, wenn beschriftete Beispiele selten oder teuer zu beschaffen sind. Anstatt blind nach einem vielfältigen Beispiel mit einer Liste von gekennzeichneten Beispielen, sucht ein Algorithmus für die für den Lernprozess benötigt werden.

AdaGrad

Ein hochentwickelter Algorithmus für den Gradientenabstieg, der Gradienten jedes Parameters, wodurch jeder Parameter eine unabhängige Lernrate. Eine ausführliche Erläuterung finden Sie unter diesem AdaGrad-Papier.

Agent

#rl

Im Bereich bestärkendes Lernen die Entität, die ein Richtlinie, um die erwartete Rendite aus der Übergang zwischen den Bundesstaaten Umgebung.

Allgemein gesagt ist ein Agent eine Software, die eine Reihe von Aktionen zur Erreichung eines Ziels autonom plant und ausführt. Dabei kann er sich an Änderungen in seiner Umgebung anpassen. Ein LLM-basierter Agent kann beispielsweise einen LLM verwendet, um einen Plan zu erstellen, anstatt eine Richtlinie für Reinforcement Learning anzuwenden.

Agglomeratives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

Anomalieerkennung

Ausreißer identifizieren Wenn beispielsweise der Mittelwert für ein bestimmtes Merkmal 100 mit einer Standardabweichung von 10 ist, sollte die Anomalieerkennung einen Wert von 200 als verdächtig kennzeichnen.

AR

Abkürzung für Augmented Reality.

Fläche unter der PR-Kurve

Siehe PR AUC (Area under the PR Curve).

Bereich unter der ROC-Kurve

Siehe AUC (Bereich unter der ROC-Kurve).

künstliche allgemeine Intelligenz

Ein nicht menschlicher Mechanismus, der eine breite Palette von Problemlösungen, Kreativität und Anpassungsfähigkeit demonstriert. Ein Programm, das allgemeine künstliche Intelligenz demonstriert, könnte beispielsweise Texte übersetzen, Symphonien komponieren und in Spielen, die noch nicht erfunden wurden, hervorragend abschneiden.

künstliche Intelligenz

#fundamentals

Ein nicht menschliches Programm oder Modell, das anspruchsvolle Aufgaben lösen kann. Ein Programm oder Modell, das Text übersetzt, oder ein Programm oder Modell, das Krankheiten anhand radiologischer Bilder erkennt, sind Beispiele für künstliche Intelligenz.

Formal ist maschinelles Lernen ein Teilbereich des künstlichen Bedrohungsdaten. In den letzten Jahren haben einige Unternehmen jedoch damit begonnen, Begriffe künstliche Intelligenz und Maschinelles Lernen synonym.

aufmerksamkeit

#language

Mechanismus in einem neuronalen Netzwerk, der angibt, die Bedeutung eines bestimmten Wortes oder Teils eines Wortes. Die Aufmerksamkeit komprimiert die Menge an Informationen, die ein Modell zur Vorhersage des nächsten Tokens/Worts benötigt. Ein typischer Aufmerksamkeitsmechanismus gewichtete Summe über eine Reihe von Eingaben, wobei der Wert Das weight für jede Eingabe wird von einem anderen Teil des neuronalen Netzes.

Weitere Informationen finden Sie unter Selbstaufmerksamkeit und mehrköpfige Selbstaufmerksamkeit, Bausteine von Transformers.

Weitere Informationen zur Selbstaufmerksamkeit finden Sie im Machine Learning Crash Course unter LLMs: What's a large language model?.

Attribut

#fairness

Synonym für feature.

Bei der Fairness beim maschinellen Lernen beziehen sich Attribute oft auf Merkmale, die sich auf Einzelpersonen beziehen.

Stichprobenerhebung

#df

Eine Taktik zum Trainieren eines Entscheidungswalds, in der jede Der Entscheidungsbaum berücksichtigt nur eine zufällige Teilmenge möglicher Funktionen beim Lernen der Bedingung. Im Allgemeinen wird für jedes Element node Beim Trainieren eines Entscheidungsbaums ohne Attributstichprobe werden dagegen für jeden Knoten alle möglichen Merkmale berücksichtigt.

AUC (Bereich unter der ROC-Kurve)

#fundamentals

Eine Zahl zwischen 0,0 und 1,0, die ein binäre Klassifizierung des Modells positive Klassen von negative Klassen. Je näher der AUC an 1,0 liegt, desto besser kann das Modell Klassen voneinander unterscheiden.

Die folgende Abbildung zeigt beispielsweise ein Klassifikatormodell zur Trennung von positiven Klassen (grüne Ovale) von negativen Klassen. (lila Rechtecke) perfekt. Dieses unrealistisch perfekte Modell eine AUC von 1,0:

Eine Zahlenreihe mit acht positiven Beispielen auf einer Seite und
          9 Negativbeispiele auf der anderen Seite.

Umgekehrt sind in der folgenden Abbildung die Ergebnisse für einen Klassifikator das zufällige Ergebnisse generiert hat. Dieses Modell hat eine AUC von 0,5:

Eine Zahlenreihe mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist positiv, negativ,
          positiv, negativ, positiv, negativ, positiv, negativ, positiv
          negativ, positiv, negativ.

Ja, das vorherige Modell hat eine AUC von 0,5, nicht 0,0.

Die meisten Modelle liegen irgendwo zwischen diesen beiden Extremen. Zum Beispiel enthält der folgendes Modell trennt Positive von Negativen in gewisser Weise. liegt eine AUC zwischen 0,5 und 1,0:

Eine Zahlenlinie mit 6 positiven und 6 negativen Beispielen.
          Die Reihenfolge der Beispiele ist negativ, negativ, negativ, negativ,
          positiv, negativ, positiv, positiv, negativ, positiv, positiv,
          positiv zu bewerten.

Der AUC ignoriert alle Werte, die Sie für den Klassifizierungsgrenzwert festgelegt haben. Stattdessen werden bei der AUC alle möglichen Klassifizierungsschwellenwerte berücksichtigt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Augmented Reality

#image

Technologie, die ein computergeneriertes Bild über die Sicht der Nutzenden blendet der realen Welt und liefert so eine zusammengesetzte Ansicht.

Autoencoder

#language
#image

Ein System, das lernt, die wichtigsten Informationen aus der Eingabe zu extrahieren. Autoencoder sind eine Kombination aus einem Encoder und einem Decoder. Autoencoder basieren auf dem folgenden zweistufigen Prozess:

  1. Der Encoder ordnet die Eingabe einer (in der Regel) verlustbehafteten, niedrigeren Dimension (Zwischenformat).
  2. Der Decoder erstellt eine verlustbehaftete Version der ursprünglichen Eingabe, indem er das niedrigerdimensionale Format dem ursprünglichen höherdimensionalen Eingabeformat zuordnet.

Autoencoder werden end-to-end trainiert, indem der Decoder versucht, die ursprüngliche Eingabe aus dem Zwischenformat des Encoders so genau wie möglich zu rekonstruieren. Da das Zwischenformat kleiner ist, (geringere Dimension) als das Originalformat haben, wird der Autoencoder erzwungen. welche Informationen in der Eingabe wichtig sind, und die Ausgabe mit der Eingabe identisch sein.

Beispiel:

  • Handelt es sich bei den Eingabedaten um grafische Darstellungen, entspricht die nicht exakte Kopie der folgenden: Originalgrafik, aber etwas modifiziert. Vielleicht entfernt die nicht exakte Kopie das Rauschen aus der Originalgrafik oder füllt einige fehlende Pixel aus.
  • Wenn die Eingabedaten Text sind, generiert ein Autoencoder neuen Text, der dem Originaltext ähnelt, aber nicht identisch mit ihm ist.

Weitere Informationen finden Sie unter Variations-Autoencoder.

Automatisierungsverzerrung

#fairness

Wenn ein menschlicher Entscheidungsträger Empfehlungen eines automatisierten Entscheidungssystems gegenüber Informationen bevorzugt, die ohne Automatisierung erstellt wurden, auch wenn das automatisierte Entscheidungssystem Fehler macht.

Siehe Fairness: Arten von Voreingenommenheit im Crashkurs „Machine Learning“.

AutoML

Jeder automatisierte Prozess zum Erstellen von Machine-Learning-Modellen AutoML kann z. B. automatisch die folgenden Aufgaben ausführen:

  • Suchen Sie nach dem am besten geeigneten Modell.
  • Stimmen Sie Hyperparameter ab.
  • Daten vorbereiten (einschließlich Feature Engineering)
  • Stellen Sie das resultierende Modell bereit.

AutoML ist nützlich für Data Scientists, weil sie damit Zeit sparen und der Entwicklung von ML-Pipelines und der Verbesserung der Vorhersage Genauigkeit. Sie ist auch für Laien nützlich, da sie komplizierte und Aufgaben des maschinellen Lernens erleichtert werden können.

Siehe Automatisierte Maschine Lernen (AutoML) im Crashkurs „Machine Learning“.

automatisch regressives Modell

#language
#image
#generativeAI

Ein Modell, das eine Vorhersage auf der Grundlage seiner eigenen bisherigen Vorhersagen ableitet. Bei autoregressiven Sprachmodellen wird beispielsweise das nächste Token anhand der zuvor vorhergesagten Tokens vorhergesagt. Alle Transformer-basierten Large Language Models sind automatisch regressiv.

Im Gegensatz dazu sind GAN-basierte Bildmodelle normalerweise nicht automatisch regressiv. da sie ein Bild mit einem einzigen Vorwärtsdurchlauf und nicht iterativ in Schritte. Bestimmte Modelle zur Bildgenerierung sind jedoch automatisch regressiv, wird schrittweise ein Bild generiert.

Hilfsverlust

Eine Verlustfunktion, die in Verbindung mit der Hauptverlustfunktion eines Modells eines Neuralen Netzwerks verwendet wird, um das Training in den ersten Iterationen zu beschleunigen, wenn die Gewichte zufällig initialisiert werden.

Hilfsverlustfunktionen übertragen effektive Verläufe zu den früheren Layers. Dies erleichtert die Konvergenz während des Trainings, da das Problem des verschwindenden Gradienten behoben wird.

durchschnittliche Precision

Eine Messwert, mit dem die Leistung einer sortierten Ergebnissequenz zusammengefasst wird. Die durchschnittliche Genauigkeit wird berechnet, indem der Durchschnitt der precision-Werte für jedes relevante Ergebnis (jedes Ergebnis in der Rangliste, bei der der Recall im Verhältnis zum vorherigen Ergebnis zunimmt).

Siehe auch Fläche unter der PR-Kurve.

Achsenausrichtung

#df

In einem Entscheidungsbaum wird eine Bedingung die nur eine einzige Funktion umfasst. Wenn „Fläche“ beispielsweise ein Element ist, ist die folgende Bedingung achsorientiert:

area > 200

Kontrast zur schrägen Bedingung

B

Rückpropagierung

#fundamentals

Der Algorithmus, der den Gradientenabstieg in neuronalen Netzwerken implementiert.

Das Training eines neuronalen Netzwerks beinhaltet viele Iterationen des folgenden Zyklus mit zwei Durchläufen:

  1. Während der Vorwärtsterminierung verarbeitet das System einen Batch von Beispiele für Vorhersagen. Das System vergleicht alle Vorhersage für jeden label-Wert. Der Unterschied zwischen der Vorhersage und der Labelwert ist der Verlust für dieses Beispiel. Das System aggregiert die Verluste für alle Beispiele, um die Gesamtsumme zu berechnen. für den aktuellen Batch.
  2. Während des rückwärtsgerichteten Durchlaufs (Backpropagation) reduziert das System den Verlust, indem es die Gewichte aller Neuronen in allen versteckten Schichten anpasst.

Neuronale Netzwerke umfassen oft viele Neuronen auf vielen verborgenen Schichten. Jeder dieser Neuronen trägt auf unterschiedliche Weise zum Gesamtverlust bei. Bei der Backpropagation wird festgelegt, ob die Gewichte für bestimmte Neuronen erhöht oder verringert werden sollen.

Die Lernrate ist ein Multiplikator, mit dem gesteuert wird, inwieweit jedes Gewicht bei jedem Rückwärtsdurchlauf erhöht oder verringert wird. Bei einer hohen Lernrate werden die Gewichte stärker erhöht oder verringert als bei einer niedrigen Lernrate.

Mit der Backpropagation wird die Kettenregel aus der Differentialrechnung implementiert. Das heißt, die Rückpropagierung berechnet partielle Ableitung des Fehlers mit in Bezug auf den jeweiligen Parameter.

Vor Jahren mussten ML-Anwender Code schreiben, um die Rückpropagierung zu implementieren. Moderne ML-APIs wie Keras implementieren die Backpropagation jetzt für Sie. Geschafft!

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke.

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes Das zusammenhängende Modell wird anhand einer zufälligen Teilmenge von Trainings trainiert. Beispiele mit Ersatzstichproben. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäume, die mithilfe von Bagging trainiert wurden.

Der Begriff Bagging ist eine Kurzform für bootstrap aggregating (Bootstrap-Aggregation).

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Zufallswälder.

Bag of Words

#language

Eine Darstellung der Wörter in einer Wortgruppe oder einem Textabschnitt, unabhängig von der Reihenfolge. Beispielsweise werden die folgenden drei Wortgruppen im Bag-of-Words-Modell identisch dargestellt:

  • der Hund springt
  • springt den Hund
  • Hund springt

Jedem Wort wird ein Index in einem sperrigen Vektor zugeordnet, wobei der Vektor einen Index für jedes Wort im Vokabular hat. Beispiel: Der Ausdruck der Hund springt wird einem Feature-Vektor mit nicht nullwertigen Werten an den drei Indizes zugeordnet, die den Wörtern der, Hund und springt entsprechen. Bei einem Wert ungleich null kann es sich um einen der folgenden Werte handeln:

  • Eine „1“, um das Vorhandensein eines Wortes anzugeben.
  • Gibt an, wie oft ein Wort in einer Tasche erscheint. Beispiel: Wenn die Wortgruppe der kastanienbraune Hund ist ein Hund mit kastanienbraunem Fell wäre, dann gilt sowohl maroon und dog werden als 2 dargestellt, während die anderen Wörter als 1 dargestellt werden.
  • Ein anderer Wert, z. B. der Logarithmus der Anzahl der Vorkommen eines Wortes im Sack.

baseline

Ein Modell, das als Bezugspunkt zum Vergleich verwendet wird, wie gut ein anderes Modell (normalerweise ein komplexeres) Modell funktioniert. Ein logistisches Regressionsmodell kann beispielsweise als guter Vergleichswert für ein Deep Learning-Modell dienen.

Für ein bestimmtes Problem hilft der Benchmark den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist.

Batch

#fundamentals

Die Beispiele, die in einer Trainings-Iteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Unter Epoche finden Sie eine Erläuterung, wie sich ein Batch auf eine Epoche.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Batch-Inferenz

#TensorFlow
#GoogleCloud

Der Prozess des Ableitens von Vorhersagen aus mehreren Beispiele ohne Label, unterteilt in kleinere Teilmengen ("Batches").

Bei der Batch-Inferenz können die Parallelisierungsfunktionen von Beschleunigerchips genutzt werden. Das bedeutet, dass mehrere Beschleuniger gleichzeitig Vorhersagen für verschiedene Batches von unbeschrifteten Beispielen ableiten können, wodurch die Anzahl der Inferenzen pro Sekunde drastisch erhöht wird.

Siehe Produktions-ML-Systeme: Statisch vs. dynamisch Inferenz im Crashkurs „Machine Learning“.

Batchnormalisierung

Eine Normalisierung der Ein- und Ausgabe des Aktivierungsfunktionen in einem ausgeblendete Ebene: Die Batch-Normalisierung bietet folgende Vorteile:

Batchgröße

#fundamentals

Die Anzahl der Beispiele in einem Batch. Wenn die Batchgröße beispielsweise 100 beträgt, verarbeitet das Modell 100 Beispiele pro Iteration.

Die folgenden Strategien sind beliebte Batchgrößen-Strategien:

  • Stochastic Gradient Descent (SGD) mit einer Batchgröße von 1.
  • Vollständiger Batch, bei dem die Batchgröße die Anzahl der Beispiele im gesamten Trainings-Dataset Wenn z. B. das Trainings-Dataset eine Million Beispiele enthält, wäre die Batchgröße eine Million Beispiele. Die vollständige Batch-Datei ist in der Regel eine ineffiziente Strategie.
  • Mini-Batch, bei dem die Batchgröße normalerweise zwischen 10 und 1.000. Mini-Batches sind normalerweise die effizienteste Strategie.

Weitere Informationen finden Sie hier:

Bayes'sches neuronales Netzwerk

Ein probabilistisches neuronales Netzwerk, das Unsicherheiten bei Gewichten und Ausgaben berücksichtigt. Ein neuronales Standardnetzwerk Regressionsmodell prognostiziert normalerweise einen Skalarwert. Ein Standardmodell prognostiziert z. B. einen Hauspreis von 853.000. Im Gegensatz dazu prognostiziert ein Bayes'sches neuronales Netzwerk values; Ein bayessches Modell prognostiziert beispielsweise einen Hauspreis von 853.000 mit eine Standardabweichung von 67.200.

Ein Bayes'sches neuronales Netzwerk Bayes Theorem um Unsicherheiten bei Gewichtungen und Vorhersagen zu berechnen. Ein bayesianisches neuronales Netzwerk kann nützlich sein, wenn es wichtig ist, Unsicherheiten zu quantifizieren, z. B. in Modellen im Zusammenhang mit Arzneimitteln. Bayesische neuronale Netze können auch dazu beitragen, Überanpassungen zu vermeiden.

Bayes'sche Optimierung

Eine probabilistische Regressionsmodell-Methode zur Optimierung von rechenintensiven Zielfunktionen, bei der stattdessen ein Surrogat optimiert wird, das die Unsicherheit mithilfe einer Bayesschen Lernmethode quantifiziert. Da die bayesianische Optimierung selbst sehr aufwendig ist, wird sie in der Regel verwendet, um Aufgaben mit einer kleinen Anzahl von Parametern zu optimieren, die eine teure Auswertung erfordern, z. B. die Auswahl von Hyperparametern.

Bellman-Gleichung

#rl

Beim Reinforcement Learning muss die folgende Identität durch die optimale Q-Funktion erfüllt sein:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Die Algorithmen des Bestärkenden Lernens wenden das an. Identität, um Q-Learning über die folgende Aktualisierungsregel zu erstellen:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Neben bestärkendem Lernen bietet die Bellman-Gleichung auch dynamische Programmierung. Weitere Informationen finden Sie in der Wikipedia-Eintrag zur Bellman-Gleichung.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Eine Modellarchitektur für die Textdarstellung. Ein trainiertes BERT-Modell kann als Teil eines größeren Modells für die Textklassifizierung oder andere ML-Aufgaben dienen.

BERT hat die folgenden Merkmale:

Zu den BERT-Varianten gehören:

Siehe BERT für Open Sourcing: State-of-the-Art Pre-Training for Natural Language Wird verarbeitet um einen Überblick über BERT zu erhalten.

Voreingenommenheit (Ethik/Fairness)

#fairness
#fundamentals

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Voreingenommenheiten können sich auf die Erfassung und Interpretation von Daten, das Design eines Systems und die Art und Weise, wie Nutzende interagieren mit einem System. Beispiele für diese Art von Verzerrung sind:

2. Systematischer Fehler, der durch Stichprobenerhebung oder Berichterstellung verursacht wird. Beispiele für diese Art von Verzerrung sind:

Nicht zu verwechseln mit dem Bias-Begriff in Machine-Learning-Modellen oder dem Vorhersagefehler.

Siehe Fairness: Arten von Verzerrung bei der Crashkurs „Maschinelles Lernen“.

Verzerrung (Mathematik) oder Bias-Begriff

#fundamentals

Ein Achsenabschnitt oder Versatz von einem Ursprung. Der Bias ist ein Parameter in Modellen für maschinelles Lernen, der durch einen der folgenden Symbole dargestellt wird:

  • M
  • W0

So ist der Bias beispielsweise das b in der folgenden Formel:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Bei einer einfachen zweidimensionalen Linie bedeutet „Bias“ einfach „y-Achsenabschnitt“. In der folgenden Abbildung hat die Linie beispielsweise eine Vorabweichung von 2.

Diagramm einer Geraden mit einer Steigung von 0,5 und einer Verzerrung (y-Achsenabschnitt) von 2.

Verzerrung liegt vor, weil nicht alle Modelle am Ursprung (0,0) beginnen. Beispiel: Ein Vergnügungspark kostet 2 € und eine weitere 0,50 € pro Stunde, die ein Kunde übernachtet. Daher kann ein Modell, das die Die Gesamtkosten weisen eine Verzerrung von 2 auf, da die niedrigsten Kosten 2 Euro betragen.

Voreingenommenheit ist nicht mit Voreingenommenheit in Bezug auf Ethik und Fairness oder Voreingenommenheit bei der Vorhersage zu verwechseln.

Siehe Lineare Regression im Crashkurs „Machine Learning“.

bidirektional

#language

Ein Begriff, der ein System beschreibt, das den Text auswertet, der vorher und folgt einem Zieltextabschnitt. Im Gegensatz dazu Nur unidirektionales System wertet den Text aus, der einem Zieltextabschnitt vor ist.

Betrachten wir beispielsweise ein maskiertes Sprachmodell, das die Wahrscheinlichkeiten für das Wort oder die Wörter bestimmen muss, die in der folgenden Frage durch Unterstreichung gekennzeichnet sind:

Was ist _____ mit Ihnen?

Ein unidirektionales Sprachmodell müsste nur auf seine Wahrscheinlichkeiten basieren. zum Kontext der Wörter „Was“, „ist“ und „der“. Im Gegensatz dazu könnte ein bidirektionales Language Model auch Kontext durch und „you“, was dem Modell helfen kann, bessere Vorhersagen zu generieren.

Bidirektionales Sprachmodell

#language

Ein Sprachmodell, das anhand des vorangehenden und folgenden Texts die Wahrscheinlichkeit bestimmt, dass sich ein bestimmtes Token an einer bestimmten Stelle in einem Textausschnitt befindet.

Bigram

#seq
#language

Ein N-Gramm mit N = 2.

Binäre Klassifizierung

#fundamentals

Eine Art von Klassifizierungsaufgabe, bei der eine von zwei sich gegenseitig ausschließenden Klassen vorhergesagt wird:

Die folgenden beiden Modelle für maschinelles Lernen führen beispielsweise eine binäre Klassifizierung durch:

  • Ein Modell, das bestimmt, ob E-Mails spam (die positive Klasse) oder not spam (die negative Klasse).
  • Modell, das medizinische Symptome bewertet, um festzustellen, ob eine Person hat eine bestimmte Krankheit (die positive Klasse) oder nicht Krankheit (die negative Klasse).

Im Kontrast zur Klassifizierung mit mehreren Klassen stehen.

Siehe auch logistische Regression und Klassifizierungsschwellenwert.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Binärbedingung

#df

In einem Entscheidungsbaum ist eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel ja oder nein. Ein Beispiel für eine binäre Bedingung:

temperature >= 100

Im Kontrast zur nicht binären Bedingung stehen.

Weitere Informationen finden Sie unter Bedingungstypen. finden Sie weitere Informationen dazu.

Gruppieren

Synonym für bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Ein Wert zwischen 0,0 und 1,0 (jeweils einschließlich), der die Qualität einer Übersetzung angibt. zwischen zwei menschlichen Sprachen (z. B. Englisch und Russisch) zu vergleichen. Ein BLEU-Wert von 1,0 entspricht einer perfekten Übersetzung, ein Wert von 0,0 einer schlechten Übersetzung.

Steigerung

Ein Verfahren für maschinelles Lernen, bei dem eine Reihe einfacher und nicht sehr genauer Klassifikatoren (sogenannte „schwache“ Klassifikatoren) iterativ zu einem Klassifikator mit hoher Genauigkeit (einem „starken“ Klassifikator) kombiniert werden, indem die Beispiele, die das Modell derzeit falsch klassifiziert, gewichtet werden.

Farbverlauf-Boosted-Entscheidung ansehen Bäume? finden Sie weitere Informationen dazu.

Begrenzungsrahmen

#image

In einem Bild werden die Koordinaten (x, y) eines Rechtecks um eine Fläche von Interesse, wie der Hund im Bild unten.

Foto eines Hundes, der auf einem Sofa sitzt. Ein grüner Begrenzungsrahmen
          mit den Koordinaten (275, 1271) oben links und rechts unten
          die Koordinaten von (2954, 2761) umschreiben den Körper des Hundes.

Broadcasting

Die Form eines Operanden in einer Matrixmathematikoperation auf Dimensionen ausweiten, die mit dieser Operation kompatibel sind. In der linearen Algebra müssen beispielsweise die beiden Operanden einer Matrixaddition dieselbe Dimension haben. Daher können Sie keine Formmatrix hinzufügen. (m, n) zu einem Vektor der Länge n. Broadcasting ermöglicht diesen Vorgang, indem die virtuelle Erweiterung des Vektors der Länge n auf eine Matrix der Form (m, n) durch und repliziert dieselben Werte in jeder Spalte.

Angesichts der folgenden Definitionen verbietet die lineare Algebra beispielsweise A+B, da A und B unterschiedliche Dimensionen haben:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Bei der Übertragung ist jedoch der Vorgang „A + B“ möglich, da B virtuell auf Folgendes erweitert wird:

 [[2, 2, 2],
  [2, 2, 2]]

Daher ist A + B jetzt ein gültiger Vorgang:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Weitere Informationen finden Sie in der folgenden Beschreibung von Broadcasting in NumPy.

Bucketing

#fundamentals

Umwandlung eines einzelnen Features in mehrere binäre Features, die als Buckets oder Bins bezeichnet werden, in der Regel basierend auf einem Wertebereich. Die geschnittene Funktion ist in der Regel ein fortlaufende Funktion:

Anstatt die Temperatur beispielsweise als einzelnes kontinuierliches Gleitkomma-Attribut darzustellen, können Sie Temperaturbereiche in diskrete Bereiche unterteilen, z. B.:

  • Unter 10 °C würde der „kalte“ Bereich sein.
  • 11 bis 24 Grad Celsius würden in die Kategorie „gemäßigt“ fallen.
  • „Wärme“ würde für eine Temperatur von mindestens 25 Grad Celsius stehen.

Im Modell werden alle Werte im selben Bucket identisch behandelt. Wenn sich die Werte 13 und 22 beispielsweise beide im mittelmäßigen Bucket befinden, werden sie vom Modell identisch behandelt.

Siehe Numerische Daten: Gruppieren im Crashkurs „Machine Learning“.

C

Kalibrierungsschicht

Eine Anpassung nach der Vorhersage, in der Regel zur Berücksichtigung der Vorhersageverzerrung. Die angepassten Vorhersagen und die Wahrscheinlichkeiten der Verteilung eines beobachteten Satzes von Labels entsprechen.

Kandidatengenerierung

#recsystems

Die ersten Empfehlungen, die von einem Empfehlungssystem ausgewählt wurden. Angenommen, Sie haben einen Buchladen mit 100.000 Titeln. In der Phase der Kandidatengenerierung wird eine viel kleinere Liste geeigneter Bücher für einen bestimmten Nutzer erstellt, z. B. 500. Aber selbst 500 Bücher sind zu viele, um sie einem Nutzer zu empfehlen. In den nachfolgenden, kostenintensiveren Phasen eines Empfehlungssystems (z. B. Bewertung und Neubewertung) werden diese 500 auf eine viel kleinere, nützlichere Gruppe von Empfehlungen reduziert.

Weitere Informationen finden Sie im Kurs „Empfehlungssysteme“ unter Übersicht über die Kandidatengenerierung.

Stichprobenerhebung bei Kandidaten

Eine Optimierung während des Trainings, bei der eine Wahrscheinlichkeit für alle positiven Labels berechnet wird, z. B. mit Softmax, aber nur für eine zufällige Stichprobe negativer Labels. Bei einem Beispiel mit der Bezeichnung beagle und dog – durch Kandidatenstichproben werden die vorhergesagten Wahrscheinlichkeiten berechnet. und entsprechende Verlustbedingungen für:

  • Beagle
  • Hund
  • eine zufällige Teilmenge der verbleibenden negativen Klassen (z. B. Katze, Lutscher, Zaun).

Die Idee ist, dass die negativen Klassen auch aus weniger häufigen negativen Verstärkungen lernen können, solange die positiven Klassen immer eine angemessene positive Verstärkung erhalten. Dies wird tatsächlich empirisch beobachtet.

Die Stichprobenerhebung ist rechnerisch effizienter als Trainingsalgorithmen, die Vorhersagen für alle negativen Klassen berechnen, insbesondere wenn die Anzahl der negativen Klassen sehr groß ist.

kategorische Daten

#fundamentals

Elemente mit einem bestimmten Satz möglicher Werte. Beispiel: betrachten wir ein kategoriales Merkmal namens traffic-light-state, das nur haben einen der folgenden drei möglichen Werte:

  • red
  • yellow
  • green

Wenn traffic-light-state als kategorisches Feature dargestellt wird, kann ein Modell die unterschiedlichen Auswirkungen von red, green und yellow auf das Fahrerverhalten lernen.

Kategoriale Merkmale werden manchmal als diskrete Funktionen:

Im Gegensatz zu numerischen Daten.

Weitere Informationen finden Sie unter Mit kategorialen Daten im Crashkurs „Machine Learning“.

kausales Language Model

#language

Synonym für unidirektionales Sprachmodell.

Unter bidirektionales Sprachmodell finden Sie einen Vergleich verschiedener Richtungsansätze bei der Sprachmodellierung.

centroid

#clustering

Zentrum eines Clusters, bestimmt durch ein k-Means- oder k-Median-Algorithmus. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus drei Schwerpunkte gefunden.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Schwerpunktbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die Daten organisieren in nicht hierarchischen Clustern verteilt werden. k-Means ist der am weitesten verbreitete zenroidbasierten Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen

Siehe Clustering-Algorithmen im Clustering-Kurs.

Chain-of-Thought Prompting

#language
#generativeAI

Eine Prompt-Engineering-Technik, die dazu beiträgt, ein Large Language Model (LLM) nutzen, um seine Logik, Schritt für Schritt. Betrachten Sie zum Beispiel den folgenden Prompt: insbesondere auf den zweiten Satz:

Wie viele g-Kräfte wirken auf einen Fahrer in einem Auto, das in 7 Sekunden von 0 auf 100 km/h beschleunigt? Zeigen Sie in der Antwort alle relevanten Berechnungen.

Die Antwort des LLM würde wahrscheinlich:

  • Zeigen Sie eine Reihe von Physikformeln an und setzen Sie an den entsprechenden Stellen die Werte 0, 60 und 7 ein.
  • Erläutern Sie, warum diese Formeln ausgewählt wurden und was die verschiedenen Variablen bedeuten.

Das LLM zwingt das LLM, alle Berechnungen durchzuführen, was zu einer richtigen Antwort führen könnte. Darüber hinaus ist eine Chain-of-Thinking-Methode Prompts ermöglichen es Nutzenden, die Schritte des LLM zu untersuchen, um festzustellen, ob die Antwort sinnvoll ist.

Chat

#language
#generativeAI

Die Inhalte eines wechselseitigen Dialogs mit einem ML-System, in der Regel Large Language Model: Vorherige Interaktion in einem Chat was Sie eingegeben haben und wie das Large Language Model geantwortet hat. Kontext für die nachfolgenden Teile des Chats.

Ein Chatbot ist eine Anwendung eines Large Language Models.

CHECKPOINT

Daten, die den Status der Parameter eines Modells erfassen, entweder oder nach Abschluss des Trainings. Sie können während des Trainings beispielsweise:

  1. Das Training wird beendet, möglicherweise absichtlich oder aufgrund bestimmter Fehler.
  2. Prüfpunkt erfassen
  3. Laden Sie den Checkpoint später wieder, möglicherweise auf einer anderen Hardware.
  4. Starten Sie das Training neu.

Klasse

#fundamentals

Eine Kategorie, zu der ein Label gehören kann. Beispiel:

Ein Klassifizierungsmodell sagt eine Klasse vorher. Ein Regressionsmodell sagt dagegen eine Zahl anstelle einer Klasse vorher.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung.

Klassifizierungsmodell

#fundamentals

Ein Modell, dessen Vorhersage eine Klasse ist. Im Folgenden finden Sie alle Klassifizierungsmodelle:

  • Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?).
  • Ein Modell, das Baumarten vorhersagt (Maple? Eiche? Affenbrot?).
  • Ein Modell, das die positive oder negative Klasse für eine bestimmte Erkrankung vorhersagt.

Regressionsmodelle sagen dagegen Zahlen anstelle von Klassen vorher.

Zwei gängige Arten von Klassifizierungsmodellen sind:

Klassifizierungsschwellenwert

#fundamentals

Bei einer binären Klassifizierung ist ein Zahl zwischen 0 und 1, die die Rohausgabe eines logistisches Regressionsmodell in eine Vorhersage entweder der positiven Klasse oder die negative Klasse. Der Klassifizierungsgrenzwert ist ein Wert, der von einem Nutzer ausgewählt wird, nicht durch das Modelltraining.

Ein logistisches Regressionsmodell gibt einen Rohwert zwischen 0 und 1 aus. Dann:

  • Wenn dieser Rohwert größer als der Klassifizierungsschwellenwert ist, dann: wird die positive Klasse vorhergesagt.
  • Wenn dieser Rohwert unter dem Klassifizierungsschwellenwert liegt, wird die negative Klasse vorhergesagt.

Angenommen, der Klassifizierungsschwellenwert beträgt 0,8. Wenn der Rohwert 0,9 beträgt, sagt das Modell die positive Klasse vorher. Wenn der Rohwert 0,7 beträgt, sagt das Modell die negative Klasse vorher.

Die Auswahl des Klassifizierungsgrenzwerts hat einen starken Einfluss auf die Anzahl der falsch positiven und falsch negativen Ergebnisse.

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Dataset mit klassenunausgeglichenem Dataset

#fundamentals

Ein Dataset für ein Klassifizierungsproblem, bei dem die Gesamtzahl der Labels jeder Klasse unterscheiden sich erheblich. Nehmen wir als Beispiel ein binäres Klassifizierungs-Dataset, dessen zwei Labels wie folgt aufgeteilt:

  • 1.000.000 Label für auszuschließende Inhalte
  • 10 positive Labels

Das Verhältnis von negativen zu positiven Labels beträgt 100.000:1. Daher ist dies ein ungleichmäßig verteilter Datensatz.

Im Gegensatz dazu ist das folgende Dataset nicht unausgeglichen, da das Verhältnis der negativen zu den positiven Labels relativ nahe bei 1 liegt:

  • 517 ausschließende Labels
  • 483 positive Labels

Datasets mit mehreren Klassen können auch klassenunausgewogen sein. Beispiel: Das mehrklassige Klassifizierungs-Dataset ist ebenfalls unausgewogen, da ein Label enthält weit mehr Beispiele als die anderen beiden:

  • 1.000.000 Labels mit der Klasse „grün“
  • 200 Labels mit der Klasse „lila“
  • 350 Labels mit der Klasse „orange“

Weitere Informationen finden Sie unter Entropie, Mehrheitsklasse und Minderheitsklasse.

Clipping

#fundamentals

Verfahren zum Umgang mit Ausreißern durch: Entweder oder beide:

  • Attribut-Werte, die über einem Maximalgrenzwert liegen, werden auf diesen Grenzwert reduziert.
  • Die Werte von Funktionen, die unter einem Mindestwert liegen, werden auf diesen Mindestwert erhöht.

Angenommen, weniger als 0,5 % der Werte für ein bestimmtes Merkmal fallen außerhalb des Bereichs 40–60. In diesem Fall könnten Sie so vorgehen:

  • Alle Werte über 60 (der maximale Grenzwert) werden auf genau 60 gekürzt.
  • Alle Werte unter 40 (der Mindestgrenzwert) werden auf genau 40 gekürzt.

Außerhalb der Norm liegende Werte können Modelle beschädigen und manchmal dazu führen, dass Gewichte während des Trainings überlaufen. Einige Ausreißer können auch dramatisch verderben Messwerte wie Genauigkeit. Das Abschneiden ist eine gängige Methode, für den Schaden.

Kräfte zum Abschneiden des Farbverlaufs Gradienten-Werten innerhalb eines festgelegten Bereichs während des Trainings.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Numerische Daten: Normalisierung.

Cloud TPU

#TensorFlow
#GoogleCloud

Spezieller Hardwarebeschleuniger zum Beschleunigen der Maschine Lernarbeitslasten in Google Cloud.

Clustering

#clustering

Gruppieren Sie ähnliche Beispiele, insbesondere beim nicht überwachten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der K-Means-Algorithmus gruppiert beispielsweise Beispiele basierend auf ihrer Nähe zu einem Centroid, wie im folgenden Diagramm dargestellt:

Ein zweidimensionales Diagramm, in dem die X-Achse mit „Breite des Baums“ und die Y-Achse mit „Höhe des Baums“ beschriftet ist. Das Diagramm enthält zwei
          Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die einem Clusterschwerpunkt am nächsten sind, werden als Cluster 1 kategorisiert, während diejenigen, die dem anderen Clusterschwerpunkt am nächsten sind, als Cluster 2 kategorisiert werden.

Ein menschlicher Forscher könnte dann die Cluster überprüfen und zum Beispiel Cluster 1 als „Zwergbäume“ kennzeichnen und Cluster 2 als „Bäume in voller Größe“ angezeigt.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Das wird hier veranschaulicht:

Dutzende Datenpunkte sind in konzentrischen Kreisen angeordnet,
          wie Löcher um die Mitte einer Dartscheibe. Der innerste Ring
          der Datenpunkte wird als Cluster 1 kategorisiert, der mittlere Ring
          als Cluster 2 kategorisiert und der äußerste Ring
          Cluster 3.

Weitere Informationen finden Sie im Kurs zum Thema Clustering.

Co-Anpassung

Wenn Neuronen Muster in Trainingsdaten vorhersagen, indem sie sich fast ausschließlich auf die Ausgabe bestimmter anderer Neuronen stützen, anstatt sich auf das Verhalten des gesamten Netzwerks zu verlassen. Wenn die Muster, die zu einer Co-Adaption führen, nicht in den Validierungsdaten vorhanden sind, führt die Co-Adaption zu einer Überanpassung. Dropout-Regularisierung reduziert die Co-Anpassung weil es dafür sorgt, dass Neuronen sich nicht nur auf bestimmte andere Neuronen verlassen können.

kollaboratives Filtern

#recsystems

Vorhersagen zu den Interessen eines Nutzers basierend auf den Interessen vieler anderer Nutzer treffen. Kollaboratives Filtern wird häufig in Empfehlungssystemen verwendet.

Siehe Collaborative Filtern finden Sie weitere Informationen dazu.

Konzeptabweichung

Eine Verschiebung in der Beziehung zwischen Elementen und dem Label. Im Laufe der Zeit verringert eine Konzeptabweichung die Qualität eines Modells.

Während des Trainings lernt das Modell die Beziehung zwischen den Features und ihren Labels im Trainingssatz. Wenn die Labels im Trainingssatz gute Proxys für die reale Welt sind, sollte das Modell gute Vorhersagen für die reale Welt treffen. Aufgrund von Konzeptabweichungen verschlechtern sich die Vorhersagen des Modells jedoch mit der Zeit.

Angenommen, Sie verwenden eine binäre Klassifizierung. Modell zu erstellen, das vorhersagt, ob ein bestimmtes Automodell "kraftstoffeffizient" ist. Mögliche Funktionen:

  • Fahrzeuggewicht
  • Motorkompressung
  • transmission type

Das Label ist entweder:

  • spritsparend
  • nicht spritsparend

Das Konzept des „kraftstoffsparenden Autos“ behält ändern. Ein Automodell mit der Bezeichnung kraftstoffsparend im Jahr 1994 würde mit hoher Wahrscheinlichkeit 2024 als nicht spritsparend gekennzeichnet werden. Bei einem Modell mit Konzeptdrift werden mit der Zeit immer weniger nützliche Vorhersagen gemacht.

Vergleichen Sie sie mit Instationarität.

condition

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil einer Entscheidungsbaum enthält zwei Bedingungen:

Ein Entscheidungsbaum mit zwei Bedingungen: (x > 0) und (y > 0).

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrastbedingung mit Blatt

Siehe auch:

Weitere Informationen finden Sie unter Bedingungstypen. finden Sie weitere Informationen dazu.

Konfabulation

#language

Synonym für Halluzination.

Konfabulation ist wahrscheinlich ein technisch genauerer Begriff als Halluzination. Halluzinationen wurden jedoch zuerst beliebt.

Konfiguration

Das Zuweisen der anfänglichen Attributwerte, die zum Trainieren eines Modells verwendet werden, einschließlich:

In ML-Projekten kann die Konfiguration über eine spezielle Konfigurationsdatei oder mithilfe von Konfigurationsbibliotheken wie den folgenden verwenden:

Bestätigungsfehler

#fairness

Die Tendenz, Informationen zu suchen, zu interpretieren, zu bevorzugen und in Erinnerung zu rufen, bereits bestehende Überzeugungen oder Hypothesen bestätigen. Entwickler von Systemen für maschinelles Lernen können Daten versehentlich so erheben oder labeln, dass ein Ergebnis beeinflusst wird, das ihre bestehenden Überzeugungen unterstützt. Der Bestätigungsfehler ist eine Form der impliziten Voreingenommenheit.

Die Experimentatorverzerrung ist eine Form der Bestätigungsverzerrung, bei der Ein Experimentator trainiert Modelle so lange, bis ein dass die Hypothese bestätigt ist.

Wahrheitsmatrix

#fundamentals

Eine NxN-Tabelle, die die Anzahl der richtigen und falschen Vorhersagen zusammenfasst die ein Klassifizierungsmodell erstellt hat. Betrachten Sie beispielsweise die folgende Fehlermatrix für ein Modell der binären Klassifizierung:

Tumor (vorhergesagt) Kein Tumor (prognostiziert)
Tumor (Ground Truth) 18 (TP) 1 (FN)
Nicht-Tumor (Ground Truth) 6 (FP) 452 (TN)

Die obige Wahrheitsmatrix zeigt Folgendes:

  • Von den 19 Vorhersagen, bei denen Ground Truth „Tumor“ war, hat das Modell 18 richtig und 1 falsch klassifiziert.
  • Von den 458 Vorhersagen, bei denen die Grundwahrheit „Nicht-Tumor“ war, wurde das Modell richtig klassifiziert 452 und falsch klassifiziert 6.

Die Wahrheitsmatrix für ein Problem mit der Klassifizierung mehrerer Klassen kann Ihnen helfen, Muster von Fehlern zu erkennen. Betrachten Sie beispielsweise die folgende Wahrheitsmatrix für eine 3-Klassen-Klasse. Klassifizierungsmodell mit mehreren Klassen, das drei verschiedene Iristypen kategorisiert (Virginica, Versicolor und Setosa). Wenn die Ground Truth „Virginica“ war, zeigt die Wahrheitsmatrix, dass das Modell mit viel höherer Wahrscheinlichkeit fälschlicherweise „Versicolor“ als „Setosa“ vorhersagte:

  Setosa (vorhergesagt) Versicolor (vorhergesagt) Virginica (vorhergesagt)
Setosa (Ground Truth) 88 12 0
Versicolor (Ground Truth) 6 141 7
Virginica (Ground Truth) 2 27 109

Als weiteres Beispiel könnte eine Fehlermatrix zeigen, dass ein Modell, das auf die Erkennung handgeschriebener Ziffern trainiert wurde, häufig fälschlicherweise „9“ anstelle von „4“ oder „1“ anstelle von „7“ vorhersagt.

Wahrheitsmatrizes enthalten genügend Informationen, um eine verschiedene Leistungsmesswerte, einschließlich Genauigkeit und Recall.

Wahlkreisanalyse

#language

Ein Satz wird in kleinere grammatische Strukturen („Konstituenten“) unterteilt. Ein späterer Teil des ML-Systems, z. B. ein Modell für das Verstehen natürlicher Sprache, kann die Bestandteile leichter analysieren als den ursprünglichen Satz. Betrachten Sie beispielsweise den folgenden Satz:

Meine Freundin hat zwei Katzen adoptiert.

Ein Konstituentenparser kann diesen Satz in die folgenden zwei Konstituenten unterteilen:

  • Mein Freund ist ein Nomen.
  • zwei Katzen adoptiert ist eine Verbphrase.

Diese Bestandteile können weiter in kleinere Bestandteile unterteilt werden. Zum Beispiel die Verbphrase

zwei Katzen adoptiert

kann weiter unterteilt werden in:

  • adopted ist ein Verb.
  • zwei Katzen ist eine weitere Nominalphrase.

kontextbezogene Spracheinbettung

#language
#generativeAI

Eine Embedding-Technologie, die Wörter und Wortgruppen so „versteht“, wie es Muttersprachler tun. Kontextbezogene Sprache Einbettungen können komplexe Syntax, Semantik und Kontext verstehen.

Betrachten wir beispielsweise die Einbettungen des englischen Wortes cow. Ältere Einbettungen wie word2vec können englische Wörter so darstellen, dass die Entfernung im Embedding-Raum von Kuh zu Stier der Entfernung von Schaf zu Bock oder von weiblich zu männlich entspricht. Kontextbezogene Sprache Einbettungen können sogar noch einen Schritt weiter gehen, da sie erkennen, dass englischsprachige Nutzer das Wort Kuh für Kuh oder Stier.

Kontextfenster

#language
#generativeAI

Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt verarbeiten kann. Je größer das Kontextfenster ist, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu geben.

stetiges Feature

#fundamentals

Ein Gleitkomma-Feature mit einem unendlichen Bereich möglicher wie Temperatur oder Gewicht.

Stellen Sie einen Kontrast mit der diskreten Funktion her.

willkürliche Stichproben

Verwendung eines nicht wissenschaftlich erhobenen Datensatzes, um schnelle Tests durchzuführen. Später ist es unerlässlich, auf wissenschaftlich Dataset.

Konvergenz

#fundamentals

Ein Zustand, der erreicht wird, wenn sich die Verlust-Werte bei jeder Iteration nur wenig oder gar nicht ändern. Beispiel: Die Verlustkurve suggeriert eine Konvergenz bei etwa 700 Iterationen:

kartesisches Diagramm. Die X-Achse ist der Verlust. Die Y-Achse ist die Anzahl der Trainingsiterationen. Der Verlust ist in den ersten Iterationen sehr hoch,
          stark ab. Nach etwa 100 Iterationen ist der Verlust immer noch
          absteigend, aber viel allmählicher. Nach etwa 700 Iterationen bleibt der Verlust gleich.

Ein Modell konvergiert, wenn es durch zusätzliches Training nicht verbessert werden kann.

Beim Deep Learning bleiben die Verlustwerte manchmal über viele Iterationen hinweg konstant oder nahezu konstant, bevor sie schließlich sinken. Über einen längeren Zeitraum konstanter Verlustwerte zu sehen, kann es sein, dass Sie temporär ein falsches Konvergenzgefühl haben.

Siehe auch vorzeitiges Beenden.

Siehe Modellkonvergenz und -verlust Kurven im Crashkurs „Machine Learning“.

konvexe Funktion

Eine Funktion, bei der die Region über dem Funktionsgraphen ein konvexes Gebilde ist. Die prototypische konvexe Funktion ist die dem Buchstaben U ähnelt. Beispiel: sind alles konvexe Funktionen:

U-förmige Kurven mit jeweils einem Minimalpunkt.

Im Gegensatz dazu ist die folgende Funktion nicht konvex. Beachten Sie, wie die Region über dem Diagramm ist keine konvexe Menge:

Eine W-förmige Kurve mit zwei verschiedenen lokalen Minimalpunkten.

Eine strikt konvexe Funktion hat genau einen lokalen Mindestpunkt, der ist auch der globale Minimalpunkt. Die klassischen U-förmigen Funktionen sind streng konvexe Funktionen. Einige konvexe Funktionen (z. B. Geraden) sind jedoch nicht U-förmig.

Siehe Konvergenz und konvex Funktionen im Crashkurs „Machine Learning“.

Konvexe Optimierung

Der Prozess der Anwendung mathematischer Techniken wie Gradientenverfahren, das Minimum einer konvexen Funktion. Ein großer Teil der Forschung im Bereich des maschinellen Lernens konzentriert sich darauf, verschiedene wie konvexe Optimierungsprobleme auftreten, effizient kommunizieren können.

Ausführliche Informationen finden Sie in Boyd und Vandenberghe, Convex Optimization.

konvexe Menge

Eine Teilmenge des euklidischen Raums, bei der eine Linie, die zwischen zwei beliebigen Punkten in der Teilmenge gezogen wird, vollständig innerhalb der Teilmenge bleibt. Die folgenden beiden Formen sind konvexe Sätze:

Abbildung eines Rechtecks Eine weitere Abbildung eines Ovals.

Im Gegensatz dazu sind die folgenden beiden Formen keine konvexen Mengen:

Eine Abbildung eines Kreisdiagramms mit einem fehlenden Segment.
          Eine weitere Abbildung eines extrem unregelmäßigen Polygons.

Faltung

#image

In der Mathematik ist eine Kombination aus zwei Funktionen gemeint. Bei der Convolutional Neural Network (CNN) wird durch eine Convolution der Convolutional-Filter mit der Eingabematrix gemischt, um Gewichte zu trainieren.

Der Begriff „Faltung“ beim maschinellen Lernen ist eine kurze Möglichkeit, sich entweder auf einen Convolutional Operator oder Convolutional Layer.

Ohne Convolutionen müsste ein Algorithmus für maschinelles Lernen ein separates Gewicht für jede Zelle in einem großen Tensor lernen. Ein Algorithmus für maschinelles Lernen, der mit 2K × 2K-Bildern trainiert wird, müsste beispielsweise 4 Millionen separate Gewichte finden. Dank der Convolutionen muss ein Algorithmus für maschinelles Lernen nur Gewichte für jede Zelle im Convolutionsfilter finden, wodurch der für das Training des Modells erforderliche Arbeitsspeicher drastisch reduziert wird. Wenn der Convolutional-Filter angewendet wird, wird er einfach in den Zellen repliziert, sodass jede Zelle mit dem Filter multipliziert wird.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Convolutional Neural Networks (CNNs).

Convolutionsfilter

#image

Einer der beiden Schauspieler in einem Convolutional Operation. (Der andere Schauspieler ist ein Segment einer Eingabematrix.) Ein Faltungsfilter ist eine Matrix mit denselben Rang wie die Eingabematrix, jedoch eine kleinere Form. Bei einer Eingabematrix von 28 × 28 kann der Filter beispielsweise eine beliebige 2D-Matrix sein, die kleiner als 28 × 28 ist.

Bei der fotografischen Manipulation werden alle Zellen in einem Faltungsfilter in der Regel auf ein konstantes Muster aus Einsen und Nullen eingestellt. Beim maschinellen Lernen Faltungsfilter werden in der Regel mit Zufallszahlen versehen, trainiert das Netzwerk die idealen Werte.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Convolution.

Convolutional Layer

#image

Die Schicht eines neuronalen Deep-Learning-Netzwerks, in der ein Der Faltungsfilter übergibt eine Eingabe Matrixstruktur. Betrachten Sie beispielsweise den folgenden 3 × 3-Konvolutionsfilter:

Eine 3x3-Matrix mit den folgenden Werten: [[0,1,0], [1,0,1], [0,1,0]]

Die folgende Animation zeigt eine Convolutional Layer mit 9 Convolutional-Vorgängen, die die 5 × 5 Eingabematrix betreffen. Beachten Sie, dass jede Die Faltungsfunktion arbeitet mit einem anderen 3x3-Slice der Eingabematrix. Die daraus resultierende 3x3-Matrix (rechts) besteht aus den Ergebnissen der 9 Faltungsvorgänge:

Eine Animation, die zwei Matrizen zeigt. Die erste Matrix ist 5x5
          Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].
          Die zweite Matrix ist die 3 × 3-Matrix:
          [[181,303,618], [115,338,605], [169,351,560]].
          Die zweite Matrix wird berechnet, indem der Konvolutionsfilter [[0, 1, 0], [1, 0, 1], [0, 1, 0]] auf verschiedene 3 × 3-Untermengen der 5 × 5-Matrix angewendet wird.

Weitere Informationen finden Sie im Kurs zur Bildklassifizierung unter Vollständig verbundene Schichten.

Convolutional Neural Network

#image

Ein neuronales Netzwerk, bei dem mindestens eine Schicht eine Convolutional Layer ist. Eine typische Faltung eines neuronalen Netzwerks besteht aus einer Kombination der folgenden Schichten:

Convolutional Neural Networks haben bei bestimmten Arten von Problemen, z. B. bei der Bilderkennung, große Erfolge erzielt.

Faltungsvorgang

#image

Die folgende zweistufige mathematische Operation:

  1. Elementweise Multiplikation von Convolutional-Filter und ein Segment eines die Eingabematrix. Der Ausschnitt der Eingabematrix hat denselben Rang und dieselbe Größe wie der Convolutional-Filter.
  2. Addition aller Werte in der resultierenden Produktmatrix.

Betrachten Sie beispielsweise die folgende 5x5-Eingabematrix:

Die 5x5-Matrix: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Stellen Sie sich nun den folgenden 2 × 2-Konvolutionsfilter vor:

Die 2 × 2-Matrix: [[1, 0], [0, 1]]

Jeder konvolutionelle Vorgang umfasst einen einzelnen 2 × 2 Pixel großen Ausschnitt der Eingabematrix. Nehmen wir beispielsweise an, wir verwenden das 2x2-Slice bei der in der Eingabematrix angezeigt. Die Faltung sieht dieses Slice so aus:

Anwendung des Convolutional-Filters [[1, 0], [0, 1]] auf den 2 × 2 Pixel großen Bereich oben links in der Eingabematrix [[128,97], [35,22]].
          Der Faltungsfilter lässt 128 und 22 unverändert, aber Nullen
          die 97 und 35 aus. Die Faltung ergibt daher den Wert 150 (128 + 22).

Eine Convolutionsschicht besteht aus einer Reihe von Convolutions-Operationen, die jeweils auf einen anderen Ausschnitt der Eingabematrix angewendet werden.

Kosten

Synonym für Verlust.

gemeinsames Training

Teilüberwachtes Lernen besonders nützlich, wenn alle der folgenden Bedingungen erfüllt sind:

Beim gemeinsamen Training werden unabhängige Signale zu einem stärkeren Signal verstärkt. Nehmen wir als Beispiel ein Klassifizierungsmodell, einzelne Gebrauchtwagen als Gut oder Schlecht kategorisiert. Ein Satz von Prognosefunktionen können sich auf aggregierte Merkmale wie Jahr, Jahr, Marke und Modell des Autos, werden sich andere Vorhersagefunktionen auf den Fahrtverlauf des Vorbesitzers und den Wartungsverlauf des Autos.

Der bahnbrechende Artikel zum gemeinsamen Training lautet Combining Labeled and Unlabeled Data with Co-Training von Blum und Mitchell.

kontrafaktische Fairness

#fairness

Fairnessmesswert, der prüft, ob ein Klassifikator bei einer Person dasselbe Ergebnis erzielen wie bei einer anderen Person. die mit der ersten identisch sind, außer in Bezug auf mindestens eins sensible Attribute: Die Bewertung eines Klassifikators auf kontrafaktische Fairness ist eine Methode, um potenzielle Quellen von Voreingenommenheit in einem Modell aufzudecken.

Weitere Informationen finden Sie in den folgenden Artikeln:

Abdeckungsverzerrung

#fairness

Siehe Auswahlverzerrung.

Crash Blossom

#language

Ein Satz oder Satz mit mehrdeutiger Bedeutung. Crash Blossoms stellen ein erhebliches Problem beim Verstehen natürlicher Sprache dar. Die Überschrift Red Tape Holds Up Skyscraper (Bürokratie verzögert Bau eines Wolkenkratzers) ist beispielsweise ein Crash Blossom, da ein NLU-Modell die Überschrift wörtlich oder bildlich interpretieren könnte.

Kritiker

#rl

Synonym für Deep-Q-Netzwerk.

Kreuzentropie

Eine Verallgemeinerung des Log-Verlusts auf mehrklassige Klassifizierungsprobleme. Kreuzentropie quantifiziert die Differenz zwischen zwei Wahrscheinlichkeitsverteilungen. Siehe auch Perplex aus.

Kreuzvalidierung

Ein Mechanismus zur Schätzung, inwieweit ein Modell auf neue Daten generalisiert werden kann, indem das Modell an einem oder mehreren nicht überlappenden Datensubsets getestet wird, die aus dem Trainings-Dataset herausgehalten wurden.

Kumulative Verteilungsfunktion (CDF)

Eine Funktion, die die Häufigkeit von Samples definiert, die kleiner oder gleich einem Zielwert sind. Betrachten wir beispielsweise eine Normalverteilung kontinuierlicher Werte. Eine kumulative Verteilungsfunktion gibt an, dass etwa 50 % der Stichproben kleiner oder gleich dem Mittelwert und etwa 84 % der Stichproben kleiner oder gleich einer Standardabweichung über dem Mittelwert sein sollten.

D

Datenanalyse

Ein Verständnis von Daten durch Berücksichtigung von Stichproben, Messungen und Visualisierung. Die Datenanalyse kann besonders nützlich sein, Das Dataset wird zuerst empfangen, bevor das erste Modell erstellt wird. Sie ist auch wichtig, um Tests zu verstehen und Probleme mit System.

Datenerweiterung

#image

Reichweite und Anzahl der Beispiele für training indem Sie bestehende Beispiele zum Erstellen weiterer Beispiele. Beispiel: nehmen wir an, dass Bilder zu Ihren features, aber Ihr Dataset nicht ausreichend Bildbeispiele enthalten, damit das Modell nützliche Verknüpfungen lernen kann. Idealerweise sollten Sie mit einem Label versehene Bilder in Ihr Dataset, um damit Ihr Modell richtig trainiert wird. Ist das nicht möglich, können Sie mithilfe der Datenaugmentation jedes Bild drehen, strecken und spiegeln, um viele Varianten des Originalbilds zu erstellen. So erhalten Sie möglicherweise genügend beschriftete Daten, um ein hervorragendes Training zu ermöglichen.

DataFrame

#fundamentals

Ein beliebter pandas-Datentyp zur Darstellung Datasets im Arbeitsspeicher.

Ein DataFrame ist analog zu einer Tabelle. Jede Spalte eines DataFrames hat einen Namen (eine Überschrift) und jede Zeile wird durch eine eindeutige Nummer identifiziert.

Jede Spalte in einem DataFrame ist wie ein 2D-Array strukturiert, außer dass kann jeder Spalte ein eigener Datentyp zugewiesen werden.

Siehe auch die offizielle pandas.DataFrame-Referenz .

Datenparallelität

Eine Methode zum Skalieren des Trainings oder der Inferenz, bei der ein vollständiges Modell auf mehreren Geräten repliziert und dann eine Teilmenge der Eingabedaten an jedes Gerät übergeben wird. Mithilfe von Datenparallelität können Sie Modelle mit sehr großen Batchgrößen trainieren und Inferenzen durchführen. Voraussetzung dafür ist jedoch, dass das Modell klein genug ist, um auf allen Geräten zu passen.

Datenparallelität beschleunigt normalerweise das Training und die Inferenz.

Siehe auch Modellparallelität.

Datensatz

#fundamentals

Eine Sammlung von Rohdaten, die üblicherweise (aber nicht ausschließlich) in einem der folgenden Formate verwenden:

  • Tabelle
  • Eine Datei im CSV-Format (Comma-Separated Values, durch Kommas getrennte Werte)

Dataset API (tf.data)

#TensorFlow

Eine übergeordnete TensorFlow API zum Lesen von Daten und und wandelt es in eine Form um, die der Algorithmus für maschinelles Lernen benötigt. Ein tf.data.Dataset-Objekt stellt eine Sequenz von Elementen dar, wobei jedes Element einen oder mehrere Tensoren enthält. Ein tf.data.Iterator-Objekt bietet Zugriff auf die Elemente einer Dataset.

Entscheidungsgrenze

Das Trennzeichen zwischen Kurse, die von einem Modell in einem Binärklasse oder Klassifizierungsprobleme mit mehreren Klassen. Beispiel: in der folgenden Abbildung ein binäres Klassifizierungsproblem darstellt, Die Entscheidungsgrenze ist die Grenze zwischen der orangefarbenen Klasse und der blauen Klasse:

Eine klar definierte Grenze zwischen einer Klasse und einer anderen.

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Ein Entscheidungswald trifft eine Vorhersage, indem die Vorhersagen seiner Entscheidungsbäume zusammengefasst werden. Zu den beliebtesten Arten von Entscheidungswäldern gehören Random Forests und Gradient Boosted Trees.

Entscheidung ansehen Wälder im Kurs zu Entscheidungswäldern.

Entscheidungsschwellenwert

Synonym für Klassifizierungsschwellenwert.

Entscheidungsbaum

#df

Ein Modell des überwachten Lernens, das aus einer Reihe von Bedingungen und Blättern besteht, die hierarchisch organisiert sind. Hier ist beispielsweise ein Entscheidungsbaum:

Entscheidungsbaum mit vier angeordneten Bedingungen
          die zu fünf Blättern führen.

Decoder

#language

Im Allgemeinen ist jedes ML-System, das von einem verarbeiteten, dichten oder interne Darstellung in eine roher, dünnbesetzte oder externe Darstellung.

Decodierer sind oft eine Komponente eines größeren Modells, mit einem Encoder gekoppelt.

Bei Sequenz-zu-Sequenz-Aufgaben: Ein Decoder beginnt mit dem internen Zustand, der vom Encoder generiert wird, um den nächsten Sequenz hinzufügen.

Unter Transformer finden Sie die Definition eines Decoders im der Transformer-Architektur.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Large Language Models.

Deep-Modell

#fundamentals

Ein neuronales Netzwerk mit mehr als einem verborgene Ebene:

Ein Deep-Learning-Modell wird auch als neuronales Deep-Learning-Netzwerk bezeichnet.

Kontrast zum breiten Modell

neuronales Deep-Learning-Netzwerk

Synonym für Deep Learning-Modell.

Deep Q-Network (DQN)

#rl

In Q-Learning ein tiefes neuronales Netzwerk das Q-Funktionen vorhersagt.

Critic ist ein Synonym für Deep-Q-Netzwerk.

demografische Gleichheit

#fairness

Ein Fairness-Messwert, der erfüllt ist, wenn die Ergebnisse der Klassifizierung eines Modells nicht von einem bestimmten sensiblen Attribut abhängen.

Beispiel: Wenn sich sowohl die Lilliputianer als auch die Brobdingnagians Glubbdubdrib University erreicht, wird die demografische Einheitlichkeit erreicht, wenn der Prozentsatz der zugelassenen Lilliputianer entspricht dem Anteil der Brobdingnagier . zugelassen, unabhängig davon, ob eine Gruppe im Durchschnitt höher qualifiziert ist als das andere.

Im Vergleich zu gleichmäßigen Gewinnchancen Chancengleichheit, die die Klassifizierungsergebnisse aggregiert von sensiblen Attributen abhängig. lassen jedoch keine Klassifizierungsergebnisse für bestimmte Ground-Truth-Labels, die von sensiblen Attributen abhängig sind. Weitere Informationen finden Sie unter „Angriffe „Diskriminierung durch intelligentes maschinelles Lernen“. welche Nachteile es bei der Optimierung der demografischen Gleichheit gibt.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: demografische Parität.

Entrauschen

#language

Ein gängiger Ansatz für selbstüberwachtes Lernen Dabei gilt:

  1. Dem Datensatz wird künstlich Rauschen hinzugefügt.
  2. Das Modell versucht, das Rauschen zu entfernen.

Durch das Entfernen von Rauschen können Sie aus unbeschrifteten Beispielen lernen. Das ursprüngliche Dataset dient als Ziel oder Label und die verrauschten Daten als Eingabe.

Einige maskierte Sprachmodelle verwenden die Rauschunterdrückung. wie folgt:

  1. Rauschen wird einem Satz ohne Label künstlich hinzugefügt, indem einige der die Tokens.
  2. Das Modell versucht, die ursprünglichen Tokens vorherzusagen.

vollbesetztes Feature

#fundamentals

Eine Funktion, bei der die meisten oder alle Werte ungleich null sind, typischerweise Ein Tensor mit Gleitkommawerten Beispiel: Tensor mit 10 Elementen ist dicht, weil 9 seiner Werte ungleich null sind:

8 3 7 5 2 4 0 4 9 6

Kontrast zur dünnbesetzten Funktion

Dichte Schicht

Synonym für vollständig verbundene Schicht.

Tiefe

#fundamentals

Die Summe der folgenden Messwerte in einem neuronalen Netzwerk:

Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6.

Beachten Sie, dass die Eingabeebene die Einflusstiefe.

ein tiefenbasiert trennbares Convolutional Neural Network (sepCNN)

#image

Ein Convolutional Neural Network Architektur basierend auf Einführung, In diesem Fall werden Inception-Module durch tief trennbare Faltungen. Wird auch als Xception bezeichnet.

Eine tiefenweise trennbare Faltung (auch als trennbare Faltung abgekürzt) berücksichtigt eine standardmäßige 3D-Faltung in zwei separate Faltungsvorgänge die recheneffizienter sind: eine tiefgehende Faltung, mit einer Tiefe von 1 (n × n × 1) und dann eine punktweise Faltung, mit der Länge und Breite 1 (1 × 1 × n).

Weitere Informationen finden Sie unter Xception: Deep Learning with Depthwise Separable Convolutons.

abgeleitetes Label

Synonym für Proxylabel.

Gerät

#TensorFlow
#GoogleCloud

Ein überladener Begriff mit den folgenden beiden möglichen Definitionen:

  1. Eine Kategorie von Hardware, auf der eine TensorFlow-Sitzung ausgeführt werden kann, einschließlich CPUs, GPUs und TPUs.
  2. Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs), der Teil des Systems, der Tensoren und Einbettungen Das Gerät wird mit Beschleunigerchips betrieben. Im Gegensatz dazu hat der Host läuft normalerweise auf einer CPU.

Differential Privacy

Bei der maschinellen Lerne ein Anonymisierungsansatz, der sensible Daten (z. B. personenbezogene Daten einer Person) im Trainingssatz eines Modells vor der Offenlegung schützt. So wird sichergestellt, dass das Modell nicht viel über eine bestimmte Person lernt oder sich erinnert. Dazu werden während des Modelltrainings Stichproben erhoben und Rauschen hinzugefügt, um einzelne Datenpunkte zu verschleiern und das Risiko einer Offenlegung sensibler Trainingsdaten zu verringern.

Differential Privacy wird auch außerhalb von Machine Learning eingesetzt. Beispiel: Data Scientists nutzen manchmal Differential Privacy, um Einzelpersonen Datenschutz bei der Berechnung von Produktnutzungsstatistiken für verschiedene demografische Merkmale.

Dimensionsreduktion

Verringerung der Anzahl der Dimensionen, die zur Darstellung eines bestimmten Merkmals in einem Merkmalvektor verwendet werden, in der Regel durch Umwandlung in einen Embedding-Vektor.

Dimensionen

Überladener Begriff mit einer der folgenden Definitionen:

  • Die Anzahl der Koordinatenebenen in einem Tensor. Beispiel:

    • Ein Skalar hat null Dimensionen. z. B. ["Hello"].
    • Ein Vektor hat eine Dimension: z. B. [3, 5, 7, 11].
    • Eine Matrix hat zwei Dimensionen: z. B. [[2, 4, 18], [5, 7, 14]]. Eine bestimmte Zelle in einem eindimensionalen Vektor kann mit einer Koordinate eindeutig angegeben werden. Für eine bestimmte Zelle in einer zweidimensionalen Matrix sind zwei Koordinaten erforderlich.
  • Die Anzahl der Einträge in einem Erkennungsvektor.

  • Die Anzahl der Elemente in einer eingebetteten Ebene.

Direkte Aufforderung

#language
#generativeAI

Synonym für Zero-Shot-Prompting.

diskretes Feature

#fundamentals

Ein Feature mit einer endlichen Reihe möglicher Werte. Ein Beispiel für ein diskretes (oder kategorisches) Merkmal ist ein Merkmal, dessen Werte nur Tier, Gemüse oder Mineral sein können.

Im Gegensatz zu einem stetigen Feature.

Diskriminatives Modell

Ein Modell, das Labels aus einem Satz von einem oder weitere Funktionen. Formal definieren diskriminative Modelle die bedingte Wahrscheinlichkeit einer Ausgabe angesichts der Features und weights; Das bedeutet:

p(output | features, weights)

Ein Beispiel für ein diskriminatives Modell ist ein Modell, das anhand von Features und Gewichtungen vorhersagt, ob es sich bei einer E-Mail um Spam handelt.

Die überwiegende Mehrheit der Modelle für das überwachte Lernen, einschließlich Klassifizierungs- und Regressionsmodelle, sind diskriminative Modelle.

Im Vergleich zum generativen Modell

Diskriminator

Ein System, das feststellt, ob Beispiele echt oder gefälscht sind.

Alternativ kann es sich auch um das Subsystem in einem generativen Adversarial Network handeln, das feststellt, ob die vom Generator erstellten Beispiele echt oder gefälscht sind.

Weitere Informationen finden Sie im GAN-Kurs unter Der Discriminator.

Disparate Auswirkungen

#fairness

Entscheidungen über Personen treffen, die sich unverhältnismäßig auf verschiedene Bevölkerungsgruppen auswirken. Dies bezieht sich in der Regel wenn ein algorithmischer Entscheidungsprozess schadet oder davon profitiert. einige Untergruppen häufiger als andere.

Angenommen, ein Algorithmus, der die Berechtigung eines Liliputaners für ein Minihausdarlehen ermittelt, stuft ihn mit höherer Wahrscheinlichkeit als „nicht berechtigt“ ein, wenn seine Postanschrift eine bestimmte Postleitzahl enthält. Wenn Big-Endian-Lilliputianer eher Adressen mit dieser Postleitzahl als Little-Endian Lilliputians, kann dieser Algorithmus unterschiedliche Auswirkungen haben.

Im Kontrast zu unterschiedlicher Behandlung stehen der sich auf Unterschiede konzentriert, die sich aus den Eigenschaften der Untergruppe ergeben. sind explizite Eingaben für einen algorithmischen Entscheidungsprozess.

unterschiedliche Behandlung

#fairness

Die Berücksichtigung der sensiblen Attribute der Personen in einem algorithmischen Entscheidungsprozess, sodass unterschiedliche Personengruppen unterschiedlich behandelt werden.

Stellen Sie sich z. B. einen Algorithmus vor, bestimmt Lilliputians' Anspruch auf einen Darlehen für Minibauten Daten, die sie in ihrem Kreditantrag angeben. Wenn der Algorithmus Die Verbindung von Lilliputian als Big-Endian oder Little-Endian ist eine unterschiedliche Behandlung in dieser Dimension.

Im Gegensatz dazu geht es bei unterschiedlichen Auswirkungen um Unterschiede in den gesellschaftlichen Auswirkungen algorithmischer Entscheidungen auf Untergruppen, unabhängig davon, ob diese Untergruppen Eingaben in das Modell sind.

Destillation

#generativeAI

Der Vorgang, bei dem ein Modell (das Lehrermodell) auf ein kleineres Modell (das Schülermodell) reduziert wird, das die Vorhersagen des ursprünglichen Modells so genau wie möglich emuliert. Die Destillation ist nützlich, da das kleinere Modell zwei wichtige Vorteile gegenüber dem größeren Modell (dem Lehrer) hat:

  • Schnellere Inferenzzeit
  • Reduzierter Arbeitsspeicher- und Energieverbrauch

Die Vorhersagen der Schüler sind jedoch in der Regel nicht so gut wie auf die Vorhersagen der Lehrkraft.

Bei der Destillation wird das Schülermodell trainiert, um eine Verlustfunktion basierend auf der Differenz zwischen den Ausgaben der Vorhersagen der Schüler- und Lehrermodelle zu minimieren.

Vergleichen Sie die Destillation mit den folgenden Begriffen:

Weitere Informationen finden Sie im Machine Learning Crash Course unter LLMs: Fine-tuning, distillation, and prompt engineering.

Verteilung

Häufigkeit und Bereich der verschiedenen Werte für ein bestimmtes Attribut oder Label. Eine Verteilung gibt an, wie wahrscheinlich ein bestimmter Wert ist.

Die folgende Abbildung zeigt Histogramme von zwei verschiedenen Verteilungen:

  • Links: Eine Potenzverteilung des Vermögens im Vergleich zur Anzahl der Personen, die dieses Vermögen besitzen.
  • Rechts sehen Sie eine Normalverteilung der Körpergröße im Vergleich zur Anzahl der Personen mit dieser Körpergröße.

Zwei Histogramme. Ein Histogramm zeigt eine Potenzgesetzverteilung mit
          Wohlstand auf der x-Achse und die Anzahl der Menschen
          y-Achse definiert werden. Die meisten Menschen haben sehr wenig Vermögen, und einige
          viel Reichtum. Das andere Histogramm zeigt eine Normalverteilung,
          mit der Größe auf der x-Achse und der Anzahl der Personen mit dieser Größe
          auf der Y-Achse. Die meisten Menschen liegen in der Nähe des Mittelwerts.

Wenn Sie die Verteilung der einzelnen Funktionen und Labels kennen, können Sie besser entscheiden, wie Sie Werte normalisieren und Außreißer erkennen.

Der Begriff außerhalb der Verteilung bezieht sich auf einen Wert, der nicht im Datensatz enthalten ist oder sehr selten vorkommt. Ein Bild des Planeten Saturn würde beispielsweise für einen Datensatz mit Katzenbildern als nicht repräsentativ eingestuft.

Divisive Clustering

#clustering

Siehe Hierarchisches Clustering.

Downsampling

#image

Überladener Begriff, der Folgendes bedeuten kann:

  • Verringerung der Informationsmenge in einem Feature, um ein Modell effizienter zu trainieren. Beispiel: bevor Sie ein Bilderkennungsmodell trainieren. Dabei wird die Auflösung hoher Auflösung in einem Format mit geringerer Auflösung speichern.
  • Schulung zu einem unverhältnismäßig niedrigen Prozentsatz der überrepräsentierten Gruppe Klasse um das Modelltraining für unterrepräsentierte Klassen zu verbessern. Beispiel: In einer class-unbalanced , lernen die Modelle tendenziell viel über Mehrheitsklasse und nicht genug über die Minderheitenklasse: Downsampling hilft den Schulungsbedarf auf Mehrheits- und Minderheitenklassen auszugleichen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Datasets: Ungleichgewichtige Datasets.

DQN

#rl

Abkürzung für Deep-Q-Netzwerk.

Dropout-Regularisierung

Eine Form der Regularisierung, die für das Training nützlich ist neuronale Netzwerke. Bei der Dropout-Regelierung wird für einen einzelnen Gradientenschritt eine zufällige Auswahl einer festen Anzahl von Einheiten in einer Netzwerkschicht entfernt. Je mehr Einheiten ausfallen, desto stärker ist die Regularisierung. Das ist vergleichbar mit dem Training des Netzwerks, um ein exponentiell großes Ensemble kleinerer Netzwerke zu emulieren. Weitere Informationen finden Sie unter Dropout: Eine einfache Möglichkeit, das Überanpassen von neuronalen Netzwerken zu verhindern.

dynamic

#fundamentals

Etwas, das häufig oder kontinuierlich getan wird. Die Begriffe dynamisch und online werden im Bereich maschinelles Lernen synonym verwendet. Im Folgenden werden gängige Anwendungen von dynamisch und online in Maschinen genannt. Lernen:

  • Ein dynamisches Modell (oder Onlinemodell) ist ein Modell, das häufig oder kontinuierlich neu trainiert wird.
  • Dynamisches Training (oder Onlinetraining) ist ein Training, das häufig oder kontinuierlich stattfindet.
  • Bei der dynamischen Inferenz (oder Online-Inferenz) werden Vorhersagen auf Abruf generiert.

dynamisches Modell

#fundamentals

Ein Modell, das häufig, vielleicht sogar kontinuierlich, erneut trainiert. Ein dynamisches Modell ist ein „Lernender auf Lebenszeit“, der sich ständig an sich ändernde Daten anpasst. Ein dynamisches Modell wird auch als Onlinemodell.

Im Gegensatz zu einem statischen Modell.

E

sofortige Ausführung

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der Operationen sofort ausgeführt werden. Operationen, die in der Graphausführung aufgerufen werden, werden dagegen erst ausgeführt, wenn sie explizit ausgewertet werden. Eine zügige Ausführung ist ein imperative Schnittstelle, wie der Code in den meisten Programmiersprachen. Schnelle Ausführungsprogramme sind in der Regel viel einfacher zu debuggen als Graphausführungsprogramme.

vorzeitiges Beenden

#fundamentals

Eine Methode zur Regulierbarkeit, bei der das Training bevor der Trainingsverlust vollständig abnimmt, beendet wird. Beim vorzeitigen Beenden stoppen Sie das Training des Modells absichtlich. Der Verlust eines Validierungs-Datasets beginnt, increase; Das heißt, wenn Die Leistung der Generalisierung verschlechtert sich.

Erdbewegungsabstand (Earth Mover's Distance, EMD)

Ein Maß für die relative Ähnlichkeit zweier Verteilungen. Je geringer die Entfernung des Erdverschiebers ist, desto ähnlicher sind die Verteilungen.

Edit distance

#language

Ein Maß dafür, wie ähnlich zwei Textzeichenfolgen einander sind. Beim maschinellen Lernen ist die Bearbeitung von Entfernungen nützlich, und eine effektive Möglichkeit zum Vergleichen von zwei Strings, die bekanntermaßen die einer bestimmten Zeichenfolge ähnlich sind.

Es gibt mehrere Definitionen der Edit-Distanz, die jeweils unterschiedliche Stringoperationen verwenden. Beispiel: Der Parameter Levenshtein-Distanz berücksichtigt die wenigsten Lösch-, Einfüge- und Ersetzungsvorgänge.

Zum Beispiel der Levenshtein-Abstand zwischen den Wörtern „Herz“ und "darts". ist 3, weil die folgenden 3 Änderungen die wenigsten Änderungen an einem Wort darstellen. in den anderen:

  1. Herz → herabsetzen (ersetzen Sie "h" durch "d")
  2. deart → dart (löschen "e")
  3. dart → darts (insert "s")

Einsum-Notation

Eine effiziente Notation, um zu beschreiben, wie zwei Tensoren berechnet werden sollen kombiniert. Die Tensoren werden durch Multiplizieren der Elemente eines Tensors kombiniert des anderen Tensors durch und summieren die Produkte. Die Einsum-Notation identifiziert mithilfe von Symbolen die Achsen jedes Tensors. werden dieselben Symbole neu angeordnet, um die Form des neuen resultierenden Tensors anzugeben.

NumPy stellt eine gängige Einsum-Implementierung bereit.

Einbettungsebene

#language
#fundamentals

Eine spezielle versteckte Schicht, die mit einem hochdimensionalen kategorischen Merkmal trainiert wird, um nach und nach einen Einbettungsvektor mit niedrigerer Dimension zu lernen. Mit einer Einbettungsebene kann ein neuronales Netzwerk viel effizienter trainiert werden als nur mit dem hochdimensionalen kategorischen Merkmal.

So unterstützt Google Earth derzeit etwa 73.000 Baumarten. Angenommen, die Baumart ist ein Attribut in Ihrem Modell. Die Eingabeschicht Ihres Modells enthält dann einen One-Hot-Vektor mit 73.000 Elementen. baobab könnte beispielsweise so dargestellt werden:

Ein Array mit 73.000 Elementen. Die ersten 6.232 Elemente enthalten den Wert
     0. Das nächste Element enthält den Wert 1. Die letzten 66.767 Elemente
     den Wert Null.

Ein Array mit 73.000 Elementen ist sehr lang. Wenn Sie dem Modell keine Einbettungsschicht hinzufügen, ist das Training aufgrund der Multiplikation von 72.999 Nullen sehr zeitaufwendig. Angenommen, Sie legen fest, dass die Einbettungsebene aus 12 Dimensionen bestehen soll. Daher lernt die Embedding-Ebene nach und nach einen neuen Embedding-Vektor für jede Baumart.

In bestimmten Situationen ist Hashing eine sinnvolle Alternative. mit einer Einbettungsebene.

Siehe Einbettungen im Crashkurs „Machine Learning“.

Einbettungsbereich

#language

Der d-dimensionale Vektorraum, auf den Elemente aus einem höherdimensionalen Vektorraum abgebildet werden. Im Idealfall enthält der Einbettungsbereich einen Struktur, die aussagekräftige mathematische Ergebnisse liefert, zum Beispiel in einem idealen Einbettungsbereich addieren oder subtrahieren. Wortanalytik-Aufgaben lösen können.

Das Punktprodukt zweier Einbettungen ist ein Maß für ihre Ähnlichkeit.

Einbettungsvektor

#language

Im Allgemeinen ein Array von Gleitkommazahlen aus jeder verborgenen Schicht, die die Eingaben in diese verborgene Schicht beschreiben. Häufig ist ein Einbettungsvektor ein Array von Gleitkommazahlen, eine Einbettungsebene. Angenommen, eine Einbettungsschicht muss einen Einbettungsvektor für jede der 73.000 Baumarten auf der Erde lernen. Vielleicht die folgendes Array ist der Einbettungsvektor für einen Affenbrotbaum:

Ein Array mit 12 Elementen, die jeweils eine Gleitkommazahl zwischen 0,0 und 1,0 enthalten.

Ein Einbettungsvektor besteht nicht aus einer Reihe von Zufallszahlen. Eine Einbettungsschicht bestimmt diese Werte durch Training, ähnlich wie ein neuronales Netzwerk andere Gewichte während des Trainings lernt. Jedes Element des Arrays ist eine Bewertung einer Eigenschaft einer Baumart. Welches Element steht für welche Eigenschaft der Baumart? Das ist sehr schwierig damit Menschen feststellen können.

Das mathematisch Bemerkenswerte an einem Einbettungsvektor ist, dass ähnliche Elemente ähnliche Gleitkommazahlen haben. Beispielsweise haben ähnliche Baumarten ähnlichere Gleitkommazahlen als unterschiedliche Baumarten. Redwoods und Mammutbäume sind verwandte Baumarten, daher haben sie ähnliche Gleitkommazahlen wie Redwoods und Kokospalmen. Die Zahlen im Einbettungsvektor sich jedes Mal ändern, wenn Sie das Modell neu trainieren, auch wenn Sie es neu trainieren mit identischer Eingabe.

empirische kumulative Verteilungsfunktion (eCDF oder EDF)

Eine kumulative Verteilungsfunktion, die auf empirischen Messungen aus einem echten Datensatz basiert. Der Wert der Funktion an einem beliebigen Punkt auf der X-Achse ist der Anteil der Beobachtungen im Datensatz, die kleiner oder gleich dem angegebenen Wert sind.

Empirische Risikominimierung (ERM)

Auswählen der Funktion, die den Verlust im Trainings-Dataset minimiert Kontrast mit struktureller Risikominimierung.

Encoder

#language

Im Allgemeinen ist jedes ML-System, das von einem rohen, dünnbesetzten oder externen in eine stärker verarbeitete, dichtere oder internere Darstellung umwandeln.

Encoder sind oft eine Komponente eines größeren Modells, mit einem Decoder kombiniert werden. Einige Transformatoren Encoder mit Decodern koppeln, während andere Transformer nur den Encoder verwenden oder nur den Decoder.

Einige Systeme nutzen die Ausgabe des Encoders als Eingabe für eine Klassifizierung oder Regressionsnetzwerks.

Bei Sequenz-zu-Sequenz-Aufgaben nimmt ein Encoder eine Eingabesequenz entgegen und gibt einen internen Status (einen Vektor) zurück. Das Feld decoder verwendet diesen internen Status, um die nächste Sequenz vorherzusagen.

Die Definition eines Encoders in der Transformer-Architektur finden Sie unter Transformer.

Siehe LLMs: What's a Large Language (LLMs: What's a Large Language) Modell im Crashkurs „Machine Learning“.

Ensemble

Eine Sammlung von unabhängig trainierten Modellen, deren Vorhersagen gemittelt oder aggregiert werden. In vielen Fällen produziert ein Ensemble bessere als ein einzelnes Modell. Ein Random Forest ist beispielsweise ein Ensemble, das aus mehreren Entscheidungsbäumen besteht. Beachten Sie, dass nicht alle Entscheidungsbäume Ensembles sind.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Zufallswald.

Entropie

#df

In der Informationstheorie beschreibt die Entropie, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch als Maß dafür definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie eines Satzes mit zwei möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:

  H = −p log p − q log q = −p log p − (1−p) * log (1−p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Bruchteil der Beispiele mit dem Wert „1“.
  • q ist der Anteil der Beispiele mit dem Wert „0“. Beachten Sie, dass q = (1 - p) ist.
  • log ist im Allgemeinen log2. In diesem Fall ist die Einheit der Entropie ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“.
  • 300 Beispiele enthalten den Wert „0“.

Daher ist der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausgewogenes Set (z. B. 200 „0“ und 200 „1“) hat eine Entropie von 1,0 Bit pro Beispiel. Je mehr sich ein Set unausgeglichen bewegt sich seine Entropie in Richtung 0, 0.

In Entscheidungsbäumen hilft die Entropie bei der Formulierung Informationsgewinn, Splitter: Wählen Sie die Bedingungen aus. während des Wachstums eines Klassifizierungs-Entscheidungsbaums.

Entropie mit folgenden Werten vergleichen:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

Siehe Exakter Splitter für die binäre Klassifizierung mit numerischen Werten Funktionen finden Sie weitere Informationen dazu.

Umgebung

#rl

Beim Reinforcement Learning ist die Welt, in der sich der Agent befindet, und ermöglicht es dem Agent, diesen Zustand zu beobachten. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.

Folge

#rl

Beim Reinforcement Learning ist jeder der wiederholten Versuche des Agent, um eine Umgebung zu erlernen.

Epoche

#fundamentals

Ein vollständiger Durchlauf des gesamten Trainings-Datasets, bei dem jedes Beispiel einmal verarbeitet wird.

Eine Epoche stellt N/Batchgröße dar. Trainingsiterationen, wobei N der Wert für Gesamtzahl der Beispiele.

Beispiel:

  • Das Dataset besteht aus 1.000 Beispielen.
  • Die Batchgröße beträgt 50 Beispiele.

Daher erfordert eine einzelne Epoche 20 Iterationen:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Hyperparameter.

Epsilon-Greedy-Richtlinie

#rl

Bei der Verstärkungslernen handelt es sich um eine Richtlinie, die entweder einer Zufallsrichtlinie mit einer Epsilon-Wahrscheinlichkeit oder einer Greedy-Richtlinie folgt. Wenn z. B. Epsilon gleich 0.9, folgt die Richtlinie in 90% der Fälle einer willkürlichen Richtlinie und in 10% der Fälle entsprechen.

Im Laufe der einzelnen Folgen reduziert der Algorithmus den Wert von Epsilon, um von einer zufälligen zu einer gierigen Strategie überzugehen. Durch die Änderung der Richtlinie erkundet der Agent zuerst die Umgebung nach dem Zufallsprinzip und nutzt dann die Ergebnisse der zufälligen Erkundung aus.

Chancengleichheit

#fairness

Fairnessmesswert zur Beurteilung, ob ein Modell das gewünschte Ergebnis für alle Werte eines sensibles Attribut: Mit anderen Worten: Wenn das positive Ergebnis das gewünschte Ergebnis für ein Modell ist, sollte die Rate der echten positiven Ergebnisse für alle Gruppen gleich sein.

Chancengleichheit hängt mit gleichmäßigen Chancen zusammen, Dazu müssen die Richtig-Positiv-Raten und Der Anteil falsch positiver Ergebnisse ist für alle Gruppen gleich.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Liliputaner bieten ein umfangreiches Mathematikcurriculum an und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Brobdingnagiers an weiterführenden Schulen überhaupt Mathematikkurse angeboten, sodass weit weniger Schüler qualifiziert sind. Chancengleichheit für das bevorzugte Label von "zugelassen" in Bezug auf die Nationalität (Lilliputer oder Brobdingnagisch), wenn infrage kommende Lernende werden mit gleicher Wahrscheinlichkeit zugelassen, unabhängig davon, ob sie sind Lilliputer oder Brobdingnager.

Angenommen, 100 Lilliputianer und 100 Brobdingnagians Glubbdubdrib University. Die Zulassungsentscheidungen werden wie folgt getroffen:

Tabelle 1. Bewerber in Lilliputen (90% sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 3
Abgelehnt 45 7
Gesamt 90 10
Prozentsatz der zugelassenen qualifizierten Schüler: 45/90 = 50 %
Prozentsatz der abgelehnten nicht qualifizierten Schüler: 7/10 = 70 %
Gesamtprozentsatz der zugelassenen Lilliputaner: (45 + 3)/100 = 48 %

 

Tabelle 2 Brobdingnagian-Bewerber (10 % sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 9
Abgelehnt 5 81
Gesamt 10 90
Prozentsatz der zugelassenen qualifizierten Studenten: 5/10 = 50 %
Prozentsatz der abgelehnten nicht qualifizierten Studenten: 81/90 = 90 %
Gesamtprozentsatz der zugelassenen Brobdingnag-Studenten: (5 + 9)/100 = 14 %

In den vorangegangenen Beispielen wird die Chancengleichheit für die Zulassung qualifizierter Schüler und Studenten gewahrt, da sowohl qualifizierte Lilliputaner als auch Brobdingnagier eine 50-prozentige Chance auf Zulassung haben.

Die beiden folgenden Messwerte für Fairness nicht zufrieden sind:

  • demografische Gleichheit: Lilliputen und Brobdingnagier werden zu unterschiedlichen Zeiten an der Universität zugelassen. 48% der Lilliputians-Schüler sind zugelassen, aber nur 14 % Brobdingnagische Schüler sind zugelassen.
  • Gleichmäßige Chancen: Qualifizierte Lilliputaner und Brobdingnagier haben zwar die gleiche Chance, aufgenommen zu werden, aber die zusätzliche Einschränkung, dass unqualifizierte Lilliputaner und Brobdingnagier die gleiche Chance haben, abgelehnt zu werden, ist nicht erfüllt. Unqualifizierte Lilliputians haben eine Ablehnungsrate von 70 %, nicht qualifizierte Brobdingnagians eine Ablehnungsrate von 90 %.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Chancengleichheit.

ausgeglichene Chancen

#fairness

Ein Fairness-Messwert, mit dem beurteilt wird, ob ein Modell Ergebnisse für alle Werte eines sensiblen Attributs sowohl für die positive Klasse als auch für die negative Klasse gleich gut vorhersagt – nicht nur für eine oder die andere Klasse. Mit anderen Worten: Sowohl die Rate wirklich positiver Ergebnisse und die Rate falsch negativer Ergebnisse für alle Gruppen.

Die Chancenausgleichung ist mit der Chancengleichheit verwandt, bei der sich nur auf die Fehlerraten für eine einzelne Klasse (positiv oder negativ) konzentriert wird.

Angenommen, die Glubbdubdrib University nimmt sowohl Liliputaner als auch Brobdingnagier in ein anspruchsvolles Mathematikprogramm auf. Die weiterführenden Schulen der Lilliputaner bieten ein umfangreiches Mathematikcurriculum und die überwiegende Mehrheit der Schüler ist für das Universitätsprogramm qualifiziert. Brobdingnagiers sekundär Schulen überhaupt keinen Mathematikunterricht und infolgedessen bieten deutlich weniger dass die Lernenden qualifiziert sind. Gleiche Chancen sind erfüllt, vorausgesetzt, unabhängig davon, ob ein Bewerber ein Lilliputer oder ein Brobdingnager ist, qualifiziert sind, haben sie die gleiche Chance, für das Programm zugelassen zu werden, Nicht qualifiziert ist die Wahrscheinlichkeit, dass sie abgelehnt werden.

Angenommen, 100 Lilliputianen und 100 Brobdingnagians bewerben sich für Glubbdubdrib. Universitäts- und Zulassungsentscheidungen werden folgendermaßen getroffen:

Tabelle 3 Lilliputaner (90 % sind qualifiziert)

  Qualifiziert Unqualifiziert
Zugelassen 45 2
Abgelehnt 45 8
Gesamt 90 10
Prozentsatz der zugelassenen Schüler/Studenten: 45/90 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 8/10 = 80%
Gesamtprozentsatz der zugelassenen lilliputischen Schüler: (45+2)/100 = 47%

 

Tabelle 4 Bewerber aus dem Brobdingnag-Programm (10% sind qualifiziert):

  Qualifiziert Unqualifiziert
Zugelassen 5 18
Abgelehnt 5 72
Gesamt 10 90
Prozentsatz der zugelassenen Schüler/Studenten: 5/10 = 50%
Prozentsatz abgelehnter nicht qualifizierter Schüler/Studenten: 72/90 = 80%
Gesamtprozentsatz der zugelassenen Brobdingnagian-Studenten: (5+18)/100 = 23%

Die Chancengleichheit ist zufrieden, da die Qualifizierung Lilliputian und Brobdingnagian Schüler haben eine 50-prozentige Chance, zugelassen zu werden, und nicht qualifizierte Lilliputianer und Brobdingnagian eine Chance von 80 %, abgelehnt zu werden.

Der Begriff „gleiche Wahrscheinlichkeit“ wird in „Gleichbehandlung bei der Chancengerechtigkeit im Supervised Learning“ wie folgt definiert: „Der Prädiktor Ŷ erfüllt die Gleichbehandlung der Wahrscheinlichkeiten in Bezug auf das geschützte Attribut A und das Ergebnis Y, wenn Ŷ und A unabhängig sind, bedingt durch Y.“

Estimator

#TensorFlow

Eine verworfene TensorFlow API. Verwenden Sie anstelle von Estimators tf.keras.

evals

#language
#generativeAI

Wird hauptsächlich als Abkürzung für LLM-Bewertungen verwendet. Im Allgemeinen ist evals eine Abkürzung für jede Form von Bewertung:

Evaluierung

#language
#generativeAI

Prozess zum Messen der Qualität eines Modells oder zum Vergleichen verschiedener Modelle miteinander zu vergleichen.

So bewerten Sie ein überwachtes maschinelles Lernen: wird es in der Regel anhand eines Validierungs-Datasets und ein Test-Dataset. Die Bewertung eines LLM umfassen in der Regel umfassendere Qualität- und Sicherheitsbewertungen.

Beispiel

#fundamentals

Die Werte einer Zeile mit features und möglicherweise ein Label. Beispiele in beaufsichtigtes Lernen lässt sich in zwei Kategorien unterteilen: allgemeine Kategorien:

  • Ein beschriftetes Beispiel besteht aus einem oder mehreren Features und einem Label. Beispiele mit Label werden während des Trainings verwendet.
  • Ein unbeschriftetes Beispiel besteht aus einem oder mehreren Elementen, aber ohne Label. Bei der Inferenz werden Beispiele ohne Label verwendet.

Angenommen, Sie trainieren ein Modell, um den Einfluss der Prüfungsergebnisse der Schüler:innen. Hier sind drei Beispiele mit Labels:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Testergebnis
15 47 998 Gut
19 34 1020 Sehr gut
18 92 1012 Schlecht

Hier sind drei Beispiele ohne Labels:

Temperatur Luftfeuchtigkeit Luftdruck  
12 62 1014  
21 47 1017  
19 41 1021  

Die Zeile eines Datasets ist in der Regel die Rohquelle für ein Beispiel. Das heißt, ein Beispiel besteht normalerweise aus einer Teilmenge der Spalten des Datasets. Außerdem können die Features in einem Beispiel auch synthetische Features enthalten, z. B. Feature-Kreuzungen.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Supervised Learning.

Wiedergabe der Erfahrung

#rl

Beim Reinforcement Learning wird mithilfe einer DQN-Methode die zeitliche Korrelation in Trainingsdaten reduziert. Der Agent speichert Zustandsübergänge in einem Replay-Puffer und wählt dann Übergänge aus dem Replay-Puffer aus, um Trainingsdaten zu erstellen.

Experimentatoreffekt

#fairness

Bestätigungsfehler

Problem mit explodierendem Farbverlauf

#seq

Die Tendenz zu Verläufen in neuronalen Deep-Learning-Netzwerke (insbesondere recurrent neuronales Netzwerk) verwendet, überraschend steil (hoch). Starke Farbverläufe führen oft zu sehr großen Aktualisierungen. mit den Gewichtungen jedes Knotens in einem neuronalen Deep-Learning-Netzwerk.

Bei Modellen, die von diesem Problem betroffen sind, ist das Training schwierig oder unmöglich. Farbverlauf-Clipping können Sie dieses Problem lösen.

Vergleiche das Problem mit dem Problem mit dem Farbverlaufsverschwinden.

F

F1

Eine Zusammenfassung binären Klassifizierungsmesswerts, ist sowohl auf Genauigkeit als auch auf Trefferquote angewiesen. Hier ist die Formel:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Hier ein Beispiel:

  • Precision = 0,6
  • recall = 0.4
$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Wenn Genauigkeit und Trefferquote ziemlich ähnlich sind (wie im vorherigen Beispiel), liegt F1 nahe an ihrem Mittelwert. Wenn sich Precision und Recall unterscheiden deutlicher, liegt F1 näher am niedrigeren Wert. Beispiel:

  • Precision = 0,9
  • Recall = 0,1
$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Fairness-Beschränkung

#fairness
Einschränkung auf einen Algorithmus anwenden, um eine oder mehrere Definitionen sicherzustellen der Fairness zufrieden sind. Beispiele für Fairness-Einschränkungen:

Fairness-Messwert

#fairness

Eine mathematische Definition von „Fairness“, die messbar ist. Zu den häufig verwendeten Fairness-Messwerten gehören:

Viele Fairnessmesswerte schließen sich gegenseitig aus. Weitere Informationen finden Sie unter Inkompatibilität von Fairnessmesswerten.

Falsch negativ (FN)

#fundamentals

Ein Beispiel, in dem das Modell fälschlicherweise die negative Klasse vorhersagt. Zum Beispiel hat das Modell sagt, dass es sich bei einer bestimmten E-Mail-Nachricht um kein Spam handelt (die negative Klasse), aber diese E-Mail ist tatsächlich Spam.

Falsch-Negativ-Rate

Der Anteil der tatsächlich positiven Beispiele, für die das Modell fälschlicherweise die negative Klasse vorhergesagt hat. Mit der folgenden Formel wird die Rate für falsch-negative Ergebnisse berechnet:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Falsch positiv (FP)

#fundamentals

Beispiel, bei dem das Modell den positive Klasse. Das Modell sagt beispielsweise dass es sich bei einer bestimmten E-Mail-Nachricht um Spam handelt (die positive Klasse), aber dass E-Mail-Nachricht ist tatsächlich kein Spam.

Siehe Grenzwerte und die Verwirrung Matrix im Crashkurs „Machine Learning“.

Rate falsch positiver Ergebnisse (False Positive Rate, FPR)

#fundamentals

Der Anteil der tatsächlichen negativen Beispiele, für die das Modell versehentlich die positive Klasse vorhergesagt. Mit der folgenden Formel wird die „false“ berechnet, positive Rate:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Die Falsch-Positiv-Rate ist die x-Achse in einer ROC-Kurve.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Klassifizierung: ROC und AUC.

Feature

#fundamentals

Eine Eingabevariable für ein Modell für maschinelles Lernen. Beispiel besteht aus einem oder mehreren Merkmalen. Angenommen, Sie trainieren ein Modell, um den Einfluss der Wetterbedingungen auf die Testergebnisse von Schülern zu ermitteln. Die folgende Tabelle zeigt drei Beispiele, die jeweils Folgendes enthalten: drei Funktionen und ein Label:

Funktionen Label
Temperatur Luftfeuchtigkeit Luftdruck Prüfungspunktzahl
15 47 998 92
19 34 1020 84
18 92 1012 87

Stellen Sie einen Kontrast mit label her.

Siehe Überwachtes Lernen finden Sie weitere Informationen dazu.

Featureverknüpfung

#fundamentals

Ein synthetisches Feature, das durch „Kreuzung“ von kategorischen oder in Buckets aufgeteilten Merkmalen gebildet wird.

Stellen Sie sich z. B. eine „Stimmungsprognose“ ein Modell, das die in einen der folgenden vier Kategorien eingeben:

  • freezing
  • chilly
  • temperate
  • warm

Und stellt die Windgeschwindigkeit in einer der folgenden drei Kategorien dar:

  • still
  • light
  • windy

Ohne Featureverknüpfungen wird das lineare Modell unabhängig von den sieben verschiedenen Gruppen vorangehen. Das Modell wird also beispielsweise mit freezing trainiert, unabhängig vom Training mit windy.

Alternativ können Sie ein Feature-Kreuz aus Temperatur und Windgeschwindigkeit erstellen. Dieses synthetische Feature hätte die folgenden 12 möglichen Werte:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Dank der Feature-Kreuzungen kann das Modell Stimmungsunterschiede zwischen einem freezing-windy-Tag und einem freezing-still-Tag lernen.

Wenn Sie eine synthetische Funktion aus zwei Funktionen erstellen, Buckets haben, wird die daraus resultierende Merkmalsverknüpfung eine große Anzahl der möglichen Kombinationen. Wenn ein Merkmal beispielsweise 1.000 Buckets und das andere 2.000 Buckets hat, hat die resultierende Merkmalskreuzung 2.000.000 Buckets.

Formell ist ein Kreuz ein kartesisches Produkt.

Feature-Kreuzungen werden hauptsächlich mit linearen Modellen und selten mit neuronalen Netzwerken verwendet.

Siehe Kategoriale Daten: Feature Kreuze im Crashkurs „Machine Learning“.

Feature Engineering

#fundamentals
#TensorFlow

Ein Prozess, der die folgenden Schritte umfasst:

  1. Sie ermitteln, welche Features beim Trainieren eines Modells nützlich sein könnten.
  2. Das Konvertieren von Rohdaten aus dem Dataset in effiziente Versionen von für diese Funktionen.

Sie könnten z. B. feststellen, dass temperature für Sie nützlich sein könnte. . Anschließend können Sie mit Bucketing experimentieren. um zu optimieren, was das Modell aus verschiedenen temperature-Bereichen lernen kann.

Feature Engineering wird manchmal auch als Feature-Extraktion oder Feature-Erstellung bezeichnet.

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Featureextraktion

Überladener Begriff mit einer der folgenden Definitionen:

Featurewichtigkeiten

#df

Synonym für Variablenbewertungen.

Feature-Set

#fundamentals

Die Gruppe der Funktionen Ihres maschinellen Lernens model wird weiter trainiert. Die Postleitzahl, die Größe und der Zustand der Unterkunft können beispielsweise einen einfachen Feature-Set für ein Modell bilden, mit dem die Immobilienpreise vorhergesagt werden.

Featurespezifikation

#TensorFlow

Hier erfahren Sie, welche Informationen zum Extrahieren von Features-Daten aus dem Protokollpuffer tf.Example erforderlich sind. Da der Protokollpuffer „tf.Example“ nur ein Container für Daten ist, müssen Sie Folgendes angeben:

  • Die zu extrahierenden Daten (d. h. die Schlüssel für die Funktionen)
  • Der Datentyp (z. B. „float“ oder „int“)
  • Länge (fest oder variabel)

Featurevektor

#fundamentals

Das Array mit Feature-Werten, das ein Beispiel enthält. Der Featurevektor wird während Training und während der Inferenz. Der Featurevektor für ein Modell mit zwei diskreten Merkmalen kann so lauten:

[0.92, 0.56]

Vier Schichten: eine Eingabeschicht, zwei versteckte Schichten und eine Ausgabeschicht.
          Die Eingabeebene enthält zwei Knoten, einer mit dem Wert
          0.92 und die andere mit dem Wert 0.56.

Für jedes Beispiel werden unterschiedliche Werte für den Featurevektor angegeben. Der Featurevektor für das nächste Beispiel könnte also so aussehen:

[0.73, 0.49]

Feature Engineering bestimmt, wie die Elemente im Featurevektor enthalten. Ein binäres kategorisches Merkmal mit fünf möglichen Werten kann beispielsweise mit One-Hot-Codierung dargestellt werden. In diesem Fall würde der Teil des Merkmalsvektors für ein bestimmtes Beispiel aus vier Nullen und einer einzelnen 1.0 an der dritten Position bestehen:

[0.0, 0.0, 1.0, 0.0, 0.0]

Angenommen, Ihr Modell besteht aus drei Features:

  • ein binäres kategoriales Merkmal mit fünf möglichen Werten, dargestellt durch One-Hot-Codierung; Beispiel: [0.0, 1.0, 0.0, 0.0, 0.0]
  • ein weiteres binäres kategorisches Merkmal mit drei möglichen Werten, die mit One-Hot-Codierung dargestellt werden, z. B.: [0.0, 0.0, 1.0]
  • ein Gleitkomma-Element, z. B. 8.3.

In diesem Fall würde der Featurevektor für jedes Beispiel durch neun Werte dargestellt. Bei den Beispielwerten in der vorherigen Liste würde der Featurevektor so aussehen:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Weitere Informationen finden Sie im Crashkurs zu maschinellem Lernen unter Numerische Daten: So nimmt ein Modell Daten mithilfe von Featurevektoren auf.

Featurisierung

Der Vorgang, bei dem Features aus einer Eingabequelle wie einem Dokument oder Video extrahiert und in einen Featurevektor abgebildet werden.

Einige ML-Experten verwenden die Featurisierung als Synonym für Feature Engineering oder Feature-Extraktion:

föderiertes Lernen

Bei diesem verteilten Machine-Learning-Ansatz werden ML-Modelle mithilfe dezentraler Beispiele trainiert, die auf Geräten wie Smartphones gespeichert sind. Beim föderierten Lernen lädt ein Teil der Geräte das aktuelle Modell herunter. von einem zentralen Koordinationsserver. Die Geräte verwenden die auf den Geräten gespeicherten Beispiele, um das Modell zu verbessern. Die Geräte laden dann die Modellverbesserungen (aber nicht die Trainingsbeispiele) auf den Koordinierungsserver hoch, wo sie mit anderen Updates zusammengefasst werden, um ein verbessertes globales Modell zu erhalten. Nach der Aggregation wird das Modell, die von Geräten berechnet wurden, aktualisiert werden nicht mehr benötigt und können verworfen werden.

Da die Trainingsbeispiele nie hochgeladen werden, folgt die föderierte Lerntechnologie den Datenschutzprinzipien der gezielten Datenerhebung und Datenminimierung.

Weitere Informationen zu föderiertem Lernen in dieser Anleitung.

Feedbackschleife

#fundamentals

Beim maschinellen Lernen beeinflussen die Vorhersagen eines Modells den Trainingsdaten für dasselbe oder ein anderes Modell zu erhalten. Ein Modell, das Filmempfehlungen wirken sich darauf aus, welche Filme Nutzer sich ansehen, weitere Filmempfehlungsmodelle beeinflussen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Produktions-ML-Systeme: Wichtige Fragen.

Feedforward-Neural-Network (FFN)

Ein neuronales Netzwerk ohne zyklische oder rekursive Verbindungen. So sind beispielsweise traditionelle neuronale Deep-Learning-Netzwerke Feedforward-Neuronale Netze. Im Gegensatz zu recurrent neural networks, die zyklisch sind.

Lernen mit wenigen Schritten

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird und darauf ausgelegt ist, effektive Klassifikatoren anhand nur einer kleinen Anzahl von Trainingsbeispielen zu trainieren.

Siehe auch One-Shot Learning und Zero-Shot-Lernen:

Wenige-Shot-Prompts

#language
#generativeAI

Ein Prompt, der mehr als ein (ein paar) Beispiel enthält, das zeigt, wie das Large Language Model reagieren soll. Die folgende lange Aufforderung enthält beispielsweise zwei Beispiele für die Beantwortung einer Abfrage in einem Large Language Model.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Vereinigtes Königreich: GBP Ein weiteres Beispiel:
Indien: Die tatsächliche Suchanfrage.

Few-Shot-Prompts liefern in der Regel bessere Ergebnisse als Zero-Shot-Prompts und One-Shot-Prompts. Für Few-Shot-Prompts ist jedoch ein längerer Prompt erforderlich.

Few-Shot-Prompts sind eine Form des Few-Shot-Lernens, die auf das promptbasierte Lernen angewendet wird.

Siehe Prompt Engineering im Crashkurs „Machine Learning“.

Geige

#language

Eine Python-first-Konfigurationsbibliothek, mit der die Werte von Funktionen und Klassen ohne invasiven Code oder Infrastruktur festgelegt werden. Im Fall von Pax – und anderen ML-Codebasen – werden diese Funktionen und Klassen stellen Modelle und Training dar. Hyperparameter.

Geige wird angenommen, dass Codebasen für maschinelles Lernen in der Regel in folgende Kategorien unterteilt sind:

  • Bibliothekscode, der die Ebenen und Optimierer definiert.
  • „Verbindender“ Code für den Datensatz, der die Bibliotheken aufruft und alles miteinander verbindet.

Fiddle erfasst die Aufrufstruktur des Glue-Codes in einem nicht bewerteten änderbare Form.

Feinabstimmung

#language
#image
#generativeAI

Ein zweiter, aufgabenspezifischer Trainingsdurchlauf, der auf einem vortrainierten Modell durchgeführt wird, um seine Parameter für einen bestimmten Anwendungsfall zu optimieren. Die vollständige Trainingssequenz für einige Large Language Models ist so aufgebaut:

  1. Vortraining: Ein Large Language Model wird mit einem riesigen allgemeinen Dataset trainiert, z. B. mit allen englischsprachigen Wikipedia-Seiten.
  2. Feinabstimmung: Trainieren Sie das vortrainierte Modell, um eine bestimmte Aufgabe auszuführen. z. B. auf medizinische Anfragen. Die Feinabstimmung umfasst in der Regel Hunderte oder Tausende von Beispielen für die jeweilige Aufgabe.

Ein weiteres Beispiel: Die vollständige Trainingssequenz für ein großes Bildmodell ist folgt:

  1. Vortraining: Trainieren Sie ein großes Bildmodell mit einem umfangreichen allgemeinen Bild-Dataset, z. B. mit allen Bildern in Wikimedia Commons.
  2. Optimierung: Trainieren Sie das vortrainierte Modell für eine bestimmte Aufgabe, z. B. für die Generierung von Bildern von Orcas.

Die Optimierung kann eine beliebige Kombination der folgenden Strategien umfassen:

  • Alle vorhandenen Parameter des vortrainierten Modells ändern. Dies wird auch als vollständige Feinabstimmung bezeichnet.
  • Nur einige der vorhandenen Parameter des vortrainierten Modells ändern (in der Regel die Schichten, die der Ausgabeschicht am nächsten sind) während andere vorhandene Parameter unverändert bleiben (normalerweise werden die Layers der der Eingabeebene am nächsten liegt. Weitere Informationen finden Sie unter parametereffiziente Abstimmung.
  • Durch Hinzufügen weiterer Ebenen, in der Regel über den vorhandenen Ebenen, die der Ausgabeebene am nächsten sind.

Die Feinabstimmung ist eine Form des Lerntransfers. Daher kann für die Abstimmung eine andere Verlustfunktion oder ein anderes Modell verwendet werden -Typ als diejenigen, die zum Trainieren des vortrainierten Modells verwendet wurden. Sie können beispielsweise ein vortrainiertes Modell für große Bilder optimieren, um ein Regressionsmodell zu erstellen, das die Anzahl der Vögel in einem Eingabebild zurückgibt.

Vergleichen Sie die Feinabstimmung mit den folgenden Begriffen:

Weitere Informationen finden Sie unter Feinabstimmung. im Crashkurs „Machine Learning“.

Flachs

#language

Eine leistungsstarke Open-Source-Bibliothek für Deep Learning, die auf JAX basiert. Flax bietet Funktionen zum Training von Neural Networks sowie Methoden zur Bewertung ihrer Leistung.

Flachsformer

#language

Ein Open-Source-Transformer Bibliothek Basiert auf Flax und wurde in erster Linie für Natural Language Processing entwickelt und multimodaler Forschung.

Tor vergessen

#seq

Der Teil eines Langzeitspeichers Zelle, die den Informationsfluss durch die Zelle reguliert. Vergessens-Gatter erhalten den Kontext, indem sie entscheiden, welche Informationen aus dem Zellenstatus verworfen werden sollen.

Full Softmax

Synonym für Softmax.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Neuronale Netzwerke: Mehrfachklassifizierung.

Vollständig verbundene Schicht

Eine verborgene Ebene, in der sich jeder Knoten befindet mit jedem Knoten in der nachfolgenden versteckten Schicht verbunden.

Eine vollständig verbundene Ebene wird auch als dichte Ebene bezeichnet.

Funktionstransformation

Eine Funktion, die eine Funktion als Eingabe nimmt und eine transformierte Funktion als Ausgabe zurückgibt. JAX verwendet Funktionstransformationen.

G

GAN

Abkürzung für generative adversarial

Generalisierung

#fundamentals

Die Fähigkeit eines Modells, korrekte Vorhersagen für neue, bisher nicht gesehene Daten zu treffen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überanpasst ist.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Generalisierung.

Gemini

#language
#image
#generativeAI

Die Plattform mit den innovativsten KI-Funktionen von Google Zu den Elementen dieses Ökosystems gehören:

  • Verschiedene Gemini-Modelle
  • Die interaktive Konversationsoberfläche für ein Gemini-Modell. Nutzer geben Prompts ein und Gemini antwortet auf diese Prompts.
  • Verschiedene Gemini APIs
  • Verschiedene Geschäftsprodukte, die auf Gemini-Modellen basieren zum Beispiel Gemini für Google Cloud

Gemini-Modelle

#language
#image
#generativeAI

Hochmoderne Transformer-basierte Funktionen von Google Multimodale Modelle: Gemini-Modelle sind speziell zur Einbindung in Agents.

Nutzer können auf verschiedene Arten mit Gemini-Modellen interagieren, z. B. über interaktive Dialogoberfläche und über SDKs zu nutzen.

Generalisierungskurve

#fundamentals

Eine Darstellung des Trainingsverlusts Der Validierungsverlust ist eine Funktion der Anzahl Iterationen.

Mit einer Generalisierungskurve können Sie mögliche Überanpassungen erkennen. Beispiel: Generalisierungskurve deutet auf eine Überanpassung hin, da der Validierungsverlust deutlich höher als der Trainingsverlust.

Ein kartesisches Diagramm, bei dem die Y-Achse mit „Verlust“ und die X-Achse mit „Iterationen“ beschriftet ist. Es werden zwei Diagramme angezeigt. In einem Diagramm wird der Trainingsverlust und in dem anderen der Validierungsverlust dargestellt.
          Die beiden Diagramme beginnen ähnlich, aber der Trainingsverlust sinkt schließlich weit unter den Validierungsverlust.

Siehe Generalisierung im Crashkurs „Machine Learning“.

allgemeines lineares Modell

Eine Verallgemeinerung von Regressionsmodellen der kleinsten Quadrate, die auf Gauss-Rausch basieren, auf andere Modelltypen, die auf anderen Arten von Rauschen basieren, z. B. Poisson-Rausch oder kategorischer Rausch. Beispiele für generalisierte lineare Modelle:

Die Parameter eines generalisierten linearen Modells finden Sie Konvexoptimierung:

Generalisierte lineare Modelle haben die folgenden Eigenschaften:

  • Die durchschnittliche Vorhersage des optimalen Regressionsmodells der kleinsten Quadrate ist gleich dem Label (Durchschnitt) der Trainingsdaten.
  • Die durchschnittliche Wahrscheinlichkeit, die durch die optimale logistische Regression vorhergesagt wird dem Label "Durchschnitt" in den Trainingsdaten entspricht.

Die Leistungsfähigkeit eines generalisierten linearen Modells wird durch seine Merkmale begrenzt. „Mag ich“-Bewertung entfernen ein tiefes Modell hat, kann ein generalisiertes lineares Modell nicht „neue Features lernen“.

Generative Adversarial Network (GAN)

Ein System zum Erstellen neuer Daten, in dem ein Generator erstellt und ein Diskriminator bestimmt, Die erstellten Daten sind gültig oder ungültig.

Weitere Informationen finden Sie im Kurs Generative Adversarial Networks (in englischer Sprache). .

generative KI

#language
#image
#generativeAI

Ein neues, transformatives Feld ohne formale Definition. Dennoch sind sich die meisten Experten einig, dass Generative-AI-Modelle Inhalte erstellen („generieren“), die die folgenden Kriterien erfüllen:

  • Komplex
  • einheitlich
  • ursprünglich

Ein generatives KI-Modell kann zum Beispiel komplexe Essays oder Bilder.

Einige frühere Technologien, darunter LSTMs und RNNs können auch eigene kohärenten Content. Einige Experten betrachten diese früheren Technologien als generative KI, während andere der Meinung sind, dass echte generative KI eine komplexere Ausgabe erfordert, als diese früheren Technologien produzieren können.

Im Gegensatz zu prädiktivem ML.

generatives Modell

In der Praxis ist ein Modell ein Modell, das eine der folgenden Funktionen erfüllt:

  • Erstellt (generiert) neue Beispiele aus dem Trainingsdatensatz. Ein generatives Modell könnte beispielsweise nach dem Training Gedichte schaffen. aus Gedichten. Der generator-Teil eines Generatives kontradiktorisches Netzwerk gehört zu dieser Kategorie.
  • Bestimmt die Wahrscheinlichkeit, dass ein neues Beispiel aus dem oder mit demselben Mechanismus erstellt wurde wie der des Trainings-Datasets. Nach dem Training auf aus englischen Sätzen besteht, könnte ein generatives Modell ermittelt, mit welcher Wahrscheinlichkeit die neue Eingabe ein gültiger englischer Satz ist.

Ein generatives Modell kann theoretisch die Verteilung von Beispielen oder bestimmten Merkmalen in einem Datensatz erkennen. Das bedeutet:

p(examples)

Unüberwachtes Lernen ist generativ.

Im Kontrast zu diskriminativen Modellen stehen.

Generator

Das Subsystem innerhalb eines generativen Gegners Netzwerk zum Erstellen neuer Beispiele.

Im Kontrast zum diskriminativen Modell stehen.

Gini-Impurität

#df

Einen Messwert, der Entropie ähnelt. Splitter Verwenden Sie Werte, die entweder von der Gini-Verunreinigung oder von der Entropie abgeleitet wurden, Bedingungen für die Klassifizierung Entscheidungsbäume. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten Begriff für den Messwert, der aus der Gini-Unreinheit abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Verunreinigung wird auch als Gini-Index oder einfach Gini bezeichnet.

Goldenes Dataset

Eine Reihe manuell ausgewählter Daten, die Ground Truth erfassen. Teams können ein oder mehrere goldene Datasets verwenden, um die Qualität eines Modells zu bewerten.

Einige Golden-Datasets erfassen verschiedene Subdomains der Ground Truth. Ein Gold-Dataset für die Bildklassifizierung kann beispielsweise die Lichtverhältnisse und die Bildauflösung erfassen.

GPT (Generative Pre-trained Transformer)

#language

Eine Familie von Transformer-basierten Large Language Models entwickelt von OpenAI

GPT-Varianten können sich auf mehrere Modalitäten beziehen, darunter:

  • Bildgenerierung (z. B. ImageGPT)
  • Text-zu-Bild-Generierung (z. B. DALL-E).

Farbverlauf

Der Vektor einer partiellen Ableitung nach Bezug auf alle unabhängigen Variablen enthalten. Im maschinellen Lernen ist der Gradient der Vektor der partiellen Ableitungen der Modellfunktion. Der Gradient zeigt in Richtung der steilsten Steigung.

Gradientenakkumulation

Eine Backpropagation-Methode, bei der die Parameter nur einmal pro Epoche und nicht einmal pro Iteration aktualisiert werden. Nach der Verarbeitung jedes Mini-Batches wird durch die Gradientenakkumulation einfach eine fortlaufende Summe der Gradienten aktualisiert. Danach, nach um den letzten Mini-Batch der Epoche zu verarbeiten, wird das System schließlich aktualisiert, basierend auf der Summe aller Farbverlaufsänderungen.

Die Gradientenakkumulation ist nützlich, wenn die Batchgröße im Vergleich zum verfügbaren Arbeitsspeicher für das Training sehr groß ist. Wenn Arbeitsspeicher ein Problem ist, besteht die natürliche Tendenz darin, die Batchgröße zu reduzieren. Wenn Sie die Batchgröße bei der normalen Backpropagation jedoch reduzieren, steigt die Anzahl der Parameteraktualisierungen. Durch die Gradientenakkumulation können Speicherprobleme vermieden werden, das Modell wird aber trotzdem effizient trainiert.

Gradient Boosted (Entscheidungsbaum) (GBT)

#df

Eine Art von Entscheidungswald, bei dem:

Farbverlauf-Boosted-Entscheidung ansehen Bäume in der Region Decision Forests.

Gradientenverstärkung

#df

Einen Trainingsalgorithmus, mit dem schwache Modelle iterativ trainiert werden die Qualität (Verlust) eines leistungsfähigen Modells zu verbessern. Beispiel: könnte ein schwaches Modell ein lineares oder ein kleines Entscheidungsbaummodell sein. Das starke Modell ist die Summe aller zuvor trainierten schwachen Modelle.

Bei der einfachsten Form des Gradienten-Boosting wird bei jeder Iteration ein schwaches Modell trainiert, um den Verlustgradienten des starken Modells vorherzusagen. Das Feld wird die Ausgabe des starken Modells aktualisiert, indem der vorhergesagte Gradient subtrahiert wird, ähnlich wie das Gradientenverfahren.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das Ausgangsmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuelle starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird. Er entspricht der Lernrate beim Gradientenabstieg.
  • $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, $F_{i}$.

Zu modernen Varianten des Gradienten-Boostings gehört auch die zweite Ableitung (hessisch) des Verlusts in ihrer Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle in Gradientenverstärkung. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsbäume).

Farbverlauf-Clipping

#seq

Ein häufig verwendeter Mechanismus zur Milderung des Problems des explodierenden Gradienten, bei dem der maximale Wert der Gradienten künstlich begrenzt (abgeschnitten) wird, wenn ein Modell mithilfe des Gradientenabstiegs trainiert wird.

Gradientenabstieg

#fundamentals

Eine mathematische Methode zur Minimierung von Verlusten. Das Gradientenverfahren wird iterativ angepasst Weights und Verzerrungen, und schrittweise die beste Kombination finden, um den Verlust zu minimieren.

Das Gradientenverfahren ist älter – viel, viel älter – als das maschinelle Lernen.

Weitere Informationen finden Sie im Machine Learning Crash Course unter Lineare Regression: Gradientenabstieg.

Graph

#TensorFlow

Eine Berechnungsspezifikation in TensorFlow. Knoten im Graphen stellen Vorgänge dar. Kanten sind gerichtet und stellen das Übergeben des Ergebnisses dar eines Vorgangs (Tensor) als Operation in eine andere Operation ein. Verwenden Sie TensorBoard zum Visualisieren eines Diagramms

Graph Execution

#TensorFlow

Eine TensorFlow-Programmierumgebung, in der das Programm zuerst erstellt eine Grafik und führt dann die gesamte Grafik oder einen Teil davon aus. Grafik Ausführung ist der Standardausführungsmodus in TensorFlow 1.x.

Im Kontrast zu gezielter Ausführung stehen.

Greedy-Richtlinie

#rl

Beim bestärkenden Lernen eine Richtlinie, die immer die Aktion mit der höchsten erwarteten Rendite.

Ground Truth

#fundamentals

Realität.

Die Sache, die tatsächlich passiert ist.

Angenommen, Sie verwenden eine binäre Klassifizierung. Modell, das vorhersagt, ob ein Student im ersten Studienjahr wird innerhalb von sechs Jahren abgeschlossen. Die Grundwahrheit für dieses Modell ist, und zwar nicht, dass dieser Student innerhalb von sechs Jahren den Abschluss gemacht hat.

Gruppenattributionsbias

#fairness

Die Annahme, dass das, was für eine Person gilt, auch für alle anderen in dieser Gruppe gilt. Die Auswirkungen einer Gruppenattributionsverzerrung können sich verschlimmern wenn eine willkürliche Stichprobennahme wird zur Datenerfassung verwendet. In einer nicht repräsentativen Stichprobe sind Attributionen die nicht der Realität entsprechen.

Siehe auch Out-Group-Homogenitätsverzerrung und In-Group-Verzerrung. Weitere Informationen finden Sie im Machine Learning Crash Course unter Fairness: Arten von Voreingenommenheit.

H

Halluzination

#language

Die Erstellung von plausibel erscheinenden, aber faktisch falschen Ergebnissen durch ein generatives KI-Modell, das angeblich eine Aussage über die reale Welt trifft. Ein generatives KI-Modell, das behauptet, dass Barack Obama 1865 gestorben ist, halluziniert.

Hash-Technologie

Ein Mechanismus für das Bucketing von kategorischen Daten, insbesondere wenn die Anzahl der Kategorien groß, die Anzahl der Kategorien, die tatsächlich im Datensatz vorkommen, aber vergleichsweise klein ist.

Auf der Erde gibt es beispielsweise etwa 73.000 Baumarten. Sie könnten jede der 73.000 Baumarten in 73.000 separaten kategorischen Bucket darstellen. Wenn nur 200 dieser Baumarten tatsächlich in einem Datensatz vorkommen, können Sie die Baumarten mithilfe von Hash-Technologie in etwa 500 Buckets unterteilen.

Ein einzelner Bucket kann mehrere Baumarten enthalten. Zum Beispiel die Hash-Technologie Affenbrotbäume und rotes Ahorn – zwei genetisch ungleiche species – in denselben Bucket. Unabhängig davon ist die Hash-Technologie eine gute Möglichkeit, ordnen große kategoriale Sets der ausgewählten Anzahl von Buckets zu. Hashing macht kategoriales Merkmal mit einer großen Anzahl möglicher Werte durch Gruppieren von Werten in einer auf deterministische Weise.

Siehe Kategoriale Daten: Vokabular und One-Hot Codierung im Crashkurs „Machine Learning“.

Heuristik

Eine einfache und schnell implementierte Lösung für ein Problem. Beispiel: „Mit einer Heuristik haben wir eine Genauigkeit von 86 % erreicht. Nach der Umstellung auf ein tiefes neuronales Netzwerk stieg die Genauigkeit auf 98 %.“

versteckte Ebene

#fundamentals

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeebene (die Funktionen) und die Ausgabeschicht (die Vorhersage). Jede verborgene Schicht besteht aus einem oder mehreren Neuronen. Das folgende neuronale Netzwerk enthält beispielsweise zwei verborgene Schichten, die erste mit drei Neuronen und die zweite mit zwei Neuronen:

Vier Ebenen. Die erste Ebene ist eine Eingabeebene, die zwei
          Funktionen. Die zweite Schicht ist eine verborgene Schicht mit drei Neuronen. Die dritte Ebene ist eine verborgene Ebene,
          Neuronen. Die vierte Schicht ist eine Ausgabeschicht. Jedes Merkmal enthält drei Kanten, die jeweils auf ein anderes Neuron in der zweiten Schicht verweisen. Jeder der Neuronen in der zweiten Schicht enthält zwei Kanten, die jeweils auf ein anderes Neuron in der dritten Schicht verweisen. Jeder der Neuronen in der dritten Schicht enthält eine Kante, die jeweils auf die Ausgabeschicht zeigt.

Ein neuronales Deep-Learning-Netzwerk enthält mehr als ein ausgeblendete Ebene. Die vorherige Abbildung zeigt beispielsweise ein neuronales Deep-Learning- da das Modell zwei verborgene Schichten enthält.

Siehe Neuronale Netzwerke: Knoten und ausgeblendete Ebenen im Crashkurs „Machine Learning“.

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Das hierarchische Clustering eignet sich gut für hierarchische Daten, wie botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim agglomerativen Clustering wird jedes Beispiel zuerst einem eigenen Cluster zugewiesen. und führt iterativ die nächstgelegenen Cluster zusammen, um eine hierarchische Baum.
  • Divisives Clustering gruppiert zuerst alle Beispiele in einem Cluster und dann den Cluster iterativ in eine hierarchische Struktur aufteilt.

Im Gegensatz zu zentroidbasiertem Clustering.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Scharnierverlust

Eine Familie von Verlustfunktionen für die Klassifizierung, die entwickelt wurden, um die Entscheidungsgrenze so weit wie möglich von jedem Trainingsbeispiel entfernt zu finden und so den Abstand zwischen den Beispielen und der Grenze zu maximieren. KSVMs nutzen Scharnierverlust (oder eine ähnliche Funktion wie Scharnierverlust im Quadrat). Für die binäre Klassifizierung wird die Scharnierverlustfunktion wie folgt definiert:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

Dabei ist y das wahre Label, entweder -1 oder +1, und y' die Rohausgabe. des Klassifikatormodells:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Daher sieht ein Diagramm mit dem Scharnierabweichungsbetrag im Vergleich zu (y * y') so aus:

Ein kartesisches Diagramm, das aus zwei verbundenen Liniensegmenten besteht. Die erste
          Das Liniensegment beginnt bei (-3, 4) und endet bei (1, 0). Das zweite Liniensegment beginnt bei (1, 0) und verläuft mit einer Steigung von 0 endlos weiter.

Voreingenommenheit aufgrund der Vergangenheit

#fairness

Eine Art von Voreingenommenheit, die bereits auf der Welt existiert und in ein Dataset eingespeist wurden. Diese Verzerrungen spiegeln häufig bestehende kulturelle Stereotype, demografische Ungleichheiten und Vorurteile gegenüber bestimmten sozialen Gruppen wider.

Angenommen, Sie haben ein Klassifizierungsmodell, das vorhersagt, ob ein Kreditnehmer seinen Kredit in Verzug bringen wird. Dieses Modell wurde anhand von Verlaufsdaten zu Kreditausfällen aus den 1980er-Jahren von lokalen Banken in zwei verschiedenen Gemeinden trainiert. Wenn frühere Bewerber aus Community A sechsmal mehr als Bewerber aus Community B eher im Verzug. historischen Verzerrungen lernen, was dazu führt, dass das Modell weniger wahrscheinlich genehmigt Kredite in Community A, auch wenn die historischen Bedingungen, waren die höheren Standardraten in dieser Community nicht mehr relevant.

Weitere Informationen finden Sie im Crashkurs zum maschinellen Lernen unter Fairness: Arten von Voreingenommenheit.

Holdout-Daten

Beispiele, die während des Trainings absichtlich nicht verwendet („ausgeklammert“) werden. Das Validierungs-Dataset und Test-Datasets sind Beispiele für Holdout-Daten. Holdout-Daten können Sie die Fähigkeit Ihres Modells bewerten, auf andere Daten als die Daten, mit denen es trainiert wurde. Die Niederlage beim Holdout-Set sorgt für eine bessere Schätzung des Verlusts bei einem nicht gesehenen Dataset als der Verlust Trainings-Dataset.

Host

#TensorFlow
#GoogleCloud

Beim Trainieren eines ML-Modells auf Beschleunigerchips (GPUs oder TPUs) sind der Teil des Systems über die Folgendes gesteuert wird:

  • Der Gesamtablauf des Codes.
  • Die Extraktion und Transformation der Eingabepipeline.

Der Host wird normalerweise auf einer CPU und nicht auf einem Beschleunigerchip ausgeführt. die device manipuliert Tensoren auf dem Accelerator-Chips.

Hyperparameter

#fundamentals

Die Variablen, die Sie oder ein Hyperparameter-Abstimmungsdienst aufeinanderfolgenden Trainingsläufen eines Modells anpassen. Die Lernrate ist beispielsweise ein Hyperparameter. Sie können die Lernrate vor einer Trainingssitzung auf 0,01 festlegen. Wenn Sie feststellen, dass 0,01 zu hoch ist, könnten Sie vielleicht die Lernphase für die nächste Schulung auf 0,003.

Im Gegensatz dazu stehen parameters für die verschiedenen Gewichtungen und Verzerrungen, die das Modell lernt während des Trainings.

Siehe Lineare Regression: Hyperparameter im Crashkurs „Machine Learning“.

Hyperebene

Eine Grenze, die einen Raum in zwei Teilräume unterteilt. Eine Linie ist beispielsweise eine Hyperebene in zwei Dimensionen und eine Ebene ist eine Hyperebene in drei Dimensionen. Im Bereich maschinelles Lernen ist eine Hyperebene in der Regel die Grenze, die einen hochdimensionalen Raum trennt. Kernel-Supportvektormaschinen verwenden Hyperebenen, um positive Klassen von negativen Klassen zu trennen, oft in einem sehr hochdimensionalen Raum.

I

i.i.d.

Abkürzung für unabhängig und identisch verteilt.

Bilderkennung

#image

Ein Prozess, bei dem Objekte, Muster oder Konzepte in einem Bild klassifiziert werden. Die Bilderkennung wird auch als Bildklassifizierung bezeichnet.

Weitere Informationen finden Sie unter ML Practicum: Bildklassifizierung.

ML Practicum: Bildklassifizierung ansehen Kurs .

ungleichmäßige Datensätze

Synonym für Dataset mit ungleicher Klassenverteilung.

impliziter Bias

#fairness

Automatische Verknüpfung oder Annahme auf der Grundlage von Denkmodellen und Erinnerungen. Implizite Voreingenommenheit kann folgende Auswirkungen haben:

  • Wie Daten erhoben und klassifiziert werden.
  • Design und Entwicklung von ML-Systemen

Wenn ein Entwickler beispielsweise einen Klassifikator zum Identifizieren von Hochzeitsfotos erstellt, kann er das Vorhandensein eines weißen Kleids auf einem Foto als Merkmal verwenden. Weiße Kleider waren jedoch nur in bestimmten Epochen und in bestimmten Kulturen üblich.

Siehe auch Bestätigungsfehler.

Imputation

Kurzform der Wertberechnung.

Inkompatibilität von Fairness-Messwerten

#fairness

Die Vorstellung, dass einige Vorstellungen von Fairness sich gegenseitig ausschließen und nicht gleichzeitig erfüllt werden können. Daher gibt es keinen einzelnen universeller Messwert zur Quantifizierung von Fairness die auf alle ML-Probleme angewendet werden kann.

Das mag entmutigend erscheinen, aber die Inkompatibilität von Fairnessmesswerten bedeutet nicht, dass Bemühungen um Fairness vergeblich sind. Stattdessen wird vorgeschlagen, dass Fairness für ein bestimmtes ML-Problem kontextbezogen definiert werden muss, um Schäden zu vermeiden, die für die Anwendungsfälle spezifisch sind.

Weitere Informationen zu diesem Thema finden Sie unter „On the (im)possibility of fairness“ (Zur (Un)Möglichkeit von Fairness).

Kontextbezogenes Lernen

#language
#generativeAI

Synonym für wenige-shot-Prompting.

unabhängig und identisch verteilt (i.i.d)

#fundamentals

Daten, die aus einer Verteilung stammen, die sich nicht ändert und bei der jeder gezogene Wert nicht von zuvor gezogenen Werten abhängt. Ein i.d. ist das ideale Gas der Maschine ein nützliches mathematisches Konstrukt, das jedoch fast nie in der realen Welt an. Beispielsweise kann die Verteilung der Besucher einer Webseite über einen kurzen Zeitraum hinweg unabhängig voneinander sein. Das heißt, die Verteilung ändert sich während dieses kurzen Zeitraums nicht und der Besuch einer Person ist im Allgemeinen unabhängig vom Besuch einer anderen Person. Wenn Sie dieses Zeitfenster jedoch verlängern, können saisonale Unterschiede bei den Besuchern der Webseite auftreten.

Siehe auch Nichtstationarität.

individuelle Fairness

#fairness

Fairness-Messwert, mit dem geprüft wird, ob ähnliche Personen klassifiziert werden auf ähnliche Weise. Die Brobdingnagian Academy möchte beispielsweise für individuelle Fairness sorgen, indem sie dafür sorgt, dass zwei Schüler mit identischen Noten und standardisierten Testergebnissen mit gleicher Wahrscheinlichkeit eine Zulassung erhalten.

Beachte, dass Fairness beim Einzelnen ausschließlich davon abhängt, wie du „Ähnlichkeit“ definierst. (in diesem Fall Noten und Prüfungsergebnisse), und Sie laufen Gefahr, neue Fairness-Probleme verursachen, wenn Ihr Ähnlichkeitsmesswert wichtige Informationen (z. B. die Gründlichkeit des Lehrplans eines Schülers oder Studenten).

Eine ausführlichere Erläuterung der individuellen Fairness finden Sie unter Fairness durch Transparenz.

Inferenz

#fundamentals

Beim maschinellen Lernen wird der Prozess der Vorhersage Anwenden eines trainierten Modells auf Beispiele ohne Labels

Inferenz hat in der Statistik eine etwas andere Bedeutung. Weitere Informationen finden Sie im Wikipedia-Artikel zur statistischen Inferenz.

Im Kurs „Einführung in die ML“ finden Sie unter Überwachtes Lernen Informationen zur Rolle der Inferenz in einem System für überwachtes Lernen.

Inferenzpfad

#df

In einem Entscheidungsbaum werden während der Inferenz die Route, die ein bestimmtes Beispiel aus dem root auf andere Bedingungen, endet mit ein Blatt. In dem folgenden Entscheidungsbaum ist beispielsweise dickere Pfeile zeigen den Inferenzpfad für ein Beispiel mit folgendem Text an: Featurewerte:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
          Die Wurzelbedingung ist (x > 0). Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, verläuft der Inferenzpfad
          der nächsten Bedingung (z > 0) entsprechen. Da die Antwort „Nein“ lautet, muss der Inferenzpfad
          fließt zu seinem Endknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Inferenzpfad.

Weitere Informationen finden Sie im Kurs „Entscheidungsbäume“ unter Entscheidungsbäume.

Informationsgewinn

#df

In Entscheidungswäldern ist dies der Unterschied zwischen der Entropie eines Knotens und der gewichteten (nach Anzahl der Beispiele) Summe der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40 % der Beispiele befinden sich also in einem untergeordneten Knoten und 60 % im anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Die gewonnenen Informationen sind also:

  • Informationsgewinn = Entropie des übergeordneten Knotens – gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen. die den Informationsgewinn maximieren.

In-Group-Verzerrung

#fairness

Die eigene Gruppe oder eigene Merkmale zu bevorzugen. Wenn Tester oder Prüfer aus Freunden des maschinellen Lernens bestehen, Familienmitgliedern oder Kollegen, können Produkttests durch In-Group-Verzerrungen oder das Dataset.

Die In-Group-Verzerrung ist eine Form der Gruppenattributionsverzerrung. Siehe auch Out-Group-Homogenitätsverzerrung.

Siehe Fairness: Arten von Verzerrung bei der Crashkurs „Maschinelles Lernen“.

Eingabegenerator

Ein Mechanismus, mit dem Daten in ein neuronales Netzwerk.

Ein Eingabegenerator kann man sich als eine Komponente vorstellen, die für die Verarbeitung verantwortlich ist, Rohdaten in Tensoren umgewandelt, die iteriert werden, um Batches für Training, Bewertung und Inferenz.

Eingabeebene

#fundamentals

Die Ebene eines neuronalen Netzwerks, die den Erkennungsvektor enthält. Das heißt, die Eingabeschicht Beispiele für das Training oder Inferenz. Die Eingabeschicht im folgenden Beispiel besteht aus zwei Funktionen:

Vier Schichten: eine Eingabeschicht, zwei verborgene Schichten und eine Ausgabeschicht.

Bedingung im Set

#df

In einem Entscheidungsbaum eine Bedingung, die das Vorhandensein eines Elements in einer Gruppe von Elementen prüft. Das folgende Beispiel zeigt eine festgelegte Bedingung:

  house-style in [tudor, colonial, cape]

Während der Inferenz, wenn der Wert des feature im Hausstil tudor, colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert des Hausstil-Attributs ein anderer ist (z. B. ranch), wird diese Bedingung als „Nein“ ausgewertet.

In-Set-Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, mit denen One-Hot-codierte Funktionen getestet werden.

Instanz

Synonym für Beispiel.

Anweisung Feinabstimmung

#generativeAI

Eine Form der Feinabstimmung, die die Fähigkeit eines generativen KI-Modells, Anweisungen zu befolgen, verbessert. Bei der Feinabstimmung von Anweisungen wird ein Modell für eine Serie trainiert Anleitungsaufforderungen, die in der Regel ein breites Spektrum an für eine Vielzahl von Aufgaben. Das resultierende, auf Anweisungen abgestimmte Modell Nützliche Antworten auf Zero-Shot-Prompts generieren für eine Vielzahl von Aufgaben.

Vergleichen Sie mit:

Interpretierbarkeit

#fundamentals

Die Fähigkeit, die Begründungen eines ML-Modells in Begriffe verständlich sind.

Die meisten linearen Regressionsmodelle sind beispielsweise sehr aussagekräftig. (Sie müssen sich nur die trainierten Gewichtungen feature.) Entscheidungsbäume sind auch sehr aussagekräftig. Einige Modelle hingegen eine ausgefeilte Visualisierung erfordern, um interpretierbar zu werden.

Sie können die Learning Interpretability Tool (LIT) Interpretation von ML-Modellen.

Vereinbarung zwischen Ratern

Eine Messung, wie oft menschliche Bewerter bei einer Aufgabe übereinstimmen. Wenn die Bewerter nicht derselben Meinung sind, müssen die Aufgabenanweisungen möglicherweise verbessert werden. Wird auch als Übereinstimmung zwischen den Bearbeitern oder Reliabilität zwischen den Bearbeitern bezeichnet. Siehe auch Cohens kappa Dies ist eine der beliebtesten Messungen zwischen Datenratenübereinkünften.

Siehe Kategoriale Daten: Allgemein Probleme im Crashkurs „Machine Learning“.

Interpunktion über Union (IoU)

#image

Die Schnittmenge von zwei Mengen geteilt durch ihre Vereinigung. Beim maschinellen Lernen Bilderkennungsaufgaben verwendet, wird mit IoU die Accuracy des Modells vorhergesagter Begrenzungsrahmen in Bezug auf den Ground-Truth-Begrenzungsrahmen. In diesem Fall ist der IoU für die beiden Rahmen das Verhältnis zwischen dem sich überschneidenden Bereich und der Gesamtfläche. Der Wert reicht von 0 (keine Überschneidung zwischen dem vorhergesagten Begrenzungsrahmen und dem Ground-Truth-Begrenzungsrahmen) bis 1 (der vorhergesagte Begrenzungsrahmen und der Ground-Truth-Begrenzungsrahmen haben genau dieselben Koordinaten).

Im folgenden Bild ist das beispielsweise der Fall:

  • Der vorhergesagte Begrenzungsrahmen (die Koordinaten, die die Position des Nachttischs im Gemälde nach der Vorhersage des Modells umreißen) ist lila umrandet.
  • Der Ground-Truth-Begrenzungsrahmen (die Koordinaten, die die tatsächliche Position des Nachttischs im Gemälde eingrenzen) ist grün umrandet.

Das Van-Gogh-Gemälde „Vincents Schlafzimmer in Arles“ mit zwei verschiedenen Begrenzungsrahmen um den Nachttisch neben dem Bett. Der Ground-Truth-Begrenzungsrahmen (grün) umschließt den Nachttisch perfekt. Die
          Der vorhergesagte Begrenzungsrahmen (in lila) ist um 50% nach unten und nach rechts verschoben.
          des Ground-Truth-Begrenzungsrahmens; Das untere rechte Quartal umfasst
          des Nachttischs beschäftigt, aber den Rest des Tisches verfehlt.

Hier ist die Schnittmenge der Begrenzungsrahmen für Vorhersage und Grundwahrheit. (unten links) 1 ist, und die Kombination der Begrenzungsrahmen für die Vorhersage und Die Grundwahrheit (unten rechts) ist 7, daher ist der IoU \(\frac{1}{7}\).

Dasselbe Bild wie oben, aber mit vier Quadranten in jedem Begrenzungsrahmen. Insgesamt gibt es sieben Quadranten,
          Quadrant des Ground-Truth-Begrenzungsrahmens und der oberen linken
          Quadrant des vorhergesagten Begrenzungsrahmens sich überschneidet. Dieser sich überschneidende Abschnitt (grün hervorgehoben) stellt die Kreuzung dar und hat eine Fläche von 1. Dasselbe Bild wie oben, aber mit vier Quadranten in jedem Begrenzungsrahmen. Insgesamt gibt es sieben Quadranten,
          Quadrant des Ground-Truth-Begrenzungsrahmens und der oberen linken
          Quadrant des vorhergesagten Begrenzungsrahmens sich überschneidet.
          Das gesamte Innere, das von beiden Begrenzungsrahmen eingeschlossen ist
          (grün hervorgehoben) steht für die Vereinigung und hat
          Fläche von 7.

IoU

Abkürzung für Intersection over Union.

Elementmatrix

#recsystems

In Empfehlungssystemen: Eine Matrix von Embedding-Vektoren, die durch Matrixfaktorisierung generiert werden und latente Signale zu jedem Element enthalten. Jede Zeile der Artikelmatrix enthält den Wert einer einzelnen latenten Funktion für alle Artikel. Sehen wir uns als Beispiel ein Filmempfehlungssystem an. Jede Spalte in der Artikelmatrix steht für einen einzelnen Film. Latente Signale sie stehen möglicherweise für Genres oder sind schwerer zu interpretieren Signale, die komplexe Interaktionen zwischen Genre, Stars, das Alter des Films oder andere Faktoren.

Die Elementmatrix hat dieselbe Anzahl von Spalten wie das Ziel Matrix, die faktorisiert wird. Wenn beispielsweise ein Filmempfehlungssystem 10.000 Filmtitel auswertet, hat die Artikelmatrix 10.000 Spalten.

Elemente

#recsystems

In einem Empfehlungssystem werden die Entitäten, die ein System empfiehlt. Beispielsweise sind Videos die Artikel, die in einem Videoladen empfohlen werden, während Bücher die Artikel sind, die in einem Buchladen empfohlen werden.

Iteration

#fundamentals

Eine einzelne Aktualisierung der Parameter eines Modells – der des Modells Gewichtungen und Verzerrungen – während training Die Batchgröße gibt an, wie viele Beispiele das Modell in einer einzelnen Iteration verarbeitet. Beispiel: Bei einer Batchgröße von 20 verarbeitet das Modell 20 Beispiele vor Anpassen der Parameter.

Beim Trainieren eines neuronalen Netzwerks wird eine einzelne Iteration umfasst die folgenden beiden Durchgänge:

  1. Ein Vorwärtsdurchlauf zum Auswerten des Verlusts eines einzelnen Batches.
  2. Eine Rückwärtsterminierung (Backpropagation) zum Anpassen der Modellparameter auf Basis des Verlusts und der Lernrate.

J

JAX

Eine Array-Computing-Bibliothek, die XLA (Accelerated Linear Algebra) und automatische Differenziation für Hochleistungs-Numerische Berechnungen kombiniert. JAX bietet eine einfache und leistungsstarke API zum Schreiben von beschleunigtem numerischen Code mit zusammensetzbaren Transformationen. JAX bietet unter anderem folgende Funktionen:

  • grad (automatische Differenzierung)
  • jit (Just-in-Time-Kompilierung)
  • vmap (automatische vektorielle Verarbeitung oder Batchverarbeitung)
  • pmap (Parallelisierung)

JAX ist eine Sprache zum Ausdrucken und Zusammenstellen von Transformationen von numerischem Code, die der NumPy-Bibliothek von Python ähnelt, aber viel umfassender ist. Funktional gesehen entspricht die .numpy-Bibliothek unter JAX aber vollständig umgeschriebene Version der Python-Bibliothek NumPy.)

JAX eignet sich besonders gut, um viele Aufgaben im Bereich maschinelles Lernen zu beschleunigen, indem die Modelle und Daten in eine Form umgewandelt werden, die für den Parallelismus zwischen GPU und TPU Beschleunigerchips geeignet ist.

Flax, Optax, Pax und viele andere Bibliotheken basieren auf der JAX-Infrastruktur.

K

Keras

Eine beliebte Python-API für maschinelles Lernen. Keras läuft auf mehreren Deep-Learning-Frameworks, einschließlich TensorFlow, wo es als tf.keras verfügbar ist.

Kernel-Supportvektormaschinen (KSVMs)

Klassifizierungsalgorithmus, der darauf abzielt, die Differenz zwischen positiv und negative Klassen durch Zuordnen von Eingabedatenvektoren in einen höherdimensionalen Raum. Angenommen, Sie haben ein Klassifizierungsproblem, bei dem der Eingabedatensatz hundert Features enthält. Um den Rand zwischen positiven und negativen Klassen, könnte eine KSVM diese Merkmale intern mit Millionen Dimensionen. KSVMs verwendet eine Verlustfunktion namens Hinge-Verlust.

keypoints

#image

Die Koordinaten bestimmter Merkmale in einem Bild. Bei einem Modell für die Bilderkennung, das Blumenarten unterscheidet, können beispielsweise die Mitte jedes Blütenblatts, der Stängel oder die Staubblätter als wichtige Punkte dienen.

k-Fold-Kreuzvalidierung

Ein Algorithmus zur Vorhersage der Fähigkeit eines Modells, auf neue Daten zu generalisieren. Das k in k-fold steht für Anzahl gleicher Gruppen, in die Sie die Beispiele eines Datasets aufteilen; Das heißt, Sie trainieren und testen Sie Ihr Modell k-mal. Für jede Trainings- und Testrunde wird ein eine andere Gruppe ist das Test-Dataset und alle anderen Gruppen bilden die Trainings- festgelegt. Nach k Trainings- und Testrunden berechnen Sie den Mittelwert und die Standardabweichung der ausgewählten Testmesswerte.

Angenommen, Ihr Dataset besteht aus 120 Beispielen. Nehmen wir weiter an, setzen Sie k auf 4. Daher teilen Sie das Dataset nach dem Zufallsmix in vier gleich große Gruppen mit 30 Beispielen auf und führen vier Trainings- und Testrunden durch:

Ein Datensatz, der in vier gleich große Beispielgruppen unterteilt ist. In Runde 1 werden die ersten drei Gruppen für das Training und die letzte Gruppe für den Test verwendet. In Runde 2 werden die ersten beiden und die letzte Gruppe für das Training verwendet, während die dritte Gruppe für den Test verwendet wird. In Runde 3 sind die erste und die letzten beiden Gruppen
          für das Training und die zweite Gruppe
für Tests.
          In Runde 4 wird die erste Gruppe für Tests verwendet, während die letzte Gruppe
          drei Gruppen für das Training verwendet.

Zum Beispiel könnte der mittlere quadratische Fehler (MSE) der aussagekräftigste Messwert für ein lineares Regressionsmodell sein. Daher sehen Sie den Mittelwert und die Standardabweichung der MSE für alle vier Runden ermitteln.

k-Means

#clustering

Ein beliebter Clustering-Algorithmus, mit dem Beispiele im Rahmen des unbeaufsichtigten Lernens gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

  • Bestimmt iterativ die besten K-Zentrumspunkte (Schwerpunkte).
  • Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. Die am nächsten Schwerpunkt auf demselben Schwerpunkt gehört zur selben Gruppe.

Der k-Means-Algorithmus wählt die Schwerpunkte so aus, dass die Summe der Quadrate der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt minimiert wird.

Betrachten Sie beispielsweise das folgende Diagramm, in dem die Höhe von Hunden in Relation zu ihrer Breite dargestellt ist:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k = 3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. So ergeben sich drei Gruppen:

Das gleiche kartesische Diagramm wie in der vorherigen Abbildung, mit Ausnahme von
          mit drei hinzugefügten Schwerpunkten.
          Die vorherigen Datenpunkte sind in drei verschiedene Gruppen geclustert. Jede Gruppe stellt die Datenpunkte dar, die einem bestimmten Centroid am nächsten sind.

Stellen Sie sich vor, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite jedes Hundes in diesem Cluster an. Der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Schwerpunkten basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen K-Means-Verfahren für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Mit k-Means können Beispiele gruppiert werden, für viele Funktionen.

k-Medianwert

#clustering

Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die Der praktische Unterschied zwischen den beiden ist folgender:

  • In k-Means werden Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidaten und jedem der ihre Beispiele.
  • Im k-Median werden Schwerpunkte durch Minimieren der Summe der Abstand zwischen einem Schwerpunktkandidaten und jedem seiner Beispiele.

Beachten Sie, dass sich auch die Definitionen von Entfernung unterscheiden:

  • Bei der K-Means-Methode wird die euklidische Entfernung vom Schwerpunkt zu einem Beispiel verwendet. (In zwei Dimensionen bedeutet der euklidische Abstand, dass die Hypotenuse mit dem Satz des Pythagoras berechnet wird.) Die K-Means-Distanz zwischen (2,2) und (5,-2) würde beispielsweise so berechnet:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Der k-Medianwert basiert auf der Entfernung von Manhattan. vom Schwerpunkt auf ein Beispiel. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Beispiel: Der K-Median-Abstand zwischen (2,2) und (5,-2) ist:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

L0-Regularisierung

#fundamentals

Eine Art von Regularisierung, bei der die Gesamtzahl der nicht nullwertigen Gewichte in einem Modell bestraft wird. Beispiel: Ein Modell mit 11 Gewichtungen ungleich null stärker benachteiligt werden als ein ähnliches Modell mit 10 Gewichtungen ungleich null.

Die L0-Regularisierung wird manchmal als L0-Norm-Regularisierung bezeichnet.

L1-Verlust

#fundamentals

Eine Verlustfunktion, die den absoluten Wert der Differenz zwischen den tatsächlichen Label-Werten und den Werten berechnet, die von einem Modell vorhergesagt werden. Hier ist zum Beispiel die Berechnung des L1-Verlusts für einen Batch von 5 Beispiele:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Absolutwert von Delta
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1-Verlust

Der L1-Verlust ist weniger empfindlich gegenüber Ausreißern als der L2-Verlust.

Der mittlere absolute Fehler ist der Durchschnitt L1-Verlust pro Beispiel.

L1-Regularisierung

#fundamentals

Eine Art der Regularisierung, die bestraft, Gewichtungen proportional zur Summe des absoluten Werts von die Gewichte. Die L1-Regularisierung hilft, die Gewichtung irrelevanter oder kaum relevante Funktionen auf genau 0. Ein Attribut mit dem Gewicht 0 wird effektiv aus dem Modell entfernt.

Im Gegensatz zur L2-Regularisierung.

L2-Verlust

#fundamentals

Eine Verlustfunktion, die das Quadrat berechnet der Differenz zwischen den tatsächlichen label-Werten und Werte, die ein Modell vorhersagt. Hier ist beispielsweise die Berechnung der L2-Verlustfunktion für einen Batch mit fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Quadrat von Delta
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2-Verlust

Aufgrund der Quadrate verstärkt der L2-Verlust den Einfluss von Ausreißer: Das heißt, der L2-Verlust reagiert stärker auf schlechte Vorhersagen als der L1-Verlust. Zum Beispiel der L1-Verlust für den vorherigen Batch wäre 8 statt 16. Beachten Sie, dass ein einzelner 9 von 16 aus.

Bei Regressionsmodellen wird in der Regel die L2-Verlustfunktion als Verlustfunktion verwendet.

Der mittlere quadratische Fehler ist der durchschnittliche L2-Verlust pro Beispiel. Quadratischer Verlust ist ein anderer Name für den L2-Verlust.

L2-Regularisierung

#fundamentals

Eine Art der Regularisierung, bei der Gewichte proportional zur Summe der Quadrate der Gewichte bestraft werden. Die L2-Regularisierung trägt dazu bei, die Gewichtung von Ausreißer zu erhöhen (diejenigen mit hohen positiven oder niedrigen negativen Werten), die näher bei 0, aber nicht ganz bei 0 liegen. Features mit Werten, die sehr nahe bei 0 liegen, verbleiben im Modell aber keinen großen Einfluss auf die Vorhersage des Modells.

Die L2-Regularisierung verbessert immer die Generalisierung in linearen Modellen.

Kontrast zur L1-Regularisierung.

Label

#fundamentals

Beim überwachten maschinellen Lernen der Teil eines Beispiels, der als „Antwort“ oder „Ergebnis“ bezeichnet wird.

Jedes beschriftete Beispiel besteht aus einem oder mehreren Features und einem Label. Zum Beispiel in einem Spam- erkannt wurde, wäre das Label wahrscheinlich „Spam“ oder „Kein Spam“. In einem Niederschlags-Dataset könnte das Label die Menge der Regen, der während eines bestimmten Zeitraums fiel.

Beispiel mit Label

#fundamentals

Ein Beispiel, das eine oder mehrere Features und einen label Die folgende Tabelle enthält beispielsweise drei Beispiele mit Labels aus einem Modell zur Immobilienbewertung, jedes mit drei Merkmalen und einem Label:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes Hauspreis (Label)
3 2 15 345.000 $
2 1 72 179.000 $
4 2 34 392.000 $

Beim überwachten maschinellen Lernen Modelle werden anhand von Beispielen mit Labels trainiert und treffen Vorhersagen Beispiele ohne Label.

Stellen Sie ein Beispiel mit Labels und ein Beispiel ohne Labels gegenüber.

Labelleck

Ein Modelldesignfehler, bei dem ein Attribut ein Proxy für das Label ist. Angenommen, Sie haben ein binäres Klassifizierungsmodell, das vorhersagt, ob ein potenzieller Kunde ein bestimmtes Produkt kaufen wird oder nicht. Angenommen, eines der Merkmale für das Modell ist ein boolescher SpokeToCustomerAgent Angenommen, ein Kundenservicemitarbeiter wird erst nach dem Kauf des Produkts durch den potenziellen Kunden zugewiesen. Während des Trainings lernt das Modell schnell die Verknüpfung zwischen SpokeToCustomerAgent und dem Label.

Lambda

#fundamentals

Synonym für Regularisierungsrate.

Lambda ist ein Begriff mit Überlastung. Hier konzentrieren wir uns auf die Definition des Begriffs im Rahmen der Regularisierung.

LaMDA (Language Model for Dialogue Applications)

#language

Einen Transformer-basierten Large Language Model von Google, trainiert mit ein großes Dialog-Dataset zur Generierung realistischer dialogorientierter Antworten.

LaMDA: our breakthrough conversation technology (LaMDA: unsere bahnbrechende Konversationstechnologie) bietet einen Überblick.

landmarks

#image

Synonym für Keywords.

Sprachmodell

#language

Ein Modell, das die Wahrscheinlichkeit eines Tokens schätzt oder Abfolge von Tokens, die in einer längeren Tokensequenz auftreten.

Large Language Model

#language

Mindestens ein Sprachmodell mit einer sehr hohen Anzahl von Parametern. Informeller sind die Transformer-basiertes Sprachmodell wie Gemini oder GPT

latenter Bereich

#language

Synonym für Einbettungsbereich.

Layer

#fundamentals

Eine Gruppe von Neuronen in einem neuronalen Netzwerk. Drei gängige Ebenentypen sind:

Die folgende Abbildung zeigt beispielsweise ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Elementen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeebene besteht aus einem einzelnen Knoten.

In TensorFlow sind Ebenen auch Python-Funktionen, die Tensoren und Konfigurationsoptionen als Eingabe annehmen und andere Tensoren als Ausgabe liefern.

Layers API (tf.layers)

#TensorFlow

Eine TensorFlow API zum Erstellen eines Deep-Learning-Netzwerks als Zusammensetzung von Schichten. Mit der Layers API können Sie verschiedene Arten von Ebenen, zum Beispiel:

Die Layers API folgt den API-Konventionen der Keras-Ebenen. Abgesehen von einem anderen Präfix haben alle Funktionen in der Layers API dieselben Namen und Signaturen wie ihre Pendants in der Keras Layers API.

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Gefällt mir nicht condition ist, führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Endknoten eines Knotens eines Inferenzabzugs.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

Learning Interpretability Tool (LIT)

Ein visuelles, interaktives Modellverständnis- und Datenvisualisierungstool.

Mithilfe der Open-Source-Version LIT können Sie Modelle interpretieren oder Texte, Bilder und Tabellarische Daten.

Lernrate

#fundamentals

Eine Gleitkommazahl, die das Gradientenverfahren angibt Algorithmus, wie stark die Gewichtungen und Verzerrungen auf den einzelnen Iteration. Eine Lernrate von 0, 3 würde beispielsweise Gewichtungen und Verzerrungen dreimal so wirksamer anpassen als eine Lernrate, von 0,1.

Die Lernrate ist ein wichtiger Hyperparameter. Wenn Sie die Lernrate zu niedrig festlegen, dauert das Training zu lange. Wenn Sie die Lernrate zu hoch festlegen, hat der Gradientenabstieg häufig Probleme, die Konvergenz zu erreichen.

Regression der kleinsten Quadrate

Ein lineares Regressionsmodell, das durch Minimieren des L2-Verlusts trainiert wird.

Linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die ausschließlich durch Addition und Multiplikation dargestellt werden kann.

Das Diagramm einer linearen Beziehung ist eine Linie.

Im Gegensatz zu nicht linear.

lineares Modell

#fundamentals

Ein Modell, das jedem Feature eine Gewichtung zuweist, um Vorhersagen zu treffen. Lineare Modelle enthalten auch eine Verzerrung. Im Gegensatz dazu die Beziehung von Merkmalen zu Vorhersagen in tiefen Modellen ist im Allgemeinen nonlinear.

Lineare Modelle sind in der Regel einfacher zu trainieren und leichter zu interpretieren als Deep-Learning-Modelle. Deep-Learning-Modelle können jedoch komplexe Beziehungen zwischen Features lernen.

Lineare Regression und logistische Regression sind zwei Arten von linearen Modellen.

lineare Regression

#fundamentals

Modell für maschinelles Lernen, bei dem die beiden folgenden Bedingungen zutreffen:

  • Das Modell ist ein lineares Modell.
  • Die Vorhersage ist ein Gleitkommawert. (Dies ist die Regression der linearen Regression)

Lineare Regression mit logistischer Regression gegenüberstellen Vergleichen Sie die Regression außerdem der Klassifizierung.

LIT

Abkürzung für das Learning Interpretability Tool (LIT) das vorher als Language Interpretability Tool bezeichnet wurde.

LLM

#language
#generativeAI

Abkürzung für Large Language Model.

LLM-Bewertungen (evals)

#language
#generativeAI

Eine Reihe von Messwerten und Benchmarks zur Bewertung der Leistung von Large Language Models (LLMs). Grundsätzlich LLM-Bewertungen:

  • Forschende dabei unterstützen, Bereiche zu identifizieren, in denen LLMs verbessert werden müssen.
  • sind nützlich, um verschiedene LLMs zu vergleichen und das beste LLM für ein für eine bestimmte Aufgabe.
  • Sorgen Sie dafür, dass LLMs sicher und ethisch einwandfrei sind.

logistische Regression

#fundamentals

Eine Art Regressionsmodell, mit dem eine Wahrscheinlichkeit vorhergesagt wird. Logistische Regressionsmodelle haben folgende Merkmale:

  • Das Label ist kategorial. Der Begriff „logistisch“ Regression bezieht sich in der Regel auf eine binär logistische Regression, d. h. zu einem Modell hinzu, das Wahrscheinlichkeiten für Labels mit zwei möglichen Werten berechnet. Bei der weniger gängigen multinomialen logistischen Regression werden Wahrscheinlichkeiten für Labels mit mehr als zwei möglichen Werten berechnet.
  • Die Verlustfunktion während des Trainings ist die Logarithmische Verlustfunktion. (Für Labels können mehrere Logverlusteinheiten parallel platziert werden. mit mehr als zwei möglichen Werten.)
  • Das Modell hat eine lineare Architektur, kein neuronales Deep-Learning-Netzwerk. Der Rest dieser Definition gilt jedoch auch für tiefe Modelle, die Wahrscheinlichkeiten vorhersagen für kategoriale Labels.

Nehmen wir zum Beispiel ein logistisches Regressionsmodell, das die Wahrscheinlichkeit, dass die eingegebene E-Mail Spam ist. Angenommen, das Modell prognostiziert während der Inferenz 0,72. Dementsprechend wird der schätzt Folgendes:

  • Die Wahrscheinlichkeit, dass es sich bei der E-Mail um Spam handelt, beträgt 72 %.
  • 28 % Wahrscheinlichkeit, dass es sich bei der E-Mail nicht um Spam handelt.

Ein logistisches Regressionsmodell verwendet die folgende zweistufige Architektur:

  1. Das Modell generiert eine Rohvorhersage (y') durch Anwendung einer linearen Funktion. von Eingabefeatures.
  2. Das Modell verwendet diese Rohvorhersage als Eingabe für eine Sigmoidfunktion, die die Rohvorhersage in einen Wert zwischen 0 und 1 umwandelt.

Wie jedes Regressionsmodell prognostiziert ein logistisches Regressionsmodell eine Zahl. Diese Zahl wird jedoch normalerweise Teil einer binären Klassifizierung. wie folgt aussehen:

  • Wenn die vorhergesagte Anzahl höher als der Klassifizierungsschwellenwert ist, sagt das binäre Klassifizierungsmodell die positive Klasse vorher.
  • Wenn die vorhergesagte Anzahl unter dem Klassifizierungsgrenzwert liegt, sagt das binäre Klassifizierungsmodell die negative Klasse vorher.

Logits

Der Vektor von Rohvorhersagen (nicht normalisiert), die eine Klassifizierung das normalerweise dann an eine Normalisierungsfunktion übergeben wird. Wenn das Modell eine Klassifizierung mit mehreren Klassen löst werden Logits üblicherweise als Eingabe für softmax-Funktion. Die Softmax-Funktion generiert dann einen Vektor von (normalisiert) Wahrscheinlichkeiten mit einem Wert für jede mögliche Klasse.

Logverlust

#fundamentals

Die im Binärprogramm verwendete Verlustfunktion logistische Regression:

Logarithmische Wahrscheinlichkeit

#fundamentals

Logarithmus der Wahrscheinlichkeit eines Ereignisses

Long Short-Term Memory (LSTM)

#seq

Zelltyp in einem recurrent Neural Network zum Verarbeiten von Daten in Anwendungen wie Handschrifterkennung, maschinelle Übersetzung und Bilduntertitelung. LSTMs beheben das Problem des verschwindenden Gradienten, das beim Training von RNNs aufgrund langer Datensequenzen auftritt. Dazu wird der Verlauf in einem internen Speicherstatus basierend auf neuer Eingabe und dem Kontext aus vorherigen Zellen in der RNN beibehalten.

LoRA

#language
#generativeAI

Abkürzung für Low-Rank Adaptability (Niedrigrangige Anpassungsfähigkeit).

Niederlage

#fundamentals

Während des Trainings eines überwachten Modells gibt an, wie weit die Vorhersage eines Modells von seinem Label entfernt ist.

Eine Verlustfunktion berechnet den Verlust.

Verlust-Aggregator

Eine Art von Algorithmus für maschinelles Lernen, verbessert die Leistung eines Modells indem die Vorhersagen mehrerer Modelle kombiniert und mithilfe dieser Vorhersagen eine einzige Vorhersage treffen zu können. So kann ein Verlustaggregat die Abweichung der Vorhersagen verringern und die Genauigkeit der Vorhersagen verbessern.

Verlustkurve

#fundamentals

Ein Diagramm des Verlusts in Abhängigkeit von der Anzahl der Trainings Iterationen. Das folgende Diagramm zeigt eine typische Verlustkurve:

Ein kartesisches Diagramm mit Verlusten im Vergleich zu Trainingsiterationen, das einen schnellen Rückgang der Verluste bei den ersten Iterationen, gefolgt von einem allmählichen Rückgang und dann einer flachen Steigung während der letzten Iterationen zeigt.

Anhand von Verlustkurven können Sie feststellen, ob sich Ihr Modell konvergiert oder überanpasst.

Verlustkurven können alle folgenden Arten von Verlusten darstellen:

Siehe auch Generalisierungskurve.

Verlustfunktion

#fundamentals

Eine mathematische Funktion, die während des Trainings oder Tests den Verlust für einen Batch von Beispielen berechnet. Eine Verlustfunktion gibt einen geringeren Verlust zurück. für Modelle, die gute Vorhersagen treffen, als für Modelle, schlechte Vorhersagen machen.

Das Ziel des Trainings besteht in der Regel darin, den Verlust zu minimieren, der von einer Verlustfunktion zurückgegeben wird.

Es gibt viele verschiedene Arten von Verlustfunktionen. Den richtigen Verlust auswählen für die Art des Modells, das Sie erstellen. Beispiel:

Verlustoberfläche

Ein Diagramm mit Gewichtung(en) im Vergleich zu Verlust. Ziele des Gradientenverfahrens um das Gewicht bzw. die Gewichte zu ermitteln, für die die Verlustfläche bei einem lokalen Minimum liegt.

Low-Rank Adaptation (LoRA)

#language
#generativeAI

Eine parametereffiziente Methode zur Feinabstimmung, bei der die vorab trainierten Gewichte des Modells „eingefroren“ (d. h. nicht mehr geändert werden können) und dann eine kleine Gruppe trainierbarer Gewichte in das Modell eingefügt wird. Dieser Satz trainierbarer Gewichte (auch als „Aktualisierungsmatrizen“ bezeichnet) ist deutlich kleiner als das Basismodell und daher viel schneller zu trainieren.

LoRA bietet folgende Vorteile:

  • Verbessert die Qualität der Vorhersagen eines Modells für den Bereich, in dem das Bußgeld wird die Feinabstimmung angewendet.
  • Feinabstimmungen schneller als Techniken, die eine Feinabstimmung aller Parameter.
  • Reduziert die Rechenkosten für Inferenzen durch Aktivieren von gleichzeitige Bereitstellung mehrerer spezialisierter Modelle mit derselben Basis modellieren.

LSTM

#seq

Abkürzung für Long Short-Term Memory.

M

Machine Learning

#fundamentals

Ein Programm oder System, das ein Modell mit Eingabedaten trainiert. Das trainierte Modell kann Nutzen Sie neue (noch nie gesehene) Daten aus Ihren Daten, die zum Trainieren des Modells verwendet wurde.

Maschinelles Lernen bezieht sich auch mit diesen Programmen oder Systemen.

Mehrheitsklasse

#fundamentals

Das häufigere Label in einem ungleichgewichteten Datensatz. Wenn ein Dataset beispielsweise 99 % negative und 1 % positive Labels enthält, sind die negativen Labels die Mehrheitsklasse.

Im Kontrast zur Minderheitsklasse stehen.

Markov-Entscheidungsprozess (MDP)

#rl

Ein Graph, der das Entscheidungsmodell darstellt, bei dem Entscheidungen (oder Aktionen) getroffen werden, um eine Sequenz von Zuständen zu durchlaufen, unter der Annahme, dass die Markov-Eigenschaft erfüllt ist. In bestärkendes Lernen, diese Übergänge zwischen Bundesstaaten wird ein numerischer Prämie zurückgegeben.

Markov-Eigenschaft

#rl

Eine Eigenschaft bestimmter Umgebungen, in denen der Bundesstaat werden ausschließlich durch Informationen bestimmt, Aktueller Status und die Aktion des Agents.

maskiertes Sprachmodell

#language

Ein Sprachmodell, das die Wahrscheinlichkeit vorhersagt, mit der Token Lücken in einer Sequenz füllen. Ein Masked Language Model kann beispielsweise Wahrscheinlichkeiten für Kandidatenwörter berechnen, um die Unterstreichungen im folgenden Satz zu ersetzen:

Der ____ im Hut kam zurück.

In der Literatur wird in der Regel der String „MASK“ anstelle eines Unterstrichs verwendet. Beispiel:

Die „MASKE“ im Hut ist zurückgekehrt.

Die meisten modernen Modelle für maskierte Sprache sind bidiretional.

matplotlib

Eine Open-Source-Python-2D-Plot-Bibliothek. matplotlib erleichtert Ihnen die Visualisierung. verschiedene Aspekte des maschinellen Lernens.

Matrixfaktorisierung

#recsystems

In der Mathematik ein Mechanismus zum Finden von Matrizen, deren Punktprodukt einer Zielmatrix nahekommt.

In Empfehlungssystemen enthält die Zielmatrix häufig die Bewertungen von Nutzern zu Elementen. Die Zielmatrix für ein Film-Empfehlungssystem könnte beispielsweise so aussehen: Die positiven Ganzzahlen sind Nutzerbewertungen und 0 bedeutet, dass der Nutzer den Film nicht bewertet hat:

  Casablanca Die Philadelphia Story Black Panther Wonder Woman Pulp Fiction
Nutzer 1 5 3 0,0 2 0,0
Nutzer 2 4.0 0,0 0,0 1.0 5
Nutzer 3 3 1.0 4.0 5,0 0,0

Das Empfehlungssystem für Filme soll Nutzerbewertungen für Filme ohne Altersfreigabe vorhersagen. Wird Nutzer 1 beispielsweise Black Panther mögen?

Ein Ansatz für Empfehlungssysteme ist die Verwendung der Matrix Faktorisierung zur Generierung der folgenden beiden Matrizen verwendet:

  • Eine Nutzermatrix, die aus der Anzahl der Nutzer multipliziert mit der Anzahl der Einbettungsdimensionen besteht.
  • Eine Elementmatrix in Form der Anzahl der Einbettungen Dimensionen x Anzahl der Elemente.

Wenn wir z. B. die Matrixfaktorisierung auf drei Nutzende und fünf Elemente anwenden, könnte die folgende Nutzer- und Artikelmatrix ergeben:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Das Skalarprodukt der Nutzer- und Artikelmatrix liefert eine Empfehlung. Matrix, die nicht nur die ursprünglichen Nutzerbewertungen, sondern auch die Vorhersagen enthält die die einzelnen Nutzer noch nicht gesehen haben. Sehen wir uns zum Beispiel die Bewertung von Nutzer 1 von Casablanca an, also 5, 0. Der Punkt Produkt, das dieser Zelle in der Empfehlungsmatrix entspricht, hoffentlich etwa bei 5,0 liegen, und es ist:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Und vor allem: Wird Nutzer 1 Black Panther mögen? Punktprodukt nehmen die der ersten Zeile entspricht und die dritte Spalte eine vorhergesagte Bewertung von 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Die Matrixfaktorisierung liefert in der Regel eine Nutzer- und Elementmatrix, die zusammen, deutlich kompakter als die Zielmatrix.

Mittlerer absoluter Fehler (MAE)

Der durchschnittliche Verlust pro Beispiel bei Verwendung von L1-Verlust. So berechnen Sie den mittleren absoluten Fehler:

  1. Berechnen Sie den L1-Verlust für einen Batch.
  2. Teilen Sie den L1-Verlust durch die Anzahl der Beispiele im Batch.

Nehmen wir als Beispiel die Berechnung des L1-Verlusts für die folgenden Batch von fünf Beispielen:

Tatsächlicher Wert des Beispiels Vorhergesagter Wert des Modells Verlust (Differenz zwischen tatsächlichem und vorhergesagtem)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = Niederlage 1

Der Verlust von L1 beträgt also 8 und die Anzahl der Beispiele ist 5. Daher lautet der mittlere absolute Fehler:

Mean Absolute Error = L1 loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

„Contrast Mean Absolute Error“ mit Mean Squared Error und Wurzel der mittleren quadratischen Abweichung:

Mittlere quadratische Abweichung (MSE)

Der durchschnittliche Verlust pro Beispiel, wenn der L2-Verlust = verwendet. Den mittleren quadratischen Fehler berechnen:

  1. Berechnen Sie den L2-Verlust für einen Batch.
  2. Teilen Sie den L2-Verlust durch die Anzahl der Beispiele im Batch.

Betrachten Sie beispielsweise den Verlust für die folgenden fünf Beispiele:

Tatsächlicher Wert Modellvorhersage Verlust Quadratische Abweichung
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 – Niederlage

Die mittlere quadratische Abweichung ist daher:

Mean Squared Error = L2 loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Der mittlere quadratische Fehler ist ein beliebter Optimierungsalgorithmus, insbesondere für lineare Regressionen.

Vergleichen Sie die mittlere quadratische Abweichung mit dem mittleren absoluten Fehler und der Wurzel der mittleren Fehlerquadratsumme.

Im TensorFlow Playground werden Verlustwerte anhand der mittleren Fehlerquadratsumme berechnet.

Mesh-Netzwerk

#TensorFlow
#GoogleCloud

In der parallelen Programmierung für maschinelles Lernen ein Begriff, der sich auf die Zuweisung der Daten und des Modells zu TPU-Chips und die Definition der Segmentierung oder Replikation dieser Werte bezieht.

„Mesh“ ist ein überlasteter Begriff, der Folgendes bedeuten kann:

  • Ein physisches Layout von TPU-Chips.
  • Ein abstraktes logisches Konstrukt zum Zuordnen der Daten und des Modells zur TPU Chips.

In beiden Fällen wird ein Mesh als Form angegeben.

Meta-Lernen

#language

Teilmenge des maschinellen Lernens, die einen Lernalgorithmus erkennt oder verbessert. Ein Meta-Lernsystem kann auch darauf abzielen, ein Modell zu trainieren, um schnell eine neue Aufgabe aus einer kleinen Menge an Daten oder aus der Erfahrung zu lernen, die bei früheren Aufgaben gesammelt wurde. Meta-Lernalgorithmen versuchen in der Regel, Folgendes zu erreichen:

  • Manuell erstellte Funktionen wie Initializer oder Optimizer verbessern oder kennenlernen
  • Daten- und recheneffizienter arbeiten
  • Generalisierung verbessern

Meta-Lernen bezieht sich auf wenige Schritte.

Messwert

#TensorFlow

Eine Statistik, die Ihnen wichtig ist.

Ein Ziel ist ein Messwert, zu optimieren.

Metrics API (tf.metrics)

Eine TensorFlow API zum Bewerten von Modellen. Beispiel: tf.metrics.accuracy bestimmt, wie oft die Vorhersagen eines Modells mit Labels übereinstimmen.

Mini-Batch

#fundamentals

Eine kleine, zufällig ausgewählte Teilmenge eines in einem verarbeiteten Batch Iteration. Die Batchgröße eines Minibatches beträgt in der Regel 10 bis 1.000 Beispiele.

Angenommen, das gesamte Trainings-Dataset (der vollständige Batch) aus 1.000 Beispielen besteht. Angenommen, Sie legen die Batchgröße jedes Mini-Batches auf 20 fest. Daher entspricht jede Iterationen den Verlust bei 20 zufälligen 1.000 Beispielen die Gewichtungen und Verzerrungen entsprechend angepasst.

Es ist viel effizienter, den Verlust für einen Mini-Batch zu berechnen als den Verlust für alle Beispiele im vollständigen Batch.

Mini-Batch-Stochastic Gradient Descent

Einen Gradientenabstiegsalgorithmus, der Mini-Batches: Mit anderen Worten: Bei der Mini-Batch-Stochastic Gradient Descent wird der Gradient anhand einer kleinen Teilmenge der Trainingsdaten geschätzt. Beim regulären stochastischen Gradientenabstieg wird ein Mini-Batch der Größe 1.

Minimax-Verlust

Eine Verlustfunktion für generative adversarial Networks basierend auf der Kreuzentropie zwischen der Verteilung von generierten und echten Daten.

Der Minimale Verlust wird in der ersten Artikel, um zu beschreiben, generativen kontradiktorischen Netzwerken.

Minderheitenklasse

#fundamentals

Das weniger häufige Label in einem ungleichgewichtigen Datensatz. Wenn ein Dataset beispielsweise 99 % negative und 1 % positive Labels enthält, sind die positiven Labels die Minderheitsklasse.

Im Kontrast zur Hauptklasse stehen.

Mischung aus Experten

#language
#generativeAI

Pläne zur Steigerung der Effizienz neuronaler Netzwerke um Sie verwenden nur eine Teilmenge der Parameter, sogenannte Experten, ein bestimmtes Eingabetoken oder Beispiel Ein Gating-Netzwerk leitet jedes Eingabetoken oder Beispiel an die zuständigen Experten weiter.

Weitere Informationen finden Sie in den folgenden Artikeln:

ML

Abkürzung für Machine Learning.

MMIT

#language
#image
#generativeAI

Abkürzung für multimodale Anweisung optimiert.

MNIST

#image

Ein von LeCun, Cortes und Burges zusammengestellter öffentlicher Dataset mit 60.000 Bildern, auf denen jeweils zu sehen ist, wie eine Person eine bestimmte Ziffer von 0 bis 9 handschriftlich geschrieben hat. Jedes Bild wird als 28x28-Array aus Ganzzahlen gespeichert, wobei Jede Ganzzahl ist ein Graustufenwert zwischen 0 und 255 (einschließlich).

MNIST ist ein kanonischer Dataset für maschinelles Lernen, das häufig zum Testen neuer Ansätze für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie unter MNIST-Datenbank für handschriftliche Ziffern

Modalität

#language

Eine allgemeine Datenkategorie. Zahlen, Text, Bilder, Video und Audio sind beispielsweise fünf verschiedene Modalitäten.

Modell

#fundamentals

Im Allgemeinen gilt: Jedes mathematische Konstrukt, das Eingabedaten verarbeitet und Ergebnisse zurückgibt . Anders ausgedrückt: Ein Modell ist ein Satz von Parametern und Struktur damit ein System Vorhersagen treffen kann. Beim überwachten maschinellen Lernen nimmt ein Modell ein Beispiel als Eingabe entgegen und leitet daraus eine Vorhersage ab. Beim überwachten maschinellen Lernen Modelle etwas unterscheiden. Beispiel:

Sie können ein Modell speichern, wiederherstellen oder Kopien davon erstellen.

auch unüberwachtes maschinelles Lernen generiert Modelle, in der Regel eine Funktion, die ein Eingabebeispiel einer den am besten geeigneten Cluster aus.

Modellkapazität

Komplexität der Probleme, die ein Modell erkennen kann. Je komplexer die Probleme sind, die ein Modell lernen kann, desto höher ist die Kapazität des Modells. Die steigt die Kapazität in der Regel mit der Anzahl der Modellparameter. Für eine die formale Definition der Klassifiziererkapazität, siehe Dimension „Video-Conversion“:

Modellkaskadierung

#generativeAI

Ein System, das das ideale Modell für eine bestimmte Inferenzanfrage auswählt.

Stellen Sie sich eine Gruppe von Modellen vor, die von sehr groß (viele Parameter) bis hin zu viel kleiner (viel weniger Parameter) reichen. Sehr große Modelle verbrauchen bei der Inferenz mehr Rechenressourcen als kleinere Modelle. Sehr große Modelle können jedoch in der Regel komplexere Anfragen ableiten als kleinere Modelle. Die Modellkaskadierung bestimmt die Komplexität der Inferenzabfrage wählt das geeignete Modell für die Inferenz aus. Der Hauptgrund für die Modellkaskade besteht darin, die Inferenzkosten zu senken, indem in der Regel kleinere Modelle ausgewählt und nur bei komplexeren Abfragen ein größeres Modell verwendet wird.

Stellen Sie sich vor, dass ein kleines Modell auf einem Smartphone ausgeführt wird und eine größere Version dieses Modells. auf einem Remote-Server ausgeführt wird. Eine gute Modellabfolge reduziert Kosten und Latenz, da das kleinere Modell einfache Anfragen verarbeiten kann und nur das Remote-Modell für komplexe Anfragen aufgerufen wird.

Siehe auch Routermodell.

Modellparallelität

#language

Eine Möglichkeit zur Skalierung von Training oder Inferenz, bei der verschiedene Teile eines Modells auf verschiedenen Geräten ausgeführt werden. Mit dem Modellparallelismus können Modelle verwendet werden, die zu groß für ein einzelnes Gerät sind.

Um die Modellparallelität zu implementieren, führt ein System in der Regel Folgendes aus:

  1. Das Modell wird in kleinere Teile aufgeteilt.
  2. Verteilt das Training dieser kleineren Teile auf mehrere Prozessoren. Jeder Prozessor trainiert seinen eigenen Teil des Modells.
  3. Kombiniert die Ergebnisse, um ein einzelnes Modell zu erstellen.

Die Modellparallelität verlangsamt das Training.

Siehe auch Datenparallelität.

Modellrouter

#generativeAI

Der Algorithmus, der das ideale Modell für die Inferenz bei der Modellkaskade bestimmt. Ein Modell-Router ist in der Regel selbst ein Modell für maschinelles Lernen, das nach und nach lernt, das beste Modell für eine bestimmte Eingabe auszuwählen. Ein Modellrouter kann jedoch manchmal ein einfacheres, nicht auf maschinellem Lernen basieren.

Modelltraining

Der Prozess, bei dem das beste Modell ermittelt wird.

Erfolge

Ein ausgefeilter Algorithmus für das Gradientenverfahren, bei dem ein Lernschritt davon abhängt, nicht nur von der Ableitung im aktuellen Schritt, sondern auch von den der unmittelbar vorhergehenden Schritte. Beim Momentum wird ein exponentiell gewichteter gleitender Durchschnitt der Gradienten im Zeitverlauf berechnet, analog zum Impuls in der Physik. Dynamik hindert manchmal daran, in der lokalen Minima fest.

MOE

#language
#image
#generativeAI

Abkürzung für Kombination aus Experten.

Klassifizierung mit mehreren Klassen

#fundamentals

Beim überwachten Lernen ein Klassifizierungsproblem, bei dem das Dataset mehr als zwei Labelklassen enthält. Die Labels im Iris-Dataset müssen beispielsweise eines der folgenden sein: drei Klassen:

  • Iris Setosa
  • Iris virginica
  • Iris versicolor

Ein mit dem Iris-Dataset trainiertes Modell, das den Iris-Typ für neue Beispiele vorhersagt eine Klassifizierung mit mehreren Klassen durchführt.

Klassifizierungsprobleme, bei denen zwischen genau zwei Klassen unterschieden wird, sind dagegen binäre Klassifizierungsmodelle. Ein E-Mail-Modell, das entweder Spam oder kein Spam vorhersagt, ist beispielsweise ein binäres Klassifizierungsmodell.

Bei Clustering-Problemen bezieht sich die Klassifizierung mit mehreren Klassen auf mehr als zwei Cluster.

Mehrklassige logistische Regression

Verwendung der logistischen Regression in Klassifizierungsprobleme mit mehreren Klassen.

Mehrfach-Self-Attention

#language

Eine Erweiterung der Selbstaufmerksamkeit, bei der der Selbstaufmerksamkeitsmechanismus mehrmals auf jede Position in der Eingabesequenz angewendet wird.

Transformers führte die mehrköpfige Selbstaufmerksamkeit ein.

multimodales Modell

#language

Ein Modell, dessen Eingaben und/oder Ausgaben mehr als eine Modalität umfassen. Nehmen wir z. B. ein Modell, das sowohl ein Bild und eine Bildunterschrift (zwei Modalitäten) als Funktionen und gibt eine Punktzahl aus, die angibt, wie angemessen die Textuntertitelung für das Bild ist. Die Eingaben dieses Modells sind multimodal und die Ausgabe unimodal.

multimodale Anleitung

#language

Ein anhand von Anweisungen optimiertes Modell, das neben Text auch Eingaben wie Bilder, Videos und Audio verarbeiten kann.

Multinomiale Klassifizierung

Synonym für mehrklassige Klassifizierung.

multinomiale Regression

Synonym für logistische Regression mit mehreren Klassen.

Multitasking

Verfahren des maschinellen Lernens, bei dem ein einzelnes Modell mehrere Aufgaben ausführen können.

Multitasking-Modelle werden durch das Training mit Daten erstellt, die für für jede der verschiedenen Aufgaben. So lernt das Modell, Informationen für alle Aufgaben zu teilen, was es effektiver macht.

Ein Modell, das für mehrere Aufgaben trainiert wurde, hat oft verbesserte Generalisierungsfähigkeiten und kann verschiedene Datentypen robuster verarbeiten.

N

NaN-Trap

Wenn eine Zahl in Ihrem Modell während des Trainings zu NaN wird, was dazu führt, dass viele oder alle anderen Zahlen in Ihrem Modell schließlich zu NaN werden.

NaN ist eine Abkürzung für Not a Number (Kein numerischer Wert).

Natural Language Understanding

#language

Ermittlung der Absichten eines Nutzers anhand dessen, was er eingegeben oder gesagt hat. Eine Suchmaschine nutzt Natural Language Understanding, um Er kann anhand dessen, was er eingegeben oder gesagt hat, ermitteln, wonach er sucht.

negative Klasse

#fundamentals

Bei der binären Klassifizierung wird eine Klasse als positiv und die andere als negativ bezeichnet. Die positive Klasse ist das Objekt oder Ereignis, auf das das Modell getestet wird, und die negative Klasse ist die andere Möglichkeit. Beispiel:

  • Die negative Klasse in einem medizinischen Test könnte „kein Tumor“ sein.
  • Die negative Klasse in einem E-Mail-Klassifikator könnte „Kein Spam“ sein.

Im Gegensatz zur positiven Klasse.

Ausschließende Stichprobenerhebung

Synonym für Kriterienstichprobe.

Neural Architecture Search (NAS)

Verfahren zum automatischen Entwerfen der Architektur eines neuronalen Netzwerks zu testen. NAS-Algorithmen können die Menge der zum Trainieren eines neuronalen Netzwerks erforderlichen Zeit- und Ressourcenaufwands.

NAS verwendet in der Regel:

  • Ein Suchbereich, d. h. eine Reihe möglicher Architekturen.
  • Eine Fitnessfunktion, mit der gemessen wird, wie gut eine bestimmte die Architektur bei einer bestimmten Aufgabe ausführt.

NAS-Algorithmen beginnen oft mit einer kleinen Gruppe möglicher Architekturen und erweitern den Suchraum nach und nach, wenn der Algorithmus mehr darüber erfährt, welche Architekturen effektiv sind. Die Fitnessfunktion basiert in der Regel auf dem die Leistung der Architektur in einem Trainings-Dataset und der Algorithmus ist in der Regel mit einem bestärkendes Lernen verwenden.

NAS-Algorithmen haben sich als effektiv erwiesen, um leistungsstarke Architekturen für eine Vielzahl von Aufgaben zu finden, einschließlich Bildklassifizierung, Textklassifizierung und maschineller Übersetzung.

neuronales Netzwerk

#fundamentals

Ein Modell, das mindestens eins enthält verborgene Ebene: Ein Deep Neural Network ist eine Art von neuronalem Netzwerk, das mehr als eine verborgene Schicht enthält. Das folgende Diagramm zeigt beispielsweise ein tiefes neuronales Netzwerk mit zwei verborgenen Schichten.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene.

Jedes Neuron in einem neuronalen Netzwerk ist mit allen Knoten der nächsten Schicht verbunden. Beachten Sie beispielsweise im obigen Diagramm, dass jedes der drei Neuronen die in der ersten verborgenen Schicht separat mit den beiden Neuronen im zweiten verborgenen Layer.

Auf Computern implementierte neuronale Netzwerke werden manchmal als künstliche neuronale Netze, um sie von neuronalen Netzen, die im Gehirn und in anderen Nervensystemen zu finden sind.

Einige neuronale Netzwerke können extrem komplexe nicht lineare Beziehungen nachahmen Funktionen und Beschriftung.

Weitere Informationen finden Sie unter Convolutional Neural Network und Recurrent Neural Network.

Neuron

#fundamentals

Im Bereich maschinelles Lernen eine einzelne Einheit innerhalb einer verborgenen Schicht eines neuronalen Netzwerks. Jedes Neuron führt die folgende zweistufige Aktion aus:

  1. Berechnet die gewichtete Summe der Eingabewerte multipliziert mit den entsprechenden Gewichten.
  2. Übergibt die gewichtete Summe als Eingabe an einen Aktivierungsfunktion:

Ein Neuron in der ersten verborgenen Schicht nimmt Eingaben von den Feature-Werten in der Eingabeschicht entgegen. Ein Neuron in einer beliebigen verborgenen Schicht nach der ersten nimmt Eingaben von den Neuronen in der vorherigen verborgenen Schicht entgegen. Ein Neuron in der zweiten verborgenen Schicht nimmt beispielsweise Eingaben von den Neuronen in der ersten verborgenen Schicht entgegen.

In der folgenden Abbildung sind zwei Neuronen und ihre Eingaben.

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht. Zwei Neuronen sind hervorgehoben: eines im ersten
          und eins im zweiten ausgeblendeten Layer. Das hervorgehobene Neuron in der ersten verborgenen Schicht empfängt Eingaben von beiden Funktionen in der Eingabeschicht. Das hervorgehobene Neuron in der zweiten verborgenen Schicht erhält Eingaben von jedem der drei Neuronen in der ersten verborgenen Schicht.

Ein Neuron in einem neuronalen Netzwerk ahmt das Verhalten von Neuronen im Gehirn und in anderen Teilen des Nervensystems nach.

N-Gramm

#seq
#language

Eine geordnete Sequenz von N Wörtern. Truly madly ist beispielsweise ein 2-Gramm. Da die Reihenfolge relevant ist, ist madly truly ein anderes 2-Gramm als truly madly.

N Name(n) für diese Art von N-Gramm Beispiele
2 Bigram oder 2-Gramm to go, go to, eat lunch, eat dinner
3 Trigramm oder 3-Gramm zu viel gegessen, drei blinde Mäuse, die Glocke läuten
4 4-Gramm walk in the park, dust in the wind, the boy ate lentils

Viele Natural Language Understanding-Modelle nutzen N-Gramme, um das nächste Wort vorherzusagen, das der Nutzer eingeben oder sagen wird. Beispiel: Ein Nutzer hat drei Blinde eingegeben. Ein auf Trigrammen basierendes NLU-Modell würde wahrscheinlich voraussagen, dass das Der Nutzer gibt als Nächstes Mäuse ein.

N-Gramme mit Bag of Words gegenüberstellen, die ungeordneten Satzes von Wörtern.

NLU

#language

Abkürzung für Natural Language Understanding (Verarbeitung natürlicher Sprache).

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum: jede Bedingung oder Blatt.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern

Knoten (neuronales Netzwerk)

#fundamentals

Ein Neuron in einer verborgenen Schicht.

Knoten (TensorFlow-Grafik)

#TensorFlow

Ein Vorgang in einem TensorFlow-Graphen.

Rauschen

Im Allgemeinen alles, was das Signal in einem Datensatz verschleiert. Es gibt viele Möglichkeiten, wie Rauschen in Daten eindringen kann. Beispiel:

  • Manuelle Bewerter machen bei der Beschriftung Fehler.
  • Menschen und Instrumente nehmen Featurewerte falsch auf oder lassen sie aus.

Nicht binäre Bedingung

#df

Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?) mit drei möglichen Ergebnissen Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spinne. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens Hund. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens penguin.

nicht linear

#fundamentals

Eine Beziehung zwischen zwei oder mehr Variablen, die nicht ausschließlich durch Addition und Multiplikation dargestellt werden kann. Eine lineare Beziehung als Linie dargestellt werden; kann eine nonlinear Beziehung nicht als Linie dargestellt. Angenommen, Sie haben zwei Modelle, in denen jeweils ein einzelnes Feature mit einem einzelnen Label verknüpft ist. Das Modell auf der linken Seite ist linear und das Modell auf der rechten Seite nichtlinear:

Zwei Diagramme. Ein Plot ist eine Linie, also handelt es sich um eine lineare Beziehung.
          Das andere Diagramm ist eine Kurve, die Beziehung ist also nicht linear.

Schweigeverzerrung

#fairness

Siehe Auswahlverzerrung.

Nichtstationarität

#fundamentals

Ein Element, dessen Werte sich in einer oder mehreren Dimensionen ändern, in der Regel in Bezug auf die Zeit. Betrachten Sie beispielsweise die folgenden Beispiele für Nichtstationarität:

  • Die Anzahl der in einem bestimmten Geschäft verkauften Badeanzüge variiert je nach Saison.
  • Die Menge einer bestimmten Frucht, die in einer bestimmten Region geerntet wird für den Großteil des Jahres null, aber nur für kurze Zeit groß.
  • Aufgrund des Klimawandels ändern sich die jährlichen Durchschnittstemperaturen.

Im Gegensatz zur Stationarität.

Normalisierung

#fundamentals

Im Allgemeinen wird damit der Prozess bezeichnet, bei dem der tatsächliche Wertebereich einer Variablen in einen Standardwertbereich umgewandelt wird, z. B.:

  • -1 bis +1
  • 0 bis 1
  • Z-Werte (ungefähr -3 bis +3)

Angenommen, der tatsächliche Wertebereich eines bestimmten Merkmals ist 800 bis 2.400. Im Rahmen des Feature Engineerings können Sie die tatsächlichen Werte auf einen Standardbereich wie -1 bis +1 normalisieren.

Die Normalisierung ist eine gängige Aufgabe beim Feature Engineering. Modelle lassen sich in der Regel schneller trainieren (und liefern bessere Vorhersagen), wenn jedes numerische Feature im Featurevektor ungefähr denselben Bereich hat.

Weitere Informationen finden Sie im Modul zum Arbeiten mit numerischen Daten des Machine Learning Crash Courses. Weitere Informationen finden Sie unter Normalisierung von Z-Werten.

Neuheitserkennung

Der Prozess, bei dem festgestellt wird, ob ein neues (neues) Beispiel aus derselben Verteilung als Trainings-Dataset. Mit anderen Worten: Training am Trainings-Dataset, bestimmt die Neuheitserkennung, ob eine neue (während der Inferenz oder während eines zusätzlichen Trainings) Ausreißer:

Im Gegensatz zur Ausreißererkennung.

numerische Daten

#fundamentals

Features, die als Ganzzahlen oder reelle Zahlen dargestellt werden. Ein Hausbewertungsmodell würde beispielsweise wahrscheinlich die Größe eines Hauses (in Quadratfuß oder Quadratmetern) als numerische Daten anzeigen. Darstellung Ein Element als numerische Daten zeigt an, dass die Werte des Elements eine mathematische Beziehung zum Label haben. Das heißt, die Anzahl der Quadratmeter in einem Haus hat wahrscheinlich eine mathematische Beziehung zum Wert des Hauses.

Nicht alle Ganzzahldaten sollten als numerische Daten dargestellt werden. Beispiel: Postleitzahlen in einigen Teilen der Welt sind Ganzzahlen. aber Ganzzahl "post" Codes sollten in Modellen nicht als numerische Daten dargestellt werden. Das liegt daran, Die Postleitzahl von 20000 ist nicht doppelt (oder halb so stark) wie die Postleitzahl von 10.000. Außerdem korrelieren unterschiedliche Postleitzahlen zwar mit unterschiedlichen Immobilienwerten, wir können jedoch nicht davon ausgehen, dass Immobilienwerte mit der Postleitzahl 20000 doppelt so hoch sind wie Immobilienwerte mit der Postleitzahl 10000. Postleitzahlen sollten als kategorische Daten dargestellt werden. .

Numerische Merkmale werden manchmal auch als kontinuierliche Merkmale bezeichnet.

NumPy

Eine Open-Source-Mathematikabibliothek, die effiziente arraybasierte Operationen in Python bietet. Pandas basiert auf NumPy.

O

Ziel

Ein Messwert, den der Algorithmus zu optimieren versucht.

Zielfunktion

Die mathematische Formel oder der Messwert, der mit einem Modell optimiert werden soll. Die Zielfunktion für die lineare Regression ist beispielsweise in der Regel der mittlere quadratische Verlust. Beim Training eines linearen Regressionsmodells wird daher der mittlere quadratische Verlust minimiert.

In einigen Fällen besteht das Ziel darin, die Zielfunktion zu maximieren. Lautet die Zielfunktion beispielsweise Genauigkeit, ist das Ziel um möglichst genaue Daten zu erhalten.

Siehe auch Verlust.

Schrägachsenprojektion

#df

In einem Entscheidungsbaum wird ein Bedingung, die mehr als eine Bedingung umfasst feature. Wenn z. B. Höhe und Breite beide Elemente sind, ist dies eine schräge Bedingung:

  height > width

Kontrast zur Bedingung Achsenausrichtung.

offline

#fundamentals

Synonym für static.

Offlineinferenzen

#fundamentals

Ein Modell generiert eine Reihe von Vorhersagen und speichert diese dann im Cache. Apps können dann auf die abgeleiteten aus dem Cache, anstatt das Modell noch einmal auszuführen.

Angenommen, ein Modell generiert alle vier Stunden lokale Wettervorhersagen. Nach jeder Modellausführung werden alle lokalen Wettervorhersagen im Cache gespeichert. Wetter-Apps rufen die Vorhersagen aus dem Cache ab.

Offline-Inferenz wird auch als statische Inferenz bezeichnet.

Im Kontrast zu Online-Inferenz stehen.

One-Hot-Codierung

#fundamentals

Kategorische Daten als Vektor darstellen, wobei:

  • Ein Element ist auf „1“ festgelegt.
  • Alle anderen Elemente werden auf „0“ gesetzt.

Die One-Hot-Codierung wird in der Regel zur Darstellung von Strings oder Kennungen verwendet, eine endliche Menge möglicher Werte haben. Angenommen, ein bestimmtes kategoriales Merkmal namens Scandinavia hat fünf mögliche Werte:

  • „Dänemark“
  • „Schweden“
  • „Norwegen“
  • „Finnland“
  • „Island“

Die One-Hot-Codierung könnte jeden der fünf Werte wie folgt darstellen:

country Vektor
„Dänemark“ 1 0 0 0 0
„Schweden“ 0 1 0 0 0
„Norwegen“ 0 0 1 0 0
„Finnland“ 0 0 0 1 0
„Island“ 0 0 0 0 1

Dank der One-Hot-Codierung kann ein Modell unterschiedliche Verbindungen basierend auf den fünf Ländern lernen.

Die Darstellung eines Merkmals als numerische Daten ist eine Alternative zur One-Hot-Codierung. Leider ist die Vertretung der Skandinavische Länder sind keine gute Wahl. Beispiel: Betrachten Sie die folgende numerische Darstellung:

  • „Dänemark“ ist 0
  • „Schweden“ ist 1
  • „Norwegen“ ist 2
  • „Finnland“ ist 3
  • „Island“ ist 4

Bei numerischer Codierung würde ein Modell die Rohzahlen interpretieren mathematisch angewandt und versucht, mit diesen Zahlen zu trainieren. Island ist jedoch nicht doppelt so groß (oder halb so groß) wie Norwegen, sodass das Modell zu einigen merkwürdigen Schlussfolgerungen kommen würde.

One-Shot-Lernen

Ein Ansatz des maschinellen Lernens, der häufig für die Objektklassifizierung verwendet wird und darauf ausgelegt ist, effektive Klassifikatoren aus einem einzigen Trainingsbeispiel zu lernen.

Weitere Informationen finden Sie unter Few-Shot-Lernen und Zero-Shot-Lernen.

One-Shot-Prompts

#language
#generativeAI

Ein Prompt mit einem Beispiel, das zeigt, wie das Large Language Model reagieren soll. Der folgende Prompt enthält beispielsweise ein Beispiel, in dem einem Large Language Model gezeigt wird, wie es eine Suchanfrage beantworten soll.

Bestandteile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Frankreich: EUR Ein Beispiel.
Indien: Die eigentliche Abfrage.

Vergleichen Sie One-Shot-Prompts mit den folgenden Begriffen:

one-vs.-all

#fundamentals

Bei einem Klassifizierungsproblem mit N Klassen besteht eine Lösung aus N separaten binären Klassifikatoren – ein binärer Klassifikator für jedes mögliche Ergebnis. Bei einem Modell, das Beispiele klassifiziert, tierisch, pflanzlich oder negativ bewertet, wäre eine Ein-gegen-alle-Lösung folgenden drei separaten binären Klassifikatoren:

  • Tier oder kein Tier
  • Gemüse oder kein Gemüse
  • Mineral oder nicht mineralisch

online

#fundamentals

Synonym für dynamisch.

Online-Inferenz

#fundamentals

On-Demand-Generierung von Vorhersagen Angenommen, eine App gibt eine Eingabe an ein Modell weiter und sendet eine Anfrage für eine Vorhersage. Ein System mit Online-Inferenz antwortet auf die Anfrage, indem es das Modell ausführt und die Vorhersage an die App zurückgibt.

Im Gegensatz zur Offline-Inferenz.

Vorgang (Vorgang)

#TensorFlow

In TensorFlow: Alle Vorgänge, die einen Tensor erstellen, manipulieren oder löschen. Bei der Matrixmultiplikation werden beispielsweise zwei Tensoren als Eingabe verwendet und ein Tensor als Ausgabe generiert.

Optax

Eine Bibliothek zur Gradientenverarbeitung und -optimierung für JAX. Optax erleichtert die Forschung durch die Bereitstellung von Bausteinen, die auf kundenspezifische Weise neu kombiniert, um parametrische Modelle wie neuronalen Deep-Learning-Netzwerke. Weitere Ziele:

  • Eine lesbare, gut getestete und effiziente Implementierung von Kernkomponenten.
  • Produktivitätssteigerung durch die Möglichkeit, Low-Level-Inhalte in benutzerdefinierte Optimierer (oder andere Gradientenverarbeitungskomponenten) zu kombinieren.
  • Beschleunigte Einführung neuer Ideen, da jeder leicht einen Beitrag leisten kann.

Optimierungstool

Eine spezifische Implementierung des Gradientenabstiegs Algorithmus. Gängige Optimierer sind:

  • AdaGrad, was für ADAptive GRADient descent steht.
  • Adam, was für ADAptive with Momentum steht.

Out-Group-Homogenitätsverzerrung

#fairness

Die Tendenz, Mitglieder einer Außengruppe bei Vergleichen von Einstellungen, Werten, Persönlichkeitsmerkmalen und anderen Merkmalen als ähnlicher zu betrachten als Mitglieder der eigenen Gruppe. In-Group bezieht sich auf Personen, mit denen Sie regelmäßig interagieren. Out-Group bezieht sich auf Personen, mit denen Sie nicht regelmäßig interagieren. Wenn Sie ein Dataset erstellen, indem Sie die Menschen bitten, außerhalb der Gruppen auseinandersetzen, sind diese Attribute möglicherweise weniger differenziert und stereotypisiert. als Attribute, die die Teilnehmenden für Personen in ihrer Gruppe auflisten.

Lilliputaner könnten beispielsweise die Häuser anderer Lilliputaner sehr detailliert beschreiben und dabei kleine Unterschiede in Architekturstilen, Fenstern, Türen und Größen angeben. Dieselben Liliputaner könnten jedoch einfach erklären, dass alle Brobdingnagier in identischen Häusern leben.

Der Homogenitätsbias außerhalb der Gruppe ist eine Form des Gruppenattributionsbias.

Siehe auch In-Group-Verzerrung.

Ausreißererkennung

Das Identifizieren von Ausreißern in einem Trainingssatz.

Im Gegensatz zur Neuerkennung.

erkennen

Werte, die weit von den meisten anderen Werten entfernt sind. Im Bereich maschinelles Lernen gelten alle folgenden Werte als Ausreißer:

  • Eingabedaten, deren Werte mehr als ungefähr 3 Standardabweichungen betragen vom Mittelwert entfernt werden.
  • Gewichtungen mit hohen absoluten Werten
  • Vorhergesagte Werte, die relativ weit von den tatsächlichen Werten entfernt sind.

Angenommen, widget-price ist ein Feature eines bestimmten Modells. Angenommen, der mittlere widget-price beträgt 7 € mit einer Standardabweichung 1 Euro. Beispiele für widget-price mit 12 € oder 2 € würden daher als Ausreißer betrachtet, da jeder dieser Preise fünf Standardabweichungen vom Mittelwert ab.

Ausreißer werden oft durch Tipp- oder andere Eingabefehler verursacht. In anderen Fällen Ausreißer sind keine Fehler, werden schließlich 5 Standardabweichungen selten, aber kaum unmöglich sind.

Außerhalb der Norm liegende Werte verursachen häufig Probleme beim Modelltraining. Clips ist eine Möglichkeit, Ausreißer zu verwalten.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums, bei dem jeder Entscheidungsbaum anhand der Beispiele getestet wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet wurden. Im Feld Beachten Sie, dass das System jeden Entscheidungsbaum trainiert. auf etwa zwei Drittel der Beispiele an und wertet sie dann anhand ein Drittel der Beispiele.

Ein Entscheidungswald aus drei Entscheidungsbäumen.
          Ein Entscheidungsbaum wird anhand von zwei Dritteln der Beispiele trainiert und dann wird das verbleibende Drittel für die Bewertung außerhalb des Trainings verwendet.
          Ein zweiter Entscheidungsbaum wird mit zwei Dritteln der Beispiele trainiert, die sich von den Beispielen des vorherigen Entscheidungsbaums unterscheiden. Für die Bewertung außerhalb des Trainingsdatensatzes wird dann ein anderes Drittel verwendet als beim vorherigen Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine rechnungstechnisch effiziente und konservative Näherung an den Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden bei einer 10-fachen Kreuzvalidierung 10 Modelle trainiert). Bei der Bewertung außerhalb des Trainings wird ein einzelnes Modell trainiert. Da beim Bagging einige Daten während des Trainings von jedem Baum zurückgehalten werden, können diese Daten bei der OOB-Bewertung verwendet werden, um eine Kreuzvalidierung anzunähern.

Ausgabeebene

#fundamentals

Die „letzte“ Schicht eines neuronalen Netzwerks. Die Ausgabeebene enthält die Vorhersage.

Die folgende Abbildung zeigt ein kleines Deep-Learning-Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer Ausgabeschicht:

Ein neuronales Netzwerk mit einer Eingabeschicht, zwei verborgenen Schichten und einer
          Ausgabeebene. Die Eingabeebene besteht aus zwei Merkmalen. Die erste verborgene Schicht besteht aus drei Neuronen und die zweite aus zwei. Die Ausgabeebene besteht aus einem einzelnen Knoten.

Überanpassung

#fundamentals

Ein Modell erstellen, das so genau mit den Trainingsdaten übereinstimmt, dass es keine korrekten Vorhersagen für neue Daten treffen kann.

Regulierungsmittel können das Überanpassen reduzieren. Wenn du mit einem großen und vielfältigen Trainings-Dataset trainierst, kannst du eine Überanpassung ebenfalls reduzieren.

Überabtastung

Beispiele einer Minderheitenklasse wiederverwenden in einem von einer Klasse unausgeglichenen Dataset, und ein ausgewogenes Trainings-Dataset zu erstellen.

Angenommen, Sie haben ein binäres Klassifizierungsproblem, bei dem das Verhältnis der Mehrheitsklasse zur Minderheitsklasse 5.000:1 beträgt. Wenn der Datensatz eine Million Beispiele enthält, enthält er nur etwa 200 Beispiele der Minderheitenklasse. Das sind möglicherweise zu wenige Beispiele für eine effektive Modellierung. Um diesen Mangel zu überwinden, diese 200 Beispiele mehrmals zu erfassen (wiederverwenden), was möglicherweise zu ausreichend Beispiele für nützliches Training.

Achten Sie auf eine Überanpassung, Oversampling.

Im Gegensatz zum Unterbelichten.

P

komprimierte Daten

Ein Ansatz, um Daten effizienter zu speichern.

Bei komprimierten Daten werden die Daten entweder in einem komprimierten Format oder auf eine andere Weise gespeichert, die einen effizienteren Zugriff ermöglicht. Verpackte Daten minimieren den Arbeitsspeicher- und Berechnungsaufwand, der für für ein schnelleres Training und eine effizientere Modellinferenz.

Gepackte Daten werden häufig mit anderen Techniken verwendet, z. B. Datenerweiterung und Regularisierung, um die Leistung der Modelle.

pandas

#fundamentals

Eine spaltenorientierte Datenanalyse API, die auf numpy basiert. Viele Frameworks für maschinelles Lernen, einschließlich TensorFlow, unterstützen Pandas-Datenstrukturen als Eingaben. Weitere Informationen finden Sie in der Pandas-Dokumentation.

Parameter

#fundamentals

Die Gewichte und Voreingenommenheiten, die ein Modell während des Trainings lernt. Beispiel: In einer linearen Regressionsmodell basiert, bestehen die Parameter aus den Bias (b) und alle Gewichtungen (w1, w2, und so weiter) in die folgende Formel ein:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Im Gegensatz dazu sind Hyperparameter die Werte, Sie (oder einen Hyperparameter-Abstimmungsdienst) dem Modell bereitstellen. Beispielsweise ist die Lernrate ein Hyperparameter.

Parameter-effiziente Abstimmung

#language
#generativeAI

Verschiedene Techniken zur fine-tune vortrainiertes Language Model (PLM) effizienter als eine vollständige Abstimmung. Parametereffizient Durch die Feinabstimmung werden in der Regel weit weniger Parameter optimiert als bei vollem und führt in der Regel zu einer Large Language Model mit hoher Leistung als auch ein Large Language Model, das aus vollständigen die Feinabstimmung.

Parametereffiziente Abstimmung im Vergleich zu:

Die parametereffiziente Abstimmung wird auch als parametereffiziente Feinabstimmung bezeichnet.

Parameterserver (PS)

#TensorFlow

Ein Job, der die Parameter eines Modells in einer verteilten Umgebung im Blick behält.

Parameteraktualisierung

Anpassung der Parameter eines Modells während des Trainings, in der Regel innerhalb einer einzelnen Iteration des Gradientenabstiegs.

partielle Ableitung

Eine Ableitung, bei der alle Variablen bis auf eine als konstant betrachtet werden. Die partielle Ableitung von f(x, y) nach x ist beispielsweise die Ableitung von f als Funktion von x allein (d. h. bei konstantem y). Bei der partiellen Ableitung von f nach x wird nur die Änderung von x berücksichtigt. Alle anderen Variablen in der Gleichung werden ignoriert.

Teilnahmeeffekt

#fairness

Synonym für Non-Response-Bias. Weitere Informationen finden Sie unter Stichprobenfehler.

Partitionierungsstrategie

Der Algorithmus, mit dem Variablen auf Parameterserver verteilt werden.

Pax

Ein Programmierframework, das für das Training groß angelegter neuronaler Netzwerke Modelle entwickelt wurde, die so groß sind, dass sie mehrere TPU-Beschleunigerchips Slices oder Pods umfassen.

Pax basiert auf Flax, das auf JAX basiert.

Diagramm, das die Position von Pax im Software-Stack zeigt.
          Pax baut auf JAX auf. Pax selbst besteht aus drei
          Ebenen. Die unterste Ebene enthält TensorStore und Flax.
          Die mittlere Schicht enthält Optax und Flaxformer. Die oberste Schicht enthält die Praxis Modeling Library. Fiddle ist gebaut
          auf Pax.

Perceptron

Ein System (Hardware oder Software), das einen oder mehrere Eingabewerte entgegennimmt, eine Funktion auf die gewichtete Summe der Eingaben ausführt und einen einzelnen Ausgabewert berechnet. Beim maschinellen Lernen ist die Funktion in der Regel nicht linear, wie z. B. ReLU, Sigmoid oder tanh. Zum Beispiel verlässt sich das folgende Perceptron auf die Sigmoidfunktion, um drei Eingabewerte:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

In der folgenden Abbildung nimmt das Perzeptron drei Eingaben entgegen, die jeweils durch ein Gewicht geändert werden, bevor sie in das Perzeptron gelangen:

Ein Perceptron, das drei Eingaben annimmt, die jeweils mit separaten
          Gewichte. Das Perzeptron gibt einen einzelnen Wert aus.

Perzeptronen sind die Neuronen in neuronalen Netzwerken.

Leistung

Überladener Begriff mit folgenden Bedeutungen:

  • Standardbedeutung in der Softwareentwicklung. Konkret: Wie schnell (oder effizient) läuft diese Software?
  • Die Bedeutung im maschinellen Lernen. Hier liefert die Leistung Frage: Wie korrekt ist dieses Modell? Das heißt: Wie gut sind die Vorhersagen des Modells?

Wichtigkeit von Permutationsvariablen

#df

Eine Art der Variablenbewertung, bei der die Zunahme des Vorhersagefehlers eines Modells nach der Permutation der Werte des Features bewertet wird. Die Wichtigkeit der Permutationsvariablen ist modellunabhängig Messwert.

Perplexity

Ein Maß dafür, wie gut ein Modell seine Aufgabe erfüllt. Angenommen, Ihre Aufgabe besteht darin, die ersten Buchstaben eines Wortes zu lesen. über eine Smartphone-Tastatur eingeben, um eine Liste möglicher Ergänzungswörter sind. Die Perplexität P ist für diese Aufgabe ungefähr die Zahl die Sie aufführen müssen, damit Ihre Liste die tatsächlichen Wort, das die Nutzenden eingeben möchten.

Die Perplexität hängt mit der Kreuzentropie zusammen:

$$P= 2^{-\text{cross entropy}}$$

Pipeline

Die Infrastruktur eines Algorithmus für maschinelles Lernen. Eine Pipeline umfasst das Erfassen der Daten, das Einfügen der Daten in Trainingsdateien, das Trainieren eines oder mehrerer Modelle und das Exportieren der Modelle in die Produktion.

Pipeline

#language

Eine Form der Modellparallelität, bei der die Verarbeitung eines Modells in aufeinanderfolgende Phasen unterteilt wird und jede Phase auf einem anderen Gerät ausgeführt wird. Während in einer Phase ein Batch verarbeitet wird, mit dem nächsten Batch arbeiten kann.

Weitere Informationen finden Sie unter Gestaffelte Schulung.

pjit

Eine JAX-Funktion, die Code zur Ausführung auf mehrere Beschleuniger-Chips: Der Nutzer übergibt eine Funktion an pjit, die eine Funktion mit der entsprechenden Semantik zurückgibt, die jedoch in eine XLA-Berechnung kompiliert wird, die auf mehreren Geräten (z. B. GPUs oder TPU-Kerne) ausgeführt wird.

Mit pjit können Nutzer Berechnungen fragmentieren, ohne sie umzuschreiben: den SPMD-Partitioner

Im März 2023 wurde pjit mit jit zusammengeführt. Weitere Informationen finden Sie unter Verteilte Arrays und automatische Parallelisierung .

PLM

#language
#generativeAI

Abkürzung für vortrainiertes Sprachmodell.

pmap

Eine JAX-Funktion, die Kopien einer Eingabefunktion ausführt auf mehreren zugrunde liegenden Hardwaregeräten (CPUs, GPUs oder TPUs) mit unterschiedlichen Eingabewerten. pmap basiert auf SPMD.

policy

#rl

Bei der Verstärkungslernen ist die probabilistische Zuordnung eines Agenten von Zuständen zu Aktionen gemeint.

Pooling

#image

Reduktion einer oder mehrerer Matrizen, die von einer früheren Convolutional Layer zu einer kleineren Matrix hinzu. Beim Pooling wird in der Regel entweder der Maximal- oder der Durchschnittswert für den gesamten zusammengeführten Bereich ermittelt. Angenommen, wir haben die folgende 3 × 3-Matrix:

Die 3 × 3-Matrix [[5,3,1], [8,2,5], [9,4,3]].

Eine Pooling-Operation teilt diese Matrix wie eine konvolutionelle Operation in Scheiben auf und verschiebt diese konvolutionelle Operation dann um Schritte. Angenommen, der Pooling-Vorgang teilt die Faltungsmatrix in 2x2-Segmente mit einem 1x1-Schritt. Wie das folgende Diagramm zeigt, finden vier Pooling-Vorgänge statt. Stellen Sie sich vor, dass bei jedem Pooling-Vorgang der Maximalwert in dieser Scheibe vier:

Die Eingabematrix ist 3x3 mit den Werten [[5,3,1], [8,2,5], [9,4,3]].
          Die 2x2-Submatrix oben links der Eingabematrix ist [[5,3], [8,2]], also
          liefert der Pooling-Vorgang oben links den Wert 8 (der Wert
          maximal 5, 3, 8 und 2). Die 2x2-Submatrix oben rechts der Eingabe
          Matrix ist [[3,1], [2,5]], sodass die Pooling-Operation oben rechts
          Wert 5. Die 2x2-Submatrix unten links der Eingabematrix ist
          [[8,2], [9,4]], sodass der Pooling-Vorgang unten links den Wert liefert
          9. Die untere rechte 2 × 2-Untermatrix der Eingabematrix ist [[2,5], [4,3]]. Der rechte untere Pooling-Vorgang ergibt daher den Wert 5. Zusammenfassend lässt sich sagen, dass der Pooling-Vorgang die 2x2-Matrix liefert.
          [[8,5], [9,5]].

Durch Pooling wird die Translationsinvarianz in der Eingabematrix erzwungen.

Das Pooling für Bildverarbeitungsanwendungen wird auch als räumliches Pooling bezeichnet. In Zeitreihenanwendungen wird Pooling in der Regel als zeitliches Pooling bezeichnet. Weniger offiziell wird das Pooling oft als Subsampling oder Downsampling bezeichnet.

Positioncodierung

#language

Verfahren zum Hinzufügen von Informationen zur Position eines Tokens in einer Sequenz die Einbettung des Tokens. Transformer-Modelle verwenden die Positionscodierung, um die Beziehung zwischen verschiedenen Teilen der Sequenz besser zu verstehen.

Eine gängige Implementierung der Positionscodierung verwendet eine Sinusoidfunktion. Genauer gesagt, die Frequenz und Amplitude der sinusoidalen Funktion durch die Position des Tokens in der Sequenz bestimmt.) Mit dieser Technik kann ein Transformer-Modell lernen, je nach Position auf unterschiedliche Teile der Sequenz zu achten.

Positive Klasse

#fundamentals

Die Klasse, für die Sie den Test durchführen.

Die positive Klasse in einem Krebsmodell könnte beispielsweise „Tumor“ sein. Die positive Klasse in einem E-Mail-Klassifikator könnte „Spam“ sein.

Kontrast mit negativer Klasse.

Nachbearbeitung

#fairness
#fundamentals

Anpassung der Ausgabe eines Modells nach der Ausführung des Modells. Mit der Nachbearbeitung lassen sich Fairness-Einschränkungen erzwingen, Modelle selbst zu modifizieren.

So kann beispielsweise eine Nachbearbeitung auf einen binären Klassifikator angewendet werden, indem ein Klassifizierungsgrenzwert festgelegt wird, der für ein bestimmtes Attribut die Gleichbehandlung aufrechterhält. Dazu wird geprüft, ob die Rate der echten positiven Ergebnisse für alle Werte dieses Attributs gleich ist.

PR AUC (Fläche unter der PR-Kurve)

Fläche unter der interpolierten Precision-/Recall-Kurve, die sich durch grafische Darstellung (Recall, Precision) für verschiedene Werte der Klassifizierungsschwellenwert. Je nachdem, wie berechnet wurde, entspricht die PR AUC durchschnittliche Genauigkeit des Modells.

Praxis

Eine leistungsstarke ML-Hauptbibliothek von Pax Praxis oft namens „Layer Library“.

Die Praxis enthält nicht nur die Definitionen für die Layer-Klasse, sondern seine unterstützenden Komponenten, wie z. B.:

Praxis stellt die Definitionen für die Model-Klasse bereit.

Precision

Einen Messwert für Klassifizierungsmodelle, der die Antworten folgende Frage:

Wie hoch war der Prozentsatz der korrekten Vorhersagen, als das Modell die positive Klasse vorhersagte?

Hier ist die Formel:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

Dabei gilt:

  • „Richtig positiv“ bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch positiv“ bedeutet, dass das Modell die positive Klasse fälschlicherweise vorhergesagt hat.

Angenommen, ein Modell hat 200 positive Vorhersagen getroffen. Von diesen 200 positiven Vorhersagen:

  • 150 echt positive Ergebnisse.
  • 50 davon waren falsch positive Ergebnisse.

In diesem Fall gilt:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Im Gegensatz zu Genauigkeit und Trefferquote.

Siehe Klassifizierung: Genauigkeit, Trefferquote, Genauigkeit und verwandte Messwerte .

Precision-/Recall-Kurve

Eine Kurve mit Precision und Recall Klassifizierungsschwellenwerte.

prognostizierter Wert

#fundamentals

Die Ausgabe eines Modells. Beispiel:

  • Die Vorhersage eines binären Klassifizierungsmodells ist entweder die positive oder die negative Klasse.
  • Die Vorhersage eines Klassifizierungsmodells mit mehreren Klassen bezieht sich auf eine Klasse.
  • Die Vorhersage eines linearen Regressionsmodells ist eine Zahl.

Vorhersageverzerrung

Ein Wert, der angibt, wie weit der Durchschnitt der Vorhersagen vom Durchschnitt der Labels im Dataset abweicht.

Nicht zu verwechseln mit dem Begriff „Bias“ in Machine-Learning-Modellen oder mit Voreingenommenheit in Bezug auf Ethik und Fairness.

Prognose-ML

Jedes standardmäßige (klassische) System für maschinelles Lernen

Der Begriff vorhersagende ML hat keine formale Definition. Vielmehr wird mit dem Begriff eine Kategorie von ML-Systemen unterschieden, die nicht auf generative KI:

Prognoseparität

#fairness

Fairness-Messwert, mit dem geprüft wird, für einen bestimmten Klassifikator sind gleichbedeutend mit den berücksichtigten Untergruppen.

Beispiel: Ein Modell, das vorhersagt, prädiktive Parität der Nationalität, wenn die Genauigkeitsrate gleich ist. für Lilliputianer und Brobdingnagier.

Die prädiktive Parität wird manchmal auch als prognostische Ratenparität bezeichnet.

Siehe „Fairness-Definitionen“ Explained“ (Abschnitt 3.2.1) .

Vorhersageratenparität

#fairness

Eine andere Bezeichnung für prognostische Parität.

Vorverarbeitung

#fairness
Daten werden verarbeitet, bevor sie zum Trainieren eines Modells verwendet werden. Die Vorverarbeitung kann so einfach sein wie das Entfernen von Wörtern aus einem englischen Textkorpus, die nicht im englischen Wörterbuch vorkommen, oder so komplex wie die Neuformulierung von Datenpunkten, um so viele Attribute wie möglich zu entfernen, die mit sensiblen Attributen korrelieren. Die Vorverarbeitung kann dazu beitragen, Fairnessvorgaben zu erfüllen.

vortrainiertes Modell

#language
#image
#generativeAI

Modelle oder Modellkomponenten (z. B. Einbettungsvektor) hochgeladen, die bereits trainiert wurden. Manchmal geben Sie vortrainierte Einbettungsvektoren in ein neuronales Netzwerk ein. In anderen Fällen trainiert Ihr Modell die Einbettungsvektoren selbst, anstatt sich auf die vorab trainierten Einbettungen zu verlassen.

Der Begriff vortrainiertes Sprachmodell bezieht sich auf ein Large Language Model, das vortrainiert wurde.

Vortraining

#language
#image
#generativeAI

Das erste Training eines Modells mit einem großen Dataset. Einige vortrainierte Modelle sind tollpatschige Giganten und müssen in der Regel durch zusätzliche Trainings optimiert werden. Beispielsweise können ML-Fachleute ein Large Language Model für ein umfangreiches Text-Dataset verwenden, zum Beispiel alle englischsprachigen Seiten in Wikipedia. Im Anschluss an die Vorschulung Das resultierende Modell kann mit einer der folgenden Methoden weiter verfeinert werden: Techniken:

Vorherige Überzeugung

Was Sie von den Daten glauben, bevor Sie mit dem Training beginnen. Die L2-Regularisierung basiert beispielsweise auf der Ansicht, dass Gewichte klein und normal sein sollten die um Null herum verteilt sind.

probabilistisches Regressionsmodell

Ein Regressionsmodell, das nicht nur die Gewichtungen für jede Funktion, aber auch die Unsicherheit dieser Gewichtungen. Ein probabilistisches Regressionsmodell generiert eine Vorhersage und die Unsicherheit dieser Vorhersage. Ein probabilistisches Regressionsmodell könnte beispielsweise eine Vorhersage von 325 mit einer Standardabweichung von 12 liefern. Weitere Informationen zu probabilistischen Regressionsmodellen finden Sie in diesem Colab auf tensorflow.org.

Wahrscheinlichkeitsdichtefunktion

Eine Funktion, mit der die Häufigkeit von Datenstichproben ermittelt wird, die genau einen bestimmten Wert haben. Wenn die Werte eines Datensatzes kontinuierliche Gleitkommazahlen sind, kommt es selten zu genauen Übereinstimmungen. Wenn Sie jedoch eine Wahrscheinlichkeitsdichtefunktion von Wert x bis Wert y integrieren, erhalten Sie die erwartete Häufigkeit von Datenstichproben zwischen x und y.

Nehmen wir zum Beispiel eine Normalverteilung mit einem Mittelwert von 200 und einer Standardabweichung von 30. Um die erwartete Häufigkeit von Stichproben im Bereich von 211,4 bis 218,7 zu bestimmen, können Sie die Wahrscheinlichkeitsdichtefunktion für eine Normalverteilung von 211,4 bis 218,7 integrieren.

prompt

#language
#generativeAI

Beliebiger Text, der als Eingabe für ein Large Language Model eingegeben wurde um das Modell so zu konditionieren, dass es sich auf eine bestimmte Weise verhält. Prompts können so kurz wie eine Wortgruppe oder beliebig lang sein (z. B. der gesamte Text eines Romans). Prompts lassen sich in mehrere Kategorien unterteilen, darunter die in der folgenden Tabelle aufgeführten:

Prompt-Kategorie Beispiel Hinweise
Frage Wie schnell kann eine Taube fliegen?
Anleitung Schreib ein lustiges Gedicht über Arbitrage. Ein Prompt, in dem das Large Language Model aufgefordert wird, etwas zu tun.
Beispiel Markieren Sie den Markdown-Code in HTML. Beispiel:
Markdown: * Listenelement
HTML: <ul> <li>Listenelement</li> </ul>
Der erste Satz in diesem Beispiel-Prompt ist eine Anweisung. Der Rest des Prompts ist das Beispiel.
Rolle Erläutern Sie, warum das Gradientenverfahren beim Training von maschinellem Lernen verwendet wird, in Physik. Der erste Teil des Satzes ist eine Anweisung. die Wortgruppe „Doktortitel in Physik“ ist der Rollenteil.
Teilweise Eingabe, die das Modell vervollständigen soll Der Premierminister des Vereinigten Königreichs wohnt unter folgender Adresse: Eine Teileingabesaufforderung kann entweder abrupt enden (wie in diesem Beispiel). oder enden mit einem Unterstrich.

Ein Generative-AI-Modell kann auf einen Prompt mit Text, Code, Bilder, Einbettungen, Videos... und fast alles.

Prompt-basiertes Lernen

#language
#generativeAI

Fähigkeit bestimmter Modelle, sich anzupassen. ihr Verhalten als Reaktion auf beliebige Texteingaben (Aufforderungen) reagieren. Bei einem typischen Prompt-basierten Lernparadigma Large Language Model reagiert auf eine Aufforderung durch Text generiert wird. Angenommen, ein Nutzer gibt den folgenden Prompt ein:

Fasse das dritte Newtonsche Gesetz der Bewegung zusammen.

Ein Modell, das promptbasiertes Lernen unterstützt, ist nicht speziell darauf trainiert, den vorherigen Prompt zu beantworten. Vielmehr „weiß“ das Modell, viele Fakten über Physik, viel über allgemeine Sprachregeln und darüber, was im Allgemeinen hilfreiche Antworten zu liefern. Dieses Wissen reicht aus, um eine (hoffentlich) hilfreiche Antwort zu geben. Zusätzliches menschliches Feedback („Diese Antwort war zu kompliziert.“ oder „Was ist eine Reaktion?“. ermöglicht einigen Prompt-basierten Lernsystemen, um die Nützlichkeit ihrer Antworten zu verbessern.

Prompt-Entwurf

#language
#generativeAI

Synonym für prompt Engineering.

Prompt Engineering

#language
#generativeAI

Die Kunst, Prompts zu erstellen, die die gewünschten Antworten aus einem Large Language Model hervorrufen. Prompt wird von Menschen ausgeführt Engineering. Gut strukturierte Prompts sind wichtig, in einem Large Language Model nützliche Antworten zu liefern. Die Prompt-Entwicklung hängt von vielen Faktoren ab, darunter:

  • Das Dataset, das zum Vortrainieren und möglicherweise Large Language Model fine-tune
  • Die temperature und andere Decodierungsparameter, die der das Modell zum Generieren von Antworten verwendet.

Weitere Informationen zum Verfassen hilfreicher Prompts finden Sie unter Einführung in das Prompt-Design.

Prompt-Design ist ein Synonym für Prompt Engineering.

Prompt-Optimierung

#language
#generativeAI

Ein parametereffizienter Tuning-Mechanismus, der ein „Präfix“ lernt, das dem tatsächlichen Prompt vorangestellt wird.

Eine Variante der Prompt-Optimierung, die manchmal als Präfix-Optimierung bezeichnet wird, besteht darin, das Präfix vor jeder Ebene einzufügen. Bei den meisten Prompt-Feinabstimmungen fügt der Eingabeebene ein Präfix hinzu.

Proxy-Labels

#fundamentals

Daten zur Schätzung von Labels, die nicht direkt in einem Dataset verfügbar sind.

Angenommen, Sie müssen ein Modell trainieren, um den Stresspegel von Mitarbeitern vorherzusagen. Ihr Dataset enthält viele Vorhersagefunktionen, enthält kein Label namens Stresslevel. Unerschrocken wählst du „Arbeitsunfälle“ aus als Proxy-Label für Stresslevel zu reduzieren. Schließlich haben Mitarbeitende unter hohem Stress mehr Zeit, als beruhigende Mitarbeitende. Oder doch? Vielleicht Arbeitsunfälle aus verschiedenen Gründen steigen und fallen.

Angenommen, Sie möchten Ist es regnet? ein boolesches Label sein? für Ihr Dataset, enthält aber keine Regendaten. Wenn Fotos verfügbar sind, können Sie Bilder von Personen mit Regenschirmen als Proxylabel für Regnet es? festlegen. Ist das ein gutes Proxy-Label? Vielleicht, aber Menschen in einigen Kulturen tragen eher Sonnenschirme bei als Regen.

Proxy-Labels sind oft unvollständig. Wählen Sie nach Möglichkeit tatsächliche Labels gegenüber Proxy-Labels. Wenn jedoch kein tatsächliches Label vorhanden ist, wählen Sie den Proxy aus. sehr sorgfältig und wählt den am wenigsten schrecklichen Proxy-Label-Kandidaten aus.

Proxy (vertrauliche Attribute)

#fairness
Ein Attribut, das als Ersatz für ein sensibles Attribut verwendet wird. Beispiel: kann die Postleitzahl der Person als Anhaltspunkt für ihr Einkommen verwendet werden, ethnische Herkunft.

reine Funktion

Funktion, deren Ausgaben nur auf ihren Eingaben basieren und die keine Seite haben Effekte. Insbesondere verwendet oder ändert eine reine Funktion keinen globalen Status, z. B. den Inhalt einer Datei oder den Wert einer Variablen außerhalb der Funktion.

Mit reinen Funktionen können Sie threadsicheren Code erstellen, was beim Sharding von Modell-Code auf mehrere Beschleunigerchips von Vorteil ist.

Für die Funktionsweise der JAX-Funktionstransformationsmethoden ist es erforderlich, dass die Eingabefunktionen reine Funktionen sind.

Q

Q-Funktion

#rl

Im Lernen mit Verstärkung ist dies die Funktion, die den erwarteten Rückkehr vorhersagt, der sich aus der Ausführung einer Aktion in einem Zustand ergibt und der dann einer bestimmten Richtlinie folgt.

Die Q-Funktion wird auch als Wertfunktion für Statusaktionen bezeichnet.

Q-Learning

#rl

Bei bestärkendem Lernen handelt es sich um einen Algorithmus, lässt einen Kundenservicemitarbeiter zu um die optimale Q-Funktion einer Markow-Entscheidungsprozess mithilfe der Bellman-Gleichung. Der Markov-Entscheidungsprozess modelliert eine Umgebung.

Quantil

Jeder Bucket bei der Quantil-Bucket-Methode

Quantil-Bucketing

Verteilen der Werte eines Features auf Buckets, sodass jede Bucket enthält die gleiche (oder fast dieselbe) Anzahl von Beispielen. In der folgenden Abbildung werden beispielsweise 44 Punkte in 4 Buckets unterteilt, die jeweils 11 Punkte enthalten. Damit jede Gruppe in der Abbildung den Parameter die gleiche Anzahl von Punkten haben, bieten einige Buckets eine unterschiedliche Breite von x-Werten.

44 Datenpunkte, aufgeteilt in 4 Buckets mit jeweils 11 Punkten.
          Obwohl jeder Bucket
die gleiche Anzahl von Datenpunkten enthält,
          Einige Buckets enthalten eine größere Auswahl an Featurewerten als andere
          Buckets.

Quantisierung

Überladener Begriff, der auf folgende Arten verwendet werden kann:

  • Implementieren von Quantil-Bucketing für ein bestimmtes Feature
  • Daten in Nullen und Einsen umwandeln, um sie schneller zu speichern, zu trainieren und zu inferieren. Da boolesche Daten im Vergleich zu anderen Formaten robuster gegen Rauschen und Fehler sind, kann die Quantisierung die Modellrichtigkeit verbessern. Quantisierungstechniken umfassen Rundung, Abschneiden und Binning:
  • Die Anzahl der Bits zum Speichern der Modelldaten reduzieren parameters Angenommen, die Parameter eines Modells sind als 32-Bit-Gleitkommazahlen gespeichert. Durch Quantisierung werden diese von 32 Bit bis 4, 8 oder 16 Bit. Durch die Quantisierung wird Folgendes reduziert:

    • Computing-, Arbeitsspeicher-, Laufwerks- und Netzwerknutzung
    • Zeit, um eine Vorhersage abzuleiten
    • Stromstärke

    Die Quantisierung verringert jedoch manchmal die Richtigkeit der Vorhersagen zu treffen.

Warteschlange

#TensorFlow

Einen TensorFlow-Vorgang, der Warteschlangendaten implementiert Struktur. Wird normalerweise für die E/A verwendet.

R

RAG

#fundamentals

Abkürzung für Retrieval Augmented Generation

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, bei dem jeder Entscheidungsbaum mit einer bestimmten Zufallsstörung trainiert wird, z. B. Bagging.

Random Forests sind eine Art Entscheidungswald.

Zufallsrichtlinie

#rl

Der Begriff bestärkendes Lernen Richtlinie, in der ein action (Aktion)

Ranking

Eine Art von überwachtem Lernen, bei dem eine Liste von Elementen sortiert werden soll.

Rang (Ordnung)

Die Ordinalposition einer Klasse in einem Problem des maschinellen Lernens, bei dem Klassen von der höchsten zur niedrigsten kategorisiert werden. Ein Verhaltensbewertungssystem könnte beispielsweise die Belohnungen eines Hundes von der höchsten (ein Steak) bis zur niedrigsten (verwelkter Grünkohl) einstufen.

Rang (Tensor)

#TensorFlow

Die Anzahl der Dimensionen in einem Tensor. Beispiel: Ein Skalar hat Rang 0, ein Vektor den Rang 1 und eine Matrix den Rang 2.

Nicht zu verwechseln mit dem Rang (Ordnung).

Bewerter

#fundamentals

Eine Person, die Labels für Beispiele bereitstellt. „Kommentator“ ist ein anderer Name für Evaluator.

Rückruf

Messwert für Klassifizierungsmodelle, der die folgende Frage beantwortet:

Wenn die Grundwahrheit die positive Klasse war, welcher Prozentsatz der Vorhersagen wurde vom Modell korrekt als positive Klasse identifiziert?

Die Formel lautet:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

Dabei gilt:

  • Richtig positiv bedeutet, dass das Modell die positive Klasse richtig vorhergesagt hat.
  • „Falsch negativ“ bedeutet, dass das Modell fälschlicherweise die negative Klasse vorhergesagt hat.

Angenommen, Ihr Modell hat 200 Vorhersagen für Beispiele getroffen, für welche die positive Klasse. Von diesen 200 Vorhersagen:

  • 180 waren richtig positiv.
  • 20 waren falsch negative Ergebnisse.

In diesem Fall gilt:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Weitere Informationen finden Sie unter Klassifizierung: Genauigkeit, Recall, Precision und zugehörige Messwerte.

Empfehlungssystem

#recsystems

Ein System, das für jeden Nutzer eine relativ kleine Gruppe von gewünschten Elementen aus einem großen Korpus auswählt. Ein Videoempfehlungssystem kann beispielsweise zwei Videos empfehlen, aus einem Korpus von 100.000 Videos auswählen, indem ich Casablanca und The Philadelphia Story für einen Nutzer und Wonder Woman und Black Panther. Ein Videoempfehlungssystem seine Empfehlungen auf Faktoren wie den folgenden basieren:

  • Filme, die von ähnlichen Nutzern bewertet oder angesehen wurden.
  • Genre, Regisseure, Schauspieler, demografische Zielgruppe...

Rektifizierte Lineareinheit (ReLU)

#fundamentals

Eine Aktivierungsfunktion mit folgendem Verhalten:

  • Wenn die Eingabe negativ oder null ist, ist die Ausgabe 0.
  • Wenn die Eingabe positiv ist, entspricht die Ausgabe der Eingabe.

Beispiel:

  • Wenn die Eingabe -3 ist, ist die Ausgabe 0.
  • Wenn die Eingabe +3 ist, ist die Ausgabe 3,0.

Hier ist ein Plot von ReLU:

Ein kartesisches Diagramm mit zwei Linien. Die erste Linie hat einen konstanten y-Wert von 0 und verläuft entlang der x-Achse von -∞,0 bis 0,-0.
          Die zweite Linie beginnt bei 0,0. Diese Linie hat eine Steigung von +1 und verläuft daher von 0,0 bis +unendlich,+unendlich.

ReLU ist eine sehr beliebte Aktivierungsfunktion. Trotz seines einfachen Verhaltens ermöglicht ReLU einem neuronalen Netzwerk, nichtlineare Beziehungen zwischen Features und dem Label zu lernen.

Recurrent Neural Network (RNN)

#seq

Ein neuronales Netzwerk, das absichtlich mehrere wobei Teile jedes Laufs in den nächsten Durchlauf übertragen werden. Insbesondere stellen versteckte Schichten aus dem vorherigen Durchlauf einen Teil der Eingabe für dieselbe versteckte Schicht im nächsten Durchlauf bereit. Recurrent Neural Networks sind besonders nützlich für die Auswertung von Sequenzen, da die verborgenen Schichten aus früheren Ausführungen des neuronalen Netzwerks in früheren Teilen der Sequenz lernen können.

Die folgende Abbildung zeigt beispielsweise ein rekursives neuronales Netzwerk, das viermal ausgeführt wird. Beachten Sie, dass die Werte, die in den ausgeblendeten Layern aus der wird die erste Ausführung Teil der Eingabe in dieselben verborgenen Layers in beim zweiten Durchlauf. Die Werte, die in der verborgenen Ebene auf der Teil der Eingabe für denselben verborgenen Layer in der beim dritten Durchlauf. Auf diese Weise wird das Recurrent neuronale Netzwerk nach und nach trainiert und sagt die Bedeutung der gesamten Sequenz und nicht nur die Bedeutung voraus aus einzelnen Wörtern.

Ein RNN, der viermal ausgeführt wird, um vier Eingabewörter zu verarbeiten.

Regressionsmodell

#fundamentals

Ein Modell, das eine numerische Vorhersage generiert. Ein Klassifizierungsmodell generiert dagegen eine Klassenvorhersage. Im Folgenden sehen Sie beispielsweise alle Regressionsmodelle:

  • Ein Modell, das den Wert eines bestimmten Hauses vorhersagt,z. B. 423.000 €.
  • Modell, das die Lebenserwartung eines bestimmten Baums vorhersagt, z. B. 23,2 Jahre.
  • Ein Modell, das die Regenmenge vorhersagt, die in einer bestimmten Stadt in den nächsten sechs Stunden fallen wird, z. B. 0,18 Zoll.

Zwei gängige Arten von Regressionsmodellen sind:

  • Lineare Regression: Hiermit wird die Linie ermittelt, die Labelwerte am besten den Features zuordnet.
  • Logistische Regression: Hier wird eine Wahrscheinlichkeit zwischen 0,0 und 1,0 generiert, die ein System in der Regel einer Klassenvorhersage zuordnet.

Nicht jedes Modell, das numerische Vorhersagen liefert, ist ein Regressionsmodell. In einigen Fällen ist eine numerische Vorhersage in Wirklichkeit nur ein Klassifizierungsmodell, das zufällig numerische Klassennamen hat. Beispiel: Ein Modell, das ist eine numerische Postleitzahl ein Klassifizierungsmodell, kein Regressionsmodell.

Regularisierung

#fundamentals

Jeder Mechanismus, der eine Überanpassung reduziert. Zu den beliebten Regularisierungstypen gehören:

Regularisierung kann auch als Strafe für die Komplexität eines Modells definiert werden.

Regularisierungsrate

#fundamentals

Zahl, die die relative Bedeutung von Regularisierung während des Trainings. Anheben der Regularisierungsrate reduziert die Überanpassung, kann aber die Vorhersageleistung des Modells reduzieren. Wenn Sie die Regularisierungsrate hingegen reduzieren oder weglassen, steigt die Überanpassung.

Reinforcement Learning (RL)

#rl

Eine Familie von Algorithmen, die eine optimale Richtlinie lernen, mit dem Ziel, den Ertrag bei der Interaktion mit einer Umgebung zu maximieren. Die ultimative Belohnung für die meisten Spiele ist beispielsweise der Sieg. Systeme für die Verstärkungslernen können Experten im Spielen komplexer Spiele werden, indem sie Sequenzen früherer Spielzüge auswerten, die letztendlich zu Siegen und Sequenzen geführt haben, die letztendlich zu Niederlagen geführt haben.

Bestärkendes Lernen durch menschliches Feedback (RLHF)

#generativeAI
#rl

Feedback von Prüfern nutzen, um die Qualität der Antworten eines Modells zu verbessern. Ein RLHF-Mechanismus kann Nutzende beispielsweise bitten, die Qualität eines Modells Antwort mit einem 👍- oder 👎-Emoji. Das System kann dann seine zukünftigen Antworten basierend auf diesem Feedback.

ReLU

#fundamentals

Kürzel für Rektifizierte lineare Einheit.

Replay-Buffer

#rl

In DQN-ähnlichen Algorithmen ist das der Speicher, den der Agent zum Speichern von Zustandsübergängen für die Verwendung in der Erlebniswiederholung verwendet.

Replikat

Eine Kopie des Trainingsdatensatzes oder Modells, normalerweise auf einem anderen Computer. Ein System könnte beispielsweise die folgende Strategie für die Implementierung von Datenparallelität verwenden:

  1. Platzieren Sie Replikate eines vorhandenen Modells auf mehreren Rechnern.
  2. Senden Sie unterschiedliche Teilmengen des Trainings-Datasets an jedes Replikat.
  3. Aggregieren Sie die Aktualisierungen des Parameters.

Berichterhebungsverzerrung

#fairness

Die Tatsache, dass die Häufigkeit, mit der Menschen über Handlungen schreiben, Ergebnisse oder Eigenschaften nicht ihre reale Umgebung Häufigkeiten oder der Grad, in dem eine Eigenschaft charakteristisch ist für eine Klasse von Individuen. Berichtsverzerrung kann Einfluss auf die Zusammensetzung haben von Daten, aus denen ML-Systeme lernen.

In Büchern ist beispielsweise das Wort lachte häufiger zu finden als atmete. Ein Modell für maschinelles Lernen, das die relative Häufigkeit von Lachen und Atmen anhand eines Buchkorpus schätzt, würde wahrscheinlich feststellen, dass Lachen häufiger vorkommt als Atmen.

Darstellung

Das Zuordnen von Daten zu nützlichen Elementen.

Re-Ranking

#recsystems

Die letzte Phase eines Empfehlungssystems, in denen bewertete Elemente möglicherweise gemäß anderen (in der Regel kein ML-Algorithmus). Bei der Neubewertung wird die Liste der Elemente, die in der Phase Bewertung generiert wurden, neu bewertet. Dabei werden folgende Aktionen ausgeführt:

  • Artikel, die der Nutzer bereits gekauft hat, werden entfernt.
  • Die Bewertung aktuellerer Artikel wird erhöht.

Retrieval-Augmented Generation (RAG)

#fundamentals

Eine Technik zur Verbesserung der Qualität Large Language Model (LLM)-Ausgabe durch Wissensquellen, die nach dem Trainieren des Modells abgerufen wurden. RAG verbessert die Genauigkeit von LLM-Antworten, indem es dem trainierten LLM Zugriff auf Informationen gewährt, die aus vertrauenswürdigen Wissensdatenbanken oder Dokumenten abgerufen werden.

Häufige Beweggründe für die Nutzung von „Retrieval Augmented Generation“ sind:

  • Die sachliche Genauigkeit der generierten Antworten eines Modells erhöhen.
  • Gewährt dem Modell Zugriff auf Informationen, mit denen es nicht trainiert wurde.
  • Ändern des Wissens, das vom Modell verwendet wird.
  • Das Modell kann Quellen zitieren.

Angenommen, eine Chemie-App verwendet das PaLM API zum Generieren von Zusammenfassungen die sich auf Nutzeranfragen beziehen. Wenn das Backend der App eine Anfrage empfängt, geschieht Folgendes:

  1. Sucht nach Daten, die für die Suchanfrage des Nutzers relevant sind („abruft“)
  2. Hängt die relevanten Chemiedaten an die Suchanfrage des Nutzers an.
  3. Hiermit wird das LLM angewiesen, eine Zusammenfassung auf Grundlage der angehängten Daten zu erstellen.

Zeilenumbruch

#rl

Beim Reinforcement Learning ist der Rückgabewert bei einer bestimmten Richtlinie und einem bestimmten Zustand die Summe aller Boni, die der Agent erwartet, wenn er der Richtlinie vom Zustand bis zum Ende der Episode folgt. Der Agent berücksichtigt die verzögerte Art erwarteter Prämien durch Rabatte gemäß den für den Erhalt der Prämie erforderlichen Statusübergängen.

Wenn der Rabattfaktor also \(\gamma\)ist und \(r_0, \ldots, r_{N}\)die Prämien bis zum Ende der Folge angibt, erfolgt die Rückgabeberechnung so:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

Prämie

#rl

Bei der Reinforcement Learning ist das numerische Ergebnis der Ausführung einer Aktion in einem Zustand, wie von der Umgebung definiert.

Höhenkamm-Regelung

Synonym für L2-Regularisierung. Der Begriff Ridge-Regulierungsmittel wird häufiger in rein statistischen Kontexten verwendet, während L2-Regulierungsmittel häufiger im Bereich des maschinellen Lernens verwendet wird.

RNN

#seq

Abkürzung für recurrent neural networks (wiederkehrende neuronale Netzwerke).

ROC-Kurve (Receiver Operating Curve)

#fundamentals

Ein Diagramm mit der Rate wirklich positiver Ergebnisse im Vergleich zu Rate falsch positiver Ergebnisse für verschiedene Klassifizierungsschwellenwerte in Binärcode Klassifizierung.

Die Form einer ROC-Kurve deutet auf die Fähigkeit eines binären Klassifizierungsmodells hin. um positive von negativen Klassen zu trennen. Nehmen wir zum Beispiel an, dass ein binäres Klassifizierungsmodell alle negativen Klassen aus allen positiven Klassen:

Eine Zahlenreihe mit acht positiven Beispielen auf der rechten Seite und
          Sieben negative Beispiele links.

Die ROC-Kurve für das vorherige Modell sieht so aus:

Eine ROC-Kurve. Die x-Achse steht für die Rate falsch positiver Ergebnisse und die y-Achse
          ist die Richtig-Positiv-Rate. Die Kurve hat die Form eines umgekehrten L. Die Kurve
          beginnt bei (0.0,0.0) und geht direkt bis (0.0,1.0). Dann ist die Kurve
          ändert sich von (0.0,1.0) nach (1.0,1.0).

Im Gegensatz dazu zeigt die folgende Abbildung die Rohwerte der logistischen Regression für ein schlechtes Modell, das negative Klassen nicht von positiven Klassen unterscheiden kann:

Eine Zahlenlinie mit positiven Beispielen und negativen Klassen
          vollständig vermischt sind.

Die ROC-Kurve für dieses Modell sieht so aus:

Eine ROC-Kurve, die eigentlich eine Gerade von (0,0,0) nach (1,0,1) ist.

In der realen Welt sind die meisten binären Klassifizierungsmodelle bis zu einem gewissen Grad an positiven und negativen Klassen, aber normalerweise nicht perfekt. Also: liegt eine typische ROC-Kurve irgendwo zwischen den beiden Extremen:

Eine ROC-Kurve. Die X-Achse ist die Rate falsch positiver Ergebnisse und die Y-Achse die Rate richtig positiver Ergebnisse. Die ROC-Kurve nähert sich einem wackeligen Bogen, der die Kompasspunkte von Westen nach Norden durchläuft.

Der Punkt auf einer ROC-Kurve, der (0,0; 1,0) am nächsten ist, identifiziert theoretisch den idealen Klassifizierungsgrenzwert. Es gibt jedoch auch andere reale Probleme, die Auswahl des idealen Klassifizierungsschwellenwerts beeinflussen. Beispiel: haben vielleicht falsch negative Ergebnisse weitaus mehr Schmerz als falsch positive Ergebnisse.

Mit dem numerischen Messwert AUC wird die ROC-Kurve in einem einzigen Gleitkommawert zusammengefasst.

Rollenaufforderungen

#language
#generativeAI

Optionaler Teil einer Aufforderung zur Angabe einer Zielgruppe für die Antwort eines Generative-AI-Modells. Ohne Rolle Ein Large Language Model liefert eine Antwort, die nützlich oder unbrauchbar ist für die Person, die die Fragen stellt. Mit einem Rollen-Prompt kann ein Large Language Model auf eine Weise antworten, die für eine bestimmte Zielgruppe angemessener und hilfreicher ist. In den folgenden Prompts ist beispielsweise der Teil mit dem Rollenvorschlag fett formatiert:

  • Fassen Sie diesen Artikel für einen Doktoranden in Wirtschaftswissenschaften zusammen.
  • Beschreiben Sie, wie die Gezeiten bei einem Zehnjährigen funktionieren.
  • Erklären Sie die Finanzkrise von 2008. Sprechen Sie wie Sie mit einem kleinen Kind, oder Golden Retriever.

Stamm

#df

Den Startknoten (der erste Knoten) Bedingung) in einem Entscheidungsbaum an. In der Regel wird der Stammknoten in Diagrammen oben im Entscheidungsbaum platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Wurzel.

Stammverzeichnis

#TensorFlow

Das Verzeichnis, das Sie zum Hosten von Unterverzeichnissen der TensorFlow-Prüfpunkt- und Ereignisdateien mehrerer Modelle angeben.

Wurzel der mittleren Fehlerquadratsumme (Root Mean Squared Error, RMSE)

#fundamentals

Die Quadratwurzel des mittleren quadratischen Fehlers.

Rotationsinvarianz

#image

Bei einem Problem der Bildklassifizierung die Fähigkeit eines Algorithmus, Bilder auch dann erfolgreich zu klassifizieren, wenn sich die Ausrichtung des Bildes ändert. Beispiel: erkennt der Algorithmus einen Tennisschläger immer, ob er nach oben zeigt, seitwärts oder nach unten. Beachten Sie, dass eine Rotationsinvarianz nicht immer erwünscht ist. Eine umgedrehte 9 sollte beispielsweise nicht als 9 klassifiziert werden.

Siehe auch Translationsinvarianz und Größeinvarianz.

R-Quadrat

einen Regressionsmesswert, der angibt, wie groß die Abweichung eines label bezieht sich auf ein einzelnes Element oder einen Elementsatz. R-Quadrat ist ein Wert zwischen 0 und 1, der folgendermaßen interpretiert werden kann:

  • Ein R-Quadrat von 0 bedeutet, dass keine Variante eines Labels auf das Funktionen.
  • Ein R-Quadrat von 1 bedeutet, dass die gesamte Varianz eines Labels auf die Feature-Gruppe zurückzuführen ist.
  • Ein R-Quadrat zwischen 0 und 1 gibt an, inwieweit die Variation des Labels anhand eines bestimmten Features oder des gesamten Feature-Sets vorhergesagt werden kann. Beispiel: Ein R-Quadrat von 0,10 bedeutet, dass 10 Prozent der Varianz im Label ist auf den Merkmalssatz zurückzuführen.Ein R-Quadrat von 0,20 bedeutet, dass 20 Prozent ist auf den Funktionssatz zurückzuführen usw.

Das Bestimmtheitsmaß ist das Quadrat des Pearson-Korrelationskoeffizienten zwischen den Werten, die ein Modell vorhergesagt hat, und der Ground Truth.

S

Stichprobenverzerrung

#fairness

Weitere Informationen finden Sie unter Stichprobenfehler.

Stichprobennahme mit Ersatz

#df

Eine Methode zum Auswählen von Elementen aus einer Gruppe von Kandidatenelementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Die Wortgruppe "mit Ersatz" bedeutet Das ausgewählte Element wird nach jeder Auswahl an den Pool zurückgegeben möglicher Elemente. Bei der Umkehrmethode, Stichproben ohne Ersetzung, bedeutet, dass ein Kandidatenelement nur einmal ausgewählt werden kann.

Betrachten Sie beispielsweise die folgenden Früchte:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig als ersten Artikel aus. Bei der Stichprobenerhebung mit Zurücklegen wählt das System den zweiten Artikel aus dem folgenden Satz aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das sind die gleichen Einstellungen wie zuvor. Das System könnte also wählen Sie noch einmal fig aus.

Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht mehr ausgewählt haben. Wenn das System beispielsweise fig als erste Stichprobe zufällig auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System das zweite Beispiel aus dem folgenden (reduzierten) Satz aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

SavedModel

#TensorFlow

Das empfohlene Format zum Speichern und Wiederherstellen von TensorFlow-Modellen. SavedModel ist ein sprachneutrales, wiederherstellbares Serialisierungsformat, mit dem übergeordnete Systeme und Tools zur Erstellung, Nutzung und Transformation von TensorFlow. Modelle.

Ausführliche Informationen finden Sie im Kapitel zum Speichern und Wiederherstellen im TensorFlow-Entwicklerleitfaden.

Kostengünstig

#TensorFlow

Ein TensorFlow-Objekt für das Speichern der Modellprüfpunkte verantwortlich.

Skalar

Eine einzelne Zahl oder ein einzelner String, der als Tensor mit dem Rang 0 dargestellt werden kann. Beispiel: Codezeilen erstellen jeweils einen Skalar in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

Skalierung

Jede mathematische Transformation oder jedes Verfahren, mit dem der Bereich eines Labels und/oder eines Featurewerts verschoben wird. Einige Formen der Skalierung sind sehr nützlich für Transformationen wie die Normalisierung.

Zu den gängigen Formen der Skalierung, die im Bereich des maschinellen Lernens nützlich sind, gehören:

  • lineare Skalierung, die in der Regel eine Kombination aus Subtraktion und Dividieren, um den ursprünglichen Wert durch eine Zahl zwischen -1 und +1 zu ersetzen, oder zwischen 0 und 1 liegen.
  • logarithmische Skalierung, bei der der ursprüngliche Wert durch seine Logarithmus.
  • Z-Score-Normalisierung: Der ursprüngliche Wert wird durch einen Gleitkommawert ersetzt, der die Anzahl der Standardabweichungen vom Mittelwert dieses Merkmals darstellt.

scikit-learn

Eine beliebte Open-Source-Plattform für maschinelles Lernen. Weitere Informationen finden Sie unter scikit-learn.org.

Bewertung

#recsystems

Der Teil eines Empfehlungssystems, der für jeden Artikel, der in der Phase der Kandidatengenerierung erstellt wurde, einen Wert oder Rang liefert.

Auswahlverzerrung

#fairness

Fehler in Schlussfolgerungen aus Stichprobendaten aufgrund eines Auswahlprozesses die systematische Unterschiede zwischen den in den Daten beobachteten Stichproben generiert. und solche, die nicht beobachtet wurden. Es gibt die folgenden Arten von Auswahlverzerrung:

  • Abdeckungsverzerrung: Die im Datensatz dargestellte Population stimmt nicht mit der Population überein, für die das maschinelle Lernmodell Vorhersagen trifft.
  • Stichprobenverzerrung: Die Daten der Zielgruppe werden nicht nach dem Zufallsprinzip erfasst.
  • Non-Response-Verzerrungen (auch als Teilnahmeverzerrung bezeichnet): Nutzer aus bestimmte Gruppen die Teilnahme an Umfragen unterschiedlich oft aus als Nutzer, an denen andere Gruppen.

Angenommen, Sie erstellen ein ML-Modell, wie Menschen einen Film genießen. Um Trainingsdaten zu erheben, geben Sie allen Zuschauern in der ersten Reihe eines Kinos, in dem der Film gezeigt wird, einen Fragebogen aus. Das klingt vielleicht ganz vernünftig, um ein Dataset zu sammeln. Diese Form der Datenerhebung kann jedoch die folgenden Formen der Auswahlverzerrung einzuführen:

  • Abdeckungsverzerrung: Stichproben werden von einer Population herangezogen, die sich die Vorhersagen des Modells nicht auf Menschen verallgemeinern, die dieses Interesse an dem Film noch nicht bekundet haben.
  • Stichprobenverzerrung: Statt einer Zufallsstichprobe aus dem der beabsichtigten Bevölkerung (alle Personen aus dem Film), die Sie nur stichprobenartig ausgewählt haben die Menschen in der ersten Reihe. Es ist möglich, dass die sitzenden Personen in der ersten Reihe interessierten sich mehr für den Film als für diejenigen in der anderen Zeilen.
  • Nichterwiderung: Im Allgemeinen nehmen Personen mit ausgeprägten Meinungen häufiger an optionalen Umfragen teil als Personen mit weniger ausgeprägten Meinungen. Da die Filmumfrage optional ist, ist die Wahrscheinlichkeit höher, dass die Antworten eine bimodale Verteilung bilden als eine normale (glockenförmige) Verteilung.

Selbstaufmerksamkeit (auch Selbstaufmerksamkeitsschicht genannt)

#language

Eine neuronale Netzwerkschicht, die eine Folge von Einbettungen (z. B. Token-Einbettungen) in eine andere Einbettungssequenz umwandeln. Jede Einbettung in der Ausgabesequenz ist durch Integration von Informationen aus den Elementen der Eingabesequenz konstruiert. durch einen Aufmerksamkeitsmechanismus.

Der Begriff Selbst in Selbstaufmerksamkeit bezieht sich auf die Sequenz, die sich auf sich selbst und nicht auf einen anderen Kontext konzentriert. Selbstaufmerksamkeit ist eine der wichtigsten für Transformers und verwendet die Wörterbuchsuche Begriffe wie „Abfrage“, „Schlüssel“ und „Wert“.

Eine Selbstaufmerksamkeitsschicht beginnt mit einer Reihe von Eingabedarstellungen. für jedes Wort ein. Die Eingabedarstellung für ein Wort kann ein einfaches und Einbettungen. Für jedes Wort in einer Eingabesequenz bewertet das Netzwerk die Relevanz des Wortes für jedes Element in der gesamten Wortsequenz. Die Relevanzbewertungen geben an, inwieweit die endgültige Darstellung des Wortes die Darstellungen anderer Wörter enthält.

Betrachten Sie zum Beispiel den folgenden Satz:

Das Tier hat die Straße nicht überquert, weil es zu müde war.

Die folgende Abbildung (aus Transformer: Eine neuartige neuronale Netzwerkarchitektur für Sprachen Verständnis) zeigt das Aufmerksamkeitsmuster der Selbstaufmerksamkeitsschicht für das Pronomen it, wobei die Dunkelheit jeder Zeile, die angibt, wie viel jedes Wort zum Darstellung:

Der folgende Satz kommt zweimal vor: Das Tier hat das
          weil sie zu müde war. Linien verbinden das Pronomen „es“ in einem Satz mit fünf Tokens („das“, „Tier“, „Straße“, „es“ und „den Punkt“) im anderen Satz.  Die Linie zwischen dem Pronomen „es“ und dem Wort „Tier“ ist am stärksten.

In der Selbstaufmerksamkeitsschicht werden Wörter hervorgehoben, die für „es“ relevant sind. In dieser hat die Aufmerksamkeitsschicht gelernt, Wörter hervorzuheben, die möglicherweise Tier das höchste Gewicht zuweisen.

Bei einer Sequenz von n Tokens wird eine Sequenz von Einbettungen n Mal transformiert, einmal an jeder Position in der Sequenz.

Weitere Informationen finden Sie unter Aufmerksamkeit und mehrköpfige Selbstaufmerksamkeit.

selbstüberwachtes Lernen

Eine Reihe von Techniken zum Umwandeln eines Problem mit unüberwachtem maschinellem Lernen in ein Problem mit überwachtem maschinellem Lernen verwandelt indem Sie Ersatz-Labels aus Beispiele ohne Label.

Einige Transformer-basierte Modelle wie BERT nutzen das selbstüberwachte Lernen.

Selbstüberwachtes Training ist halbüberwachten Ansatz.

Selbsttraining

Eine Variante des selbstüberwachten Lernens, bei der besonders nützlich, wenn alle der folgenden Bedingungen erfüllt sind:

Beim Selbsttraining werden die folgenden zwei Schritte iteriert, bis das Modell verbessert sich nicht mehr:

  1. Mit überwachtem maschinellem Lernen können Sie Folgendes tun: ein Modell anhand der beschrifteten Beispiele trainieren.
  2. Verwenden Sie das in Schritt 1 erstellte Modell, um Vorhersagen (Labels) für die nicht gekennzeichneten Beispiele zu generieren. Verschieben Sie die Beispiele mit hoher Wahrscheinlichkeit in die gekennzeichneten Beispiele mit dem vorhergesagten Label.

Beachten Sie, dass bei jeder Iteration von Schritt 2 weitere beschriftete Beispiele für Schritt 1 hinzugefügt werden, anhand derer trainiert werden kann.

Halbüberwachtes Lernen

Modell mit Daten trainieren, bei denen einige der Trainingsbeispiele Labels haben, aber andere nicht. Eine Methode für das semi-supervisede Lernen besteht darin, Labels für die nicht gekennzeichneten Beispiele abzuleiten und dann mit den abgeleiteten Labels zu trainieren, um ein neues Modell zu erstellen. Halbüberwachtes Lernen kann nützlich sein, wenn die Beschaffung von Labels kostspielig ist aber es gibt zahlreiche Beispiele ohne Label.

Selbstlernen ist eine Methode für das halbüberwachte Lernen.

sensible Attribute

#fairness
Eine menschliche Eigenschaft, die aus rechtlichen, ethischen, sozialen oder persönlichen Gründen besonders berücksichtigt wird.

Sentimentanalyse

#language

Die Gesamteinstellung einer Gruppe (positiv oder negativ) gegenüber einem Dienst, Produkt, einer Organisation oder einem Thema mithilfe von statistischen oder Algorithmen für maschinelles Lernen bestimmen. Wenn Sie beispielsweise Natural Language Understanding könnte ein Algorithmus eine Sentimentanalyse des Textfeedbacks durchführen, eines Universitätskurses, um den Abschluss zu bestimmen, den Kurs insgesamt gefallen oder nicht.

Sequenzmodell

#seq

Ein Modell, dessen Eingaben eine sequenzielle Abhängigkeit haben. Beispielsweise kann das nächste Video anhand einer Sequenz zuvor angesehener Videos vorhergesagt werden.

Sequenz-zu-Sequenz-Task

#language

Eine Aufgabe, die eine Eingabesequenz von Tokens in eine Ausgabesequenz von Tokens umwandelt. Zwei gängige Arten von Sequenz-zu-Sequenz-Aufgaben sind beispielsweise:

  • Übersetzer:
    • Beispiel-Eingabesequenz: „Ich liebe dich.“
    • Beispiel für eine Ausgabesequenz: „Je t'aime.“
  • Question Answering:
    • Beispiel für eine Eingabesequenz: „Brauche ich mein Auto in New York City?“
    • Beispiel für eine Ausgabesequenz: „Nein. Bitte lassen Sie Ihr Auto stehen.“

Portion

Ein Verfahren, bei dem ein trainiertes Modell für Vorhersagen durch Online-Inferenz oder Offline-Inferenz verfügbar gemacht wird.

shape (Tensor)

Die Anzahl der Elemente in jeder Dimension eines Tensors. Die Form wird als Liste von Ganzzahlen dargestellt. Beispiel: hat der folgende zweidimensionale Tensor die Form [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

In TensorFlow wird die Reihenfolge der Dimensionen im Zeilen-nach-Vorgänger-Format (C-Format) dargestellt. Daher ist die Form in TensorFlow [3,4] und nicht [4,3]. Mit anderen Worten: Bei einem zweidimensionalen TensorFlow-Tensor hat die Form die Form [Anzahl der Zeilen, Anzahl der Spalten].

Ein statischer Shape ist ein Tensor-Shape, das zur Kompilierungszeit bekannt ist.

Eine dynamische Form ist zum Kompilieren unbekannt und wird daher von Laufzeitdaten abhängig. Dieser Tensor könnte mit einem Platzhalterdimension in TensorFlow, wie in [3, ?].

Shard

#TensorFlow
#GoogleCloud

Eine logische Unterteilung des Trainings-Datasets oder des model. In der Regel erstellt ein Prozess Shards, indem er die Beispiele oder Parameter in (normalerweise) gleich groß sind. Jeder Shard wird dann einer anderen Maschine zugewiesen.

Die Fragmentierung eines Modells wird als Modellparallelität bezeichnet. Das Fragmentieren von Daten wird als Datenparallelität bezeichnet.

Schrumpfung

#df

Ein Hyperparameter bei Gradient Boosting, der den Overfitting steuert. Verkleinerung beim Gradienten-Boosting ist analog zur Lernrate in Gradientenverfahren: Die Schrumpfung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Schrumpfungsfaktor reduziert das Überanpassen stärker als ein höherer Schrumpfungsfaktor.

Sigmoidfunktion

#fundamentals

Eine mathematische Funktion, die „zerquetscht“ einen Eingabewert in einen beschränkten Bereich normalerweise 0 bis 1 oder -1 bis +1. Das heißt, Sie können einer Sigmoide eine beliebige Zahl (z. B. 2, eine Million oder eine negative Milliarde) übergeben. Die Ausgabe liegt dann immer innerhalb des eingeschränkten Bereichs. Ein Diagramm der Sigmoid-Aktivierungsfunktion sieht so aus:

Ein zweidimensionales, gebogenes Diagramm mit x-Werten, die die Domain umfassen
          -endlos zu +positiv, während y-Werte einen Bereich von fast 0 bis
          Fast 1. Wenn x 0 ist, ist y 0,5. Die Steigung der Kurve ist immer positiv, wobei die höchste Steigung bei 0,05 liegt und die Steigung mit zunehmendem Absolutwert von x allmählich abnimmt.

Die Sigmoidfunktion kann im maschinellen Lernen zu verschiedenen Zwecken eingesetzt werden:

Ähnlichkeitsmaß

#clustering

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

Single Program/Multiple Data (SPMD)

Parallelitätstechnik, bei der dieselbe Berechnung für verschiedene Eingaben ausgeführt wird Daten parallel auf verschiedenen Geräten senden. Das Ziel von SPMD ist es, schneller Ergebnisse zu erzielen. Dies ist der gängigste Stil der parallelen Programmierung.

Größeninvarianz

#image

Bei einem Bildklassifizierungsproblem kann die Fähigkeit eines Algorithmus, Bilder klassifizieren, auch wenn sich ihre Größe ändert. Beispielsweise kann der Algorithmus eine Katze erkennen, unabhängig davon, ob sie 2 Millionen oder 200.000 Pixel einnimmt. Selbst die besten Algorithmen zur Bildklassifizierung haben praktische Grenzen bei der Größeninvarianz. Es ist beispielsweise unwahrscheinlich, dass ein Algorithmus (oder ein Mensch) ein Element korrekt klassifiziert. Katzenbild, das nur 20 Pixel verbraucht.

Siehe auch Translationsinvarianz und Rotationsinvarianz.

Skizzieren

#clustering

Unüberwachtes maschinelles Lernen: Eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Beim Skizzieren von Algorithmen ortsbezogene Hash-Funktion Punkte identifizieren, die wahrscheinlich ähnlich sind, und in Gruppen unterteilen.

Durch das Skizzieren fallen weniger Berechnungen für Ähnlichkeitsberechnungen an. großen Datasets arbeiten. Anstatt die Ähnlichkeit für jedes Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktpaar innerhalb jedes Buckets berechnet.

Gramm überspringen

#language

Ein N-Gramm, das Wörter aus dem ursprünglichen Kontext auslassen (oder „überspringen“) kann, d. h., die N Wörter waren ursprünglich möglicherweise nicht nebeneinander. Mehr genau ein „k-skip-n-gram“ ist ein N-Gramm, für das bis zu k Wörter wurden übersprungen.

Für „der schnelle braune Fuchs“ gibt es beispielsweise die folgenden möglichen Zweigramme:

  • „der schnelle“
  • "Quick Braun"
  • „Braun Fuchs“

„1-skip-2-gram“ ist ein Paar aus Wörtern, zwischen denen höchstens ein Wort besteht. Daher hat „der schnelle braune Fuchs“ die folgenden 2-Gramme mit einem Sprung:

  • „die braune“
  • „schneller Fuchs“

Außerdem sind alle 2 Gramme auch 1-überspringen-2-Gramm, da weniger als ein Wort übersprungen werden.

Skip-Grams sind hilfreich, um den Kontext eines Wortes besser zu verstehen. Im Beispiel wurde „Fox“ im Satz der 1-Übersprung-2-Gramme direkt mit „quick“ verknüpft, aber nicht im Satz der 2-Gramme.

Skip-Gramme helfen beim Training Worteinbettungsmodelle.

Softmax-Funktion

#fundamentals

Eine Funktion, die Wahrscheinlichkeiten für jede mögliche Klasse in einem mehrklassigen Klassifizierungsmodell bestimmt. Die Wahrscheinlichkeiten summieren sich genau zu 1,0. In der folgenden Tabelle wird beispielsweise gezeigt, wie die Softmax-Funktion verschiedene Wahrscheinlichkeiten verteilt:

Bild ist... Probability
Hund 0,85
Katze .13
Pferd ,02

Softmax wird auch Full Softmax genannt.

Im Gegensatz dazu können Sie mit der Stichprobenerhebung kontrastieren.

Feinabstimmung mit weichen Aufforderungen

#language
#generativeAI

Verfahren zur Abstimmung eines Large Language Models für eine bestimmte Aufgabe ohne ressourcenintensive Feinabstimmung: Anstatt alle Gewichte im Modell neu zu trainieren, passt die Soft-Prompt-Optimierung automatisch einen Prompt an, um dasselbe Ziel zu erreichen.

Prompts in Textform: Feinabstimmung weicher Prompts hängt in der Regel zusätzliche Tokeneinbettungen an den Prompt an und verwendet Rückpropagierung, um die Eingabe zu optimieren.

Ein „harter“ Prompt enthält tatsächliche Tokens anstelle von Token-Embeddings.

dünnbesetztes Feature

#language
#fundamentals

Eine Funktion, deren Werte überwiegend null oder leer sind. Ein Beispiel für ein solches Feature ist ein Feature mit einem einzelnen Wert „1“ und einer Million Nullwerte. Ein dichtes Merkmal hat dagegen Werte, die überwiegend nicht null oder leer sind.

Beim maschinellen Lernen sind eine überraschend große Anzahl von Merkmalen spärlich. Kategoriale Merkmale sind in der Regel dünnbesetzte Merkmale. Ein Beispiel: Von den 300 möglichen Baumarten in einem Wald lediglich einen Ahornbaum erkennen. Oder von den Millionen möglichen Videos in einer Videothek wird nur „Casablanca“ als Beispiel erkannt.

In einem Modell stellen Sie dünnbesetzte Features normalerweise mit One-Hot-Codierung. Wenn die One-Hot-Codierung groß ist, können Sie für mehr Effizienz eine Embedding-Ebene über die One-Hot-Codierung legen.

Dünnbesetzte Darstellung

#language
#fundamentals

Nur die Position(en) von Elementen ungleich null in einem dünnbesetzten Feature speichern.

Angenommen, ein kategoriales Feature namens species identifiziert die 36 in einem bestimmten Wald zu finden. Nehmen wir weiter an, dass jedes Beispiel bezieht sich nur auf eine einzelne Spezies.

Sie könnten einen One-Hot-Vektor verwenden, um die Baumarten in jedem Beispiel darzustellen. Ein One-Hot-Vektor würde eine einzelne 1 (für die jeweilige Baumart in diesem Beispiel) und 35 0s (für die 35 Baumarten, die in diesem Beispiel nicht vorkommen) enthalten. Die One-Hot-Darstellung von maple könnte also so aussehen:

Ein Vektor, in dem die Positionen 0 bis 23 den Wert 0 enthalten,
          24 enthält den Wert 1 und die Positionen 25 bis 35 den Wert 0.

Alternativ würde die spärliche Darstellung einfach die Position der jeweiligen Art angeben. Wenn sich maple an Position 24 befindet, ist die dünnbesetzte Darstellung von maple wäre einfach:

24

Beachten Sie, dass die dünnbesetzte Darstellung viel kompakter ist als die One-Hot-Darstellung. Darstellung.

Dünnbesetzter Vektor

#fundamentals

Ein Vektor, dessen Werte hauptsächlich Nullen sind. Siehe auch Sparse und spars zu nutzen.

dünne Besetzung

Die Anzahl der Elemente in einem Vektor oder einer Matrix, die auf Null (oder Null) gesetzt sind, geteilt durch die Gesamtzahl der Einträge in diesem Vektor oder dieser Matrix. Beispiel: betrachten wir eine Matrix mit 100 Elementen, in der 98 Zellen eine Null enthalten. Die Berechnung der Sparsamkeit erfolgt so:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Die Merkmalsdichte bezieht sich auf die Dichte eines Featurevektors. Modellsparheit bezieht sich auf die Dichte der Modellgewichtung.

Spatial Pooling

#image

Weitere Informationen finden Sie unter Pooling.

split

#df

In einem Entscheidungsbaum kann ein anderer Name condition [Zustand].

Splitter

#df

Beim Training eines Entscheidungsbaums ist die Routine (und der Algorithmus) für die Ermittlung der besten Bedingung an jedem Knoten verantwortlich.

SPMD

Abkürzung für Single Program/Multiple Data (Einzelnes Programm/Mehrere Daten).

Quadratischer Scharnierverlust

Das Quadrat des Gliederverlusts. Beim quadratischen Ausfall werden Ausreißer stärker bestraft als beim normalen Ausfall.

Verlust im Quadrat

#fundamentals

Synonym für L2-Verlust.

Stufenweises Training

#language

Taktik zum Trainieren eines Modells in einer Abfolge diskreter Phasen. Das Ziel kann entweder darin bestehen, den Trainingsvorgang zu beschleunigen oder eine bessere Modellqualität zu erzielen.

Unten sehen Sie eine Abbildung des progressiven Stapelns:

  • Phase 1 enthält drei versteckte Ebenen, Phase 2 sechs ausgeblendete Ebenen und Phase 3 enthält 12 versteckte Layer.
  • In Phase 2 beginnt das Training mit den Gewichten, die in den drei verborgenen Schichten von Phase 1 gelernt wurden. In Phase 3 beginnt das Training mit den in der 6. mit verborgenen Ebenen in Phase 2.

Drei Phasen, die als Phase 1, Phase 2 und Phase 3 gekennzeichnet sind.
          Jede Phase enthält eine andere Anzahl von Ebenen: Phase 1 enthält
          3 Ebenen, Phase 2 enthält 6 und Phase 3 enthält 12 Ebenen.
          Die drei Ebenen aus Phase 1 werden zu den ersten drei Ebenen von Phase 2.
          Genauso werden die sechs Schichten aus Phase 2 die ersten sechs Schichten des
          Phase 3:

Weitere Informationen finden Sie unter Pipelining.

Bundesstaat

#rl

Beim Reinforcement Learning sind die Parameterwerte, die den aktuellen Konfiguration der Umgebung, mit der der Agent wählen Sie eine Aktion aus.

Zustands-Aktionswertfunktion

#rl

Synonym für Q-Funktion.

statisch

#fundamentals

Etwas, das einmal und nicht kontinuierlich ausgeführt wird. Die Begriffe statisch und offline werden synonym verwendet. Im Folgenden werden häufige Verwendungen von statisch und offline auf Computern aufgeführt. Lernen:

  • Statisches Modell (oder Offline-Modell) ist ein Modell, das einmal trainiert wird. verwendet wird.
  • Statisches Training (oder Offline-Training) ist der Trainingsprozess eines statisches Modell.
  • Bei der statischen Inferenz (oder Offlineinferenz) generiert ein Modell jeweils einen Batch von Vorhersagen.

Stellen Sie einen Kontrast mit Dynamisch her.

Statische Inferenz

#fundamentals

Synonym für offline Inferenz.

Stationarität

#fundamentals

Eine Funktion, deren Werte sich in einer oder mehreren Dimensionen nicht ändern, in der Regel zeitlich. Eine Funktion, deren Werte 2021 ungefähr gleich aussehen, 2023 zeigt „Stationarität“.

In der Praxis weisen nur sehr wenige Funktionen Stationarität auf. Funktionen mit gleichmäßiger Ausrichtung gleichbedeutend mit Veränderungen der Stabilität (wie dem Meeresspiegel) im Laufe der Zeit.

Im Gegensatz zur Nichtstationarität.

Schritt

Ein Vorwärts- und ein Rückwärtsdurchlauf eines Batches.

Weitere Informationen zum Vorwärts- und Rückwärtsdurchlauf finden Sie unter Backpropagation.

Schrittgröße

Synonym für Lernrate.

Stochastic Gradient Decent (SGD)

#fundamentals

Ein Gradientenabstiegsalgorithmus, bei dem die Batchgröße 1 ist. Mit anderen Worten: SGD wird anhand eines einzelnen Beispiels trainiert, das nach dem Zufallsprinzip aus einem Trainingssatz ausgewählt wird.

Stride

#image

Bei einem Convolutional- oder Pooling-Vorgang das Delta in jeder Dimension der nächsten Reihe von Eingabescheiben. In der folgenden Animation wird beispielsweise ein Schritt von (1,1) während einer Convolutionsoperation veranschaulicht. Daher beginnt der nächste Eingabeabschnitt eine Position rechts vom vorherigen Eingabeabschnitt. Wenn der Vorgang den rechten Rand erreicht, wird der nächste Ausschnitt ganz nach links, aber eine Position nach unten verschoben.

Eine 5x5-Eingabematrix und ein 3x3-Faltungsfilter. Da der Schritt (1,1) ist, wird ein Convolutional-Filter neunmal angewendet. Im ersten Convolutional-Stich wird die 3 × 3 große Teilmatrix oben links in der Eingabematrix ausgewertet. Das zweite Slice bewertet die obere Mitte 3x3.
     Submatrix. Das dritte Faltungssegment wertet oben rechts 3x3
     Submatrix.  Im vierten Ausschnitt wird die mittlere linke 3 × 3-Untermatrix ausgewertet.
     Das fünfte Segment wertet die mittlere 3x3-Submatrix aus. Das sechste Segment
     wertet die 3x3-Submatrix Mitte rechts aus. Die siebte Scheibe bewertet die untere linke 3 × 3-Untermatrix.  Im achten Ausschnitt wird die untere mittlere 3 × 3-Teilmatrix ausgewertet. Das neunte Slice wertet unten rechts 3x3 aus.
     Submatrix.

Das vorherige Beispiel zeigt einen zweidimensionalen Schritt. Wenn die Eingabematrix dreidimensional ist, ist auch der Schritt dreidimensional.

Strukturelle Risikominimierung (SRM)

Ein Algorithmus, mit dem zwei Ziele in Einklang gebracht werden können:

  • Die Notwendigkeit, das beste Prognosemodell zu erstellen (z. B. mit dem geringsten Verlust).
  • Das Modell muss so einfach wie möglich gehalten werden (z. B. durch starke Regularisierung).

Eine Funktion, die Verlust + Regularisierung im Trainingssatz minimiert, ist beispielsweise ein Algorithmus zur Minimierung des strukturellen Risikos.

Im Gegensatz zur empirischen Risikominimierung.

Sub-Sampling

#image

Weitere Informationen finden Sie unter Pooling.

Unterworttoken

#language

In Sprachmodellen ist ein Token ein Teilstring eines Wortes, der auch das gesamte Wort sein kann.

Ein Wort wie „auflisten“ kann beispielsweise in die Teile „Artikel“ (ein Stammwort) und „isieren“ (ein Suffix) zerlegt werden, die jeweils durch ein eigenes Token dargestellt werden. Wenn seltene Wörter in solche Teile zerlegt werden, die als Subwords bezeichnet werden, können Sprachmodelle mit den gängigeren Bestandteilen des Wortes arbeiten, z. B. Präfixen und Suffixen.

Übliche Wörter wie „auf dem Weg“ ist möglicherweise nicht aufgeteilt durch ein einzelnes Token dargestellt wird.

Zusammenfassung

#TensorFlow

In TensorFlow ein Wert oder eine Reihe von Werten, die in einem bestimmten Schritt berechnet werden. Sie werden in der Regel zum Überwachen von Modellmesswerten während des Trainings verwendet.

Supervised Machine Learning

#fundamentals

Trainieren eines Modells anhand von Features und deren entsprechende Labels. Supervised Machine Learning ist vergleichbar mit dem Lernen eines Themas durch das Studium einer Reihe von Fragen und deren entsprechenden Antworten. Nachdem die Zuordnung von Fragen und Antworten gemeistert wurde, kann ein Schüler oder Student Antworten auf neue (noch nie zuvor gesehene) Fragen zum selben Thema geben.

Vergleich mit nicht überwachtem maschinellem Lernen

synthetisches Feature

#fundamentals

Ein Attribut, das nicht zu den Eingabeattributen gehört, sondern aus einem oder mehreren davon zusammengestellt wurde. Methoden zum Erstellen synthetischer Features umfassen Folgendes:

  • Bucketing eines kontinuierlichen Features in Bereichsgruppen.
  • Feature-Cross erstellen
  • Multiplizieren (oder Teilen) eines Featurewerts mit anderen Featurewerten oder für sich allein. Wenn a und b beispielsweise Eingabefeatures sind, sind die folgenden Beispiele für synthetische Features:
    • Ab
    • a2
  • Anwenden einer transzendentalen Funktion auf einen Featurewert. Beispiel: c ist ein Eingabefeature, dann sind folgende Beispiele für synthetische Merkmale: <ph type="x-smartling-placeholder">
      </ph>
    • sin(c)
    • ln(c)

Funktionen, die durch Normalisierung oder Skalierung allein erstellt wurden, gelten nicht als synthetische Funktionen.

T

T5

#language

Ein Transfer-Lern-Modell für die Text-zu-Text-Transformation, das 2020 von Google AI eingeführt wurde. T5 ist ein Encoder-Decoder-Modell, das auf dem Transformer-Architektur, trainiert mit einem extrem großen Dataset. Es eignet sich für eine Vielzahl von Aufgaben im Bereich der natürlichen Sprachverarbeitung, z. B. für die Textgenerierung, die Übersetzung von Sprachen und die Beantwortung von Fragen in natürlicher Sprache.

T5 ist nach den fünf Ts in „Text-to-Text Transfer Transformer“ benannt.

Logo: T5X

#language

Ein Open-Source-Machine-Learning-Framework, das zum Erstellen und Trainieren groß angelegter Modelle für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) entwickelt wurde. T5 ist in der T5X-Codebasis implementiert, die auf JAX und Flax basiert.

Tabellen-Q-Lernen

#rl

Beim Verstärkungslernen wird Q-Lernen implementiert, indem die Q-Funktionen für jede Kombination aus Zustand und Aktion in einer Tabelle gespeichert werden.

Ziel

Synonym für label.

Zielnetzwerk

#rl

In Deep Q-Learning, einem neuronalen Netzwerk, das eine stabile Approximation des neuronalen Hauptnetzwerks, wobei das neuronale Hauptnetzwerk Implementiert entweder eine Q-Funktion oder eine Richtlinie. Anschließend können Sie das Hauptnetzwerk mit den Q-Werten trainieren, die von der Ziel- Netzwerk. So wird die Feedbackschleife verhindert, die auftritt, wenn das Hauptnetzwerk anhand von selbst vorhergesagten Q-Werten trainiert wird. Wenn Sie dieses Feedback vermeiden, die Trainingsstabilität erhöht.

Task (in computational context, see definition)

Ein Problem, das mithilfe von Techniken für maschinelles Lernen gelöst werden kann, z. B.:

Temperatur

#language
#image
#generativeAI

Ein Hyperparameter, der den Grad der Zufälligkeit der Ausgabe eines Modells steuert. Höhere Temperaturen führen zu mehr zufälligen Ausgaben, während niedrigere Temperaturen zu einer weniger zufälligen Ausgabe führen.

Die Auswahl der besten Temperatur hängt von der jeweiligen Anwendung und die bevorzugten Attribute der Modellausgabe. Sie würden die Temperatur beispielsweise wahrscheinlich erhöhen, wenn Sie eine Anwendung erstellen, die kreative Inhalte generiert. Umgekehrt würden Sie wahrscheinlich die Temperatur senken, wenn Sie ein Modell erstellen, das Bilder oder Text klassifiziert, um Genauigkeit und Konsistenz des Modells verbessern.

Die Temperatur wird häufig mit Softmax verwendet.

Zeitreihendaten

Zu verschiedenen Zeitpunkten aufgezeichnete Daten. Beispiel: Wintermantelverkäufe die für jeden Tag des Jahres aufgezeichnet werden, sind zeitliche Daten.

Tensor

#TensorFlow

Die primäre Datenstruktur in TensorFlow-Programmen. Tensoren sind n-dimensionale (wobei n sehr groß sein kann) Datenstrukturen, am häufigsten Skalare, Vektoren oder Matrizen. Die Elemente eines Tensors können Ganzzahlen, Gleitkomma-, oder Zeichenfolgenwerten.

TensorBoard

#TensorFlow

Das Dashboard mit den Zusammenfassungen, die während der Ausführung eines oder mehrerer TensorFlow-Programme gespeichert wurden.

TensorFlow

#TensorFlow

Eine groß angelegte, verteilte Plattform für maschinelles Lernen. Der Begriff bezieht sich auch auf der Basis-API-Ebene im TensorFlow-Stack, die allgemeine Berechnungen unterstützt zu Dataflow-Grafiken.

Obwohl TensorFlow in erster Linie für maschinelles Lernen verwendet wird, können Sie auch TensorFlow für Nicht-ML-Aufgaben, die numerische Berechnung mit Dataflow-Grafiken.

TensorFlow Playground

#TensorFlow

Ein Programm, das visualisiert, Hyperparameter beeinflussen das Modell (hauptsächlich neuronales Netzwerk) trainieren. Gehe zu http://playground.tensorflow.org um mit TensorFlow Playground zu experimentieren.

TensorFlow bereitstellen

#TensorFlow

Eine Plattform zum Bereitstellen trainierter Modelle in der Produktion.

Tensor Processing Unit (TPU)

#TensorFlow
#GoogleCloud

Ein anwendungsspezifischer integrierter Schaltkreis (ASIC), der den die Leistung von ML-Arbeitslasten. Diese ASICs werden als Mehrere TPU-Chips auf einem TPU-Gerät

Tensorrang

#TensorFlow

Weitere Informationen finden Sie unter Rang (Tensor).

Tensor-Form

#TensorFlow

Die Anzahl der Elemente, die ein Tensor in verschiedenen Dimensionen enthält. Ein [5, 10]-Tensor hat beispielsweise eine Form von 5 in einer Dimension und eine Form von 10 in einem anderen.

Tensorgröße

#TensorFlow

Die Gesamtzahl der Skalare, die Tensor enthält. Beispiel: [5, 10] Tensor hat eine Größe von 50.

TensorStore

Eine Bibliothek für effizientes Lesen und große mehrdimensionale Arrays schreibt.

Kündigungsbedingung

#rl

Bei Verstärkungslernen sind das die Bedingungen, die bestimmen, wann eine Episode endet, z. B. wenn der Agent einen bestimmten Status erreicht oder eine Schwellenzahl von Statusübergängen überschreitet. Zum Beispiel wird in Tic-Tac-Toe (auch (auch als „Noughts and Crosses“ bezeichnet), endet eine Folge, wenn ein Spieler oder wenn alle Leerzeichen markiert sind.

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Testverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells in Bezug auf das Test-Dataset. Beim Erstellen eines Modells versuchen Sie in der Regel, den Testverlust zu minimieren. Das liegt daran, dass ein niedriger Testverlust ein stärkeres Qualitätssignal ist als ein niedriger Trainingsverlust oder ein niedriger Validierungsverlust.

Ein großer Unterschied zwischen Testverlust und Trainingsverlust oder Validierungsverlust weist manchmal darauf hin, dass Sie die Regulierungsrate erhöhen müssen.

Test-Dataset

Ein Teil des Datasets, der für das Testen eines trainierten Modells reserviert ist.

Traditionell werden Beispiele im Dataset in die folgenden drei verschiedenen Teilmengen unterteilt:

Jedes Beispiel in einem Dataset sollte nur zu einer der vorhergehenden Teilmengen gehören. Beispielsweise sollte ein einzelnes Beispiel nicht sowohl zum Trainings-Dataset mit dem Test-Dataset.

Das Trainings- und das Validierungs-Dataset sind eng mit dem Training eines Modells verbunden. Da der Testsatz nur indirekt mit dem Training verknüpft ist, ist der Testverlust ein weniger verzerrter und hochwertigerer Messwert als der Trainingsverlust oder der Validierungsverlust.

Textspanne

#language

Der Arrayindexbereich, der mit einem bestimmten Teil eines Textstrings verknüpft ist. So belegt beispielsweise das Wort good im Python-String s="Be good now" von 3 bis 6.

tf.Example

#TensorFlow

Ein Standard Protokollzwischenspeicher zur Beschreibung von Eingabedaten für das Training oder die Inferenz von ML-Modellen.

tf.keras

#TensorFlow

Eine Implementierung von Keras, die in TensorFlow eingebunden ist.

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenorientierten Bedingung ist der Wert, der für feature wird verglichen. Zum Beispiel ist 75 die Grenzwert in der folgenden Bedingung:

grade >= 75

Zeitreihenanalyse

#clustering

Ein Teilbereich des maschinellen Lernens und der Statistik, Zeitliche Daten. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. So können Sie beispielsweise mithilfe einer Zeitreihenanalyse die zukünftigen Verkäufe von Wintermänteln nach Monat anhand bisheriger Verkaufsdaten prognostizieren.

Zeitschritt

#seq

1 „nicht gerollt“ Zelle in einem recurrent Neural network. Die folgende Abbildung zeigt beispielsweise drei Zeitschritte (bezeichnet mit die Subskripte t-1, t und t+1):

Drei Zeitschritte in einem Recurrent neuronalen Netzwerk. Die Ausgabe des ersten Zeitschritts wird als Eingabe für den zweiten Zeitschritt verwendet. Die Ausgabe des zweiten Zeitschritts wird als Eingabe für den dritten Zeitschritt verwendet.

Token

#language

In einem Sprachmodell die atomare Einheit, in der sich das Modell befindet zu trainieren und Vorhersagen zu treffen. Ein Token ist normalerweise eines der Folgendes:

  • ein Wort, zum Beispiel die Wortgruppe „Hunde wie Katzen“ besteht aus drei Wörtern Tokens: "Hunde", "Gefällt mir" und "Katzen".
  • ein Zeichen, z. B. der Satz "Fahrradfisch" besteht aus neun Zeichen-Tokens. Hinweis: Das Leerzeichen zählt als eines der Tokens.
  • Unterwörter, bei denen ein einzelnes Wort ein einzelnes Token oder mehrere Tokens sein kann. Ein Unterwort besteht aus einem Stammwort, einem Präfix oder einem Suffix. Ein Sprachmodell, das Subwörter als Tokens verwendet, könnte das Wort „Hunde“ beispielsweise als zwei Tokens betrachten (das Stammwort „Hund“ und das Pluralsuffix „-e“). Das Gleiche Language Model das einzelne Wort „höher“ erkennt, als zwei Unterwörter (die Stammwort „hoch“ und das Suffix „er“).

In Domains außerhalb von Language Models können Tokens andere Arten von atomare Einheiten. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge sein eines Bildes.

Tower

Eine Komponente eines neuronalen Deep-Learning-Netzwerks, das selbst ein neuronales Deep-Learning-Netzwerk ist. In einigen Fällen liest jeder Turm aus einem und diese Türme bleiben so lange unabhängig, bis ihre in einer letzten Schicht kombiniert. In anderen Fällen (z. B. im Encoder- und Decoder-Turm vieler Transformer) sind die Türme miteinander verbunden.

TPU

#TensorFlow
#GoogleCloud

Abkürzung für Tensor Processing Unit.

TPU-Chip

#TensorFlow
#GoogleCloud

Ein programmierbarer Beschleuniger für lineare Algebra mit On-Chip-Speicher mit hoher Bandbreite, der für Arbeitslasten für maschinelles Lernen optimiert ist. Mehrere TPU-Chips werden auf einem TPU-Gerät bereitgestellt.

TPU-Gerät

#TensorFlow
#GoogleCloud

Eine Leiterplatte (Printed Circuit Board, PCB) mit mehreren TPU-Chips, Netzwerkschnittstellen mit hoher Bandbreite und Systemkühlungshardware.

TPU-Master

#TensorFlow
#GoogleCloud

Der zentrale Koordinierungsprozess, der auf einem Hostcomputer ausgeführt wird und Daten, Ergebnisse, Programme, Leistungs- und Systemstatusinformationen an die TPU-Worker sendet und empfängt. Der TPU-Master verwaltet auch die Einrichtung. und Herunterfahren von TPU-Geräten.

TPU-Knoten

#TensorFlow
#GoogleCloud

Eine TPU-Ressource in Google Cloud mit einem bestimmten TPU-Typ: Der TPU-Knoten stellt eine Verbindung zu Ihrem VPC-Netzwerk von einem Peer-VPC-Netzwerk. TPU-Knoten sind eine in der Cloud TPU API definierte Ressource.

TPU-Pod

#TensorFlow
#GoogleCloud

Eine bestimmte Konfiguration von TPU-Geräten in einem Google-Rechenzentrum. Alle Geräte in einem TPU-Pod sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden. Ein TPU-Pod ist die größte Konfiguration TPU-Geräte, die für eine bestimmte TPU-Version verfügbar sind.

TPU-Ressource

#TensorFlow
#GoogleCloud

Eine TPU-Entität in Google Cloud, die Sie erstellen, verwalten oder nutzen. Für TPU-Knoten und TPU-Typen sind beispielsweise TPU-Ressourcen

TPU-Slice

#TensorFlow
#GoogleCloud

Ein TPU-Slice ist ein Bruchteil der TPU-Geräte in einen TPU-Pod. Alle Geräte in einem TPU-Speil sind über ein dediziertes Hochgeschwindigkeitsnetzwerk miteinander verbunden.

TPU-Typ

#TensorFlow
#GoogleCloud

Eine Konfiguration von einem oder mehreren TPU-Geräten mit einer bestimmten TPU-Hardwareversion. Sie wählen beim Erstellen einen TPU-Typ aus. einen TPU-Knoten in Google Cloud. Ein v2-8-TPU-Typ ist beispielsweise ein einzelnes TPU v2-Gerät mit 8 Kernen. Ein v3-2048-TPU-Typ hat 256 miteinander verbundenen TPU v3-Geräten und insgesamt 2.048 Kernen. TPU-Typen sind Ressourcen definiert in den Cloud TPU API

TPU-Worker

#TensorFlow
#GoogleCloud

Prozess, der auf einem Hostcomputer ausgeführt wird und Programme für maschinelles Lernen ausführt auf TPU-Geräten.

Training

#fundamentals

Der Prozess, bei dem die idealen Parameter (Gewichte und Verzerrungen) eines Modells bestimmt werden. Während des Trainings liest ein System Beispiele und passt die Parameter nach und nach an. Beim Training werden ein paar bis milliardenfachen Beispiel.

Trainingsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells während einer bestimmten Trainingsiteration darstellt. Angenommen, die Verlustfunktion ist Mean Squared Error. Vielleicht der Trainingsverlust (der Mittelwert Quadratischer Fehler) für den 10.Durchlauf 2, 2 und der Trainingsverlust für der 100. Durchlauf ist 1.9.

Eine Verlustkurve stellt den Trainingsverlust in Abhängigkeit von der Anzahl der Iterationen dar. Eine Verlustkurve bietet die folgenden Hinweise zum Training:

  • Ein Abfall deutet darauf hin, dass sich das Modell verbessert.
  • Ein Anstieg nach oben deutet darauf hin, dass sich das Modell verschlechtert.
  • Eine flache Steigung deutet darauf hin, dass das Modell bereits Konvergenz.

Die folgende etwas idealisierte Verlustkurve zeigt beispielsweise:

  • Ein steiler Abfall während der ersten Iterationen, was impliziert für eine schnelle Modellverbesserung.
  • Ein allmählich abflachender, aber immer noch nach unten liegender Anstieg, bis zum Ende hin was eine kontinuierliche Verbesserung des Modells langsameres Tempo als bei den ersten Durchläufen.
  • Eine flache Steigung gegen Ende des Trainings, was auf eine Konvergenz hindeutet.

Die Darstellung des Trainingsverlusts im Vergleich zu den Iterationen. Diese Verlustkurve beginnt mit einer steilen Abwärtsneigung. Die Steigung verringert sich allmählich, bis die
     die Steigung auf null wird.

Auch wenn der Trainingsverlust wichtig ist, lesen Sie auch den Artikel zur Generalisierung.

Abweichungen zwischen Training und Bereitstellung

#fundamentals

Der Unterschied zwischen der Leistung eines Modells während Training und die Leistung dieses Modells während Auslieferung

Trainings-Dataset

#fundamentals

Die Teilmenge des Datasets, die zum Trainieren eines Modells verwendet wird.

Traditionell werden Beispiele im Dataset in die folgenden drei Bereiche unterteilt: für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte beispielsweise nicht sowohl zum Trainings- als auch zum Validierungs-Dataset gehören.

Flugbahn

#rl

Beim bestärkenden Lernen Tupel, die für eine Folge von Zustandsübergängen des Agents wobei jedes Tupel dem Status action entspricht, Prämie und den nächsten Status für einen bestimmten Statusübergang.

Transferlernen

Übertragung von Informationen von einer Aufgabe des maschinellen Lernens auf eine andere. Beim Multitask-Learning löst ein einziges Modell beispielsweise mehrere Aufgaben, z. B. ein tiefes Modell mit unterschiedlichen Ausgabeknoten für verschiedene Aufgaben zu erledigen. Lerntransfer kann auch die Übertragung von Wissen beinhalten. von der Lösung einer einfacheren bis zu einer komplexeren Aufgabe zu lösen. Wissen von einer Aufgabe mit mehr Daten in eine zu übertragen, in der gibt es weniger Daten.

Die meisten Systeme des maschinellen Lernens lösen eine einzelne Aufgabe. Lerntransfer ist ein Schritt auf dem Weg zu künstlicher Intelligenz, die mit einem einzigen Programm mehreren Aufgaben.

Transformer

#language

Eine bei Google entwickelte neuronale Netzwerkarchitektur, die nutzt Selbstaufmerksamkeit, Sequenz von Eingabeeinbettungen in eine Ausgabesequenz Einbettungen ohne Faltungen oder recurrent Neural Networks. Ein Transformer kann als Stapel von Self-Attention-Schichten betrachtet werden.

Ein Transformator kann Folgendes enthalten:

  • einen Encoder
  • einen Decoder
  • sowohl einen Encoder als auch einen Decoder

Ein Encoder wandelt eine Sequenz von Einbettungen in eine neue Sequenz derselben Länge um. Ein Encoder besteht aus n identischen Schichten, die jeweils zwei Schichten untergeordneten Ebenen. Diese beiden Unterschichten werden an jeder Position der Eingabe-Embedding-Sequenz angewendet und wandeln jedes Element der Sequenz in ein neues Embedding um. Die erste Encoder-Unterschicht aggregiert Informationen aus der gesamten Eingabesequenz. Die zweite Encoder-Unterschicht wandelt die aggregierten Informationen in ein Ausgabe-Embedding um.

Ein Decoder wandelt eine Sequenz von Eingabe-Embeddings in eine Sequenz von Ausgabe-Embeddings um, möglicherweise mit einer anderen Länge. Ein Decoder enthält außerdem N identische Schichten mit drei Unterschichten, von denen zwei den Unterschichten des Encoders ähneln. Die dritte Decoder-Unterschicht übernimmt die Ausgabe des Encoder und wendet den Selbstaufmerksamkeitsmechanismus auf um Informationen daraus zu sammeln.

Der Blogpost Transformer: A Novel Neural Network Architecture for Language Understanding bietet eine gute Einführung in Transformer.

Translationalinvarianz

#image

Bei einem Bildklassifizierungsproblem kann die Fähigkeit eines Algorithmus, Bilder auch dann klassifizieren, wenn sich die Position von Objekten innerhalb des Bildes ändert. Der Algorithmus kann beispielsweise einen Hund identifizieren, unabhängig davon, ob er im am linken Rand oder in der Mitte des Frames.

Weitere Informationen finden Sie unter Größeninvarianz und Drehsymmetrie.

Trigramm

#seq
#language

Ein N-Gramm mit N = 3.

Richtig negativ (TN)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: ausschließende Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht kein Spam ist und diese Nachricht in Wirklichkeit kein Spam.

Richtig positives Ergebnis (TP)

#fundamentals

Ein Beispiel, bei dem das Modell das Ereignis richtig vorhersagt: positive Klasse. Das Modell leitet beispielsweise ab, eine bestimmte E-Mail-Nachricht Spam ist und diese E-Mail-Nachricht tatsächlich Spam ist.

Rate richtig positiver Ergebnisse (True Positive Rate, TPR)

#fundamentals

Synonym für Erinnerung. Das bedeutet:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Die Rate richtig positiver Ergebnisse ist die Y-Achse in einer ROC-Kurve.

U

Unwissenheit (über ein sensibles Attribut)

#fairness

Eine Situation, in der sensible Attribute vorhanden, aber nicht in den Trainingsdaten enthalten sind. Da sensible Attribute oft mit anderen Attributen der Daten korrelieren, kann ein Modell, das ohne Kenntnis eines sensiblen Attributs trainiert wurde, dennoch unterschiedliche Auswirkungen auf dieses Attribut haben oder gegen andere Fairness-Einschränkungen verstoßen.

Unteranpassung

#fundamentals

Ein Modell mit schlechter Vorhersagefähigkeit erstellen, weil es die Komplexität der Trainingsdaten nicht vollständig erfasst hat. Viele Probleme kann zu einer Unteranpassung führen, einschließlich:

Unterstichproben

Beispiele werden aus der Mehrheitsklasse in einer Klassen-unausgeglichenes Dataset, und ein ausgewogenes Trainings-Dataset zu erstellen.

Stellen Sie sich beispielsweise ein Dataset vor, in dem das Verhältnis der Mehrheitsklasse zu Die Minderheitsklasse ist 20:1. Um diesen Kurs zu meistern Ungleichgewicht haben, könnten Sie ein Trainings-Dataset erstellen, das aus allen Minderheiten besteht. nur ein Zehntel der Mehrheitsklassenbeispiele. und erstellen ein Klassenverhältnis von 2:1. Durch die Unterstichprobenerhebung kann mit diesem ausgewogeneren Trainings-Dataset möglicherweise ein besseres Modell erstellt werden. Alternativ enthält dieses ausgewogenere Trainingsset möglicherweise nicht genügend Beispiele, um ein effektives Modell zu trainieren.

einen Kontrast mit Übersampling bilden.

einseitig

#language

Ein System, das nur den Text prüft, der vor einem Zieltextabschnitt steht. Im Gegensatz dazu wertet ein bidirektionales System sowohl Text, der vorangestellt ist und auf einen Textabschnitt folgt. Weitere Informationen finden Sie unter Bidirektional.

unidirektionales Sprachmodell

#language

Ein Sprachmodell, das seine Wahrscheinlichkeiten nur auf dem Tokens, die vor und nicht nach den Zieltokens angezeigt werden. Im Gegensatz zu einem bidirektionalen Sprachmodell.

Beispiel ohne Label

#fundamentals

Ein Beispiel, das Features, aber kein Label enthält. Die folgende Tabelle enthält beispielsweise drei Beispiele ohne Labels aus einem Modell zur Immobilienbewertung, jedes mit drei Merkmalen, aber ohne Hauswert:

Anzahl der Schlafzimmer Anzahl der Badezimmer Alter des Gebäudes
3 2 15
2 1 72
4 2 34

Beim überwachten maschinellen Lernen werden Modelle anhand von Beispielen mit Labels trainiert und treffen Vorhersagen für Beispiele ohne Labels.

Beim semi-supervised und unsupervised Learning werden während des Trainings nicht beschriftete Beispiele verwendet.

Stellen Sie das Beispiel ohne Labels dem Beispiel mit Labels gegenüber.

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht gekennzeichneten Dataset.

Unüberwachtes maschinelles Lernen wird am häufigsten genutzt, Cluster-Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Maschinen dienen Lernalgorithmen (z. B. an einen Musikempfehlungsdienst). Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchsbekämpfung und Betrug können Cluster beispielsweise dass Menschen die Daten besser verstehen können.

Im Gegensatz zu überwachtem maschinellem Lernen.

Modellierung der Leistungssteigerung

Eine häufig im Marketing verwendete Modellierungstechnik, mit der die „kausale Wirkung“ (auch als „inkrementelle Auswirkung“ bezeichnet) "Behandlung" für eine „Person“. Hier sind zwei Beispiele:

  • Ärzte können Steigerungsmodell nutzen, um den Rückgang der Sterblichkeitszahlen vorherzusagen. (kausale Wirkung) eines medizinischen Eingriffs (Behandlung) abhängig vom Alter und Krankengeschichte eines Patienten.
  • Werbetreibende können mithilfe von Leistungssteigerungsmodellen die Wahrscheinlichkeit eines Kaufs (Kausaleffekt) aufgrund einer Werbung (Behandlung) für eine Person (Einzelperson) vorhersagen.

Die Steigerungsmodellierung unterscheidet sich von der Klassifizierung oder Regression insofern, als dass einige Labels (z. B. der Labels bei binären Verarbeitungen) fehlen bei der Steigerungsmodellierung immer. Beispielsweise kann ein Patient entweder eine Behandlung erhalten oder nicht. sodass wir nur beobachten können, ob der Patient heilt oder nicht nur in einer dieser beiden Situationen heilen (aber nie in beiden). Der Hauptvorteil eines Steigerungsmodells besteht darin, dass es Vorhersagen für die nicht beobachtete Situation (die kontrafaktische Situation) generieren und damit den kausalen Effekt berechnen kann.

Gewichtung

Wenden Sie auf die herunterskalierte Klasse ein Gewicht an, das dem Faktor entspricht, um den Sie die Daten herunterskaliert haben.

Nutzermatrix

#recsystems

In Empfehlungssystemen: Ein Embedding-Vektor, der durch Matrixfaktorisierung generiert wird und latente Signale zu Nutzerpräferenzen enthält. Jede Zeile der Nutzermatrix enthält Informationen zur relativen Stärke verschiedener latenter Signale für einen einzelnen Nutzer. Nehmen wir als Beispiel ein Film-Empfehlungssystem. In diesem System können die latenten Signale in der Nutzermatrix das Interesse der einzelnen Nutzer an bestimmten Genres darstellen oder schwieriger zu interpretierende Signale sein, die komplexe Interaktionen über mehrere Faktoren hinweg umfassen.

Die Nutzermatrix verfügt über eine Spalte für jedes latente Merkmal und eine Zeile für jeden Nutzer. Die Nutzermatrix hat also dieselbe Anzahl von Zeilen wie die Zielmatrix, die faktorisiert wird. Wenn beispielsweise ein Film Empfehlungssystem für 1.000.000 Nutzer User-Matrix 1.000.000 Zeilen haben.

V

Validierung

#fundamentals

Die erste Bewertung der Qualität eines Modells. Bei der Validierung wird die Qualität der Vorhersagen eines Modells anhand des Validierungs-Datasets überprüft.

Da sich das Validierungs-Dataset vom Trainings-Dataset unterscheidet, hilft die Validierung, eine Überanpassung zu vermeiden.

Sie können die Bewertung des Modells anhand des Validierungs-Sets als erste Testrunde und die Bewertung des Modells anhand des Test-Sets als zweite Testrunde betrachten.

Validierungsverlust

#fundamentals

Ein Messwert, der den Verlust eines Modells im Validierungs-Dataset während einer bestimmten Iteration des Trainings darstellt.

Siehe auch Generalisierungskurve.

Validierungs-Dataset

#fundamentals

Die Teilmenge des dataset, die die anfänglichen Auswertung anhand eines trainierten Modells. In der Regel bewerten Sie das trainierte Modell anhand des Validierungs-Datasets bevor Sie das Modell mit dem Test-Dataset vergleichen.

Traditionell unterteilen Sie die Beispiele im Dataset in die folgenden drei für unterschiedliche Teilmengen:

Idealerweise sollte jedes Beispiel im Dataset nur einer der vorherigen Teilmengen angehören. Ein einzelnes Beispiel sollte z. B. nicht zu Trainings- und Validierungs-Dataset.

Wertzuordnung

Der Prozess, bei dem ein fehlender Wert durch einen akzeptablen Ersatz ersetzt wird. Wenn ein Wert fehlt, können Sie entweder das gesamte Beispiel verwerfen oder können Sie das Beispiel über die Wertimputation retten.

Angenommen, Sie haben ein Dataset mit einem temperature-Attribut, das jede Stunde aufgezeichnet werden soll. Die Temperatur betrug jedoch für eine bestimmte Stunde nicht verfügbar sind. Hier ist ein Ausschnitt aus dem Datensatz:

Zeitstempel Temperatur
1680561000 10
1680564600 12
1680568200 fehlt
1680571800 20
1680575400 21
1680579000 21

Ein System kann das fehlende Beispiel entweder löschen oder die fehlende Temperatur je nach Imputationsalgorithmus als 12, 16, 18 oder 20 imputieren.

Problem mit verschwindendem Farbverlauf

#seq

Die Tendenz der Gradienten der frühen verborgenen Schichten einiger Deep-Learning-Netzwerke, überraschend flach (niedrig) zu werden. Immer niedrigere Gradienten führen zu immer kleineren Änderungen an den Gewichten der Knoten in einem Deep-Learning-Netzwerk, was zu wenig oder gar keinem Lernen führt. Modelle, die von diesem Problem betroffen sind, lassen sich nur schwer oder gar nicht trainieren. Long Short-Term Memory-Zellen beheben dieses Problem.

Vergleichen Sie dies mit dem Problem des explodierenden Gradienten.

Variablenbewertungen

#df

Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Werte angeben feature zum Modell hinzu.

Betrachten Sie beispielsweise einen Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn die Variablen für die drei Merkmale {Größe=5,8; Alter=2,5; Stil=4,7} berechnet werden, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte für die variable wichtige Bedeutung, die die ML-Experten über verschiedene Aspekte von Modellen

Variations-Autoencoder (VAE)

#language

Eine Art Autoencoder, der die Abweichung zwischen Eingaben und Ausgaben nutzt, um modifizierte Versionen der Eingaben zu generieren. Variations-Autoencoder sind nützlich für generative KI.

VAEs basieren auf der Variationsinference, einem Verfahren zur Schätzung der Parameter eines Wahrscheinlichkeitsmodells.

Vektor

Ein sehr überladener Begriff, dessen Bedeutung in verschiedenen mathematischen und wissenschaftlichen Bereichen variiert. Beim maschinellen Lernen hat ein Vektor zwei Eigenschaften:

  • Datentyp: Vektoren im maschinellen Lernen enthalten normalerweise Gleitkommazahlen.
  • Anzahl der Elemente: Dies ist die Länge oder Dimension des Vektors.

Betrachten Sie beispielsweise einen Featurevektor mit acht Gleitkommazahlen sind. Dieser Featurevektor hat eine Länge oder Dimension von acht. Beachten Sie, dass Vektoren für maschinelles Lernen oft eine große Anzahl von Dimensionen haben.

Viele verschiedene Arten von Informationen können als Vektor dargestellt werden. Beispiel:

  • Jede Position auf der Erdoberfläche kann als zweidimensionaler Vektor dargestellt werden, wobei eine Dimension der Breitengrad und die andere der Längengrad ist.
  • Die aktuellen Kurse der 500 Aktien können als 500-dimensionaler Vektor
  • Eine Wahrscheinlichkeitsverteilung über eine endliche Anzahl von Klassen kann als Vektor dargestellt werden. Ein Klassifizierungssystem mit mehreren Klassen, das eine von drei Ausgabefarben (Rot, Grün oder Gelb) vorhersagt, könnte den Vektor (0.3, 0.2, 0.5) für P[red]=0.3, P[green]=0.2, P[yellow]=0.5 ausgeben.

Vektoren können zusammengeführt werden, sodass eine Vielzahl verschiedener Medien als einzelner Vektor dargestellt werden kann. Einige Modelle arbeiten direkt auf der Verkettung vieler One-Hot-Codierungen.

Spezialisierte Prozessoren wie TPUs sind für die Leistung optimiert mathematische Operationen auf Vektoren anwenden.

Ein Vektor ist ein Tensor mit dem Rang 1.

W

Verlust von Wasserstein

Eine der Verlustfunktionen, die häufig in generativen Adversarial Networks verwendet wird. Sie basiert auf der Earth Mover's Distance zwischen der Verteilung der generierten Daten und der der tatsächlichen Daten.

Gewicht

#fundamentals

Wert, den ein Modell mit einem anderen Wert multipliziert. Training ist der Prozess zur Bestimmung des Idealgewichts eines Modells. Inferenz ist der Prozess, bei dem diese erlernten Gewichtungen Vorhersagen zu treffen.

Gewichtete alternierende kleinste Quadrate (WALS)

#recsystems

Ein Algorithmus zur Minimierung der Zielfunktion bei der Matrixfaktorisierung in Empfehlungssystemen, der eine geringere Gewichtung der fehlenden Beispiele ermöglicht. WALS minimiert die Gewichtung quadrierten Fehler zwischen der ursprünglichen Matrix und der Rekonstruktion durch zwischen der Korrektur der Zeilenfaktorisierung und der Spaltenfaktorisierung. Jede dieser Optimierungen kann durch die kleinsten Quadrate behoben werden. Konvexoptimierung: Weitere Informationen finden Sie im Kurs zu Empfehlungssystemen.

gewichtete Summe

#fundamentals

Die Summe aller relevanten Eingabewerte multipliziert mit den entsprechenden Gewichten. Angenommen, die relevanten Eingaben setzen sich so zusammen:

Eingabewert Eingabegewicht
2 -1,3
-1 0,6
3 0,4

Die gewichtete Summe lautet daher:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Eine gewichtete Summe ist das Eingabeargument für eine Aktivierungsfunktion:

Wide Model

Ein lineares Modell, das in der Regel viele dünnbesetzte Eingabefeatures Wir bezeichnen es als „breit“ seit Ein solches Modell ist eine spezielle Art von neuronalem Netzwerk mit einem eine große Anzahl von Eingaben, die direkt mit dem Ausgabeknoten verbunden sind. Breite Modelle lassen sich oft einfacher debuggen und prüfen als Deep Learning-Modelle. Obwohl nichtlineare Funktionen in Wide-Modellen nicht durch verborgene Schichten ausgedrückt werden können, können sie mithilfe von Transformationen wie Feature-Kreuzung und Bucket-Analyse auf unterschiedliche Weise modelliert werden.

Im Kontrast zum tiefen Modell stehen.

Breite

Die Anzahl der Neuronen in einer bestimmten Schicht eines neuronalen Netzwerks.

Die Weisheit der Vielen

#df

Die Annahme, dass die Durchschnittswerte der Meinungen oder Schätzungen einer großen Gruppe von Menschen („die Masse“) oft überraschend gute Ergebnisse liefern. Stellen Sie sich zum Beispiel ein Spiel vor, in dem die Leute die Anzahl der Gummibärchen in einem großen Glas. Obwohl die meisten Einzelpersonen ungenau sind, der Durchschnitt aller Vermutungen empirisch erstaunlich nahe an der tatsächlichen Anzahl Gummibärchen im Glas.

Ensembles sind ein Softwareanalogon der Weisheit der Vielen. Selbst wenn einzelne Modelle sehr ungenaue Vorhersagen treffen, führt die Durchschnittsbildung der Vorhersagen vieler Modelle oft zu überraschend guten Vorhersagen. So kann ein einzelner Entscheidungsbaum beispielsweise schlechte Vorhersagen treffen, während ein Entscheidungswald oft sehr gute Vorhersagen liefert.

Worteinbettung

#language

Darstellung jedes Wortes in einem Wortsatz in einem Embedding-Vektor, d. h. Darstellung jedes Wortes als Vektor von Gleitkommawerten zwischen 0,0 und 1,0. Wörter mit Ähnlichem Bedeutungen haben eine ähnlichere Darstellung als Wörter mit unterschiedlichen Bedeutungen. So wären beispielsweise Karotten, Seller und Gurken relativ wahrscheinlich ähnliche Darstellungen, die sich stark von den Darstellungen unterscheiden, Flugzeug, Sonnenbrille und Zahnpasta.

X

XLA (Accelerated Linear Algebra)

Ein Open-Source-Compiler für maschinelles Lernen für GPUs, CPUs und ML-Beschleuniger.

Der XLA-Compiler nimmt Modelle aus gängigen ML-Frameworks wie PyTorch, TensorFlow und JAX und optimiert sie für eine leistungsstarke Ausführung auf verschiedenen Hardwareplattformen, einschließlich GPUs, CPUs und ML-Beschleunigern.

Z

Zero-Shot-Learning

Eine Art von Training für maschinelles Lernen, bei dem die model leitet eine Vorhersage für eine Aufgabe ab mit dem sie noch nicht trainiert wurden. Mit anderen Worten: Dem Modell werden keine aufgabenspezifischen Beispiele für das Training zur Verfügung gestellt, es wird aber aufgefordert, Inferenzen für diese Aufgabe zu ziehen.

Zero-Shot-Prompting

#language
#generativeAI

Eine Aufforderung, die kein Beispiel dafür enthält, Large Language Model verwenden. Beispiel:

Teile eines Prompts Hinweise
Was ist die offizielle Währung des angegebenen Landes? Die Frage, die das LLM beantworten soll.
Indien: Die tatsächliche Suchanfrage.

Das Large Language Model könnte so antworten:

  • Rupie
  • INR
  • Indische Rupie
  • Die Rupie
  • Indische Rupie

Alle Antworten sind richtig, auch wenn Sie möglicherweise ein bestimmtes Format bevorzugen.

Vergleichen Sie Zero-Shot-Prompts mit den folgenden Begriffen:

Normalisierung nach Z-Wert

#fundamentals

Eine Skalierungstechnik, die eine unbearbeitete feature-Wert mit einem Gleitkommawert, der für die Anzahl der Standardabweichungen vom Mittelwert der Funktion. Angenommen, ein Feature hat einen Mittelwert von 800 und eine Standardabweichung von 100. Die folgende Tabelle zeigt, wie die Normalisierung des Z-Werts würde den Rohwert seinem Z-Wert zuordnen:

Unverarbeiteter Wert Z-Wert
800 0
950 +1,5
575 -2,25

Das Modell für maschinelles Lernen wird dann anhand der Z-Werte trainiert. statt auf die Rohwerte.