GitHub - andrewekhalel / MLQuestions: Maschinelles Lernen und Computer Vision Engineer - Technische Interviewfragen

Eine Sammlung technischer Interviewfragen für maschinelles Lernen und Computer Vision Engineering-Positionen.

1) Was ist der Kompromiss zwischen Bias und Varianz?
2) Was ist Gradient Descent?
3) Erklären Sie Über- und Unteranpassung und wie man sie bekämpft?
4) Wie bekämpfst du den Fluch der Dimensionalität?
5) Was ist Regularisierung, warum verwenden wir sie und geben einige Beispiele für gängige Methoden?
6) Hauptkomponentenanalyse (PCA) erklären?
7) Warum wird ReLU in neuronalen Netzen besser und häufiger eingesetzt als Sigmoid?
8) Erstellen Sie bei gegebenen Schritten und Kernelgrößen für jede Schicht eines (1-dimensionalen) CNN eine Funktion zur Berechnung des Empfangsfelds eines bestimmten Knotens im Netzwerk. Dies ist nur herauszufinden, wie viele Eingabeknoten tatsächlich eine Verbindung zu einem Neuron in einem CNN herstellen.
9) Implementieren Sie verbundene Komponenten auf einem Bild / einer Matrix.
10) Implementieren Sie eine Sparse-Matrix-Klasse in C ++.
11) Erstellen Sie eine Funktion, um ein integrales Bild zu berechnen, und erstellen Sie eine weitere Funktion, um Flächensummen aus dem integralen Bild zu erhalten.
12) Wie würden Sie Ausreißer entfernen, wenn Sie versuchen, eine flache Ebene aus verrauschten Stichproben zu schätzen?
13) Wie funktioniert CBIR?
14) Wie funktioniert die Bildregistrierung? Spärlicher vs. dichter optischer Fluss und so weiter.
15) Beschreiben, wie die Faltung funktioniert. Was ist, wenn Ihre Eingaben Graustufen- oder RGB-Bilder sind? Was bestimmt die Form der nächsten Schicht?
16) Erklären Sie mir, wie Sie ein 3D-Modell eines Objekts aus Bildern und Tiefensensormessungen erstellen würden, die in allen Winkeln um das Objekt herum aufgenommen wurden.
17) Implementieren Sie SQRT(const double & x) ohne spezielle Funktionen, nur Grundrechenarten.
18) Einen Bitstring umkehren.
19) Implementieren Sie die nicht maximale Unterdrückung so effizient wie möglich.
20) Erstellen Sie eine verknüpfte Liste.
21) Was ist Datennormalisierung und warum brauchen wir sie?
22) Warum verwenden wir Windungen für Bilder und nicht nur für Ebenen?
23) Was macht die CNNs-Übersetzung invariant?
24) Warum haben wir Max-Pooling in den CNNs?
25) Warum haben Segmentierungs-CNNs typischerweise einen Encoder-Decoder-Stil / eine Struktur?
26) Welche Bedeutung haben Restnetzwerke?
27) Was ist Batch-Normalisierung und warum funktioniert sie?
28) Warum würden Sie viele kleine Faltungskerne wie 3×3 anstelle einiger großer verwenden?
29) Warum brauchen wir einen Validierungssatz und einen Testsatz? Was ist der Unterschied zwischen ihnen?
30) Was ist geschichtete Kreuzvalidierung und wann sollten wir sie verwenden?
31) Warum haben Ensembles typischerweise höhere Punktzahlen als einzelne Modelle?
32) Was ist ein unausgewogener Datensatz? Können Sie einige Möglichkeiten auflisten, damit umzugehen?
33) Können Sie die Unterschiede zwischen überwachtem, unbeaufsichtigtem und verstärkendem Lernen erklären?
34) Was ist Datenvergrößerung? Können Sie einige Beispiele nennen?
35) Was ist der Turing-Test?
36) Was ist Präzision?
37) Was ist Recall?
38) Definieren Sie F1-Score.
39) Was ist die Kostenfunktion?
40 ist) Listen Sie verschiedene Aktivierungsneuronen oder -funktionen auf.
41) Definieren Sie die Lernrate.
42) Was ist Impuls (w.r.t NN Optimierung)?
43) Was ist der Unterschied zwischen Batch Gradient Descent und Stochastic Gradient Descent?
44) Epoche gegen Stapel gegen Iteration.
45) Was ist verschwindender Gradient?
46) Was sind Aussetzer?
47) Definieren Sie LSTM.
48) Listen Sie die Schlüsselkomponenten von LSTM auf.
49) Listen Sie die Varianten von RNN auf.
50) Was ist Autoencoder, nennen Sie einige Anwendungen.
51) Was sind die Komponenten von GAN?
52) Was ist der Unterschied zwischen Boosting und Bagging?
53) Erklären, wie eine ROC-Kurve funktioniert.
54) Was ist der Unterschied zwischen Typ I und Typ II Fehler?
55) Was ist der Unterschied zwischen einem generativen und einem diskriminativen Modell?
Beiträge

1) Was ist der Kompromiss zwischen Bias und Varianz?

Wenn unser Modell zu einfach ist und nur sehr wenige Parameter hat, kann es einen hohen Bias und eine geringe Varianz aufweisen. Auf der anderen Seite, wenn unser Modell eine große Anzahl von Parametern hat, wird es eine hohe Varianz und eine geringe Verzerrung haben. Wir müssen also die richtige / gute Balance finden, ohne die Daten zu über- und unterzupassen.

2) Was ist Gradient Descent?

3) Erklären Sie Über- und Unteranpassung und wie man sie bekämpft?

4) Wie bekämpfst du den Fluch der Dimensionalität?

Manuelle Merkmalsauswahl
Hauptkomponentenanalyse (PCA)
Mehrdimensionale Skalierung
Lokal lineare Einbettung

5) Was ist Regularisierung, warum verwenden wir sie und geben einige Beispiele für gängige Methoden?

Eine Technik, die das Erlernen eines komplexeren oder flexibleren Modells verhindert, um das Risiko einer Überanpassung zu vermeiden.Beispiele

Grat (L2-Norm)
Lasso (L1-Norm)
Der offensichtliche Nachteil der Gratregression ist die Interpretierbarkeit des Modells. Dadurch werden die Koeffizienten für die am wenigsten wichtigen Prädiktoren sehr nahe an Null geschrumpft. Aber es wird sie niemals genau Null machen. Mit anderen Worten, das endgültige Modell enthält alle Prädiktoren. Im Fall des Lassos hat die L1-Strafe jedoch den Effekt, dass einige der Koeffizientenschätzungen genau gleich Null sind, wenn der Abstimmparameter λ ausreichend groß ist. Daher führt die Lasso-Methode auch eine Variablenauswahl durch und soll spärliche Modelle ergeben.

6) Hauptkomponentenanalyse (PCA) erklären?

7) Warum wird ReLU in neuronalen Netzen besser und häufiger eingesetzt als Sigmoid?

Stellen Sie sich ein Netzwerk mit zufälligen initialisierten Gewichten ( oder normalisiert) vor, und fast 50% des Netzwerks ergeben aufgrund der Eigenschaft von ReLU eine Aktivierung von 0 (Ausgabe 0 für negative Werte von x ). Dies bedeutet, dass weniger Neuronen feuern ( spärliche Aktivierung ) und das Netzwerk leichter ist.

8) Erstellen Sie bei gegebenen Schritten und Kernelgrößen für jede Schicht eines (1-dimensionalen) CNN eine Funktion zur Berechnung des Empfangsfelds eines bestimmten Knotens im Netzwerk. Dies ist nur herauszufinden, wie viele Eingabeknoten tatsächlich eine Verbindung zu einem Neuron in einem CNN herstellen.

9) Implementieren Sie verbundene Komponenten auf einem Bild / einer Matrix.

10) Implementieren Sie eine Sparse-Matrix-Klasse in C ++.

11) Erstellen Sie eine Funktion, um ein integrales Bild zu berechnen, und erstellen Sie eine weitere Funktion, um Flächensummen aus dem integralen Bild zu erhalten.

12) Wie würden Sie Ausreißer entfernen, wenn Sie versuchen, eine flache Ebene aus verrauschten Stichproben zu schätzen?

13) Wie funktioniert CBIR?

14) Wie funktioniert die Bildregistrierung? Spärlicher vs. dichter optischer Fluss und so weiter.

15) Beschreiben, wie die Faltung funktioniert. Was ist, wenn Ihre Eingaben Graustufen- oder RGB-Bilder sind? Was bestimmt die Form der nächsten Schicht?

16) Erklären Sie mir, wie Sie ein 3D-Modell eines Objekts aus Bildern und Tiefensensormessungen erstellen würden, die in allen Winkeln um das Objekt herum aufgenommen wurden.

17) Implementieren Sie SQRT(const double & x) ohne spezielle Funktionen, nur Grundrechenarten.

18) Einen Bitstring umkehren.

19) Implementieren Sie die nicht maximale Unterdrückung so effizient wie möglich.

20) Erstellen Sie eine verknüpfte Liste.

21) Was ist Datennormalisierung und warum brauchen wir sie?

Die Datennormalisierung ist ein sehr wichtiger Vorverarbeitungsschritt, der verwendet wird, um Werte so zu skalieren, dass sie in einen bestimmten Bereich passen, um eine bessere Konvergenz während der Rückpropagation sicherzustellen. Im Allgemeinen läuft es darauf hinaus, den Mittelwert jedes Datenpunkts zu subtrahieren und durch seine Standardabweichung zu dividieren. Wenn wir dies nicht tun, werden einige der Features (solche mit hoher Größe) in der Kostenfunktion stärker gewichtet (wenn sich ein Feature höherer Größe um 1% ändert, ist diese Änderung ziemlich groß, aber für kleinere Features ist es ziemlich unbedeutend). Durch die Datennormalisierung werden alle Merkmale gleich gewichtet.

22) Warum verwenden wir Windungen für Bilder und nicht nur für Ebenen?

Erstens bewahren, kodieren und verwenden Windungen die räumlichen Informationen aus dem Bild. Wenn wir nur FC-Layer verwenden würden, hätten wir keine relativen räumlichen Informationen. Zweitens haben Convolutional Neural Networks (CNNs) eine teilweise eingebaute Übersetzungsvarianz, da jeder Faltungskern als sein eigener Filter / Merkmalsdetektor fungiert.

23) Was macht die CNNs-Übersetzung invariant?

Wie oben erläutert, fungiert jeder Faltungskernel als eigener Filter / Merkmalsdetektor. Angenommen, Sie machen eine Objekterkennung, es spielt keine Rolle, wo sich das Objekt im Bild befindet, da wir die Faltung sowieso in einem Schiebefenster auf das gesamte Bild anwenden werden.

24) Warum haben wir Max-Pooling in den CNNs?

für eine Rolle in der Computer Vision. Durch das Max-Pooling in einem CNN können Sie die Berechnung reduzieren, da Ihre Feature-Maps nach dem Pooling kleiner sind. Sie verlieren nicht zu viele semantische Informationen, da Sie die maximale Aktivierung vornehmen. Es gibt auch eine Theorie, dass Max-Pooling ein wenig dazu beiträgt, CNNs mehr Übersetzungsabweichung zu geben. Schauen Sie sich dieses großartige Video von Andrew Ng über die Vorteile von Max-Pooling an.

25) Warum haben Segmentierungs-CNNs typischerweise einen Encoder-Decoder-Stil / eine Struktur?

Das Encoder-CNN kann grundsätzlich als Feature-Extraktionsnetzwerk betrachtet werden, während der Decoder diese Informationen verwendet, um die Bildsegmente vorherzusagen, indem er die Features “decodiert” und auf die ursprüngliche Bildgröße hochskaliert.

26) Welche Bedeutung haben Restnetzwerke?

Die Hauptsache, die Restverbindungen ermöglichten, war der direkte Feature-Zugriff von vorherigen Layern. Dies erleichtert die Informationsweitergabe im gesamten Netzwerk erheblich. Ein sehr interessantes Papier dazu zeigt, wie die Verwendung lokaler Skip-Verbindungen dem Netzwerk eine Art Ensemble-Multipfad-Struktur verleiht, die Features mehrere Pfade zur Ausbreitung im gesamten Netzwerk gibt.

27) Was ist Batch-Normalisierung und warum funktioniert sie?

Das Training tiefer neuronaler Netze wird durch die Tatsache erschwert, dass sich die Verteilung der Eingaben jeder Schicht während des Trainings ändert, wenn sich die Parameter der vorherigen Schichten ändern. Die Idee ist dann, die Eingaben jeder Schicht so zu normalisieren, dass sie eine mittlere Ausgabeaktivierung von Null und eine Standardabweichung von eins aufweisen. Dies geschieht für jeden einzelnen Mini-Batch auf jeder Ebene, dh berechnen Sie den Mittelwert und die Varianz dieses Mini-Batches allein und normalisieren Sie ihn dann. Dies ist analog dazu, wie die Eingaben in Netzwerke standardisiert werden. Wie hilft das? Wir wissen, dass die Normalisierung der Eingaben in ein Netzwerk ihm beim Lernen hilft. Ein Netzwerk besteht jedoch nur aus einer Reihe von Schichten, wobei die Ausgabe einer Schicht zur Eingabe der nächsten wird. Das bedeutet, dass wir uns jede Schicht in einem neuronalen Netzwerk als die erste Schicht eines kleineren nachfolgenden Netzwerks vorstellen können. Als eine Reihe von neuronalen Netzen betrachtet, die sich ineinander speisen, normalisieren wir die Ausgabe einer Schicht, bevor wir die Aktivierungsfunktion anwenden, und speisen sie dann in die folgende Schicht (Subnetzwerk) ein.

28) Warum würden Sie viele kleine Faltungskerne wie 3×3 anstelle einiger großer verwenden?

Dies wird im VGGNet-Papier sehr gut erklärt. Es gibt 2 Gründe: Erstens können Sie mehrere kleinere Kernel anstelle weniger großer verwenden, um dasselbe Empfangsfeld zu erhalten und mehr räumlichen Kontext zu erfassen, aber mit den kleineren Kernen verwenden Sie weniger Parameter und Berechnungen. Zweitens, da Sie mit kleineren Kerneln mehr Filter verwenden, können Sie mehr Aktivierungsfunktionen verwenden und somit eine diskriminativere Zuordnungsfunktion haben, die von Ihrem CNN gelernt wird.

29) Warum brauchen wir einen Validierungssatz und einen Testsatz? Was ist der Unterschied zwischen ihnen?

Beim Training eines Modells teilen wir die verfügbaren Daten in drei separate Sätze auf:

Der Trainingsdatensatz wird zum Anpassen der Parameter des Modells verwendet. Die Genauigkeit, die wir mit dem Trainingssatz erreichen, ist jedoch nicht zuverlässig, um vorherzusagen, ob das Modell bei neuen Stichproben genau ist.
Der Validierungsdatensatz wird verwendet, um zu messen, wie gut das Modell an Beispielen funktioniert, die nicht Teil des Trainingsdatensatzes waren. Die auf den Validierungsdaten berechneten Metriken können zum Optimieren der Hyperparameter des Modells verwendet werden. Jedes Mal, wenn wir die Validierungsdaten auswerten und Entscheidungen auf der Grundlage dieser Ergebnisse treffen, leiten wir Informationen aus den Validierungsdaten in unser Modell ein. Je mehr Bewertungen, desto mehr Informationen werden durchgesickert. Wir können also zu einer Überanpassung der Validierungsdaten führen, und wieder einmal ist der Validierungswert nicht zuverlässig, um das Verhalten des Modells in der realen Welt vorherzusagen.
Der Testdatensatz wird verwendet, um zu messen, wie gut das Modell an zuvor nicht gesehenen Beispielen abschneidet. Es sollte nur verwendet werden, wenn wir die Parameter mit dem Validierungssatz abgestimmt haben.

Wenn wir also den Testsatz weglassen und nur einen Validierungssatz verwenden, ist der Validierungswert keine gute Schätzung der Verallgemeinerung des Modells.

30) Was ist geschichtete Kreuzvalidierung und wann sollten wir sie verwenden?

Kreuzvalidierung ist eine Technik zum Aufteilen von Daten zwischen Trainings- und Validierungssätzen. Bei einer typischen Kreuzvalidierung erfolgt diese Aufteilung zufällig. Bei der geschichteten Kreuzvalidierung behält die Aufteilung jedoch das Verhältnis der Kategorien sowohl in den Trainings- als auch in den Validierungsdatensätzen bei.

Wenn wir beispielsweise einen Datensatz mit 10% der Kategorie A und 90% der Kategorie B haben und eine geschichtete Kreuzvalidierung verwenden, haben wir die gleichen Anteile an Training und Validierung. Wenn wir dagegen eine einfache Kreuzvalidierung verwenden, können wir im schlimmsten Fall feststellen, dass sich im Validierungssatz keine Stichproben der Kategorie A befinden.

Die geschichtete Kreuzvalidierung kann in den folgenden Szenarien angewendet werden:

In einem Datensatz mit mehreren Kategorien. Je kleiner der Datensatz und je unausgewogener die Kategorien sind, desto wichtiger wird es sein, eine geschichtete Kreuzvalidierung zu verwenden.
Auf einem Datensatz mit Daten verschiedener Verteilungen. In einem Datensatz für autonomes Fahren können beispielsweise Bilder tagsüber und nachts aufgenommen werden. Wenn wir nicht sicherstellen, dass beide Typen in Training und Validierung vorhanden sind, werden wir Verallgemeinerungsprobleme haben.

31) Warum haben Ensembles typischerweise höhere Punktzahlen als einzelne Modelle?

Ein Ensemble ist die Kombination mehrerer Modelle, um eine einzelne Vorhersage zu erstellen. Die Schlüsselidee für bessere Vorhersagen ist, dass die Modelle unterschiedliche Fehler machen sollten. Auf diese Weise werden die Fehler eines Modells durch die richtigen Vermutungen der anderen Modelle kompensiert und somit die Punktzahl des Ensembles höher.

Wir brauchen verschiedene Modelle, um ein Ensemble zu schaffen. Vielfalt kann erreicht werden durch:

Mit verschiedenen ML-Algorithmen. Sie können beispielsweise logistische Regression, k-nearest Neighbors und Entscheidungsbäume kombinieren.
Verwenden verschiedener Teilmengen der Daten für das Training. Das nennt man Bagging.
Geben Sie jedem der Samples des Trainingssatzes ein anderes Gewicht. Wenn dies iterativ erfolgt und die Samples nach den Fehlern des Ensembles gewichtet werden, spricht man von Boosting.Viele Gewinnerlösungen für Data Science-Wettbewerbe sind verfügbar. In realen Machine-Learning-Projekten müssen Ingenieure jedoch ein Gleichgewicht zwischen Ausführungszeit und Genauigkeit finden.

32) Was ist ein unausgewogener Datensatz? Können Sie einige Möglichkeiten auflisten, damit umzugehen?

Ein unausgewogener Datensatz ist ein Datensatz mit unterschiedlichen Anteilen von Zielkategorien. Zum Beispiel wird ein Datensatz mit medizinischen Bildern, wo wir eine Krankheit erkennen müssen, typischerweise viel mehr negative Proben als positive Proben haben – sagen wir, 98% der Bilder sind ohne die Krankheit und 2% der Bilder sind mit der Krankheit.

Es gibt verschiedene Möglichkeiten, mit unausgeglichenen Datensätzen umzugehen:

Oversampling oder Undersampling. Anstatt mit einer gleichmäßigen Verteilung aus dem Trainingsdatensatz zu proben, können wir andere Verteilungen verwenden, damit das Modell einen ausgewogeneren Datensatz sieht.
Datenvergrößerung. Wir können Daten in den weniger häufigen Kategorien hinzufügen, indem wir vorhandene Daten kontrolliert ändern. Im Beispieldatensatz könnten wir die Bilder mit Krankheiten spiegeln oder Kopien der Bilder so mit Rauschen versehen, dass die Krankheit sichtbar bleibt.
Unter Verwendung geeigneter Metriken. Wenn wir im Beispieldatensatz ein Modell hätten, das immer negative Vorhersagen macht, würde es eine Genauigkeit von 98% erreichen. Es gibt andere Metriken wie Präzision, Rückruf und F-Score, die die Genauigkeit des Modells besser beschreiben, wenn ein unausgeglichenes Dataset verwendet wird.

33) Können Sie die Unterschiede zwischen überwachtem, unbeaufsichtigtem und verstärkendem Lernen erklären?

Beim überwachten Lernen trainieren wir ein Modell, um die Beziehung zwischen Eingabedaten und Ausgabedaten zu lernen. Wir brauchen markierte Daten, um überwachtes Lernen durchführen zu können.

Beim unüberwachten Lernen haben wir nur unmarkierte Daten. Das Modell lernt eine Darstellung der Daten. Unbeaufsichtigtes Lernen wird häufig verwendet, um die Parameter des Modells zu initialisieren, wenn wir viele unbeschriftete Daten und einen kleinen Bruchteil beschrifteter Daten haben. Wir trainieren zuerst ein unbeaufsichtigtes Modell und danach verwenden wir die Gewichte des Modells, um ein überwachtes Modell zu trainieren.

Beim Reinforcement Learning verfügt das Modell über einige Eingabedaten und eine Belohnung, die von der Ausgabe des Modells abhängt. Das Modell lernt eine Richtlinie, die die Belohnung maximiert. Verstärkungslernen wurde erfolgreich auf strategische Spiele wie Go und sogar klassische Atari-Videospiele angewendet.

34) Was ist Datenvergrößerung? Können Sie einige Beispiele nennen?

Datenaugmentation ist eine Technik zur Synthese neuer Daten, indem vorhandene Daten so geändert werden, dass das Ziel nicht oder in bekannter Weise geändert wird.

Computer Vision ist eines der Felder, in denen die Datenvergrößerung sehr nützlich ist. Es gibt viele Änderungen, die wir an Bildern vornehmen können:

Größe ändern
Horizontal oder vertikal spiegeln
Drehen
Rauschen hinzufügen
Verformen
Farbe ändernjedes Problem benötigt eine angepasste Datenaugmentationspipeline. Bei OCR ändert das Spiegeln beispielsweise den Text und ist nicht von Vorteil. Größenänderungen und kleine Rotationen können jedoch hilfreich sein.

35) Was ist der Turing-Test?

Der Turing-Test ist eine Methode, um die Fähigkeit der Maschine zu testen, der menschlichen Intelligenz zu entsprechen. Eine Maschine wird verwendet, um die menschliche Intelligenz herauszufordern, die, wenn sie den Test besteht, als intelligent angesehen wird. Dennoch könnte eine Maschine als intelligent angesehen werden, ohne ausreichend über Menschen Bescheid zu wissen, um einen Menschen nachzuahmen.

36) Was ist Präzision?

Präzision (auch positiver Vorhersagewert genannt) ist der Anteil relevanter Instanzen unter den abgerufenen Instanzen
Präzision = wahr positiv / (wahr positiv + falsch positiv)

37) Was ist Recall?

Recall (auch als Sensitivität bezeichnet) ist der Anteil relevanter Instanzen, die über die Gesamtmenge relevanter Instanzen abgerufen wurden.Recall = wahr positiv / (wahr positiv + falsch negativ)

38) Definieren Sie F1-Score.

Es ist der gewichtete Durchschnitt von Präzision und Rückruf. Es berücksichtigt sowohl falsch positiv als auch falsch negativ. Es wird verwendet, um die Leistung des Modells zu messen.
F1-Score = 2 * (Präzision * Rückruf) / (Präzision + Rückruf)

39) Was ist die Kostenfunktion?

Die Kostenfunktion ist eine Skalarfunktion, die den Fehlerfaktor des Neuronalen Netzwerks quantifiziert. Senken Sie die Kosten und verbessern Sie das neuronale Netzwerk. ZB: MNIST-Datensatz zur Klassifizierung des Bildes, Eingabebild ist Ziffer 2 und das Neuronale Netzwerk sagt fälschlicherweise voraus, dass es 3

40 ist) Listen Sie verschiedene Aktivierungsneuronen oder -funktionen auf.

Lineares Neuron
Binäres Schwellenneuron
Stochastisches binäres Neuron
Sigmoides Neuron
Tanh-Funktion
Gleichgerichtete lineare Einheit (ReLU)

41) Definieren Sie die Lernrate.

Die Lernrate ist ein Hyper-Parameter, der steuert, wie stark wir die Gewichte unseres Netzwerks in Bezug auf den Verlustgradienten anpassen.

42) Was ist Impuls (w.r.t NN Optimierung)?

Momentum lässt den Optimierungsalgorithmus seinen letzten Schritt speichern und fügt einen Teil davon dem aktuellen Schritt hinzu. Auf diese Weise kann der Algorithmus, selbst wenn er in einer flachen Region oder einem kleinen lokalen Minimum steckt, herauskommen und in Richtung des wahren Minimums fortfahren.

43) Was ist der Unterschied zwischen Batch Gradient Descent und Stochastic Gradient Descent?

Batch gradient descent berechnet den Gradienten unter Verwendung des gesamten Datensatzes. Dies ist ideal für konvexe oder relativ glatte Fehlerverteiler. In diesem Fall bewegen wir uns etwas direkt in Richtung einer optimalen Lösung, entweder lokal oder global. Darüber hinaus wird der Batch-Gradientenabstieg bei einer geglühten Lernrate schließlich das Minimum in seinem Anziehungsbecken finden.

Stochastic Gradient Descent (SGD) berechnet den Gradienten anhand einer einzelnen Stichprobe. SGD funktioniert gut (nicht gut, nehme ich an, aber besser als Batch Gradient Descent) für Fehlerverteilungen, die viele lokale Maxima / Minima haben. In diesem Fall neigt der etwas rauschhaftere Gradient, der unter Verwendung der reduzierten Anzahl von Abtastwerten berechnet wird, dazu, das Modell aus lokalen Minima in einen hoffentlich optimaleren Bereich zu ziehen.

44) Epoche gegen Stapel gegen Iteration.

Epoche: ein Vorwärtsdurchlauf und ein Rückwärtsdurchlauf aller Trainingsbeispiele
Stapel: Beispiele, die in einem Durchgang zusammen verarbeitet werden (vorwärts und rückwärts)
Iteration: Anzahl der Trainingsbeispiele / Stapelgröße

45) Was ist verschwindender Gradient?

Wenn wir immer mehr versteckte Ebenen hinzufügen, wird die Rückausbreitung immer weniger nützlich, um Informationen an die unteren Ebenen weiterzuleiten. Wenn Informationen zurückgegeben werden, beginnen die Gradienten zu verschwinden und werden im Verhältnis zu den Gewichten der Netzwerke klein.

46) Was sind Aussetzer?

Dropout ist eine einfache Möglichkeit, eine Überanpassung eines neuronalen Netzwerks zu verhindern. Es ist das Herausfallen einiger Einheiten in einem neuronalen Netzwerk. Es ähnelt dem natürlichen Fortpflanzungsprozess, bei dem die Natur Nachkommen hervorbringt, indem sie verschiedene Gene kombiniert (andere ausfällt), anstatt die Koanpassung von ihnen zu stärken.

47) Definieren Sie LSTM.

Langzeit–Kurzzeitgedächtnis – sind explizit darauf ausgelegt, das langfristige Abhängigkeitsproblem anzugehen, indem sie einen Zustand beibehalten, an den sie sich erinnern und den Sie vergessen sollen.

48) Listen Sie die Schlüsselkomponenten von LSTM auf.

Gates (vergessen, Speicher, update & Lesen)
tanh(x) (Werte zwischen -1 bis 1)
Sigmoid(x) (Werte zwischen 0 bis 1)

49) Listen Sie die Varianten von RNN auf.

LSTM: Langzeit-Kurzzeitgedächtnis
GRU: Gated Recurrent Unit
Ende-zu-Ende-Netzwerk
Speichernetzwerk

50) Was ist Autoencoder, nennen Sie einige Anwendungen.

Auto Encoder wird grundsätzlich verwendet, um eine komprimierte Form von gegebenen Daten zu lernen. Einige Anwendungen umfassen

Rauschunterdrückung von Daten
Reduzierung der Dimensionalität
Bildrekonstruktion
Bildeinfärbung

51) Was sind die Komponenten von GAN?

Generator
Diskriminator

52) Was ist der Unterschied zwischen Boosting und Bagging?

Boosting und Bagging sind insofern ähnlich, als es sich bei beiden um Ensembling-Techniken handelt, bei denen eine Reihe schwacher Lernender (Klassifikatoren / Regressoren, die kaum besser sind als Raten) kombiniert werden (durch Mittelung oder Maximierung), um einen starken Lernenden zu erzeugen, der genaue Vorhersagen treffen kann. Bagging bedeutet, dass Sie Bootstrap-Samples (mit Ersatz) Ihres Datensatzes nehmen und jede Probe einen (potenziell) schwachen Lerner trainiert. Boosting hingegen verwendet alle Daten, um jeden Lernenden zu trainieren, aber Instanzen, die von den vorherigen Lernenden falsch klassifiziert wurden, erhalten mehr Gewicht, so dass nachfolgende Lernende ihnen während des Trainings mehr Fokus geben.

53) Erklären, wie eine ROC-Kurve funktioniert.

Die ROC-Kurve ist eine grafische Darstellung des Kontrasts zwischen echten positiven Raten und der falsch positiven Rate bei verschiedenen Schwellenwerten. Es wird oft als Proxy für den Kompromiss zwischen der Empfindlichkeit des Modells (True Positives) und dem Fall-out oder der Wahrscheinlichkeit, dass es einen Fehlalarm auslöst (False Positives), verwendet.

54) Was ist der Unterschied zwischen Typ I und Typ II Fehler?

Fehler vom Typ I ist falsch positiv, während Fehler vom Typ II falsch negativ ist. Kurz gesagt bedeutet Typ-I-Fehler, dass behauptet wird, etwas sei passiert, wenn dies nicht der Fall ist, während Typ-II-Fehler bedeutet, dass Sie behaupten, dass nichts passiert, wenn tatsächlich etwas passiert.Eine clevere Art, darüber nachzudenken, besteht darin, einen Fehler vom Typ I so zu betrachten, dass er einem Mann mitteilt, dass er schwanger ist, während ein Fehler vom Typ II bedeutet, dass Sie einer schwangeren Frau mitteilen, dass sie kein Baby trägt.

55) Was ist der Unterschied zwischen einem generativen und einem diskriminativen Modell?

Ein generatives Modell lernt Datenkategorien, während ein diskriminatives Modell einfach die Unterscheidung zwischen verschiedenen Datenkategorien lernt. Diskriminative Modelle übertreffen generative Modelle bei Klassifizierungsaufgaben im Allgemeinen.

Beiträge

Beiträge sind herzlich willkommen.

Forken Sie das Repository.
Commit Ihre Fragen oder Antworten.
Pull-Anforderung öffnen.