Was sind neuronale Netzwerke?

Autor

Fangfang Lee

Developer Advocate

IBM

Was sind neuronale Netzwerke?

Ein neuronales Netzwerk ist ein maschinelles Lernmodell, das einfache „Neuronen“ in Schichten anordnet und aus Daten Mustererkennungsgewichte und -verzerrungen lernt, um Eingaben auf Ausgaben abzubilden.

Neuronale Netze sind unter den einflussreichsten Algorithmen im modernen maschinelles Lernen und künstliche Intelligenz (KI). Sie unterstützen Durchbrüche in den Bereichen Computer Vision, Verarbeitung natürlicher Sprache (NLP), Spracherkennung und unzählige Anwendungen, die von Prognose bis hin zur Gesichtserkennung reichen. Während die heutigen Deep Neural Networks (DNNs) so komplexe Systeme wie Transformer und Convolutional Neural Networks (CNNs) antreiben, gehen die Ursprünge neuronaler Netze auf einfache Modelle wie die lineare Regression und die Art und Weise zurück, wie das menschliche Gehirn die präsentierten Informationen verarbeitet, verarbeitet und darüber entscheidet.

Wie funktionieren neuronale Netzwerke?

Die Inspiration für neuronale Netze kommt im Großen und Ganzen von den biologischen Neuronen im menschlichen Gehirn, die über elektrische Signale kommunizieren. Im Jahr 1943 schlugen Warren McCulloch und Walter Pitts das erste mathematische Modell eines Neurons vor und zeigten, dass einfache Einheiten die Berechnung einer Funktion durchführen können. Später, im Jahr 1958, stellte Frank Rosenblatt das Perzeptron vor, einen Algorithmus zur Mustererkennung. Das Perzeptron ist der historische Vorfahre der heutigen Netzwerke: im Wesentlichen ein lineares Modell mit einer eingeschränkten Ausgabe. Im folgenden Abschnitt werden wir untersuchen, wie sich neuronale Netze vom menschlichen Gehirn inspirieren lassen, um Entscheidungen zu treffen und Muster zu erkennen.  

Ein neuronales Netz kann anhand eines einfachen Beispiels verstanden werden: Erkennung von Spam. Eine E-Mail wird in das Netzwerk eingespeist und Funktionen wie Wörter oder Ausdrücke wie „Preis“, „Geld“, „Sehr geehrte“ oder „gewinnen“ werden als Eingaben verwendet. Die frühen Neuronen im Netzwerk verarbeiten die Bedeutung jedes Signals, während spätere Schichten diese Informationen zu übergeordneten Hinweisen kombinieren, die Kontext und Ton erfassen. In der letzten Schicht wird dann eine Wahrscheinlichkeit dafür berechnet, ob es sich bei der E-Mail um Spam handelt, und wenn diese Wahrscheinlichkeit hoch genug ist, wird die E-Mail gekennzeichnet. Im Wesentlichen lernt das Netz, wie es Rohfunktionen in aussagekräftige Muster umwandelt und diese für Vorhersagen nutzt.

Dieser Prozess basiert auf zwei grundlegenden Konzepten: Gewichtungen und Verzerrungen. Gewichtungen wirken wie Drehknöpfe, die steuern, wie stark jede Eingabe-Funktion die Entscheidung beeinflusst – ein Wort wie „Preis“ kann mehr Gewicht erhalten als ein gewöhnliches Wort wie „Hallo“. Verzerrungen sind integrierte Werte, die Entscheidungsschwelle verschieben, sodass ein Neuron auch dann aktiviert werden kann, wenn die Eingaben selbst schwach sind. Zusammen bestimmen diese Modellparameter, wie jedes Neuron zur Gesamtberechnung beiträgt. Durch Anpassung dieser Werte während des Trainings lernt das Netzwerk nach und nach, genaue Vorhersagen zu treffen – in diesem Fall, ob es sich bei einer E-Mail um Spam handelt oder nicht.

Mathematisch lernt ein neuronales Netzwerk eine Funktion  f(X)  durch Zuordnung eines Eingabevektors  X=(x1,x2,x3...)  um eine Reaktion vorherzusagen  Y.  Was neuronale Netze von anderen traditionellen maschinellen Lernalgorithmen unterscheidet, ist ihre mehrschichtige Struktur und ihre Fähigkeit, nicht lineare Transformationen durchzuführen.  

Ein neuronales Netz besteht aus:

  • Eingabeebene: enthält die rohen Merkmale  (X1,X2,X3,..) .

  • Versteckte Schichten: bestehen aus künstlichen Neuronen (oder Knoten), die Eingaben in neue Darstellungen umwandeln. Mathematisch gesehen werden verborgene Schichten als Eingabefunktionen dargestellt, mit den zugehörigen Gewichtungen multipliziert und mit Verzerrung addiert, um von einer Schicht zur nächsten Schicht zu gelangen und schließlich die endgültige Ausgabeebene zu erreichen. Hier findet die lineare Transformation zwischen Eingabe und Ausgabe statt. 

  • Ausgabe-Schicht: Nach der Durchführung der linearen Transformation in der verborgenen Schicht wird eine nicht lineare Aktivierungsfunktion (tanh, sigmoid, ReLU ) hinzugefügt, um die endgültige Vorhersage zu erzeugen (z. B. eine Zahl für die Regression oder eine Wahrscheinlichkeitsverteilung für die Klassifizierung).  
Diagramm eines neuronalen Netzes mit drei verborgenen Schichten: Eingabeschicht, mehrere verborgene Schichten, Ausgabeschicht Ein standardmäßiges vorwärtsgerichtetes neuronales Netz mit 3 versteckten Schichten.

Training neuronaler Netze

Genau wie andere Algorithmen für maschinelles Lernen erfordert ein neuronales Netz ein strenges Training, um bei Tests gut abzuschneiden. Um ein Netzwerk zu trainieren, berechnet ein einzelnes Neuron: 

 z=i=1nwixi+b

 a=σ(z)

Wo gilt:

  •  xi = Eingabefunktion,
  •  wi = Gewicht,
  •  b  = Verzerrung,
  •  z  = gewichtete Summe (lineare Transformation),
  •  σ  = Aktivierungsfunktion (nichtlineare Transformation),
  •  a  = Ausgabe,

 σ  stellt eine Aktivierungsfunktion in der Ausgabeschicht dar, die Linearkombination so transformiert, dass sie der Entscheidung der Funktion entspricht. Mithilfe dieser Architektur werden die Eingabefunktionen X in eine Ausgabe Y umgewandelt, die als Vorhersagemodell für maschinelles Lernen dient.  

Die Power eines neuronalen Netzes kommt von seiner Fähigkeit, aus Daten die richtigen Gewichtungen und Verzerrungen zu lernen. Dies geschieht durch den Vergleich der Vorhersagen des Netzwerks.  Y^ bis zur eigentlichen Kennzeichnung  Y  und Messen des Fehlers unter Verwendung einer Verlustfunktion. Bei Klassifizierungsaufgaben könnte der Verlust beispielsweise messen, wie weit die vorhergesagte Wahrscheinlichkeit von der richtigen Antwort entfernt ist.

Um diesen Verlust zu minimieren, verwendet das Netz einen Algorithmus namens Backpropagation. Das neuronale Netz trainiert in vier Schritten:

  • Vorwärtsdurchlauf: Eingaben fließen durch das Netzwerk, berechnen lineare Kombinationen, durchlaufen die nicht lineare Aktivierung und erzeugen eine Ausgabe.

  • Fehlerberechnung: Die Verlustfunktion misst die Differenz zwischen Vorhersage und Wahrheit.

  • Rückwärtsdurchlauf (Backpropagation): Der Fehler wird rückwärts durch das Netz verbreitet. An jedem Neuron berechnet der Algorithmus mithilfe der Kettenregel der Infinitesimalrechnung, wie viel jede Gewichtung und jede Verzerrung zum Fehler beigetragen hat.

  • Update bei der Gewichtung: Die Gewichtung und Verzerrungen werden leicht in die Richtung angepasst, die den Fehler reduziert, mithilfe einer Optimierungsmethode wie Gradient Descent.
Diagramm mit Gradientenabstieg, „Wert der Gewichtung“ auf der X-Achse und „Verlust“ auf der Y-Achse und ein „Startpunkt“ oben links im Diagramm. Im untersten Teil befindet sich der Text „Konvergenzpunkt“, d. h. bei dem die Kostenfunktion ihr Minimum erreicht“

Dieser Vorgang wird viele Male für den Trainingsdatensatz wiederholt. Jeder Durchlauf hilft dem Netzwerk, seine internen Parameter „abzustimmen“, sodass seine Vorhersagen schrittweise den richtigen Antworten näher kommen. Im Laufe der Zeit konvergiert das Netzwerk zu einer Reihe von Gewichtungen und Verzerrungen, die Fehler minimieren und gut auf unbekannte Daten übertragen werden. Die Backpropagation, gekoppelt mit dem Gradientenabstieg, ist der Motor, der neuronale Netze zum Funktionieren bringt. Sie ermöglicht es Netzwerken mit Millionen (oder sogar Milliarden) Parametern, aus riesigen Datensätzen aussagekräftige Muster zu lernen.  

Doch trotz der Bemühungen der Anwender, hochleistungsfähige Modelle zu schulen, stehen neuronale Netze immer noch vor ähnlichen Herausforderungen wie andere Modelle des maschinellen Lernens – vor allem vor einer Überanpassung. Wenn ein neuronales Netzwerk zu komplex wird und zu viele Parameter vorliegen, kommt es zu einer Überanpassung des Modells an die Trainingsdaten und eine schlechte Vorhersage. Eine Überanpassung ist ein häufiges Problem bei allen Arten von neuronalen Netzen. Genau auf den Kompromiss zwischen Verzerrung und Varianz zu achten ist für die Erstellung leistungsstarker neuronaler Netzmodelle von entscheidender Bedeutung.  

Moderne neuronale Netzarchitekturen – wie Transformer und Encoder-Decoder-Modelle – folgen den gleichen Grundprinzipien (erlernte Gewichtungen und Verzerrung, gestapelte Schichten, nicht lineare Aktivierungen, End-to-End-Training durch Backpropagation). Sie unterscheiden sich hauptsächlich darin, wie die Eingaben über die Schichten hinweg gemischt werden. Anstatt nur vollständig vernetzt zu mischen, nutzen Transformer die Aufmerksamkeit, um datenabhängige gewichtete Kombinationen von Repräsentationen zu bilden, zusammen mit Residuenverbindungen, Normalisierung und Positionskodierungen, um die Verdrahtung zu verbessern, die auf denselben Grundlagen aufgebaut ist.

Typen von neuronalen Netzen

Während mehrschichtige Perzeptrons die Grundlage bilden, haben sich neuronale Netze zu spezialisierten Architekturen entwickelt, die für verschiedene Bereiche geeignet sind:

  • Konvolutionale neuronale Netzwerke (CNNs oder Convnets): Entwickelt für gitterähnliche Daten wie Bilder. CNNs zeichnen sich dank konvolutionaler Filter, die räumliche Hierarchien von Funktionen erkennen, bei Bilderkennung, Computer Vision und Gesichtserkennung aus. 

  • Neuronale Netzwerke (RNNs): Integrieren Feedback, die es ermöglichen, dass Informationen über Zeitschritte hinweg bestehen bleiben. RNNs eignen sich gut für Spracherkennung, Prognosen und sequenzielle Daten. 

  • Transformers: Eine moderne Architektur, die RNNs für viele Sequenzaufgaben ersetzt hat. Transformer nutzen Aufmerksamkeitsmechanismen, um Abhängigkeiten in der Verarbeitung natürlicher Sprache (NLP) zu erfassen und modernste Modelle wie GPT zu unterstützen. 

  •  Diese Variationen unterstreichen die Vielseitigkeit der neuronalen Netze. Unabhängig von der Architektur basieren alle auf den gleichen Prinzipien: künstliche Neuronen, nicht lineare Aktivierungen und Optimierungsalgorithmen.
Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Anwendungen für neuronale Netze

Neuronale Netze bilden die Grundlage vieler aktueller AI-Systeme. Einige bekannte Anwendungen von neuralen Netzen sind:

  • Computer Vision: CNNs für Bilderkennung, medizinische Bildgebung und autonome Fahrzeuge. 

  • Verarbeitung natürlicher Sprache: Transformer für maschinelle Übersetzung, Chatbots und Zusammenfassungen. 

  • Spracherkennung: RNNs und Deep Nets für Transkription und Sprachassistenten.

  • Prognosen und Zeitreihen: Nachfrageprognose, Finanzmodellierung und Wettervorhersagen.

  • Reinforcement Learning: Neuronale Netze als Funktionsapproximatoren in Spielagenten (zum Beispiel Deepminds Go-Spiel AlphaGo). 

  • Mustererkennung: Betrug identifizieren, Unregelmäßigkeiten erkennen oder Dokumente klassifizieren. 

Diese Anwendungen treiben reale Innovationen in den Bereichen Gesundheitswesen, Finanzen, Robotertechnik, Unterhaltung und darüber hinaus voran.

Warum neuronale Netze wichtig sind

Neuronale Netze lernen nützliche interne Darstellungen direkt aus Daten und erfassen nicht lineare Strukturen, die klassischen Modellen entgehen. Mit ausreichender Kapazität, soliden Zielen und Regelungen gegen Überanpassungen lassen sich von kleinen Benchmarks bis hin zu Produktionssystemen in den Bereichen Computer Vision, Verarbeitung natürlicher Sprache, Spracherkennung, Prognosen und mehr skalieren und erzielen so messbare Verbesserungen an Genauigkeit und Robustheit. 
 
Modernes Deep Learning erweitert diese Grundlagen. CNNs sind auf die Extraktion räumlicher Funktionen für Bilder spezialisiert; RNNs modellieren zeitliche Abhängigkeiten in Sequenzen; Transformer ersetzen Wiederholung durch Aufmerksamkeit, unterstützt durch Residuenverbindungen, Normalisierung und effiziente Parallelität auf GPUs.  

Trotz der architektonischen Unterschiede bleibt das Training durchgängig mit Backpropagation auf großen Datensätzen, und die Kernansicht gilt nach wie vor:  Y=f(X;σ)  durch die Zusammenstellung datenabhängiger Transformationen mit nicht linearen Aktivierungen erlernt. Generative KI basiert auf denselben Prinzipien in größerem Maßstab. Große Sprachmodelle, Diffusionsmodelle, VAEs und GANs lernen Verteilungen über Daten, um Text, Bilder, Audio und Code zu synthetisieren.  

Der Wechsel von einem mehrschichtigen Perzeptron zu hochmodernen Generatoren beruht in erster Linie auf Architektur, Daten und Rechenleistung. Das Verständnis von Aktivierungsfunktionen, Trainingsanforderungen und den wichtigsten Arten von Netzwerken schlägt eine praktische Brücke von klassischen neuronalen Netzen zu den heutigen generativen Systemen und verdeutlicht, warum diese Modelle für die moderne KI von zentraler Bedeutung geworden sind.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen