Ein neuronales Netz ist ein Programm oder Modell des maschinellen Lernens. Es trifft Entscheidungen auf ähnliche Weise wie das menschliche Gehirn: Seine Prozesse ahmen nach, wie biologische Neuronen zusammenwirken, um Phänomene zu identifizieren, Optionen abzuwägen und Schlussfolgerungen zu ziehen.
Jedes neuronale Netz besteht aus Ebenen von Knoten bzw. künstlichen Neuronen – eine Eingabeebene, eine oder mehrere verborgene Ebenen und eine Ausgabeebene. Jeder Knoten ist mit anderen Knoten verbunden und verfügt über eine bestimmte Gewichtung und einen Schwellenwert. Liegt die Ausgabe eines Knotens über dem angegebenen Schwellenwert, wird dieser Knoten aktiviert und sendet Daten an die nächste Schicht des Netzes. Liegt die Ausgabe unter dem Schwellenwert, werden keine Daten an die nächste Netzebene weitergeleitet.
Neuronale Netze sind auf Trainingsdaten angewiesen, um zu lernen und mit der Zeit immer genauer zu werden, also immer mehr korrekte Aussagen zu treffen. Sobald dies der Fall ist, sind sie leistungsstarke Hilfsmittel in der Informatik und künstlichen Intelligenz und helfen uns, Daten mit hoher Geschwindigkeit zu klassifizieren und zu clustern. Für Aufgaben im Bereich Sprach- oder Bilderkennung braucht ein neuronales Netz im Vergleich zur manuellen Identifizierung durch menschliche Experten nur Minuten statt Stunden. Eines der bekanntesten Beispiele für ein neuronales Netz ist der Suchalgorithmus von Google.
Neuronale Netze werden manchmal auch als künstliche neuronale Netze (Artificial Neural Networks, ANNs) oder simulierte neuronale Netze (Simulated Neural Networks, SNNs) bezeichnet. Sie gehören in den größeren Komplex des maschinellen Lernens und bilden ihrerseits das Herzstück von Deep-Learning-Modellen.
Branchen-Newsletter
Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Stellen Sie sich jeden einzelnen Knoten als eigenes lineares Regressionsmodell vor, das aus Eingabedaten, Gewichtungen, einem Bias (oder Schwellenwert) und einer Ausgabe besteht. Die Formel würde in etwa so aussehen:
∑wixi + Bias = w1x1 + w2x2 + w3x3 + Bias
Output = f(x) = 1 if ∑w1x1 + b>= 0; 0 if ∑w1x1 + b < 0
Sobald eine Eingabeebene feststeht, werden Gewichtungen zugewiesen. Mit Hilfe dieser Gewichtungen wird die Wichtigkeit einer Variablen bestimmt, wobei größere Variablen im Vergleich zu anderen Eingaben einen deutlich größeren Beitrag zur Ausgabe leisten. Alle Eingaben werden dann mit ihren jeweiligen Gewichtungen multipliziert und anschließend addiert. Danach wird diese Zwischenausgabe durch eine Aktivierungsfunktion geleitet, um die endgültige Ausgabe zu bestimmen. Überschreitet diese Ausgabe einen bestimmten Schwellenwert, „feuert“ der Knoten (oder wird aktiviert) und übergibt Daten an die nächste Ebene im Netz. So wird die Ausgabe des einen Knotens zur Eingabe des nächsten. Dieser Prozess, also das Weitergeben von Daten von einer Ebene in die nächste, macht dieses neuronale Netzwerk zu einem Feedforward-Netz.
Sehen wir uns nun detaillierter an, wie ein Knoten in Binärwerten aussieht. Wir können dieses Konzept auf ein konkreteres Beispiel anwenden, z. B., ob Sie surfen gehen sollten (Ja: 1, Nein: 0). Die Entscheidung, ob Sie gehen oder nicht, ist der Kriteriumswert, sprich, der Wert der vorherzusagenden Variablen, auch als „Y-Dach“ bezeichnet. Nehmen wir an, dass es drei Faktoren gibt, die Ihre Entscheidungsfindung beeinflussen:
Dann nehmen wir Folgendes an und geben die folgenden Eingaben ein:
Jetzt müssen wir einige Gewichtungen zuweisen, um die Wichtigkeit zu bestimmen. Höhere Gewichtungen geben an, dass bestimmte Variablen für die Entscheidung oder das Ergebnis von größerer Bedeutung sind.
Schließlich nehmen wir noch einen Schwellenwert von 3 an, was einem Bias-Wert von –3 entspricht. Mit den vorliegenden Eingaben können wir Werte in die Formel einsetzen, um die gewünschte Ausgabe zu erhalten.
Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6
Mit der Aktivierungsfunktion vom Anfang dieses Abschnitts stellen wir fest, dass die Ausgabe dieses Knotens 1 ist, da 6 größer 0. In diesem Fall würden Sie surfen gehen; aber wenn wir die Gewichtungen oder den Schwellenwert anpassen, können wir andere Ergebnisse mit dem Modell erzielen. Durch das Beobachten einer Entscheidung wie im obigen Beispiel sehen wir, wie ein neuronales Netz immer komplexere Entscheidungen treffen kann, abhängig von der Ausgabe der vorangegangenen Entscheidungen oder Ebenen.
Im obigen Beispiel haben wir ein Perzeptron verwendet, um einige mathematische Zusammenhänge zu veranschaulichen. Ein Perzeptron ist ein künstliches neuronales Netz mit einem einzigen Neuron. Streng genommen ist ein Perzeptron ein Algorithmus, der 2 (binäre) Werte annehmen kann, 0 oder 1. Tiefe neuronale Netze nutzen jedoch sigmoidale Neuronen mit Werten im Bereich zwischen 0 und 1. Neuronale Netze verhalten sich ähnlich wie Entscheidungsbäume: Daten werden von einem Knoten zu einem anderen kaskadiert. Kann die Variable X Werte zwischen 0 und 1 annehmen, wirkt sich die Änderung an einer Variablen weniger stark auf die Ausgabe eines Knotens und damit auch auf die Ausgabe des neuronalen Netzes aus.
Wenn es um die anwendungsorientiertere Nutzung neuronaler Netze geht, wie Bilderkennung oder Klassifizierung, wird der Algorithmus mit überwachtem Lernen oder gelabelten Datensätzen trainiert. Beim Trainieren des Modells soll seine Genauigkeit anhand einer Kosten- bzw. Verlustfunktion bewertet werden. Dies wird allgemein auch als mittlere quadratische Abweichung (Mean Squared Error, MSE) bezeichnet. In der unten stehenden Gleichung gilt Folgendes:
Kostenfunktion= 𝑀𝑆𝐸=1/2𝑚 ∑129_(𝑖=1)^𝑚▒(𝑦 ̂^((𝑖) )−𝑦^((𝑖) ) )^2
Letztendlich besteht das Ziel darin, die Kostenfunktion zu minimieren, um eine korrekte Anpassung für eine bestimmte Beobachtung zu gewährleisten. Während das Modell seine Gewichtungen und den Bias anpasst, verwendet es die Kostenfunktion und Reinforcement Learning, um den Konvergenzpunkt oder das lokale Minimum zu erreichen. Der Prozess, bei dem der Algorithmus seine Gewichtungen anpasst, erfolgt mit dem Gradientenverfahren. Dadurch kann das Modell die Richtung bestimmen, die es einschlagen muss, um Fehler zu reduzieren (oder die Kostenfunktion zu minimieren). Mit jedem Trainingsbeispiel passen sich die Parameter des Modells an, um sich allmählich dem Minimum anzunähern.
In diesem Artikel von IBM Developer werden die quantitativen Konzepte von neuronalen Netzen näher erläutert.
Die meisten tiefen neuronalen Netzwerke sind Feedforward-Netze, d. h. sie fließen nur in eine Richtung: von der Eingabe zur Ausgabe. Sie können Ihr Modell jedoch auch durch Fehlerrückführung (Backpropagation) trainieren, also in umgekehrter Richtung von der Ausgabe zur Eingabe gehen. Durch Backpropagation lässt sich der mit jedem Neuron verbundene Fehler berechnen und zuordnen, sodass die Parameter des Modells (bzw. der Modelle) entsprechend angepasst und abgestimmt werden können.
Neuronale Netze lassen sich in verschiedene Typen einteilen, die für unterschiedliche Zwecke verwendet werden. Die folgende Liste ist zwar nicht vollständig, aber repräsentativ für die häufigsten Typen von neuronalen Netzen, denen Sie bei den gängigsten Anwendungsfällen begegnen:
Das Perzeptron ist das älteste neuronale Netzwerk und wurde 1958 von Frank Rosenblatt entwickelt.
In diesem Artikel geht es überwiegend um neuronale Netze mit Feedforward-Architektur oder mehrschichtige Perzeptrons (MLPs). Sie bestehen aus einer Eingabeebene, einer oder mehreren verborgenen Ebenen und einer Ausgabeebene. Diese neuronalen Netze werden zwar auch als MLPs bezeichnet, zu beachten ist aber, dass sie tatsächlich aus sigmoidalen Neuronen und nicht aus Perzeptrons bestehen, da die meisten realen Probleme nicht linear sind. In der Regel werden Daten in diese Modelle gespeist, um sie zu trainieren. Sie bilden die Grundlage für Computer Vision, die Verarbeitung natürlicher Sprache und andere neuronale Netze.
Convolutional Neural Networks (CNNs) oder Faltungsnetze ähneln Feedforward-Netzen, werden jedoch in der Regel zur Bilderkennung, Mustererkennung bzw. Computer Vision verwendet. Diese Netze nutzen Prinzipien der linearen Algebra, insbesondere der Matrixmultiplikation, um Muster innerhalb eines Bildes zu erkennen.
Rekurrente neuronale Netze (RNNs) sind an ihren Feedback-Schleifen erkennbar. Diese Lernalgorithmen werden in erster Linie bei der Arbeit mit Zeitreihendaten eingesetzt, um Vorhersagen über künftige Ergebnisse zu treffen, z. B. bei Börsen- oder Umsatzprognosen.
Die Bezeichnungen „Deep Learning“ und „neuronales Netz“ werden oft synonym verwendet, was aber nicht ganz der Fall ist. Das „deep“ in Deep Learning bezieht sich nur auf die Tiefe der Ebenen in einem neuronalen Netz. Neuronale Netze mit mehr als drei Ebenen – einschließlich Eingaben und Ausgabe – können als Deep-Learning-Algorithmus bezeichnet werden. Neuronale Netze mit nur zwei oder drei Ebenen sind einfache neuronale Netze.
Um mehr über die Unterschiede zwischen neuronalen Netzen und anderen Formen der künstlichen Intelligenz wie dem maschinellen Lernen zu erfahren, lesen Sie unseren Blogbeitrag „AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?“ (KI vs. maschinelles Lernen vs. Deep Learning vs. neuronale Netze: Was ist der Unterschied?)
Die Geschichte der neuronalen Netze geht weiter zurück, als die meisten annehmen. Die Idee einer „denkenden Maschine“ lässt sich bis zu den alten Griechen zurückverfolgen. Wir werden uns jedoch auf die wichtigsten Ereignisse konzentrieren, die Überlegungen in Bezug auf neuronale Netze weiterentwickelt haben, deren Popularität im Laufe der Jahre stark schwankte:
1943: Warren S. McCulloch und Walter Pitts veröffentlichen „A logical calculus of the ideas immanent in nervous activity“ (Link befindet sich außerhalb von ibm.com) Diese Studie versuchte nachzuvollziehen, wie das menschliche Gehirn durch miteinander verbundene Gehirnzellen bzw. Neuronen komplexe Muster erzeugen kann. Eines der wichtigsten Konzepte aus dieser Arbeit war der Vergleich von Neuronen mit binärem Schwellenwert mit der booleschen Logik (d. h. 0/1 oder wahr/falsch).
1958: Frank Rosenblatt wird die Entwicklung des Perzeptrons zugeschrieben, dokumentiert in seiner Studie „The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain“ (Link befindet sich außerhalb von ibm.com). Er führte die Arbeit von McCulloch und Pitt noch einen Schritt weiter, indem er Gewichtungen in die Gleichung einführt. Mit Hilfe eines IBM 704 brachte Rosenblatt einen Computer dazu, zwischen Karten mit Markierungen auf der linken bzw. rechten Seite zu unterscheiden.
1974: Während zahlreiche Forscher zur Idee der Backpropagation beigetragen haben, war Paul Werbos in den USA der erste, der in seiner PhD-Dissertation (Link befindet sich außerhalb von outside ibm.com) deren Anwendung innerhalb von neuronalen Netzen beschrieb.
1989: Yann LeCun veröffentlichte eine Abhandlung (Link befindet sich außerhalb von ibm.com), die veranschaulicht, wie Algorithmen trainiert werden können, wenn Einschränkungen bei der Backpropagation verwendet und in ein neuronales Netz integriert werden. In dieser Studie wurde ein neuronales Netz erfolgreich eingesetzt, um handgeschriebene Postleitzahlen vom Postdienst der USA zu erkennen.
Verschaffen Sie sich ein umfassendes Verständnis von neuronalen Netzen, ihren grundlegenden Funktionen und den Grundlagen für den Aufbau eines solchen Netzes.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com