Hinweis zum Urheberrecht| Allgemeine Informationen | FAQ
Beim Zitieren dieses Dokumentes beziehen Sie sich bitte immer auf folgende URN: urn:nbn:de:hbz:5n-03172

Mathematisch-Naturwissenschaftliche Fakultät - Jahrgang 2003

 

Titel Neuronale Netze mit erweiterten bayesschen Methoden für reale Datensammlungen
Autor Karsten Ernst Weber
Publikationsform Dissertation
Zusammenfassung Zu zahlreichen Problemen, die bei der Verarbeitung von realen Trainingsdaten durch neuronale Netze auftreten können, und die bisher in der Literatur nicht oder nicht ausreichend diskutiert wurden, werden Lösungen präsentiert. Alle diese Verfahren werden in einem Gesamtsystem zur Verarbeitung von Korrosionsdaten implementiert und empirisch validiert.
Ausgang aller Konzepte und Algorithmen bilden neuronale Netze mit erweiterten bayesschen Methoden: sie verarbeiten Trainingsdaten mit individuellen Messfehlerangaben. Entsprechend können zu den Prognosen auch Prognosefehler in Form von Konfidenzen berechnet werden.
Für die Implementierung wurden generalisierte lineare Netze verwendet. Sie ermöglichen einen sehr effizienten Trainingsalgorithmus, der neben den Gewichten auch die a priori Verteilung der Gewichte vollautomatisch bestimmt. Weiter wird eine Reihe von theoretischen Aussagen präsentiert, die für das Verständnis der erweiterten bayesschen Methoden wichtig sind, und die das Verhältnis zwischen Trainings- und Prognosefehlern, den Basisfunktionen und der Gewichtsregularisierung beschreiben.
Die Kooperation von Netzen wird eingeführt, um zwei strukturelle Probleme der vorliegenden Korrosionsdatensammlung effektiv zu lösen. Da sich die Messstellen einerseits in einem sehr hochdimensionalen Raum befinden, sie aber andererseits in vergleichsweise wenigen Clustern angeordnet sind, werden jeweils inhaltlich zusammengehörige Trainingsdaten zu einzelnen Experten zusammengefasst. Außerdem werden Trainingsdaten, die in einem Parameter fehlende, also verteilte Werte aufweisen, in anderen Experten trainiert als Trainingsdaten mit konkreten Werten. Darüber hinaus beschleunigt die Kooperation sowohl das Training als auch die Prognose und verringert den benötigten Speicherplatz.
Die Beziehung zwischen einem einzelnen Netz, das auf allen Daten trainiert wurde, und zwei kooperierenden Netzen, die zusammen auf den gleichen Daten trainiert wurden, wird analytisch und beispielhaft untersucht. Die Kooperation generalisiert dabei näherungsweise genauso gut wie ein einzelnes, universelles Netz.
Die Korrosion ist überwiegend, aber nicht überall eine deterministische Funktion der Eingangsgrößen. Das vorgestellte Modell des regionalen Rauschens ist, wenn entsprechende Trainingsdaten zur Verfügung stehen, in der Lage, diejenigen Regionen im Eingaberaum zu erkennen, in denen Trainingsdaten, gemessen an ihren Messfehlerangaben, zueinander in Widerspruch stehen. Die Standardabweichung des inhärenten Rauschens wird dabei erkannt und bildet zusammen mit dem bayesschen Prognosefehler einen erweiterten Fehlerbalken der Prognose.
Das in der Literatur üblicherweise verwendete Klassifikationsmodell, das die Eingangsgrößen als Zufallsvariablen in Abhängigkeit der zu trainierenden Klasse annimmt, ist auf die Korrosion nicht anwendbar. Daher wird ein alternatives Modell entwickelt, welches diese Abhängigkeit umkehrt. Es ermöglicht darüber hinaus eine Trennung der trainierten und der prognostizierten Klassen, sodass die Information, die in den Trainingsdaten enthalten ist, besser genutzt werden kann.
Die Verarbeitung von Daten, die nicht ursprünglich zum Training von neuronalen Netzen zusammengestellt wurden, erfordert eine umfangreiche Vorverarbeitung. Dazu werden Methoden eines zweistufigen Verfahrens beschrieben, dessen zentrales Element das komplexe, benutzer- und problemorientierte konzeptionelle Datenschema ist. Bei der Abbildung der ursprünglichen Trainingsdaten in dieses Schema werden Spezifika der Datenbeschreibung abgebaut und so eine phänomenorientierte Beschreibung geleistet. In die weitere Abbildung auf die Netzein- und -ausgänge fließt analytisches Problemwissen ein, was dann zu erheblich verbesserten Generalisierungseigenschaften führt.
Ein Überblick über den Leistungsumfang der entstandenen Software und empirische Auswertungen, die die Leistungsfähigkeit und die Korrektheit aller beschriebenen Modelle und Konzepte belegen, schließen die Arbeit ab.
Komplette Version pdf-Dokument (2 MB) Hier können Sie den Adobe Acrobat Reader downloaden
© Universitäts- und Landesbibliothek Bonn | Veröffentlicht: 2003