Title:

Visuelles Erkennen und Bildschaffen

Home
deutsch
  
ISBN: 3000100776   ISBN: 3000100776   ISBN: 3000100776   ISBN: 3000100776 
 
  Wir empfehlen:       
  Zum Inhaltsverzeichnis*
2. Teil
Von Bildinformationen
zu Objekteigenschaften




Allgemeine Bemerkungen zum Wesen visueller Wahrnehmungen
 

Die Wortkombination "Objekteigenschaften" stellt eine Notlösung dar. Trotzdem glaube ich, daß sie dem Wesen der Verarbeitungsschritte die, im folgenden Teil der Arbeit besprochen werden, am ehesten entspricht.
Das Wort "Objekt" greift eigentlich zu kurz, denn es geht hier um alle erkennbaren Dinge, darunter fällt auch eine Wiese, der Himmel, der Mensch, also Begriffe, die wir im allgemeinen nicht zu den Objekten zählen. Der Begriff ist im folgenden also etwas weiter gefaßt als üblich.

Der Begriff "Eigenschaften" ist hingegen eher zu umfassend. Wir erkennen Objekte visuell doch eher an Merkmalen. Der Grund warum ich lieber von "Eigenschaften" spreche, liegt darin, daß dieser Begriff in Erinnerung ruft, worum es letztendlich geht. Wir erkennen Objekte nicht an direkt wahrnehmbaren Merkmalen, sondern oft an Eigenschaften, die eine komplexe Verarbeitung der Sinneseindrücke bedingen. Wenn wir Zwillingen beim Spielen zuschauen, können wir sie mitunter nur an Charaktereigenschaften wie Ausdauer oder Mut unterscheiden.

Eigenschaften sind mit Wertungen verbunden und verweisen damit auf das Ziel des Wahrnehmungsprozesses, das darin liegt zu erkennen, wie auf eine gegebene (wahrgenommene) Situation reagiert werden soll. Die wesentliche Rolle, die Eigenschaften im menschlichen Denken einnehmen, spiegelt sich in der Sprache wider. Eigenschaftswörter zählen neben Haupt- und Zeitwörtern zu den wichtigsten Wortgruppen. Am Beginn der Arbeit habe ich in Abbildung 1 ein erstes schematisches Modell der Datenverarbeitung im Gehirn aufgestellt. Auch dort findet sich diese Dreiteilung. So gesehen ist der Begriff "Objekteigenschaften" vielleicht doch nicht so schlecht gewählt.
 
 

Die Trennung von objektspezifischen und bildspezifischen Informationen
 

Wenn am Ende der Verarbeitung, die in diesem Teil behandelt wird, die Eigenschaften der Objekte signalisiert werden und diese Signale konstant bleiben, unabhängig von der momentanen Erscheinungsform (Perspektive, Lichtverhältnisse etc.), so mag das dem Erkennen dienen. Aber sehen wir wirklich so? Sicherlich nicht. Für die Erklärung des Erkennens ist weniger wichtig zu wissen, was wir sehen, als zu wissen, was davon in der Vorstellung bleibt. Ich will diesen Unterschied folgendermaßen verständlich machen:

Um etwas zu erkennen und später wiederzuerkennen müssen wir seinen Aufbau erfassen. Wir müssen unter anderem wissen, wie seine Teile (z.B. Wurzel, Stamm, Ast, Blatt) zueinander stehen. Dabei werden deren Positionsverhältnisse zueinander gemessen. Solche Angaben beziehen sich auf Maßverhältnisse innerhalb des Objektes und sind somit objektspezifisch.

Im Gegensatz dazu gilt es, wenn wir etwas angreifen wollen, dessen Positionsverhältnis zu uns zu erfassen. Genauer gesagt, dessen Position auf den Netzhäuten (Koordinaten), deren momentane Position im Schädel (je nach Blickrichtung) und dessen Position zum Körper, sowie zu den Armen. Diese Positionsdaten ändern sich mit jeder unserer Bewegungen und tragen deshalb überhaupt nichts zum Erkennen von Objekten bei. Sie sind bildspezifisch.

Damit ist argumentativ begründet, daß es hier zwei getrennte Verarbeitungswege geben muß. Diese haben nur in einem Punkt miteinander zu tun. Das erkennende System muß nämlich über rückführende Signale verfügen, um jene Bereiche des Bildes zu markieren, die jenem Objekt angehören, das gerade erkannt wurde. Das andere System, welches die Koordination leistet, ist zuständig, wenn wir das markierte Objekt zum Beispiel in die Hand nehmen wollen. Abgesehen von der Kommunikation über die Markierung arbeiten die beiden Verarbeitungssysteme völlig getrennt.

Das legen auch neuromedizinische Befunde nahe. So trennen sich die Verarbeitungswege nach der Sehrinde im Gehirn in eine obere und untere Sehbahn. Über erstere strömen Signale die Gehirnoberseite entlang zur motorischen Gehirnrinde, die der Bewegungsübertragung dient. Die Verarbeitung auf dem Weg dorthin dient hauptsächlich der räumlichen Orientierung. Die Verarbeitungsprozesse der oberen Sehbahn sind somit Basis für die kontrollierte Bewegung im Raum (vergl. Kolb 1996, S. 207).
Die untere Sehbahn dagegen führt in den Scheitellappen, wo die Begriffe von Objekten ihren Sitz haben. Hier findet Erkennen und Versprachlichung statt. Die Sprachzentren befinden sich in der nähe der akustischen Projektionsfelder im Bereich der Ohren (Damasio 1993).

Ich werde im Exkurs zu diesem Buchteil Patienten vorstellen, bei denen einer der Verarbeitungswege ausgefallen ist. Eine Synthese dieser beiden Systeme dürfte erst stattfinden wenn die Signale die gesamte Hirnrinde bis in den Stirnlappen vorgedrungen sind, wo Handlungen gesetzt werden, die nicht reaktiv auf ein Seherlebnis folgen, sondern begifflicher Vorstellung entspringen (Goldman-Rakie 1993). Es handelt sich dabei um bewußt gesetzte Handlungen. Durch den längeren Signalfluß brauchen wir für diese länger als für eintrainierte Reaktionen. (Damasio 1993). Das bewußte Denken ist also durch eine Synthese der beiden Verarbeitungswege charakterisiert. Deshalb ist die Trennung der visuellen Koordination von der visuellen Objekterkennung dem momentanen Erleben fremd, auch wenn die Aufgabe der beiden Verarbeitungswege so verschieden ist, daß sie von verschiedenen Systemen bewältigt werden muß.

Die objektspezifische Verarbeitung kann uns informieren, welche Dinge sich in unserem Blickfeld befinden, aber erst die bildspezifischen Koordinaten teilen uns mit, wo sich die Objekte befinden. So beschäftigt sich die eine Seite mit Informationen darüber wie Dinge beschaffen sind. Diese Informationen haben bleibenden Wert für alle zukünftigen Begegnungen. Die andere Verarbeitung betrifft jedoch äußerst vergängliche Angaben. Sie gibt Auskunft darüber, wo die Dinge um uns positioniert sind. Es wird ein Raum um uns aufgebaut, der es uns ermöglicht, exakt und treffsicher zu agieren. Sobald wir zum Beispiel das Zimmer verlassen, werden diese Informationen hinfällig. Sie werden vergessen, und ein neuer Raum erscheint.

Deshalb landen nur objektspezifische Informationen in einem dauerhaften Speicher, der dem Erkennen dient und uns teilweise in Form visueller Vorstellungen zugänglich ist. Bildspezifische Informationen sind hingegen normalerweise nur kurzfristig abspeicherbar. Es ist sogar verwunderlich, daß wir überhaupt dazu fähig sind, Bildinformationen zu behalten. Der Grund dafür dürfte in unserem begrenzten Blickfeld liegen. Nehmen wir zum Beispiel an, ein Tormann springt nach einem Ball. Sein Blick ist auf den Ball gerichtet, aber die Richtung, in die er seinen Körper schleudert, ist außerhalb seines Gesichtsfeldes. Was gibt ihm die Gewißheit, nicht mit dem Schädel an der Torstange zu zerschellen?

Ich denke, daß das Gehirn einen Raum um uns zu repräsentieren vermag, der über unser Blickfeld hinausreicht. Der Prozeß kann vielleicht so ähnlich vorgestellt werden wie das Aneinanderkleben zweier Urlaubsfotos im Fotoalbum, um einen Panoramablick zu erhalten. Es gibt viele Lebenssituationen, in denen unsere Wahrnehmung etwas Ähnliches leisten muß. So ist zum Beispiel ein Waldläufer dazu gezwungen, öfters auf den Boden hinunterzuschauen, um zu sehen, wohin er tritt. Andererseits muß er darauf achten, daß er sich nicht den Kopf an einem Ast anschlägt. Das Gehirn sollte also dazu in der Lage sein, ein Bild vor ihm aufzubauen, das Ausschnitte hinzufügt, die gerade nicht im Blickfeld sind. Diese Ausschnitte werden ständig durch Blickwendungen aktualisiert.

Ich glaube, daß sich auch ein Zeichner, der eine Naturstudie anfertigt, dieses kurzfristigen Bildspeichers bedient, denn natürlich ist auch zum Abzeichnen ein kurzfristiges Merkvermögen notwendig; sonst wäre dem Zeichner in dem Moment, wo er den Blick auf das Zeichenblatt richtet, nicht mehr vorstellbar, was die Hand dort machen soll. Jemand, der abzeichnet, braucht nichts über die dargestellten Objekte zu wissen. Er braucht nur die Fähigkeit haben, zu übertragen, was er sieht. So kann die selbe Person, die dazu in der Lage ist, einen ausgestopften Fuchs in vielstündiger Arbeit naturgetreu abzumalen, völlig scheitern, wenn es darum geht, eine Woche später einen Fuchs aus der Vorstellung zu zeichnen.

Der Grund dafür liegt auf der Hand. Das Bildschaffen aus der Vorstellung heraus fordert einen bewußten Zugang zu einem ganz anderen Gehirnbereich. Es ist Langzeitwissen über das Aussehen der Objekte erforderlich. Über solches Langzeitwissen verfügt natürlich jeder Mensch, sonst könnte er Dinge nicht wiedererkennen. Die Fähigkeit, Bilder aus der Vorstellung zu erschaffen, variiert jedoch, denn die meisten Menschen tun sich schwer, dieses Wissen selbständig zu aktivieren. Zu ihrem Glück wird dieser Teil der geistigen Produktion bei den meisten Intelligenztests kaum überprüft. Zu unrecht, denn egal, ob es z. B. um die Zellverschaltungsmodelle dieses Buches oder um irgend ein materielles Produkt unserer Zivilisation geht, all das entspringt dem visuellen Verstand. Deshalb sollte es zur Allgemenbildung gehören das Bewußtsein so zu erweitern, daß man auf jene Gestaltbegriffe, die dem Erkennen zugrundeliegen, wenigstens ein wenig Zugriff hat.

Ich will dieses Kapitel damit schließen, die Charakteristika der zwei Verarbeitungswege noch einmal zusammenzufassen:
 
 
 
Die obere Sehbahn ist zuständig für das Seherlebnis. Dieses ist wesentlich bestimmt durch die Empfindung sich im Mittelpunkt eines Aktionsraumes zu befinden. Das Wissen um die Position der Objekte zu uns läßt uns treffsicher agieren. Bildinformationen werden normalerweise nicht lange behalten. Eine solche situationsgebundene bildspezifische Erfassung bildet auch die Basis für das Vermögen etwas abzuzeichen. 

 

Die untere Sehbahn ist zuständig für das Erkennen. Die Basis dazu bildet eine Erfassung von Objekteigenschaften, zum Beispiel der Position, die Objektteile zueinander einnehmen. Es muß ein Vergleich mit bereits bekannten Daten erfolgen. Das erfordert eine dauerhafte Speicherung von Gestaltbegriffen. Der Speicherung der objektspezifischen Daten bildet auch die Basis für visuelle Vorstellungen und freies Zeichen.

 

Der Grund, warum ich hier am Beginn dieses zweiten Teils vorwegnehme, daß die Bildinformationen zwei unterschiedlichen Verarbeitungsarten zugeführt werden, liegt darin, daß ich nur für jene Prozesse ein Modell erstellen will, die dem Erkennen dienen. Ich lasse also die Koordination im Raum ungeklärt, und zwar einfach deshalb, weil diese Hälfte des Seherlebnisses weder für die Objekterkennung noch zur Erklärung der gestalterischen Fähigkeiten des Menschen von Bedeutung ist (Naturstudien zähle ich nicht zur Gestaltung). So gesehen darf nicht erwartet werden, daß die folgenden Betrachtungen dem Seherlebnis voll gerecht werden.
 
 

Grundlagen aller folgenden Verarbeitungsschritte
 

Die Verarbeitungsschritte, die in diesem Buchteil besprochen werden, unterscheiden sich in einigen Punkten von den bisherigen. Der vielleicht wesentlichste Aspekt besteht darin, daß die formale Ähnlichkeit der aktivierten Zellgruppen mit dem wahrgenommenen Bild am Ende der Verarbeitungsprozesse verlorengeht, ja verloren gehen muß. Alle bisherigen Verarbeitungsschritte fanden auf Zellebenen statt, auf denen das Bild in Form verschiedener Zellaktivität flächig vorlag. In den nächsten Arbeitsschritten wird diese Form der Bildrepräsentation beendet. Das entspricht ganz dem, was heute aus der Neuroanatomie über die Verarbeitung im Gehirn bekannt ist. Trotzdem ist es schwer nachzuvollziehen, denn in unser Bewußtsein tritt doch erfahrungsgemäß ein Bild. Objekterkennung basiert aber nicht nur auf Daten, die im gegenwärtigen Netzhautbild vorhanden sind, sondern auch auf Informationen aus vergangenen Seherlebnissen. Es geht also darum, was von Seherlebnissen im Gehirn bleibt. Wenngleich es schwehr nachvollziehbar ist, so muß doch festgestellt werden, daß solche visuellen Informationen im Gehirn keineswegs flächig angeordnet sein müssen.

Leider liefert die Neuroanatomie noch keine konkreten Schaltpläne, die zur Erstellung eines Modells tauglich wären. Die vorgeschlagenen Zellverschaltungen haben somit nur Modellcharakter. Inwiefern sie trotzdem etwas mit dem menschlichen Denken zu tun haben, wird sich in der nächsten Auseinandersetzung mit den bildnerischen Fähigkeiten des Menschen zeigen. Aus der Luft gegriffen sind die Modelle nicht. Das Ziel der Verarbeitung, das darin besteht, Erkennen zu gewährleisten, läßt nur eine begrenzte Zahl möglicher Verarbeitungsschritte zu. Es gibt drei Verarbeitungsprinzipien, von denen ich glaube, daß sie auch im Gehirn eine Umsetzung finden:

Drei Prinzipien der weiteren visuellen Verarbeitung:

A. Angabe von Verhältnissen anstelle von Messungen in einer absoluten Maßeinheit

B. Die zeitliche Codierung räumlicher Informationen.

C. Die Ausnützung der Fließzeit, die Signale im Gehirn brauchen.
 
 

A. Die Erfassung von Verhältnissen
 

Bevor hier irgendwelche Modelle entwickelt werden, ist noch einmal klar herauszuarbeiten, was eine Beschreibung von Objekten anhand ihrer Eigenschaften, von einer Aufzeichnung von Bildinformationen unterscheidet, wie sie zum Beispiel in einer Videokamera vorkommt.

Auf einem Bildschirm liegt das Bild in Zeilen vor. Es ist aufgerastert. Jeder Bildpunkt hat seine räumlichen und zeitlichen Koordinaten. Der Raster oder die Bildzeilen stellen eine willkürlich gesetzte Maßeinheit dar. Mittels dieser Maßeinheit ist die Position der Bildpunkte im Verhältnis zu den Bildrändern festgelegt. Jede Form ist durch die Summe ihrer Punkte beschrieben. Eine solche Aufbereitung von Bildinformationen verstehe ich als "bildspezifisch".

Für das Erkennen ist demgegenüber nur eine objektspezifische Bildbeschreibung von Wert. Eine Beschreibung von Objekten durch ihre Eigenschaften ist immer objektspezifisch. Aber wie können Formen objektspezifisch vermessen werden?

Bei dieser Art von "Vermessung" dürfen nur Fixpunkte und Maßeinheiten benützt werden, die in ihrem Ursprung aus dem Objekt hervorgehen. Die Teile des Objektes können somit nur aneinander beschrieben werden. Dies erscheint auf den ersten Blick schwierig. Es wird sich jedoch zeigen, daß sich disbezüglich zwei elementare Lösungswege anbieten, die sicherlich beide in unserem Gestalterkennungsapparat in irgendeiner Form vertreten sind.

Der erste Lösungsansatz basiert auf der Messung der Längenverhältnisse von Konturabschnitten eines Objektes zueinander. Der andere Ansatz baut auf dem Verhältnis der Teile des Achsenskeletts eines Objektes auf. Es geht also immer um Verhältnisse, denn Verhältnisse von Objektteilen zueinander bleiben gleich, egal, wo das Objekt im Blickfeld positioniert ist, oder womit es umgeben ist, und unabhängig davon, wie groß es auf dem Projektionsbild der Netzhaut erscheint. Und genau darin liegt die Grundvoraussetzung für das Erkennen und wiedererkennen. Die Objektdaten müssen in unterschiedlichsten Situationen immer die gleichen bleiben. Das unterscheidet sie von bildspezifischen Daten. Objektspezifische Daten brauchen nur mit vorhandenen Daten verglichen werden. Gleiche Daten bedeuten gleiches Objekt.

Welch elementare Bedeutung das Denken in Verhältnissen in bezug auf das Erkennen hat, wird sich vor allem zeigen, wenn es um die Entzerrung der Perspektive geht. Die Lösung dieses Problems besteht darin, einen Weg zu finden, die drei Dimensionen des Raumes zueinander in Verhältnis zu stellen. Die Daten werden damit unabhängig vom Betrachterstandpunkt beschrieben, was einer Entzerrung der Perspektive gleichkommt. Darauf werde ich später noch genauer eingehen.
 
 

B. Die Umlegung einer Raumdimension auf eine Zeitachse
 

Sollen Bildinformationen transportabel und leicht zu handhaben werden, so besteht der erste Schritt darin, räumliche Verhältnisse zeitlich zu kodieren. Das bedeutet, daß Informationen, die im Bild nebeneinander liegen, nacheinander gereiht werden. Nur so ist das Bild in einer oder in wenigen Leitungen transportierbar. Wenn das Bild seine flächige Form verliert, die enthaltene Information aber erhalten werden soll, so kommt dafür nur eine zeitliche Codierung in Frage. Zeit ist die einzige Dimension auf die beim Transport des Bildes in einer Leitung die Information der verlohrengehenden zweiten Raumdimension gebracht werden kann.

Die einfachste Form einer solchen Umlegung findet in einem Fernseher statt, wo in einer Datenleitung die einzelnen Bildzeilen nacheinander geliefert werden. Sind alle Zeilen der Fläche durchgegangen, so ist die gesamte Bildinformation übertragen. Dazu wird in diesem Fall eine fünfzigstel Sekunde benötigt.

Aber hat es das Gehirn überhaupt notwendig, Bildinformationen in wenigen Leitungen zu transportieren? Ich will dieser Frage kurz mit einem einfachen Reiz/Reaktionsmodell auf den Grund gehen:
Nehmen wir an, eine Maschine verfügt über einen hydraulischen Arm, der sich von links nach rechts bewegen läßt, und sie soll damit kleine Bälle fangen, die auf gleicher Höhe links oder rechts herbeifliegen. Der Arm muß dazu mit dem Bild, welches die Maschine über eine Kamera erhält, in Bezug gesetzt werden. Die einfachste Lösung dafür besteht darin, die Bildpunkte direkt mit der Hydraulik zu verbinden. So könnten die rechten Bildpunkte ihre Aktivität direkt an den Kolben weiterleiten, der den Arm nach rechts zieht, die linken Bildpunkte wiederum aktivieren den Kolben, der den Arm nach links zieht. Mittlere Bildpunkte aktivieren beidseitig, so daß die Kräfte sich die Wage halten.

Nun nehmen wir an, das System wäre in sich nicht ganz starr, sondern die Kamera könne sich auch ein wenig drehen. Damit verschieben sich alle Bildpunkte am Projektionsbild, und der Arm greift daneben. Um dies auszugleichen, müssen alle Punkte neu verkabelt werden. Dreht sich die Kamera auf die alte Position, so sind wieder die alten Kabel zu benützen. Das bedeutet, es wird ein Mechanismus benötigt, der mit allen Kabel in Kontakt steht, und die neuen Kabel jetzt ausschaltet. Also noch mehr Kabel. Das System erweist sich als enorm unflexibel.

Wenn wir nicht auf eine direkte räumliche Übertragung der Signale beharren, läßt sich eine weit intelligentere Lösung finden. So könnten zum Beispiel die Bildpunkte je nach ihrer Lage verschieden hohe Signale senden, umso höher, je weiter links sie sich befinden. Sie alle senden in einer Leitung an den Bewegungsapparat. Spricht nun der Mechanismus, der nach links zieht, auf hohe, und der andere auf tiefe Frequenzen an, so bringt das Gerät die erwünschte Leistung, mit einem Unterschied: eine Verdrehung der Kamera wird nun nicht eine föllig neue Verdrahtung bedingen. Es braucht lediglich die Sensibilität der Bewegungsapparatur etwas nachjustiert werden.

Was die beiden Apparaturen unterscheidet, ist die Nutzung der Zeit als Basis für Informationsübertragung. Ob das Signal im zweiten Gerät von links oder rechts kommt, wird mittels verschieden hoher Frequenzen vermittelt, und Frequenz ist Menge an Signalen pro Zeit. Auch verschieden starke Signale könnten der Unterscheidung dienen, solange sie einzeln übertragen werden. Das würde jedoch nichts daran ändern, daß man sich der Zeit als Codierungsebene bediente, denn Signalstärke bedeutet Menge eines Überträgerstoffes pro Zeit. Im Fall von Elektrizität wäre der übertragene Stoff Elektronen. Ein Datenverarbeitungssystem, das die Dimension der Zeit nicht nützt, ist kaum vorstellbar. Auch das Gehirn arbeitet erwiesenermaßen mit Frequenzen und Rhythmen. Es entspricht also in diesem Punkt der zweiten Apparatur. Dementsprechend hoch ist auch seine Anpassungsfähigkeit an veränrte Bedingungen. Die Neurologie spricht in diesem Fall von der Plastizität des Systems. Meines Erachtens ist dieser Begriff irreführend, weil er nahelegt, daß sich im Gehirn immer irgendetwas verformen, also räumlich ändern müßte, um eine Anpassungsleitung zu erbringen. Zwar sind räumliche Veränderungen erwiesen, ich bezweifle aber, daß sie für jede Art der Anpassung erforderlich sind.

Eine ähnliche Störung, wie die leichte Verdrehung der Kamera in der beschriebenen Apparatur, kann durch eine Prismenbrille herbeigeführt werden. Sie verschiebt das Bild um ein Stück nach einer Seite. Versuche mit solchen Brillen an Menschen haben gezeigt, daß wir, ohne bewußt darüber nachzudenken, die Motorik binnen einer Stunde auf die neue Situation umzustellen vermögen (Held 1986). In einem so kurzen Zeitraum wachsen nicht Millionen neuer Zellverbindungen. Ich gehe deshalb davon aus, daß es sich in diesem Fall lediglich um eine Nachjustierung jener Codierung dreht, mit der die Gehirnteile untereinander kommunizieren. Auch was die Speicherung von Information betrifft, ist die Neuordnung von Zellverbindungen ein meist zu langsamer Prozeß. Neueren Untersuchungen zufolge (Kandel, Hawkins 1993) könnte zuerst eine Zwischenspeicherung in Zellen, die zu Langzeitpotenzierung fähig sind, erfolgen. Sie halten die Signale über einen längeren Zeitraum (vielleicht bis zu einer Woche) aufrecht, bis die Zellverbindungen in der Großhirnrinde gewachsen sind. Wird der Zwischenspeicher davor, wie im Schulalltag üblich, mit neuer Information gefüllt, so ist der Verarbeitungsprozeß gestört und keine der Informationen kann dauerhaft behalten werden. Informationsstreß behindert möglicherweise die geistige Entwicklung.

Der Weg, den die Information im Gehirn durchwandert, scheint von der Großhirnrinde in das limbische System und wieder zurück zu führen (Kandel, Hawkins 1993, S. 41). Die Informationsübertragung erfolgt mitunter über relativ dünne Kanäle. Auch das legt eine zeitliche Codierung der Information nahe. Das wahrgenommene Bild liegt nur auf den Netzhäuten, in den seitlichen Kniehöckern und in den Schichten der Sehrinde flächig vor. Es ist anzunehmen, daß danach die Umwandlung erfolgt ist.

Ich habe zur Illustration einer einfachen zeitlichen Aufgliederung von Bildinformationen anfangs das Beispiel einer Fernsehübertragung angeführt. Natürlich ist eine solche Übertragungsform für ein wahrnehmendes System nicht zweckmäßig. In Hinblick auf das Erkennen werden nicht Bildinformationen, sondern Objektinformationen benötigt. Ist das Bild erst einmal in Zeilen zerlegt, so ist die Chance auf objektspezifische Daten dahin. Wenn auch im Gehirn eine Zerlegung des Bildes notwendig ist, um eine Raumdimension auf eine Zeitachse zu bringen, so muß es sich dort demnach von vornherein um eine objektspezifische Zerlegung drehen.

Die Basis dafür wurde bereits im ersten Buchteil geschaffen. Was durch die Leitung geschickt werden könnte, sind die Objektkonturen selbst. Es sind dies lineare Gebilde, genauso wie Bildzeilen. Dabei ergibt sich allerdings die Frage, wie die Information über Krümmungen und Winkel von Konturen sowie über deren Lage im Raum bei einer solchen Übertragung mitgeliefert werden kann. Weiters müssen der Kontur auch Objekteigenschaften wie Farbe, Größe oder Struktur zugeordnet werden.

Die Modelle, die ich in diesem Teil der Arbeit vorstellen will, bieten einfache, nachvollziehbare Lösungen für diese und andere Problemstellungen. Schaltbilder, in denen die Verbindung einzelner Zellen zueinander dargestellt ist, werden allerdings jetzt kaum mehr weiterhelfen. Von größerer Bedeutung sind Darstellungen von hypothetischen Signalfließbewegungen.
 
 

C. Die Signalflußmodelle
 

Fast alle kommenden Problemstellungen werden sich auf der Basis einer einzigen Grundidee bewältigen lassen: dem Signalflußmodell.

Ich gehe davon aus, daß die Signale im Gehirn großräumig fließen. Solche Fließbewegungen betreffen nicht nur die Übertragung von Reaktionsbilder von einer Verarbeitungsebene auf die nächste, sondern sie könnten auch innerhalb von Ebenen stattfinden. Die Zellverbindungen auf einer solchen Ebene werden dabei als derartig zahlreich angenommen, daß sich ein Signal in jeder beliebigen Richtung ausbreiten kann. Diese Annahme steht meines Wissens nach nicht im Widerspruch zu Erkenntnissen der Neurologie. Es spricht also nichts dagegen auf dieser Basis Erklärungsmodelle aufzubauen.

Die Signalflußmodelle ermöglichen eine Umlegung von Rauminformationen auf Zeit. Distanzen können durch die Zeit beschrieben werden, die ein Signal braucht, um sie zu durchwandern. Ob im Gehirn diese Umlegung auf diese Weise bewältigt wird, ist noch zu überprüfen. Sicher ist, daß dieses Problem bewältigt werden muß und daß die Signalflußmodelle eine einfache Lösung darstellen. Wenngleich diese Modelle noch großteils hypothetischer Natur sind, beweisen doch immerhin die Möglichkeit der Objekterkennung ohne die Annahme eines göttlichen Zeigefingers. Damit ist schon viel getan.
 
 

1. Eigenschaftenkapitel: Die Trennung der Flächen
 

Die meisten der bisher erarbeiteten Daten sind bildspezifisch. Das bisher beschriebene Modell vermag zwar bereits Texturinformationen und den Farbgehalt von Objekten unter verschiedenen Beleuchtungssituationen und Betrachtungswinkeln einigermaßen konstant zu messen, allerdings ist ihre Erfassung noch nicht auf eine Objektfläche begrenzbar. Solange das System nicht weiß, welche Bildpunkte zu einem Objekt gehören, kann es auch nicht wissen, welche Farbe, Textur oder Struktur das jeweilige Objekt hat. So besteht der nächste notwendige Verarbeitungsschritt in der Markierung aller Zellen, die zu einer Objektfläche gehören.

Die Objektkonturen beschreiben die Grenzen zwischen den von den Objekten eingenommenen Bildflächen. Objekte zu trennen bedeutet vorerst einmal diese Flächen zu trennen. Zur Flächenerfassung muß die Menge an Zellen innerhalb einer Kontur markiert werden. Dazu ist es notwendig, all diese Zellen erst einmal jener Kontur zuzuordnen, die sie umschließt. Vorstellbar ist das, indem die Fläche in irgendeiner Weise durchlaufen wird. Im Fall elektronischer Datenverarbeitung wäre es naheliegend, die Fläche Zeile für Zeile zu füllen. Im Gehirn gibt es aber kein zeilenförmig aufgerastertes Bild. Außerdem würde dieser Vorgang angesichts einer Signalgeschwindigkeit von ca. 10 m/s (Hubel 1992, S.28) zu viel Zeit brauchen.

Eher denkbar ist ein Einfließen des Signals von den Konturrändern zum Objektzentrum. Die Struktur des Gehirns ermöglicht eine derartig große Zahl an Zellverbindungen, daß eine fließende Signalausbreitung in allen Richtungen einer Fläche durchaus möglich erscheint. Auch die Aufzeichnung von Gehirnströmen durch Elektroenzephalographie lassen die Vorstellung von solchen Fließbewegungen zu. Damit ist der Ausgangspunkt für ein Modell zur Trennung und Erfassung von Flächen gefunden.
 
 

Die Zellen jener Ebene, auf der eine Signalausbreitung in allen Richtungen möglich ist, müssen sternförmig mit ihren Nachbarzellen verbunden sein. Der Input erfolgt von außen durch Übertragung der Kontursignale. Jede Zelle der Ebene gibt nun das Signal an eine noch nicht aktivierte Nachbarzelle weiter. So fließen die Signale von den Konturen in die Objektzentren. Allerdings fließen sie auch nach außen, was bedeutet, daß auch der Hintergrund markiert wird. Um dies zu verhindern, müßten Figur und Grund getrennt werden. Dabei handelt es sich allerdings um ein schwierigeres Problem, auf das ich später noch näher eingehen werde. Vorerst will ich einfach davon ausgehen, daß dieses Problem gelöst ist, und der Signalfluß nur in die Objektflächen einfließt.

Alle Signale innerhalb einer Objektkontur haben etwas gemeinsam: Sie laufen aufeinander zu (siehe dazu Abbildung 29). Wenn davon ausgegangen wird, daß jede Zelle pro Durchgang nur einmal durchlaufen werden kann, so kommt der Prozeß innerhalb von Flächen bzw. von Objekten irgendwann zum Stillstand, weil keine Weitergabemöglichkeit der Signale mehr besteht. Alle Punkte innerhalb einer Objektkontur, an denen dieser Stillstand eintritt, liegen aneinander (Abbildung 29). Damit ist genau definiert, welche Zellen ein- und derselben Fläche angehören. Die Summe der aneinanderliegenden Zellen werde ich in Zukunft als Strukturgerüst bezeichnen. Sie werden noch eine wesentliche Rolle für den Erkennungsprozeß spielen. Vorerst aber geht es nur um die Trennung der Flächen.

Um die Zahl und das Zentrum der vorhandenen Objektflächen zu erfassen, will ich annehmen, daß die Signale entlang des Strukturgerüstes schließlich ebenfalls zu einem Punkt zusammenfließen. Dieser Prozeß startet an den Enden des Gerüstes und kommt im Zentrum zum Stillstand. Welche definierbaren Eigenschaften die Zellen im einzelnen haben müssen, damit ein solcher Signalfluß zustandekommt, soll erst im Kapitel zur Strukturgerüsterfassung behandelt werden. Wir wollen vorerst nicht daran zweifeln, daß dieser Zusammenfluß möglich ist und Teilprobleme bewältigt werden können. Der Punkt, an dem der ganze Prozeß endet, kennzeichnet das Zentrum einer Objektfläche. Mit der Menge an entstandenen Zentren innerhalb der Bildfläche ist die Zahl der vorhandenen Flächen erfaßt. Die Objektflächen sind damit getrennt. Soll über ein Objekt etwas in Erfahrung gebracht werden, so steht mit dem Zentrum ein Punkt zur Verfügung an dem eine dementsprechende Verarbeitung beginnen kann.

Die stern- bzw. kreisförmige Ausbreitung eines Signals nach allen Richtungen läßt sich am Computer relativ leicht simulieren. In der folgenden Abbildung wurde der Signalfluß an einer Linie gestartet. Durch abwechselnde wiederholte Verwendung von zwei geeigneten Filtern konnte sogar eine runde Signalausbreitung erreicht werden.


 

Der Prozeß des Signalflusses von den Rändern zur Mitte wurde vorerst nur sehr oberflächlich beschrieben. Es wird in den nächsten beiden Kapiteln genug Gelegenheit geben, Detailfragen dazu zu beantworten. Das Modell soll sich an neuen Problemstellungen nach und nach konkretisieren. Ausgangspunkt bildet die Idee, daß mit dem beschriebenen Zusammenfluß auch ein Transport von Daten zu einem Punkt hin möglich ist. Auf diese Weise können Farbe, Entfernung, Helligkeit und Bewegung dem Objekt zugeordnet werden, noch bevor formale Details erkannt sind. Über das Objektzentrum kann auch eine erste Positionsbestimmung erfolgen. Man könnte sagen, es geht hier um das erste Erfassen eines Objekts, das, so glaube ich, dem eigentlichen Erkennen immer kurz vorauseilt.

2. Eigenschaftenkapitel: Die Zuweisung erster Eigenschaften; grobes Erfassen
 

Wenn ein Mensch in Gedanken vor sich hin starrt, so sagt man im Volksmund, er schaue ins "Narrenkastl". Nehmen wir an, es seilt sich in diesem Moment eine Spinne von seinen Haaren ab, und tritt in sein Gesichtsfeld. Der Mensch wird natürlich sofort reagieren.

In fernöstlichen Kampfsportarten werden solche schnellen vorbewußten Reaktionen wegen ihrer hohen Geschwindigkeit angewandt und trainiert. Es geht darum, noch vor dem detaillierten Erkennen zu reagieren. Konkretes Betrachten wird also vermieden. Im obigen Fall wird die Spinne weggeschleudert, noch bevor sie wirklich erkannt ist. Es kann sich nachher auch herausstellen, daß sich nur ein trockenes Blatt im Haar verfangen hatte. Die Mechanismen, die in letzterem Fall eine unsinnige Reaktion herbeiführen, können im Kampf lebensrettend sein.

Aber ist eine Reaktion vor dem Erkennen vorstellbar? Eigentlich nicht. Das Beispiel mit der vermeintlichen Spinne zeigt, daß zwar nicht die genaue Form des Objektes, erfaßt wurde, aber es wurde registriert, daß da etwas ist, wo nichts sein sollte. Außerdem ist anzunehmen, daß einfache Objekteigenschaften durchaus sehr schnell erkannt werden können. Solche sind die Farbe, Textur, Entfernung, Größe und Bewegung. Diese Eigenschaften haben gemeinsam, daß sie mit vergleichsweise wenigen Parametern aufgezeichnet werden können. Das ermöglicht eine gleichzeitige (parallele) Verarbeitung über die ganze Bildfläche hinweg.
 
 

2.1. Eigenfarbe und Struktur
 

Die grundlegenden Mechanismen zur Messung der genannten Eigenschaften wurden bereits im ersten Teil der Arbeit behandelt. Jetzt muß nur noch eine Zuordnung der Daten zu den einzelnen Objektflächen erfolgen. Die Basis dafür bietet das vorhin behandelte Signalflußmodell zu deren Trennung. 14*

Der wesentliche Schritt besteht nun in folgender Überlegung: Wenn Signale von den Konturen in das Objektzentrum fließen können, so ist es auch möglich auf diesem Weg Daten zu transportieren. Es muß nur davon ausgegangen werden, daß auch unterschiedlich starke Signale weitergegeben werden können. Im Grad der Signalstärke liegt dann die Information. 15* Auf vielen gleichartigen Signalflußebenen können zum Beispiel unterschiedliche Farbauszüge verarbeitet werden. Aber auch die Texturinformationen lassen sich auf mehrere Ebenen verteilen, wobei durch das Verhältnis der unterschiedlichen Aktivität welche die Ebenen innerhalb der Objektfläche aufweisen, verschiedene Texturen unterschieden werden können (vergl. Konturkapitel 9). Die Aktivität innerhalb einer Fläche auf einer Ebene kann also eine Grundfarbe verkörpern, oder die Menge an Texturkonturen einer bestimmten Richtung, die Größe von Texturrapporten und andere Daten, die im ersten Teil der Arbeit besprochen wurden und über die ganze Objektfläche hinweg verteilt sind. Diese Informationen kommen durch den Signalfluß in die Objektzentren auf einem Punkt zusammen. Jeder solche Punkt steht für eine Objektfläche.

Was die Eigenfarbe der Objekte betrifft, so ist diese genaugenommen (im Unterschied zu anderen Daten) nicht durch den Mittelwert aller zusammengeflossenen Signale repräsentiert. Nur die höchste Farbsättigung innerhalb der Fläche entspricht der Eigenfarbe, niedrigere Werte kennzeichnen Glanz und Schattenseiten. Es muß also in diesem Fall beim Zusammenfließen der Signale auf der Farbsättigungsebene immer der höhere Wert weitergegeben werden. Das bedeutet: Jede Zelle repräsentiert einen Bildpunkt und beschreibt durch ihr Aktivitätsniveau dessen Farbsättigung. Von den Signalen, die die Zelle beim Zusammenfluß von ihren Nachbarn erhält, gibt eine Zelle der Farbsättigungsebene also nur den höchsten Signalwert an noch nicht aktive Nachbarzellen weiter. So kommt jene Signalstärke zum Objektzentrum, die die höchste Sättigung innerhalb der Objektfläche repräsentiert. Damit ist die Eigenfarbe der Objekte erfaßt (sofern die Objekte gleichmäßig gefärbt sind).

Nach Zusammenfließen der Signale sollten die Farb- und Texturinformationen auf wenige Punkte im Bild konzentriert sein. Jeder Punkt kennzeichnet das Zentrum einer Objektfläche. Struktur und Farbeigenschaften sind damit den jeweiligen Objektflächen zugeordnet. Das System erkennt nun diese Objektzentren daran, daß dort kein weiterer Signalfluß mehr möglich ist und sozusagen ein Stillstand eintritt. Dies ist der Auslöser für die Weitergabe der Signale an eine höhere Verarbeitungseinheit.
 
 

2.2. Die Objektgröße
 

An dem zeitlichen Abstand vom Beginn des Signalflusses bis zu dem angesprochenen Stillstand kann ermessen werden, wie groß das verarbeitete Objekt ist. Bei größeren Objekten ist der Signalweg in das Objektzentrum weiter, und so wird es später zu dem beschriebenen Signalstillstand kommen. Hier begegnet uns erstmals die grundlegende Idee aller Signalflußmodelle, die darin besteht, die Wegzeit der Signale zu nützen. Da Objekte am Projektionsbild je nach ihrer Entfernung unterschiedlich groß erscheinen, muß die erfaßte Wegzeit des Signals natürlich noch durch die Entfernung dividiert werden, in der sich das wahrgenommene Objekt befindet. Dann erst kann von einer Erfassung der Objektgröße gesprochen werden.

Genaugenommen ist natürlich die Fläche, die ein Objekt einnimmt, nicht immer repräsentativ für dessen Größe. So wäre es zum Beispiel für jagende Tiere günstiger, wenn sie das Volumen ihrer Beute einzuschätzen vermochten, und nicht bloß deren Fläche. Das ist aber nicht der Fall. Viele Beutetiere verfügen deshalb über Mechanismen, um im Notfall ihre eigene Erscheinungsgröße zu erhöhen. Das kann durch Aufrichten, durch Ausklappen flügelartiger Gebilde oder durch Aufblasen geschehen. In allen Fällen wird die Wahrnehmung des Gegenübers dadurch getäuscht, daß sich die eingenommene Projektionsfläche plötzlich vergrößert.
 
 

2.3. Die Bewegung im Verhältnis zum Betrachter
 

Die Objektzentren ermöglichen auch eine flächendeckende Erfassung der Bewegung von Objekten. Dazu werden einfach die Veränderungen in der Position der Objektzentren erfaßt. Da die Objektzentren punktförmig sind, kommt es in diesem Fall auch nicht zu den Schwierigkeiten, welche sich bei den Objektkonturen ergaben. In Konturkapitel 5 trat das Problem auf, daß die Verschiebung, welche eine Kontur erhält wenn sich ein Objekt bewegt, nicht gleich der Bewegungsrichtung des Objektes ist. Objektzentren oder Konturecken hingegen bewegen sich immer mit dem Objekt.
 
 

2.4. Die Position innerhalb des Gesichtsfeldes
 

Die Objektzentren sind auch geeignet für eine erste Positionsfestlegung der Objekte auf der Bildfläche. Dazu kann man sich über den Zellschichten, in denen der Signalfluß zur Objektmitte erfolgt, eine weitere Schicht vorstellen, deren Zellen die Objektzentren mit Koordinatenmeldungen versehen. 16* So kann mit Hilfe des Zentrums der ungefähre Platz eines Objektes im Gesichtsfeld bestimmt werden.
 
 

3. Eigenschaftenkapitel: Die flächendeckende Erfassung von Entfernung und Bewegung
 

Ein wesentlich schwierigeres Problem besteht darin, die Entfernung der Objekte flächendeckend festzulegen. Dies ist bisher nur für den Nahbereich durch die Stereooptik gelungen. Größere räumliche Distanzen könnten am besten durch die Eigenbewegung des Betrachters und die dabei entstehenden Verschiebungen im Projektionsbild eingeschätzt werden. Dabei ergeben sich jedoch einige Probleme: Die Konturen, welche Objektflächen begrenzen, gehören nämlich nicht in jedem Fall zum Objekt. So hat zum Beispiel die Kontur eines Loches die Entfernung der Wand in der es sich befindet, umgrenzt aber einen Bereich, der weiter entfernt ist. Deshalb genügt es auch nicht, die Objektzentren zur Entfernungs und Bewegungserkennung heranzuziehen. (Der Lochinhalt bewegt sich nicht, wenn sich seine Kontur bewegt.) Vielmehr muß die Entfernung entlang der gesamten Objektkontur erfaßt werden. Letzteres hat außerdem den Vorteil, daß Figur und Grund auf diese Weise getrennt werden können, denn die Figur befindet sich immer vor dem Grund.

Die Entfernungserfassung von Konturen über die Konturverschiebung durch Eigenbewegung ist allerdings dadurch erschwert, daß innerhalb gerader Konturen keine klare Bestimmung der Bewegungsrichtung möglich ist, weil sich eine gerade Linie stark, bis gar nicht verschiebt, je nachdem ob eine Bewegung quer oder längs zur Richtung der Linie verläuft.

Überdies sind Bewegungen, also Verschiebungen in aufeinanderfolgenden Bildern, schwerer zu orten als die Verschiebung, welche sich bei der Stereooptik ergab. Bei der Stereooptik kommt es nämlich nur zu Querverschiebungen. Das Verschiebungsausmaß kann daher einfach durch seitliche Vergleiche festgestellt werden. Bewegungen können hingegen in alle Richtungen stattfinden. So potenzieren sich die Vergleichspunkte und es potenziert sich auch die Wahrscheinlichkeit, mit der eine zufällige Deckungsgleichheit von Bildbereichen zustandekommt, die nicht auf Verschiebung zurückzuführen ist.

Deshalb nehme ich an, daß Objektbewegungen nicht durch einfache seitliche Vergleiche erfaßt werden. Für diese Hypothese spricht auch die Tatsache, daß wir Einzelbilder im Gehirn zu einer fließenden Bewegung verbinden, in denen das bewegte Objekt größere Sprünge macht, als mit seitlichen Vergleichen ähnlich der Stereooptik zu erfassen wären. Wie könnte ein derartig leistungsfähiges System funktionieren?

Meines Erachtens können Bewegungen am besten erfaßt werden, wenn nicht von einem Bild ausgegangen wird, sondern die Verschiebung einzelner markanter Bildreize erfaßt wird. In Frage kommen vor allem Winkel, Kreuzungen und Konturenden, denn sie sind einfach zu erfassen. Damit ist der Ansatzpunkt für eine parallele Bewegungserfassung für die gesamte Bildfläche gefunden. Es ergibt sich folgende Vorgangsweise für die folgenden Kapitel:

1. Als erstes wird ein Bild ausgefiltert, das nur Konturwinkel, Kreuzungen und Enden enthält.
2. Dann wird festgestellt, wie weit und in welche Richtung sich die Winkel im Vergleich zu einem zeitlich früheren Bild verschoben haben.
3. Die Verschiebungswerte werden in Tiefenwerte umgewandelt
 
3.1. Winkel Kreuzungen und Enden
 

In Konturkapitel 7 wurde die hypothetische Verschaltung der orientierungsspezifischen Zellen vorgestellt, die man in der primären Sehrinde entdeckt hat (Vergl. Hubel 1989, S. 83). Man nimmt an, daß sie auf ein rezeptives Feld von aneinandergereihten Rezeptoren zurückgreifen. Zur Erfassung von Winkeln, Kreuzungen und Enden könnten mehrere orientierungsspezifische Zellen wie Speichen eines Rades gruppiert werden, so daß sich als rezeptives Feld ein Stern ergäbe. Die zuständige Zelle ist immer dann aktiv, wenn in dem Stern Reize vorliegen, außer es werden zwei gegenüberliegende Balken des Sterns aktiviert. Die Zelle spricht somit auf längere geradlinige Konturen nicht an. Sie reagiert also selektiv auf Krümmungen.

Zellen, die eine solche Reaktion aufweisen, konnten auf der Sehrinde nachgewiesen werden (Hubel 1989, S. 92, 93). Es ist allerdings durchaus zu bezweifeln, daß die hier gezeigte Verschaltung stimmt. Zellverbindungen können heute noch nicht über mehrere Zellen hinweg verfolgt werden, und so ist die Verschaltung noch rein hypothetischer Natur. Meiner Analyse zufolge erfordert sie eine unnötig hohe Zahl an Zellverbindungen um Konturwinkel zu erkennen. Zwar mag das Gehirn über die nötige Kapazität verfügen, aber wieso sollte dort etwas kompliziert gelöst werden, wenn es auch einfacher geht?

Auf Farbtafel 12 wurde eine Methode zur Kennzeichnung der Konturrichtung vorgestellt, die mit sehr wenigen Zellverbindungen auskommt. Sind die Konturrichtungen erst einmal markiert, so können diese Informationen herangezogen werden, um Konturkrümmungen und Kreuzungen zu orten. Dazu brauchen nur kleine rezeptive Felder gebildet werden, die dann jene "Winkelzellen" beliefern, die immer dann reagieren, wenn innerhalb ihres Feldes mehrere verschiedene Konturrichtungen vorkommen. Durch einen besonderen Trick kann dieses Verfahren auch verwendet werden, um Konturenden zu markieren. Dazu wird die vorhandene Kontur noch einmal konturiert, so daß eine Doppelkontur entsteht. An Konturenden läuft die neue Kontur um das ursprüngliche Konturende herum. So ergibt sich auch dort eine starke Konturkrümmung, die markiert werden kann.
 
Abbildung 25
Die Markierung von Winkeln, Ecken und Enden

Durch rezeptive Felder, die dann ansprechen, wenn in ihnen mehrere Konturrichtungen vorkommen, können Krümmungen und Winkel markiert werden. Wird die Kontur vorher noch einmal konturiert (Doppelkontur), so lassen sich auch Konturenden markieren.

3.2. Die Erfassung der Entfernung und Bewegungsrichtung der Reize in zeitlich aufeinanderfolgenden Bildern
 

Diese Aufgabe kann verschiedenartig gelöst werden. Ich werde hier nur jenen Lösungsweg vorstellen, der am besten mit dem restlichen Modell harmoniert und meiner Ansicht nach am ehesten in einem neuronalen Netzwerk wie dem Gehirn eine Umsetzung finden könnte.

Werden zeitlich aufeinanderfolgenden Bilder überblendet, so werden sich dort, wo eine Bewegung stattgefunden hat die Konturwinkel verschoben haben, so daß sich knapp neben einer aktiven Winkelzelle aus Bild 1 eine aktive Winkelzelle aus Bild 2 befindet. Die Grundidee zur Messung der Bewegungsrichtung besteht darin, daß ausgehend von den aktiven Winkelzellen Signale gestartet werden, die sich so lange nach allen Richtungen ausbreiten, bis sie auf die nächstgelegene aktive Winkelzelle treffen. Der Zeitpunkt des Aufeinandertreffens gibt die Entfernung der Zellen zueinander an. Wird diese Entfernung in bezug zum zeitlichen Abstand zwischen Bild 1 und 2 gemessen, so erhält man die Bewegungsgeschwindigkeit der Winkel.
 
 

Die Messung der Bewegungsrichtung erfordert demgegenüber eine etwas aufwendigere Version des dargestellten Prozesses. Das Reaktionsbild wird dazu auf drei oder mehr Ebenen kopiert, auf welchen der Signalfluß ausgehend von den Winkeln stattfindet. Jeder Ebene ist eine andere Richtung zugeordnet, in die sich die Signale bevorzugt ausbreiten. Das bedeutet, sie fließen in diese Richtung am schnellsten, in andere Richtungen weniger schnell, und in die gegenüberliegende Richtung gar nicht.

Die Abbildung veranschaulicht einen solchen Signalfluß. Jene Zellen, die gerade signalisieren, daß sie vom Fließsignal erfaßt wurden, sind schwarz gefüllt dargestellt. Wenn für mindestens drei verschiedene Fließrichtung je eine Ebene zur Verfügung steht, so wird ein Punkt auf den Ebenen zu verschiedenen Zeitpunkten ein Fließsignal von einem bestimmten benachbarten Punkt empfangen. Ein Punkt einer Ebene wird von einer Menge an umliegenden Punkten gleichen Abstandes, am frühesten ein Signal von jenem Punkt erhalten, der in einer Richtung liegt, die der bevorzugten Fließrichtung der Ebene entspricht. Die Fließrichtung der Ebene hat also Einfluß auf den Zeitpunkt des Eintreffens eines Fließsignales. In dem zeitlichen Verhältnis, in dem ein bestimmter Punkt auf den Ebenen vom Fließsignal eines benachbarten Punktes erfaßt wird, ist die Richtung beschrieben, in der jener Punkt liegt. Die durchschnittliche Zeit, in der ein Signal erhalten wurde, beschreibt weiterhin die Entfernung der Punkte zueinander (Bewegungsgeschwindigkeit).

Natürlich ist das Modell noch verbesserungsbedürftig. Die Qualität der Ergebnisse hängt stark von der Beschaffenheit des Ausgangsbildes ab. Es wäre günstig, wenn die reagierenden Winkelzellen im Ausgangsbild einen gewissen Mindestabstand voneinander hätten, der den Bewegungsabstand überschreitet, da sonst unterschiedliche Winkel aus Bild 1 und 2 verbunden werden könnten. Außerdem sollten sie möglichst gleichmäßig über das Bild verstreut aufträten. Dies könnte dadurch erreicht werden, daß in einem ersten Schritt möglichst viele Winkel erfaßt werden und dann die Zahl der Winkel reduziert wird. Zu dieser Reduktion will ich, wie oben, von einem Reaktionsbild ausgehen, auf dem die Winkel als weiße Punkte erscheinen. Wird das Bild mit seinem unscharfen Negativ überblendet, so kommt es in Gebieten hoher Winkeldichte zu einer Abdunkelung. Nun braucht das Bild nur noch einen Grenzwertfilter zu durchlaufen, so daß nur die hellsten Punkte erhalten bleiben (nicht illustriert).
 
 

3.3. Der Beitrag des Bewegungssehens zur Tiefenwahrnehmung
 

Die Eigenbewegung des Betrachters ermöglicht es, das System der Bewegungserfassung zu nützen, um Objektentfernungen zu bestimmen. Wenn wir uns nach vorne oder zur Seite hin bewegen, so bleibt dabei die Projektion weit entfernter Dinge auf der Netzhaut annähernd gleich. Umso näher ein Objekt aber ist, desto stärker wird sich sein Projektionsbild durch unsere Eigenbewegung gegenüber dem Hintergrund verschieben. Beim Blick aus einem fahrenden Zug ist dieser Effekt besonders gut zu bemerken. Jedes Objekt kann dabei alleine durch seine Bewegung konturiert werden, und mehr noch, durch die relative Geschwindigkeit der Bewegung des Objektes im Verhältnis zu der Bewegung entfernterer oder näherer Objekte können die Entfernungsverhältnisse ermittelt werden. Für die Objektverschiebung durch die Eigenbewegung des Betrachters gilt:

Die Geschwindigkeit, mit der sich die Objekte in einem bestimmten Bildbereich im Verhältnis zueinander bewegen, ist immer gleich der Entfernung (in der Raumtiefe), die sie zueinander besitzen, unabhängig davon, in welche Richtung wir uns bewegen oder welches Objekt wir gerade fixieren.

Wenn ich hier von einem "bestimmten Bildbereich" spreche, so deshalb, weil bei Vorwärtsbewegung des Betrachters im Bildzentrum andere Verhältnisse vorliegen als in der Peripherie. Bei Seitwärtsbewegungen hingegen ist das Verhältnis der Bewegungen zur relativen Tiefenentfernung über das gesamte Bild hinweg gleich. Seitwärtsbewegungen führen im übrigen zu viel stärkeren Verschiebungen und sind daher für die Raumwahrnehmung nicht nur leichter auswertbar, sondern auch informativer. Das visuelle System kann das oben genannte Gesetz nützen, um mit geringem Aufwand räumliche Distanzen richtig zu interpretieren und Objekte sicher zu konturieren.
 
 

4. Eigenschaftenkapitel: Die Trennung von Figur und Grund
 

Die Trennung von Flächen in Figur und Grund ist ein Phänomen, an dem Gestaltpsychologen gerne zeigen, daß das Gehirn Bilder interpretiert. Wir trennen aufgezeichnete Farbflächen unbewußt fast immer in darüber- und darunterliegende, obwohl am Papier natürlich nur ein Nebeneinander von Flächen existiert. Der Grund dafür liegt darin, daß Bilder unter all den Dingen, die wahrgenommen werden können, eine Ausnahme darstellen. Normalerweise sind die Begrenzungen von Flächen am Netzhautbild als Objektgrenzen zu interpretieren. Da im realen Leben eine solche Grenze so gut wie nie für zwei Objekte gleichzeitig gilt, muß entschieden werden, ob das Objekt, zu dem die Kontur gehört, links oder rechts von ihr liegt. Es muß entschieden werden, wo Figur und wo Grund ist.

Die Gestaltpsychologie scheint eher daran interessiert sein, die Dinge rätselhaft darzustellen als sie zu erklären. Die Unterscheidung von Figur und Grund ist unter realen Umständen eine ganz banale Sache, die darauf beruht, daß die Figur immer weniger weit entfernt ist als der Grund. Für einen Phänomenologen ist das Gesetz natürlich zu einfach, als daß es überhaupt erwähnenswert wäre. Es ist aber dieses Gesetz, an dem die meisten Lebewesen Figur und Grund unterscheiden, denn diese Methode führt zu den schnellsten und besten Ergebnissen. Nur höhere Tiere und der Mensch dürften auch noch andere Prinzipien nutzen. Dementsprechend zeigen nur sie Reaktionen auf fotografische Abbildungen. Niedrigere Tiere können auf Fotografien aufgrund der fehlenden Entfernungsdaten wahrscheinlich keine Figuren ausmachen.

Aufgrund der fehlenden Tiefeninformationen wird es meiner Ansicht nach auch nie möglich sein, Computerprogramme zur Erkennung von Fotografien zu entwerfen, die eine ordentliche Objekterkennung leisten. Starre Abbilder sind mehrdeutig und bedürfen einer beträchtlichen Vorerfahrung, um interpretiert zu werden. Diese Vorerfahrung sammelt man als Mensch dadurch, daß man in einem dreidimensionalen Raum aufwächst, wo eine eindeutige Figur/Grund Trennung möglich ist.

In bezug auf das bisherige Modell ist die Trennung von Figur und Grund vor allem dafür notwendig, den Signalfluß von der Kontur (Teil 2, Kapitel 1) nur in das Objekt und nicht nach außen fließen zu lassen. Wenn wir über flächendeckende Tiefenwerte verfügen, ist dies eine einfache Sache. Stellen wir uns vor, Tiefe würde auf einer Zellebene durch verschieden starke Zellsignale repräsentiert, so braucht lediglich die Regel angewandt zu werden, daß das Fließsignal keine starken Entfernungsbrüche, also keine starken Kontraste auf dieser Tiefenebene überwinden darf. Da Objektumrisse immer Entfernungsbrüche darstellen, kann das Signal damit nicht über Objektgrenzen hinausfließen.
 
 

4.1. Die Ergänzung fehlender Tiefenwerte
 

Bedauernswerterweise ist eine flächendeckende Tiefenauswertung im bisherigen Modell nur im Nahbereich gelungen. Die zuvor dargestellte Auswertung der Objektverschiebung bei Eigenbewegung des Betrachters liefert demgegenüber nur dort Daten, wo Konturwinkel, Ecken oder Enden zu sehen sind. Die Lücken dazwischen müssen erst gefüllt werden. Es stellt sich also die Frage, welche möglichen Tiefenwerte an Stellen ohne Daten überhaupt vorliegen können. Da der Schattierungsschatten dafür sorgt, daß eine Änderung einer Flächenausrichtung auch zu einer Helligkeitsänderung führt und diese wiederum Tiefenmessung ermöglicht, können fehlende Tiefenwerte nur dort vorliegen, wo sich in der Flächenausrichtung nichts geändert hat, wo also eine Fläche eben weiterverläuft.

Projektionen von ebenen Flächen zeichnen sich durch linear verlaufende Veränderungen in den Tiefenwerten aus. Das bedeutet, daß jener Punkt, der sich in der Mitte zwischen zwei Punkten, deren Tiefe bekannt ist, befindet, nur deren Tiefenmittelwert haben kann. Diese Erkenntnis genügt, um die fehlenden Werte zu erstellen.

Beginnen will ich zuerst einmal mit den fehlenden Tiefenwerten an geradlinigen Konturstücken. Dazu will ich annehmen, daß die Signale ausgehend von Winkeln und Konturenden (wo Tiefeninformationen vorhanden sind) die Kontur entlang fließen. In der Mitte zwischen jeweils zwei Winkeln werden die Fließsignale aufeinanderstoßen. Nehmen wir an, jedes Fließsignal habe eine gewisse Stärke, die den Tiefenwert repräsentiert, der an dem Winkel, von dem das Signal gestartet ist, vorgeherrscht hat. Die Tiefe an der Stelle, wo die Signale aufeinandertreffen, wird dann durch den Durchschnitt der beiden Signale repräsentiert. So ist der fehlende Tiefenwert an diesem Punkt erbracht. Der Signalflußprozeß kann nun wieder von vorne gestartet werden, wobei sich mit jedem Duchgang die Startpunkte verdoppeln, und so bald alle Konturzellen einen Tiefenwert erhalten.
 
 



Nachdem die Konturen nun durchgehend Tiefenwerte aufweisen, kann in einem nächsten Schritt die gesamte Bildfläche bearbeitet werden. Das Prinzip bleibt das gleiche: 1. Aussenden der Signale, 2. Mittelwertbildung wo immer Signale frontal aufeinandertreffen, 3. neuer Durchgang... Abbildung 27 veranschaulicht den Prozeß.
 
 

4.2. Die Trennung von Figur und Grund auf Basis der Tiefenwerte
 

Zur Trennung von Figur und Grund muß das Verfahren allerdings noch geringfügig modifiziert werden. Ich will dazu annehmen, daß Mittelwerte nur dann gebildet werden, wenn die aufeinandertreffenden Tiefenwerte einigermaßen ähnlich sind. Wenn wir davon ausgehen, daß die Bildung des Mittelwertes scheitert, wenn die Signale einen zu starken Unterschied aufweisen, und die Regel einführen, daß in diesem Fall entferntere Signale nähere Signale bis zu jener Stelle überrennen, an der bereits Tiefenwerte vorliegen, so erhalten wir eine Reaktion, wie sie in Abbildung 27 an der Kontur dargestellt ist. Fließsignale, die von der Kontur starten, bleiben nur auf jener Seite der Kontur erhalten, die sich im Vordergrund befindet. Auf der anderen Seite wurden die Fließsignale durch entfernetere überrannt.

Damit ist ein Modell erbracht, das zu durchgehenden Tiefeninformationen führt. Natürlich können auch noch andere Tiefeninformationen genützt werden, wie zum Beispiel der abnehmende Kontrast und die zunehmende Helligkeit von entfernteren Objekten durch die Atmosphäre. So werden in Abbildung 28 in Fig.a bestimmte Flächen alleine wegen der enthaltenen Grautöne als vorder- oder hintergründig erlebt.

Tiefenwerte sind nicht nur zur Trennung von Figur und Grund wichtig. Sie werden auch als Basis benötigt, wenn es später darum geht, perspektivische Verzerrungen richtig zu interpretieren.

4.3. Weitere Informationen an denen Figur und Grund getrennt werden können

Ein weiterer einfach zu erhaltender Hinweis darauf, auf welcher Seite der Kontur die Figur eher anzunehmen ist, liegt in der Konturkrümmung. Um ein Objekt zu umschließen, ist eine Gesamtkonturkrümmung von 360 Grad nötig. Die Krümmung kann verschieden aufgeteilt werden. Bei einem Rechteck ist sie zum Beispiel auf vier 90 Grad Winkel verteilt. Es können auch Gegenbiegungen vorkommen, wenn diese durch genügend positive Winkel aufgehoben werden, um wieder 360 Grad zu erreichen. Winkel bei denen sich das Objekt innerhalb der Biegung befindet, überwiegen also generell. (Eine Ausnahme bilden Löcher). Das Gehirn berücksichtigt dies bei der Interpretation von Figur und Grund. Deshalb erscheinen die beiden Flächen in Abbildung 28, Fig.b. jeweils an jener Stelle oben, wo sie nach außen gewölbt sind. Sie erscheinen ineinander verschränkt.

Das Phänomen läßt sich allerdings auch noch anders erklären. Das visuelle System nimmt nämlich immer jene Formen als Figur wahr, die einfacher sind (siehe Fig c). Die Gestaltpsychologie nennt dies das "Gesetz der guten Gestalt". In den folgenden Kapiteln zur Formverarbeitung wird sich zeigen, daß die "gute Gestalt" immer jene Form ist, die mit einer geringeren Datenmenge beschrieben werden kann.

Figur d stammt von Ratoosh (aus Goldstein 1997). Peterson und Hochberg zufolge wechselt die Figur welche als vordergründig gesehen wird, und zwar je nachdem wo der Betrachter genau hinsieht. Ich kann dies nicht so erleben. Ich sehe hier zwei Papierblätter, die an einem Schlitz ineinandergesteckt wurden. Damit ist keine der Flächen durchgehend vorne. Meine Sichtweise bestätigt das Gesetz der guten Gestalt, denn es handelt sich um die einzige mögliche Lösung, die Grafik aus zwei Rechtecken zusammenzusetzen. Trotzdem dürfte es auch eine wichtige Rolle spielen, welche der Konturen an den T-Kreuzungen geradlinig fortgesetzt wird. Figur f zeigt eine Variante der Grafik, in der die andere Kontur geradlinig bleibt. Es kann dann nicht mehr entschieden werden, welche Fläche vorne ist, und so wird die Abbildung flächig erlebt.

Ich habe hier nur jenen Ausschnitt von Figur/Grund-Gesetzen behandelt, den ich datentechnisch für leicht erfaßbar halte. Mehr dazu findet sich bei Arnheim 1978, S. 217 bis 252.
 
 

5. Eigenschaftenkapitel: Die Form
 

Von allen Erkennungsmerkmalen eines Objektes ist die Form das wichtigste. "Ungeformte" Gegenstände, wie Gestein, Felsen, Wasser oder Wolken erkennen wir an ihrer Farbe, Helligkeit, Bewegung oder Struktur. Auf unserem belebten Planeten ist allerdings der Großteil der Objekte wohlgeformt.

Aber ist diese Unterscheidung zwischen geformt und ungeformt nicht unsinnig? Besitzen nicht alle Dinge eine Form?

Wiedererkennen von Objekten an ihrer Form ist nur deshalb möglich, weil dieses Universum von Gesetzen gelenkt wird, die immer wieder zu ähnlichen Formen führen. Das erlaubt die Klassifikation von Objekten. So sind zum Beispiel aufgrund der Gravitation alle großen Himmelskörper rund. Auf der Erde gibt es Leben. Leben bedeutet Reproduktion und damit gleichartige Formen. Die tote Materie wiederum wird vom Menschen in Form gebracht. Er verwendet sie, um Probleme zu lösen, die mit seinen Bedürfnissen in Zusammenhang stehen. Gleichartige Probleme führen ebenfalls zu gleichartigen Formen. So haben alle Autos, alle Kästen oder alle Öfen miteinander eine Ähnlichkeit. All diese Ähnlichkeiten sind eine notwendige Basis für das Wahrnehmen und Denken des Menschen. Ohne sie gäbe es keine Begriffe und damit auch kein Denken. Ein guter Designer vermeidet daher die Verwendung ungewöhnlicher Formen (soweit ihn nicht rationale Argumente zu deren Verwendung veranlassen), denn sie bringen Chaos in die Welt.

Interessanterweise haben alle reproduzierten Objekte nicht nur Ähnlichkeit zu ihren Vorgängern, sondern auch formale Redundanz in sich selbst. Symmetrie ist die häufigste Art einer solchen Wiederholung. Die wichtigsten Symmetriegruppen sind die sphärische Symmetrie einer Kugel, die radiäre Symmetrie von kegel- oder zylin-derähnlichen Dingen, die Dissymmetrie mit zwei Achsen, und letztlich die bilaterale Symmetrie mit einer Achse. Vom Einzeller bis zum Fisch hat die Evolution der Lebewesen nacheinander alle diese Symmetrien durchlaufen (Riedl 1989, Seite 168). Es ist schwierig irgend ein Objekt mit Funktion zu finden, das nicht zumindest eine Symmetrieachse aufweist. Symmetrie scheint irgendwie notwendig zu sein, wenn etwas optimal funktionieren soll.

Die Dinge werden also an ihrer formalen Ähnlichkeit klassifiziert, wobei diese Ähnlichkeit auf Reproduktionsprozesse zurückzuführen ist. Alle Dinge, die in solche Prozesse verwickelt sind, weisen Symmetrie oder Teilsymmetrien auf. Es geht dabei um alle Objekte, die wir an ihrer Form erkennen. Man kann diese somit als "geformt", einen Felsen hingegen als "ungeformt" bezeichnen. Felsen ist deshalb auch kein Form-, sondern ein Materialbegriff und wird hauptsächlich durch das strukturverarbeitende System erkannt.
 
 

Wenn Objekte, die wir an ihrer Form erkennen, Symmetrieachsen aufweisen, so ist es naheliegend, daß Achsen auch in einem Formerkennungsmodell eine wichtige Rolle spielen. Die am einfachsten zu erhaltenden Form-Daten beschreiben die Zahl der Symmetrieachsen sowie deren Länge und Verzweigungshierachie. Es gibt auch einen Begriff, der diese Angaben zusammenfaßt: Das Achsenskelett oder Strukturgerüst eines Körpers (vergl. Arnheim S.89). Die Grundlage für ein Modell zur Erfassung von Strukturgerüsten wurde bereits weiter vorne besprochen. Es ist der Signalfluß von den Objektkonturen.
 
 

5.1. Das Achsenskelett oder Strukturgerüst
 

Zunächst soll die Formerfassung von Flächen besprochen werden. Im übernächsten Kapitel wird eine Erweiterung der Systeme vorgestellt, um sie zur Verarbeitung der dreidimensionalen Welt brauchbar zu machen. Beginnen will ich damit, das Modell des Signalflusses von den Rändern zur Objektmitte etwas zu konkretisieren. Abbildung 29 veranschaulicht den Signalfluß, wie er auch schon zur Trennung der Flächen beschrieben wurde, an Formbeispielen. Da vorerst nicht bekannt ist, wo sich die Objektmitte befindet, bewegen sich die Signale überall gleich schnell von den Konturen weg. An schmalen Objektteilen treffen sie bald auf die Signale der gegenüberliegenden Kontur. Der Punkt des Zusammentreffens kennzeichnet eine Symmetrieachse. Die an diesem Punkt befindliche Zelle wird von zwei Seiten gleichzeitig aktiviert. Das kann als Auslöser für die Weitergabe des Signals an eine Ebene zur Erfassung des Strukturgerüstes dienen.

Eine von zwei Seiten aktivierte Zelle weiß nicht, wohin sie ihr Signal weitergeben soll. Einseitig aktivierte Zellen geben das Signal immer an den gegenüberliegenden Bereich ab. Ein solcher existiert aber in diesem Fall nicht. So bleibt die Aktivität der Zelle aufrecht. Die Zellen des Strukturgerüstes bleiben also aktiv. An den Achsenenden erhalten sie allerdings noch ein weiteres Signal. Dieses hebt das Gleichgewicht auf, und eine Weitergabe entlang der Achse kann erfolgen.

Ein Spezialbeispiel für die Strukturgerüsterfassung ist der Ring. Sein Strukturgerüst hat kein Zentrum und auch keine Achsenenden, von wo her es sich auflösen kann.

Wenn davon ausgegangen wird, daß sich das Signal an einer Objektkreuzung nicht aufspalten kann, so fließen die Signale aller Objektachsen letztlich in einem einzigen Zentrum zusammen. Das entspricht genau dem, was bereits im Rahmen der Objekttrennung vorausgesetzt wurde. Jedes Objekt erhält ein Zentrum. Dort gibt es keine Weitergabemöglichkeit innerhalb der Ebene mehr und das Signal wird aus der Ebene hinausgesendet.
 
 



Das bisher Beschriebene ist also nichts weiter als eine genauere Betrachtung von bereits bekannten Mechanismen. Das Strukturgerüst ist sozusagen ein Nebenprodukt der Objekttrennung. Was jetzt noch fehlt, ist die exakte Übertragung der Strukturinformationen in eine Leitung. Ich will dazu eine eigene Zellebene (Strukturgerüstebene) annehmen, auf die nur das Strukturgerüst übertragen wird. Die Zellen dort werden also nicht durch Objektkonturen oder andere Signale irritiert. Je nach der vorliegenden Objektdicke sind die Signale der Achsenzellen früher oder später auf dieser Ebene eingetroffen. Eine unterschiedliche Aktivierung der Zellen je nach Eintreffzeit könnte die Objektdicke weiterhin repräsentieren.

Zur Zusammenfassung der Daten braucht jetzt nur noch, ausgehend vom Objektzentrum, ein Signal die Achsen entlang geschickt werden. Wird eine Verzweigung erreicht, so erfolgt eine eigene Meldung über die Zahl der Äste an eine Zentralleitung, mit der alle Zellen der Ebene verbunden sind. Es wäre zusätzlich auch eine grobe Erfassung der vorliegenden Winkel vorstellbar. Die Zeit zwischen den Signalen repräsentiert die Länge der Achsen. So wird nacheinander die gesamte Achsenhierarchie vom Zentrum zu den Zweigen durchgegangen. Die Daten können direkt an das Gedächtnis, konkret an einen Speicher für Gestaltbegriffe, weitergeleitet werden.

Auffallend an diesem Modell der Strukturgerüsterfassung ist, daß die gesamte Information in der erwähnten Zentralleitung zusammenfließt. Es hat wenig Sinn, die Signale von mehr als einem Strukturgerüst gleichzeitig in diese Leitung zu schicken, da sonst ein Durcheinander von Signalen entstünde, so daß kein Erkennen mehr möglich wäre. Damit erfolgt die Verarbeitung der Form nicht wie alle bisherigen Arbeitsschritte über die gesamte Bildfläche hinweg gleichzeitig, sondern sie ist auf jene Objekte begrenzt, denen wir gerade unsere Aufmerksamkeit schenken. Das entspricht der Verarbeitung im Gehirn. Im Kapitel zur Texturerkennung konnte der Leser an Bildbeispielen selbst den Unterschied zwischen paralleler und serieller Verarbeitung erfahren. Wir haben nun den Übergang von ersterer zu zweiterer geschafft. Auch in das Bewußtsein treten die Objekte seriell.

Das Strukturgerüst wird sich nur zum Erkennen bestimmter Objekte eignen. Ein kahler Baum ist durch sein Strukturgerüst gut beschrieben, ein voluminöser Gegenstand wie einen Kasten hingegen nicht. Die Methode der Achsenerstellung durch Einfließen des Signals von den Objekträndern wird in diesem Fall ein sehr karges Achsenbild ergeben. Für solche Fälle scheint eine andere Methode der Formerkennung geeigneter:
 
 

5.2. Die Konturflußebene
 

Die Verarbeitungsform, die ich hier vorstellen möchte, hat ihre Stärke überall dort, wo das Strukturgerüst versagt. Allerdings steht fest, daß auch hier das Ziel letztlich darin liegen muß, die Informationen in eine oder wenige Leitungen zu bringen. Das bedeutet, eine der zwei vorhandenen Raumdimensionen muß auf eine Zeitachse umgelegt werden. Da ein Objektumriß ohnehin ein lineares Gebilde ist, gestaltet sich diese Aufgabe einfach. Das zeitliche Nacheinander ergibt sich automatisch, wenn die Linie "eingelesen" wird. Dazu braucht ein Signal lediglich die Kontur entlangzuwandern. Werden dabei Konturwinkeln und Krümmungen eigens signalisiert, so ist die Objektform vollständig vermittelt.

Konkret bedarf eine solche Formerfassung wieder einer eigenen Zellebene. Damit ein Signal in der Ebene nach allen Richtungen weitergegeben werden kann, müssen die Zellen auch hier sternförmig mit ihren Nachbarn verbunden sein. Auf die Ebene werden die Konturen und das Objektzentrum übertragen. Der gesamte Output aller Zellen der Ebene fließt wieder in eine Leitung zusammen.

Genauer betrachtet könnte der Prozeß folgendermaßen aussehen: Die Kontursignale schalten die Zellen der Konturflußebene ein. Erst dann sind diese fähig, ein Signal weiterzugeben. Das erste Problem, das es zu bewältigen gibt, besteht darin, daß auf einer Objektkontur möglichst nur ein Signal fließen sollte. Da jedes Objekt nur ein Objektzentrum besitzt, ist es naheliegend, das Signal von dort auf die Kontur überspringen zu lassen. Dabei erfolgt die erste Output-Meldung in die Gesamtleitung. Das Signal beginnt nun von Zelle zu Zelle die Kontur entlangzulaufen. Auf dem Weg werden Meldungen über Stärke und Richtung von Konturkrümmungen an die Outputleitung, mit der alle Zellen verbunden sind, gegeben. Um verschiedene Konturkrümmungen unterschiedlich signalisieren zu können, müssen die Zellen eine bestimmte Weitergaberichtung bevorzugen. Ich nehme also an, die Zellen reagieren besonders stark auf eine Weitergabe nach rechts. Wenn die Kontur sich stark in diese Richtung krümmt, erfolgt somit ein stärkeres Signal in die Gesamtleitung, ansonsten ein schwächeres; an geradlinigen Konturstücken kommt es zu keiner Meldung, und bei Linksbiegungen sogar zu einer Hemmung (alle Annahmen haben ausschließlich Modellcharakter).

Die Rechtspräferenz hat auch Einfluß auf den Weg, den das Signal nimmt. An Stellen, wo sich die Kontur verzweigt, wird die Richtung nach rechts bevorzugt. Auch bei der Anfangsübertragung des Signals vom Objektzentrum auf die Kontur läuft dieses nach rechts. Die Kontur wird somit im Uhrzeigersinn abgelesen.

Damit ist eigentlich schon erreicht was erreicht, werden sollte. Wird auf der Ebene nur ein Objekt eingeschalten, so fließt auch nur ein Signal, und dieses kann in einer Leitung transportiert werden. Die Signale aller Zellen brauchen also lediglich in eine Leitung zusammenzufließen. Eine objektspezifische Datenaufbereitung ist damit erreicht. Bei genauer Betrachtung genügt dies allerdings noch nicht, um Objekte wiederzuerkennen. Abgesehen davon, daß perspektivisch verzerrte Daten entzerrt werden müssen, um wiedererkennbar zu sein, was später noch gelingen wird, liegt auch noch ein Problem in der Veränderlichkeit der Objekte selbst. Tische gibt es in vielen Größen, Menschen in verschiedenen Positionen usw.. Um Dinge erkennen zu können, müssen wir ihr Wesen, ihren Aufbau verstehen, und wir müssen sie vereinfachen bzw. generalisieren können. Im folgenden will ich ein Modell vorstellen, das beide Forderungen auf verblüffend einfache Weise erfüllt.
 
 

6. Eigenschaftenkapitel: Die Zerlegung von Objekten in einfache Teilformen
 

Alle Objekte, die keine elementare Form besitzen, lassen sich in einfachere Formen zerlegen. Einfache Formen können mit wenigen Daten erfaßt werden, deshalb ist es sinnvoll, ein Objekt durch die Angabe der Elementarformen zu beschreiben, aus denen es sich zusammensetzt. Diese Idee findet sich auch schon bei Irving Biederman (vergl. Goldstein 1996, S.189 ff.). Im Rahmen des hier gezeigten Modells zählt aber weniger die Idee, sondern vielmehr ergibt sich die Frage, ob eine solche Art der Objektverarbeitung den einfachsten und schnellsten Weg zur Objekterkennung darstellt. Ist das Modell überhaupt durchführbar bzw. wie können die Elementarformen erhalten werden? Eine mögliche Umsetzung der Zerlegung von Objekten in Teilformen ist in Abbildung 30 dargestellt.

Die Trennung erfolgt in zwei Stufen. Vorerst wird eine große Anzahl möglicher Trennlinien vorgeschlagen. Dann erfolgt eine Auswahl. Da Trennungen fast generell an Eckpunkten der Kontur erfolgen, ist es naheliegend, den Prozeß dort beginnen zu lassen. Die Signale breiten sich also von den Eckpunkten kreisförmig im Objekt aus. An Konturen werden sie reflektiert. Allerdings ist der Rückweg nur selten möglich, denn Zellverbindungen werden nach dem Durchlauf eines Signals kurzfristig "unbefahrbar". Das hat zur Folge, daß sich die Kreise, mittels derer in Abbildung 30 der Signalfluß veranschaulicht wird, nicht überkreuzen.

Um die Auffindung von Trennlinien zu ermöglichen, will ich an dieser Stelle eine Ausnahme zur Regel einführen, die folgendermaßen lautet: In der exakten Gegenrichtung zum Signalfluß ist sehr wohl eine Zweitbefahrung möglich. Dadurch können Signale ungehindert von Konturecke zu Konturecke fließen. Die Aktivität jener Zellen, die von einer solchen Zweitbefahrung betroffen sind, bleibt aufrecht. Zusammen bilden sie die gesuchten Trennlinien. 17*
 
 

Nun gilt es, aus den möglichen Trennungen die ideale Linie auszuwählen. Dazu muß definiert werden, welche Eigenschaften ideal sind:

· Die kürzeste Variante

· Eine möglichst rechtwinkelige Kreuzung von Trennlinie und Symmetrieachse

· Die Schneidung eines Symmetrieachsenkreuzpunktes

· Eine geradlinige Fortsetzung der Objektkontur durch die Trennlinie

· Es sind Teilformen zu erhalten, die keine Innenwinkel enthalten.

Jener Trennlinie, die die größte Zahl an positiven Eigenschaften vereint, ist der Vorzug zu geben. Diese Trennregeln sorgen dafür, daß gleiche Objekte auch gleich zerlegt werden. Das ist für das Wiedererkennen absolut notwendig.

Im weiteren Verarbeitungsprozeß werden Trennlinien gesondert behandelt. Sie haben nicht die Qualität von Objektkonturen, sondern ihr Konturverlauf muß vielfach noch abgeändert und ergänzt werden, wenn dadurch die Symmetrie und Geradlinigkeit der Teilform erhöht wird und diese dadurch mit weniger Daten abspeicherbar sind. Solche Ergänzungen lassen sich allerdings leichter nachträglich durchführen, also nicht am Reaktionsbild, sondern erst dann, wenn die Formen schon in Signalrhythmen umgewandelt sind.
 
 

Im allgemeinen wird die Teilform wie ein eigenes Objekt behandelt. Das bedeutet, sie sollte auch ein eigenes Signal erhalten, das die Kontur entlangwandert und deren Daten überträgt. Dieses könnte jeweils dort entstehen, wo eine Trennlinie eine Symmetrieachse kreuzt. Durch das Achsenskelett ist der Zusammenhang zwischen allen Teilformen bekannt.

Wie sieht nun das Gesamtoutput der Formverarbeitungsebene aus? In jedem Objektteil rotiert ein Signal und sendet eine Umrundungsfrequenz und Daten über Konturkrümmungen. Alle Frequenzen überlagern sich im Gesamtoutput zu einer Art Objektklangbild.
 
 

7. Eigenschaftenkapitel: Die Notwendigkeit der Formvereinfachung für das Erkennen
 

Jedes Objekt kann nun aus den einzelnen Bestandteilen seines Klangbildes erkannt werden. Dabei wird

1) die Geschwindigkeit der Umlauffrequenzen verzeichnet, was in Analogie zur Musik der Tonhöhe entspricht, weiters

2) die Zahl der Frequenzen und

3) deren Klang, das heißt die Art und Zahl der Krümmungen in der Welle, was umgelegt auf die Musik der Art des Instrumentes entspricht.

Die aus der Musik bekannten Begriffe geben eine Vorstellung von dem Gesamtoutput, das dem Modell zufolge aus der Formerkennungsebene zu erwarten ist. Die Beschreibung eines einfachen Objektes bedarf dabei nur eines Tons, ein kompliziertes entspricht einem ganzen Akkord.

Allerdings ist durch Analogien noch nichts erklärt. Im Gegenteil, die Dinge erscheinen jetzt nur noch rätselhafter. Die Umwandlung der Objektform in Frequenzmuster wirkt nicht wie eine Entschlüsselung der Form, sondern eher wie deren komplette Verschlüsselung. Außerdem hat die Zerteilung des Objektes zu einem bunten Durcheinander an Signalen geführt, das jetzt vielleicht wieder getrennt werden muß. Dieser Aufwand läßt den Sinn der ganzen Zerlegung bezweifeln.

Es erscheint an dieser Stelle nötig, das Urmotiv in Erinnerung zu rufen, aus dem all diese Zellverschaltungssysteme erstellt wurden. Es sollte die Möglichkeit des Erkennens belegt werden. Momentan mag es scheinen, als wäre dieses Ziel ferner denn je. Ich glaube aber zeigen zu können, daß wir an dieser Stelle erstmals der Sache auf den Grund gehen:

Durch die Zerteilung der Objekte ist also eine sinnvolle Vereinfachung ihrer Form möglich geworden. Die Teilformen lassen sich leicht nach Ähnlichkeiten in Gruppen gliedern. So gibt es rechteckige, abgerundete, ovale, kreisförmige, dreieckige, lange und kurze Formen. Jede dieser Formen wird sich durch einen bestimmten Rhythmus in der Abfolge der Signale auszeichnen, die von der Formerkennungsebene geliefert werden. Die Signale könnten Zellverbände beliefern, von denen jeder nur auf einen bestimmten Rhythmus gut reagiert. Dabei können mit einer begrenzten Zahl von Zellverbänden alle elementaren Formtypen erfaßt werden. So gibt es Zellverbände für rechteckige, ovale oder dreieckige Formen und andere mehr (siehe mittlere Abbildung 30). Durch Mischreaktionen ist die Erfassung von Mischformen möglich.

Indem ein Kind Dinge erst einmal sehr vereinfachte Formen zuschreibt, kommt es sehr schnell zu einer groben Unterteilung der Welt. Alle Dinge können irgendwo zugeordnet werden, und das Kind verhält sich ihnen gegenüber dementsprechend. Im Fall einer detaillierteren Verarbeitung stünde das Kind ständig vor Eindrücken, ohne deren Zusammenhang mit bereits Gesehenem zu erfassen. Ein solches Unwissen wäre auch in unserer Welt noch lebensgefährlich.

Eine altbekannte Schwierigkeit besteht darin, daß Formen unabhängig von ihrer Größe erkannt werden müssen. Das bedeutet in Umlegung auf das Modell eine Erkennung der Signalrhythmen aus der Formverarbeitungsebene unabhängig von ihrer Geschwindigkeit. Die altbekannte Lösung heißt: Verhältnismessung:
Die Stärke der Signale repräsentiert bekanntlich die Stärke und Richtung der Konturkrümmungen (Richtungswechsel). Die Zeit zwischen den Signalen steht für die Länge der einzelnen Konturabschnitte. Wenn Formen unabhängig von ihrer Größe erkannt werden sollen, darf nicht die Länge der Konturabschnitte einer Form, sondern nur deren Längenverhältnis vermerkt werden. Die Lösung besteht darin, die Zeit zwischen den Signalen immer in Verhältnis zur Gesamtumlaufzeit zu stellen. Durch die Angabe solcher Größenverhältnisse ist dann die Form unabhängig von ihrer Größe beschrieben.

Sicherlich verlangt das vorgelegte Modell zur Formerkennung auch noch andere Zusatzfunktionen, um wirklich umsetzbar zu werden. Trotzdem hat das Modell bereits erkenntnistheoretischen Wert. Es beantwortet die Frage nach der Möglichkeit der Abstraktion. Das Modell zeigt, wie den Einzeldingen etwas Generelles abgewonnen werden kann, noch bevor mehrere Objekte desselben Typs erkannt wurden. Diese Form der Abstraktion hat nichts mit Generalisierung zu tun. Durch Generalisierung kann Gestalterkennung nicht erklärt werden, denn das Erkenntnisproblem ergibt sich schon vor aller Generalisierung. Es ist nicht möglich, mit einer beliebigen Auswahl von Eindrücken einen sinnvollen Generalisierungsprozeß zu beginnen. Um etwas generalisieren zu können, müssen mehrere Erfahrungen bereits in eine Gruppe gefaßt sein, deren Charakteristik dann generalisiert wird. Die Gruppenzugehörigkeit selbst kann also nicht durch Generalisierung erbracht worden sein. Die Lösung des Rätsels um die Formwahrnehmung liegt darin, daß die formalen Überbegriffe von vornherein vorhanden sein müssen! Das hat auch schon Platon in seiner Ideenlehre festgestellt. Allerdings hat er sich diese Überbegriffe eher sprachlich als visuell gedacht. Aber was sind die Begriffe, durch die das Aussehen aller Objekte beschrieben werden kann? Das Modell legt nahe, daß des Rätsel Lösung in den Grund- bzw. Teilformen liegt. Denkt man einen Schritt weiter, so zeigt sich aber, daß sich auch diese aus Elementen zusammensetzen lassen, die noch allgemeineren Charakter haben, nämlich einzelne Linien bestimmter Länge und Ausrichtung. Diese lassen sich ihrerseits wieder aus einzellnen Bildpunkten zusammensetzen. Hinweise darauf, daß Erkennen im Gehirn wirklich durch die Zerlegung der Objekte in Teilformen geschieht, haben sich bei Versuchen ergeben, die ursprünglich gar nicht diese Problematik zum Thema hatten. Ich habe bereits im ersten Teil der Arbeit erwähnt, daß das Retinabild durch ein ständiges minimales Augenzittern in Bewegung gehalten wird. Stabilisiert man das Bild, so kann bald nichts mehr gesehen werden. Das Bild verblaßt allerdings nicht als ganzes, sondern die Teile der Objekte fallen meist nacheinander aus und werden so getrennt sichtbar (vergl. Vernon 1974, S. 116 ff.).

Ich werde Im dritten Teil der Arbeit näher darauf eingehen, wie Einheiten durch Erfahrung zusammengesetzt werden können. Es wird sich dann zeigen, daß die kleinste Einheit, die vorgegeben sein muß wirklich der Bildpunkt sein dürfte. Es ist kein System vorstellbar, bei dem auch die Anzahl und Größe der Bildpunkte variabel ist.

Vorerst geht es aber nicht um die Frage wie sich das visuelle System entwickelt, sondern wie es in seiner ausgereiften Form verschaltet ist. Durch die Trennung der Objektflächen in Grundformen ist es nun möglich, alle Objekte durch bekannte Bauteile zu beschreiben. So können auch neue Objekte durch bekannte Elemente beschrieben werden. Außerdem ermöglichen Grundformen eine sinnvolle Ergänzung nicht sichtbarer Konturteile. So konnte auch im Rahmen der Figur/Grund-Problematik eine Tendenz zur "guten Gestalt" nachgewiesen werden. Einen noch anschaulicheren Hinweis darauf, daß im Gehirn Objekte in einfache Teilformen zerlegt werden, geben Kinderzeichnungen. Ich werde darauf im zweiten Exkurs zum Bildschaffen näher eingehen. Zuvor sollen aber die Modelle zur Erfassung der Objekteigenschaften abgeschlossen werden. Ausständig ist vor allem noch die Entzerrung der Perspektive.
 
 

8. Eigenschaftenkapitel: Die dritte Dimension
 

Der Mensch erfaßt den Raum nicht wirklich. Die Vorstellung eines dreidimensionalen Körpers beschränkt sich auf dessen Hülle. Dies kann jeder selbst bei dem Versuch erfahren, sich ein wirklich dreidimensionales System zu vergegenwärtigen. Dazu gehören zum Beispiel die Farbräume von Farbtafel 6. Meiner Ansicht nach vermag man nie mehr als eine Farbschicht eines solchen Raumes zugleich in das Bewußtsein zu rufen und kann so den Farbraum gedanklich immer nur durchfahren. In einem Stück läßt sich bestenfalls die Hülle eines Raumes denken.

Die "Hüllenwelt", in der wir leben, ist ein Produkt unseres visuellen Systems. Ein Delphin hat durch sein Ultraschallsystem schon mehr Durchblick. Er kann wahrscheinlich auch die Knochen und vielleicht sogar die Magengeschwüre seiner Gefährten sehen. Möglicherweise ist er gedanklich nicht in eine "Hüllenwelt" verbannt.
 
 

8.1. Die Zeitraumebene
 

Die Hülle bzw. der Mantel von Körpern ist flächig. Zu seiner Erfassung im Gehirn bedarf es keiner weiteren Dimension. Die Erstellung eines Modells zur Verarbeitung dreidimensionaler Bilder muß somit lediglich erklären, wie jene Flächen, die in der Projektion verzerrt wurden, wieder entzerrt werden können. Ein Erklärungsmodell dafür soll hier vorgestellt werden. Die Verarbeitungsebene dafür bezeichne ich als "Zeitraumebene".

Das Prinzip, das dem Modell zugrundeliegt, ist einfach. Auf der Formerkennungs- und der Strukturgerüstebene wird die Länge der Konturen durch die Zeit erfaßt, die ein Signal benötigt, um die Kontur entlangzulaufen. Um verkürzte Konturen zu entzerren, muß lediglich die Fließgeschwindigkeit des Signals gehemmt werden, und zwar so, daß die Fließdauer der Normallänge des Signals entspricht.

Zur Kontrolle der Fließgeschwindigkeit von Signalen sind mehrere Lösungen vorstellbar: Am Computer ist die Simulation eines Signalflusses, der in eine bestimmte Richtung schneller verläuft als in anderen Richtungen, schon in Kapitel 3.1 in diesem Teil der Arbeit gelungen. Durch Mischung von Filtern dieser Art könnte jede benötigte Signalausbreitung simuliert werden.
 
 



Was die Verarbeitung im Gehirn betrifft, sind andere Lösungen eher denkbar. So könnten sich zum Beispiel zwischen den sternförmigen Signalflußzellen Bremszellen befinden. Jede der sternförmigen Zellen wäre dann von einem Kranz Bremszellen umgeben.
 
 

Die Stärke, mit der eine solche Zelle den Signalfluß bremsen müßte, um die Konturverkürzungen zu entzerren, entspricht dem jeweiligen Verkürzungsfaktor der Kontur. Das Problem liegt darin, daß dieser Faktor nicht direkt meßbar ist. Was gemessen werden kann, sind die Tiefenwerte, die an verschiedenen Stellen des Projektionsbildes vorliegen. Im folgenden soll gezeigt werden, wie aus diesen der Verkürzungsfaktor ermittelt werden kann, der notwendig ist, um die Konturlängen zu entzerren.
 
 

8.2. Zwei Arten von Verkürzungen
 

Die perspektivische Verkürzung von Konturen ist auf zwei Phänomene zurückzuführen, die streng voneinander unterschieden werden sollten. Zum einen ergibt sich eine Verkleinerung der Objekte mit zunehmender Enfernung, die sogenannte "Flucht". Zum anderen erscheinen Linien dann verkürzt, wenn sie schräg zum Betrachter ausgerichtet sind.

Die Flucht ist leicht auszugleichen. Um konstante Werte zu erhalten, brauchen die Konturlängen des Projektionsbildes nur mit der gemessenen Entfernung des Objektes zu multipliziert werden. Mit der doppelten Entfernung erscheint ein Objekt am Projektionsbild nur halb so groß, erhält aber den doppelt so hohen Multiplikationsfaktor, und so ergibt sich für die Konturlängen das selbe Resultat. Durch die Multiplikation werden Längen also so erfaßt, als hätten sie alle den gleichen Abstand. Damit ist die Flucht ausgeglichen. Zurück bleiben jene Verkürzungen, die an schräg in den Raum laufenden Konturen entsteht. Für diese Art der Verkürzung wird nun das Modell mit dem gebremsten Signalfluß benötigt.

Entzieht man der Perspektive die Flucht, so sollte man eigentlich eine Parallelprojektion erhalten. Für das Bildzentrum trifft dies auch zu. In den Randbereichen eines perspektivischen Bildes treten jedoch Verzerrungen auf, die nicht so einfach auszugleichen sind. Wie die Abbildungen 32 und 33 zeigen, können solche Verzerrungen dadurch vermieden werden, daß man nicht von einer ebenen Projektionsfläche ausgeht, sondern von einer halbkugelförmigen. Damit herrschen in den Randbereichen des Bildes die gleichen Gesetze wie in der Bildmitte.

Das Ausgangsbild enthält nun nur noch jene Verzerrungen, die an schräg in den Raum laufenden Linien auftreten. Die Frage, wie diese zu entzerren sind, kann also anhand von einer Parallelprojektion behandelt werden.
 
 

8.3. Die Längenerfassung schräg in den Raum laufender Konturen
 

Abbildung 34 soll zeigen, welches Verhältnis Tiefenwerte und Verkürzungswerte zueinander einnehmen. In den Raum laufende Konturen sind daran zu erkennen, daß sich die empfangenen Tiefenwerte entlang der Kontur verändern. Legt das Fließsignal eine gewisse Streckeneinheit auf der Kontur zurück, so ist ein neuer Tiefenwert messbar. Die Differenz zwischen dem alten und dem neuen Tiefenwert bezeichne ich als Distanzdifferenz d. Abbildung 34 veranschaulicht das Verhältnis von d zur vorliegenden Konturverkürzung x.
 
 

Der Gedankenansatz ist folgender: Würde eine Strecke mit der Länge 1 (Streckeneinheit des Signalflusses) auf die schräg im Raum liegende Kontur übertragen, so erschiene sie in der Projektion verkürzt. Sie hätte dann die Länge x.
Die Größe der Verkürzung ist abhängig von der Distanzdifferenz d, die sich ergibt, wenn, nachdem das Fließsignal eine Streckeneinheit zurückgelegt hat, die Distanz gemessen und zur vorherigen Messung in Differenz gestellt wird.
Es gilt der pythagoreische Lehrsatz: Ö (d²+1²)=z. Die Längenverhältnisse in den Dreiecken sind 1:x=z:1. Da z dividiert durch eins gleich z ist, läßt sich, wenn wir in diese Formel die obige Beschreibung für z einsetzten, schreiben:

1:x = Ö (d²+1)
x = 1:Ö (d²+1)

1:x steht für die Stärke, mit der die Bremszellen aktiviert werden müssen. Die erstellte Formel ist relativ leicht auf Zellreaktionen umzulegen. Eine Addition bedeutet, daß zwei Signale in eine Leitung zusammenfließen. Eine Hochzahl bedeutet, daß eine Zelle proportional umso mehr erregt wird, je größer das Eingangssignal ist. Eine Hochzahl ist also eine Wachstumsfunktion. Die Wurzel wiederum ist das Gegenteil einer solchen.

Eine Zwischenzellschicht könnte die d-Werte gemäß der Formel auf Bremswerte umwandeln. Die Bremszellen erhalten diese Signale und bremsen dementsprechend die Fließgeschwindigkeit. Auf verkürzten Konturen kommt es dann zu den gleichen Fließzeiten wie auf ebenso langen unverkürzten Linien. Damit sind die Konturen in ihrer unverkürzten Länge erfaßt.
 
 

8.4. Die Entzerrung der Konturwinkel.
 

Ein wesentlich schwierigeres Problem besteht darin, auch die Konturwinkel zu entzerren. Dafür wird eine vollständige Erfassung der Ausrichtung jener Fläche benötigt, die von den beiden Konturen begrenzt wird. Da eine Fläche eine ganz bestimmte Ausrichtung braucht, um zwei gerade Linien zu verbinden, ist ihre Position mit zwei Linien vollständig definiert. Die Entzerrung der Konturwinkel ist also prinzipiell möglich. Von den Konturen ist die Richtung bekannt, die sie auf der Projektionsebene einnehmen, weiters wurde der Winkel ermittelt, in dem die beiden Konturen zueinander stehen und die Länge x, die sie im Vergleich zur Sreckeneinheit des Signalflusses besitzen. Damit ergibt sich grafisch dargestellt folgende Problemstellung: Im Zentrum eines Kreises mit dem Radius 1 (eine Streckeneinheit) befindet sich ein Winkel, dessen Größe bekannt ist. Weiters sind die Längen der zwei Linien bekannt, die den Winkel bilden. Gesucht ist eine Ellipse, die durch die Endpunkte der beiden Linien verläuft und genau in den Kreis paßt. Diese Ellipse stellt dar, wie der Ausgangskreis mit dem Radius 1 aussehen würde, wenn man ihn auf die schräge Ebene projizierte.

Aufgrund mangelnder Fachkenntnisse bin ich weder in der Lage, diese Ellipse zu berechnen, noch zu konstruieren. Auch ist nicht anzunehmen, daß das Problem im Gehirn derartig mathematisch gelöst wird. Eher ist denkbar, daß der Mensch die Ergebnisse der Winkelentzerrung durch assoziative Lernprozesse erwirbt. Solche Lernprozesse bauen unter anderem darauf auf, daß räumlich und zeitlich nahe Sinnesreize verknüpft werden. Ich komme auf diese Grundlagen des Erkenntnisgewinns im vierten Teil der Arbeit zu sprechen, wo es um die Frage gehen wird, wie die gesamte dargestellte Verschaltung im Gehirn entsteht. Da im Rahmen der Objekterkennung Winkel nicht allzu genau erfaßt werden müssen, ergibt sich sowohl eine begrenzte Zahl an Angaben wie auch an Lösungen, die diesen Angaben zugeordnet werden müssen. Es ist also naheliegend, diese Informationen dauerhaft abzuspeichern, so daß die nötigen Lösungen jederzeit und ohne lange Rechenprozesse zur Verfügung stehen.

Möglicherweise ist es auch bei der Erstellung eines Computerprogramms zum visuellen Erkennen günstiger, alle Lösungen im Arbeitsspeicher parat zu halten. Es wäre aber ein unsinniger Aufwand, müßte das System die Lösungen erst selbst erwerben. Wir können sie errechnen und dem System eingeben. Die nötigen Rechenergebnisse sind am einfachsten zu erhalten, wenn man nicht mit den obigen Angaben beginnt, sondern von einer Ellipse ausgeht. Die Längsachse der Ellipse gibt die Richtung an, auf der es zu keiner Verkürzung der Konturen im Projektionsbild kommt. Für jede schräge Ebene gibt es eine solche Richtung.

Die Entzerrung der Konturwinkel ist dann geleistet, wenn konstant die gleichen Werte erfaßt werden, egal aus welcher Perspektive ein Objekt zu sehen ist. Alle Konstanzleistungen wurden bisher dadurch erbracht, daß nicht direkt Meßwerte, sondern Verhältnisse erfaßt wurden. Das führt zu der Idee, erst einmal das Verhältnis der Konturausrichtungen zur Ellipsenachse zu erfassen. Damit erhält man konstante Werte, unabhängig von der Neigung der Ebene.

Ausgehen will ich vom Winkel a , den eine Kontur am Projektionsbild im Verhältnis zur Ellipsenachse einnimmt. Um die Verzerrung durch die Perspektive auszugleichen, soll der Winkel b bestimmt werden, den die Kontur x im Verhältnis zur Ellipsenachse einnimmt, wenn die Ebene frontal zum Betrachter gedreht wird. Die folgende Abbildung zeigt die geometrische Lösung des Problems. Frontal betrachtet ergibt die Ellipse einen Kreis. Es ist leicht nachzuvollziehen, wo sich auf diesem Kreis die entzerrte Projektion der Kontur x befindet. Das Konturende braucht in der Grafik nur im rechten Winkel zur Ellipsenlängsachse hinaufverschoben zu werden, bis es auf den Kreis trifft. Die unverkürzte Länge der Kontur ist 1, ihr Winkel zur Längsachse ist b . Die Konstruktionslinien, die zu b geführt haben, ergeben ein rechtwinkeliges Dreieck, das seinen rechten Winkel und eines seiner Seiten mit einem kleineren Dreieck teilt. Die Hypothenuse des letzteren ist x, einer seiner Winkel ist a . Daraus ergibt sich zur Errechnung von b folgende Formel:

(x·sina :tana )inv.cos = b

Die Sinus- und Tangentialfunktion in der Formel dient dazu, von Winkelmaßen auf die Seitenlängen der rechtwinkeligen Dreiecke zu kommen. Dann wird nach dem pythagoreischen Lehrsatz die fehlende Länge ermittelt. Die Invers-Cosinusfunktion bringt wieder ein Winkelmaß.

Die Differenz zwischen den a -Winkeln zweier Konturen repräsentiert die unentzerrten Konturwinkel. Die Differenz zwischen zwei zugehörigen b -Winkeln repräsentiert den entzerrten Konturwinkel. So können zu allen möglichen Angaben die zugehörigen Resultate berechnet werden. Sind diese Resultate verfügbar, so ist die Winkelentzerrung geleistet. Die Menge an Daten, die hierfür bereitgestellt werden muß, hängt von der erwünschten Genauigkeit der Entzerrung ab. Diese braucht die Genauigkeit der Sinnesleistungen nicht zu übersteigen. Nehmen wir an, es können 50 verschiedene Distanzdifferenzen d unterschieden und daraus ebenso viele Verkürzungswerte x ermittelt werden. Weiters nehme ich an, es ließen sich maximal 100 Konturwinkel abgrenzen. Bei 2 Konturen mit je 50 verfügbaren x-Werten und 100 Ausrichtungen ergeben sich 50*50*100=250000 mögliche Angaben. Diesen Angaben müssen ihrerseits 100 Ergebniswinkel zugeordnet werden. Diese Informationsmenge mag viel erscheinen, es sind aber nicht mehr Daten, als ein kleines Bild mit 250000 Bildpunkten zu 100 Graustufen enthält.

Außerdem könnte das System es sich zunutze machen, daß im Rahmen der Winkelentzerrung ähnliche Angaben zu ähnlichen Ergebnissen führen. Nehmen wir an, es wären 200 Winkel unterscheidbar, es liegt aber nur für jeden zweiten ein Ergebnis bereit. Haben wir einen Winkel mit einer ungeradzahligen Größe, so ließe sich ein näherungsweises Ergebnis dadurch finden, daß man für die nächst kleinere und größere Zahl das Ergebnis aufruft, und die beiden Werte dann mittelt.

Damit sind wir am Ende des Abschnitts zur Formerkennung. Die serielle Entzerrung der Konturinformationen ist abgeschlossen. Im folgenden soll kurz gezeigt werden, daß durchaus auch eine parallele Erfassung der dritten Dimension denkbar ist, wenngleich diese weniger für die Erkennung von Objekten als vielmehr für die Bewegung im Raum eine Rolle spielen dürfte.
 
 

8.5. Die parallele Erfassung von Flächenausrichtungen
 

Ausgehend vom Reaktionsbild mit den Tiefenwerten soll eine parallele (zeitgleiche) Erfassung der Objektflächenausrichtung über das ganze Bild hinweg stattfinden. Schräge Flächen sind am Tiefenwertebild durch Schattierungen zu erkennen. Wie kann die Ausrichtung und Stärke einer Schattierung erkannt werden? Der einfachste Weg besteht wohl darin, das Tiefenwertebild mit einer verschobenen Kopie zu überlagern und die Differenz zwischen den zwei Bildern zu erheben. Abbildung 37 veranschaulicht diesen Vorgang:

Die Körnung der rechten Abbildung ergibt sich dadurch, daß im Tiefenwertebild nur eine begrenzte Anzahl an Graustufen vorhanden sind. Deshalb kann keine gleichmäßige Reaktion über die ganze Fläche hinweg zustandekommen. Der Reaktionsdurchschnitt, der sich innerhalb einer Fläche ergibt, beschreibt aber durchaus deren Ausrichtung. Um die Ausrichtung komplett zu erfassen, sind natürlich mindestens drei möglichst unterschiedliche Verschiebungsrichtungen nötig. Das Verfahren erinnert an jenes, welches auf Farbtafel 12 zur Erfassung der Konturrichtungen beschrieben wurde.




Die Sachlage ist diesmal insofern etwas komplizierter, als sich die Tiefendistanzwerte bei linearer Veränderung der Verschiebungsrichtung nicht linear wandeln, sondern in Form einer Sinuskurve, wie sie in Abbildung 38 dargestellt ist.

Die Information aus den Tiefendifferenzbildern kann den Objekflächen durch das bekannte Einfließen der Signalwerte von den Konturen in das Objektzentrum zugeordnet werden.
 
 

8.6. Der Nutzen von Schattierungen für die Tiefenausarbeitung
 

Es ist schon interessant, wie plötzlich ein Thema, das bisher unbearbeitbar schien, ganz von selbst eine Lösung findet. Die in Abbildung 37 gezeigte "Differenz zueinander leicht verschobener Tiefenwertebilder" hat eine Ähnlichkeit mit den Helligkeitsdifferenzen, die sich durch den Schattierungsschatten ergeben. Natürlich tritt diese Ähnlichkeit nur dann zutage, wenn die Verschiebungsrichtung von mindestens zwei überlagerten Tiefendifferenzbildern in das richtige Verhältnis zur vorhandenen Lichtrichtung gebracht wird. Außerdem ergibt sich im Bereich von Schlagschatten eine andere Verschiebungsrichtung, weil dort auch andere Lichter einfallen. Schlagschatten kommen im Tiefendifferenzbild nicht vor.

Da es bereits im Konturkapitel zur Farbverarbeitung gelungen ist, Schattierungen und Objekteigenfarben einigermaßen sauber zu trennen, sollte es nun kein Problem darstellen, diesem Reaktionsbild das passende Tiefendifferenzbild zuzuordnen. Der Vergleich der beiden Bilder ermöglicht nun eine exaktere Erkennung von Schattierungsschatten und damit eine bessere Zuordnung der Objektfarben. Umgekehrt kann das Schattierungsbild Tiefenwerte dort ergänzen, wo durch andere Methoden kaum Daten zu erhalten waren. Beides ist für die Objekterkennung von großer Bedeutung.

Damit ist das Kapitel zur Verarbeitung der 3. Dimension abgeschlossen. Neben der Formerfassung spielt die 3. Dimension des Raums auch noch eine wichtige Rolle bei der Erfassung der Position, welche die Objekte zueinander einnehmen. Es ist davon auszugehen, daß wir in einer gewohnten Umgebung die Dinge hauptsächlich dadurch erkennen, daß wir wissen, an welcher Position sie anzutreffen sind. Obwohl dieses Thema über die Betrachtung von Einzelobjekten hinausreicht, ist es doch ein wesentlicher Bestandteil einer Arbeit über das Objekterkennungsvermögen.
 
 

9. Eigenschaftenkapitel: Das räumliche Zueinander der Objekte
 

Dieses Kapitel bildet den Abschluß dieses Teils der Arbeit. Die letzten Modelle waren bereits ziemlich komplex und vermutlich schwer nachzuvollziehen. Trotzdem erscheint ihre Leistung noch nicht ausreichend, um Objekte einwandfei zu erkennen. Sind die Gegenstände unserer Umwelt zu vielfältig, um sie auf eine solch mechanistische Weise zu vermessen? Ich würde diese Frage verneinen. Im Gegenteil: Die Welt ist voller Wiederholungen, die das Erkennen erleichtern. Das Wissen um Zusammenhang und Ordnung kann die Wahrnehmung entlasten, ja vielfach sogar ersetzen. Das kann an ganz alltäglichen Beispielen gezeigt werden:

Beim Betrachten einer Häuserzeile genügt es, ein Haus als solches zu erkennen. Alle anderen brauchen kaum mehr betrachtet zu werden. Es ergibt sich aus dem Zusammenhang, daß es auch Häuser sind. Genauso verhält es sich mit Büchern im Regal, mit Bäumen im Wald, oder mit Wäsche auf der Leine.

Sitzt ein Vogel auf der Wäscheleine, so fällt er aus dem Zusammenhang. Seine Position ist anders als die der Wäschestücke. So kann er auch von der Ferne nicht mit einem hängenden Socken verwechselt werden.

Ordnung erleichtert die Wahrnehmung, indem Dinge geblockt gedacht werden. Buntstifte in einer Schachtel können alle zugleich erfaßt werden, während in der Wohnung verteilte Buntstifte einzeln erkannt werden müssen. Überdies unterliegt jede Ordnung einem Schema, das erlernt werden kann und dann eine Orientierung nahezu ohne Sinnesdaten zuläßt. Ein blinder Mensch ist deshalb in weit höherem Maß auf Ordnung angewiesen. Im allgemeinen strebt aber jeder vernünftige Mensch die Ordnung seiner Umwelt an. Damit kann der Geist entlastet und für wesentlichere Gedanken frei gemacht werden.
 
 

9.1. Definierte und assoziative Verbindungen
 

Das Ordnungsschema von Objekten zu verstehen bedeutet, ihre Anordnung zueinander zu erfassen. Dabei ist zwischen einer assoziativen und einer definierten Zugehörigkeit zu unterscheiden. Die Ausrichtung von Vögeln auf einer Stromleitung ist zum Beispiel definiert, während Vögel und Wolken ebensooft zusammen gesehen werden, aber nur eine assoziative Verbindung zulassen.

Assoziative Verbindungen sind sicherlich häufiger und bedeutsamer für das Erkennen. Auf einer Fotografie fehlen den Objekten wichtige Informationen wie Größe, Tiefe und Bewegung, doch allein deren assoziative Verknüpfung genügt, um alles zu erkennen. Auf einer Luftaufnahme sind Autos nur als kleine bunte Pünktchen abgebildet. Wir werden diese aber nicht für Stecknadelköpfe halten. Das Umfeld (Straßen, Häuser, Wiesen, Wälder) gibt den Maßstab vor und führt zur richtigen Assoziation. Entdecken wir das selbe bunte Pünktchen im See, so wird die assoziative Verbindung es sofort als Boot erscheinen lassen.

Verbindungen wie Auto und Straße oder Schiff und See werden im Speicher für Gestaltbegriffe hergestellt, wenn Dinge oft genug gemeinsam (gleichzeitig) gesehen werden. Assoziative Verknüpfungen bedürfen somit keiner besonderen Definition räumlicher Verhältnisse.

Anders verhält es sich mit definierten Verbindungen. Um die räumliche Anordnung der Objekte zueinander zu erfassen, ist sehr wohl eine Datenaufbereitung erforderlich. Die Erfassung solcher räumlichen Verhältnisse ist das eigentliche Thema dieses Kapitels. Bevor hierauf konkreter eingegangen wird, will ich allerdings eine Zweiteilung in Erinnerung rufen, welche ich zu Beginn dieses Teils der Arbeit bereits angesprochen habe, die aber erst am jetzigen Thema konkret faßbar wird:
 
 

9.2. Sehen und Merken einer Objektposition
 

Es existiert, was die Position von Objekten betrifft, ein ganz fundamentaler Unterschied zwischen dem, was wir Wahrnehmen, und dem, was davon im Gedächtnis bleibt. Dieser Unterschied ist das Resultat zweier völlig verschiedener Aufgaben:

1) Das Sehen dient unter anderem der Kontrolle unserer eigenen Körperbewegungen im Raum. Es ist die Basis für ein treffsicheres Agieren. Dazu ist eine präzise Positionsmessung der Objekte im Verhältnis zum Betrachter nötig.

2) Das Merken hingegen dient dem Wiedererkennen von Situationen und Tatbeständen. Da der Betrachter die Dinge ständig aus verschiedenen Blickwinkeln sieht, ist die Abspeicherung des Verhältnisses Objekt/Betrachter dem Wiedererkennen nicht dienlich. Was allerdings gemerkt werden muß, ist die Position der Objekte zueinander.

Die unterschiedlichen Ziele erfordern also unterschiedliche Arten der Vermessung. Die Messung von Punkten im Verhältnis zum Betrachter kann sich auf eine einfache Einteilung des Gesichtsfeldes in ein Koordinatensystem stützen. Eine solche Messung ist ohne großen Aufwand und mit hoher Präzision möglich. Dementsprechend exakt erscheint auch die Position der Dinge vor unseren offenen Augen.

Was aber bleibt von dieser klaren Welt, wenn wir die Augen schließen? Was merken wir uns? Wir merken uns natürlich nur Maße, die dem Wiedererkennen dienlich sind. Situationen zu durchschauen, um sinnvoll agieren zu können, ist die naturgegebene Aufgabe unseres Geistes. Dem Erkennen ist nur eine Art der Positionsbestimmung dienlich, nämlich das Entfernungsverhältnis der Objekte zueinander. Solche Verhältnisse sind es also, die wir uns merken.
 
 

9.3. Das Verhältnis eines Punktes zu einem Objekt
 

Es ist leicht nachzuweisen, daß wir gewohnt sind, die Position von Objekten in ihrem Verhältnis zueinander zu erfassen: Wenn ich zum Beispiel eine Münze auf einen Tisch lege und eine Person auffordere, sich ihre Position zu merken, so wird sie deren Position im Verhältnis zum Tisch verzeichnen. Ich schicke nun die Person aus dem Zimmer, verändere aber nicht die Position der Münze im Raum, sondern lediglich die Position des Tisches unter ihr. Bitte ich die Person um eine neuerliche Betrachtung der Situation, so wird sie feststellen, die Position der Münze habe sich verändert. Im Vergleich dazu würde ein Spionagesatellit, könnte er die Münze erfassen, keine Veränderung verzeichnen, denn dieser mißt ihre Position im Verhältnis zur Weltkugel.

Die Abbildung 39 zeigt ein weiteres Experiment zu diesem Phänomen. In Fig.a) sind verschiedene Objekte mit je einem Punkt abgebildet. Fig.b) zeigt die selben Objekte, allerdings wurden alle Punkte einen Millimeter nach links versetzt. Das bedeutet die Positionsveränderung aller Punkte ist gleich groß. Dem Auge erscheint sie jedoch von Objekt zu Objekt verschieden. Das Verhältnis eines Punktes zu seinem Objekt hat sich nämlich ganz unterschiedlich verändert. Die Veränderung ist abhängig von der Größe des Objektes, davon, wie nahe der Punkt bei einer Kontur gelegen ist und ob ein Verschub quer oder längs zur Kontur stattfand.
 
 



Der Punkt, der die Linie oben im Bild ungefähr halbiert, teilt sie auch in Fig.b) noch ungefähr in der Mitte. Deshalb ist hier kaum ein Unterschied wahrnehmbar. Die Linie im Bild unten wird a) im Verhältnis 10: 1 geteilt. In Fig.b) hat sich dieses Verhältnis auf 20: 1 verdoppelt. Natürlich ist dieser Unterschied sichtbar.

Aus solchen Beobachtungen kann gezeigt werden, wie das Gehirn die relative Position eines Punktes zu einem Objekt erfaßt. Die Linie ist das einfachste Beispiel. Es genügt ein einziger Wert, der das Verhältnis der beiden Längen beschreibt, die durch die Teilung der Linie entstehen. Aber auch die Bestimmung eines Punktes auf einem Objekt erweist sich nicht als allzu schwierig, wenn wir davon ausgehen, daß nach Trennung der Objekte in Teilformen ohnehin nur mehr einfache Formen vorhanden sind.

Eine objektspezifische Positionierung eines Punktes auf einer Form ist dann erreichbar, wenn es gelingt, das Objekt mit einem Raumgitter zu überziehen, das im Verhältnis zum Objekt immer gleich bleibt, unabhängig von dessen Größe und Ausrichtung auf der Bildfläche. Es brauchen dann nur noch die Koordinaten erfaßt zu werden, die der Punkt auf diesem "Objektgitter" einnimmt. Die Längsunterteilung des Gitters kann sich nur an der Längsachse des Strukturgerüstes orientieren. In Abbildung 40 wird gezeigt, wie nach dem alten Prinzip des Signalflusses eine Längs- und Querunterteilung erreicht werden kann.
 
 



Die Idee zur Erstellung des Objektgitters besteht darin, zuerst aus den Objektkonturen die Strukturgerüstachsen zu erstellen und dann mit allen vorhandenen Linien neuerlich eine Strukturgerüsterstellung durchzuführen. Je öfter der Prozeß wiederholt wird, desto feiner wird die Unterteilung. Wichtig ist, daß auch eine Unterteilung quer zu den Achsen erfolgen muß. Diese kann von den Konturwinkeln aus starten und dann ebenso mehrmals wiederholt werden. Abbildung 41 zeigt Beispiele für mögliche Objektgitter:
 


 
 

9.4. Die Bemessung der Position von Objekten zueinander
 

Natürlich wird es in der Realität selten vorkommen, daß unser visuelles System vor der Aufgabe steht, sich die Position eines Punktes auf einer Objektfläche merken zu müssen. Vielmehr geht es meist darum, sich die Position von Formen und Objekten zueinander zu merken. Wenn davon ausgegangen wird, daß jede einfache Teilform über eine Achse verfügt, reduziert sich dieses Problem darauf, zuerst Achsen und Flächen zu erfassen, und dann den Punkt zu vermerken, an dem die Achsen fremder Objekte an eine Objektfläche stoßen. So wird das visuelle System zum Beispiel die Position einer Weinflasche auf einem Tisch dadurch festlegen, daß es vermerkt, wo deren Achse den Tisch trifft. Daher versteht jeder Mensch was gemeint ist, wenn man ihn nach dem Punkt fragt, an dem die Flasche gestanden hat, obwohl es genaugenommen keinen Punkt gibt. Der angesprochene Punkt ist eine Konstruktion des visuellen Systems.
 
 



Abbildung 42 ist sogesehen als Ganzes leicht zu erfassen. Es brauchen lediglich die Strukturgerüste der Einzelobjekte gedanklich durch eine Horizontale verbunden werden. An diesem Beispiel zeigt sich auch ein Phänomen, das in natürlichen Situationen die Positionierung von Objekten zueinander erleichtert. Diese Welt ist voll von rechten Winkeln!
 
 

9.5. Die Vorherrschaft der Horizontalen und Vertikalen
 

Alles Leben des Mesokosmos muß sich an die Gesetze des Lichtes und der Gravitation anpassen, und so sind, vom Grashalm bis zum Baumstamm, vom Fisch bis hin zum Menschen, Objektachsen meist vertikal und horizontal ausgerichtet. Dieser Grundsatz trifft auch auf die Produkte des Menschen zu, auf Häuser, Möbel Maschinen usw., denn natürlich hat sich die Dominanz der Vertikalen und Horizontalen auch in unser Denken und damit in unsere Produkte übertragen.
Die Bevorzugung horizontaler und vertikaler Positionierungen läßt sich auch nachprüfen. So wird ein Betrachter, der einen kreisförmigen Zettel mit einem geometrischen Objekt erhält, diesen sofort so ausrichten, daß die Konturen und Symmetrieachsen des Objektes möglichst vertikal oder horizontal erscheinen. Erhält er nun die Aufgabe, die Lage eines Punktes zu beschreiben, so kann er die Begriffe oben und unten, sowie links und rechts verwenden.

In Architektur und Inneneinrichtung spielt vor allem die Horizontale eine wesentliche Rolle. So sind Häuser auf dem Erdboden plaziert, die Möbel auf dem Zimmerboden, der Polster am Bett, die Schreibutensilien auf der Tischoberfläche usw., Ebene auf Ebene, Schicht auf Schicht.

Neben dem "Schichtendenken" ist an dieser Aufzählung noch etwas anderes auffällig. Es gibt eine Hierarchie der Orientierung von den größten Objekten zu den kleinsten. So werden wir in der Natur von den größten Erscheinungen, wie Berge, Seen, Flüsse und Wege ausgehen, um daran den Platz einiger markanter Objekte, wie eines auffälligen Baumes oder eines Hauses festzulegen, zu denen dann die Unzahl umliegender kleiner Dinge plaziert werden kann.

Die Basis für das Wiedererkennen der Position von Objekten zueinander besteht darin, daß von den vielen möglichen räumlichen Relationen, die zwischen den Objekten bestehen, nur bestimmte erfaßt werden. Ausgegangen wird von den dominantesten Beziehungen. Es wird also sehr hierarchisch gedacht. Doch nicht immer läßt sich dieses Denken auch anwenden. In einem Wald, wo Gleiches unter Gleichem ist, können wir deshalb leicht die Orientierung verlieren. Wir verirren uns dabei aber nur in zwei der drei Dimensionen. Die Vertikale bleibt klar ersichtlich.

Eine erschreckende Art der Orientierungslosigkeit muß darin bestehen, sich in allen drei Dimensionen zu verlieren, wie dies unter bestimmten Umständen einem Astronauten passieren kann und wie dies möglicherweise auch ein Taucher im Tiefenrausch erlebt.
Ich kann mich erinnern, einmal gelesen zu haben, daß bei der Planung der Inneneinrichtung einer Raumstation anfangs gedacht wurde, man könnte aufgrund der Schwerelosigkeit die Einrichtung irgendwie im Raum plazieren. Der Tisch könnte an der Seitenwand oder das Schaltpult an der Decke montiert werden. Da die Wände einer Raumstation rund sind, führt eine so durchdachte Flächennutzung zu einer ziemlich wirren Anordnung der Gegenstände.
Man mußte aber feststellen, daß die Astronauten in einer so komplexen Umgebung niemals lernen, zielsicher und blindlings zu agieren. Die Situation wurde sogar als derartig belastend empfunden, daß man gegen alle Rationalität wieder eine Einrichtung mit einigermaßen ersichtlichen Achsen schaffen mußte.

Das optische Oben und Unten erweist sich insgesamt für die Positionsbestimmung des eigenen Körpers im Raum als viel wesentlicher als die Meldungen des Schwerkraftorgans im Ohr. Das kann jeder selbst erleben, wenn er in eine Umgebung kommt, wo die Daten der beiden Sinnesorgane in Widerspruch geraten, zum Beispiel unter Deck auf einem wankenden Schiff. Das schwindlige Gefühl, das einen dort überfällt, läßt sich interessanterweise auch ganz ohne Schaukelbewegung erreichen:

In einer Wiener Praterattraktion spaziert der Besucher durch verschiedene Räume, in denen er verblüffende Situationen vorfindet. Unter anderem gibt es ein schräggestelltes Zimmer. Die Schräglage ist nicht sehr gravierend. Mit geschlossenen Augen kann man in dem kleinen Raum ohne Schwierigkeiten umhergehen. Sobald man jedoch die Augen öffnet verliert man das Gleichgewicht. Die Optik siegt über das Schwerkraftorgan und wirft einen regelrecht um. Natürlich gibt es auch psychologische Untersuchungen zu diesem Phänomen (vergl. Atlas 1996, S. 121).

Die Stärke des Erlebnisses resultiert aus der klaren Geometrie des kubischen Raumes, die durch eine Streifentapete und einige einfache Möbel verstärkt wird. Neben den Symmetrieachsen der Objekte sind auch deren geradlinige Seitenkanten für die Raumorientierung von Bedeutung, denn auch Objektkonturen können zur Positionsbestimmung herangezogen werden.
 
 

9.6. Die Positionsbestimmung durch Verbindung von Objektkonturen
 

Die Beispiele, welche belegen, daß der Mensch nicht nur Objekte in Teilformen zerlegt, sondern mitunter auch mehrere Objekte zu größeren Einheiten verbindet, kommen weniger aus dem Bereich der Orientierung als aus der sprachlichen und bildlichen Ausdrucksweise des Menschen. Wenn man versucht, ein Bild abzuzeichnen oder zu beschreiben, so ist es notwendig, sich über die Position der dargestellten Objekte zueinander klar zu werden. Dabei werden nicht zufällig oft geometrische Grundformen als Merkhilfe verwendet. So sprechen Kunsthistoriker oft von "Dreieckskompositionen", wenn eine Gruppe von Figuren miteinander ein Dreieck bildet, man spricht von einer "Warteschlange", wenn Menschen sich in einer Reihe anstellen. Objekte in einem Bild können sich "gegenüberstehen" oder eine "Diagonale" innerhalb des Rahmens einnehmen.

Die Zusammenfassung mehrerer Objekte zu einer Gesamtform wird überall dort vollzogen, wo sie zu einer wesentlichen Vereinfachung führt. Eine Warteschlange ist zum Beispiel einfach zu erfassen, während die einzelnen Personen in ihr komplexe Gebilde sind.
Zur Erstellung eines Modells, das diesen Prozeß erklärt, kann auf ein bereits bekanntes System zurückgegriffen werden. Die Mechanismen, um eine Zahl von Einzelobjekten zu einem einfachen "Überobjekt" zu verbinden, müssen ähnlich aussehen wie jene, die bei der Zerlegung von Objekten in Teilformen besprochen wurden, allerdings erfolgt die Signalausbreitung diesmal vom Objekt nach außen und an mehreren Objekten gleichzeitig.

Verbindungen sind auch in diesem Fall überall dort sinnvoll, wo sie zu einer Einsparung von Konturecken führen. Das bedeutet, geradlinige Konturfortsetzungen oder die Konturen tangierende Verbindungslinien werden bevorzugt. Auch sind kurze Verbindungen langen vorzuziehen.
Abbildung 43 zeigt Beispiele von Objektzusammenfügungen zu einfacheren Gesamtformen. Aus dem Strukturgerüst wäre in diesen Fällen kein derartig einfaches Verbindungsschema abzuleiten gewesen.



Ein interessanter Aspekt der beiden unteren Darstellungen in Abbildung 43 ist deren Verbindung zu einem anderen bereits behandelten Thema der Datenaufbereitung, nämlich jenem, teilweise verdeckte Objekte gedanklich zu ergänzen. Um zu erkennen, wo Objekte verdeckt sind, muß vorher eine Trennung von Figur und Grund stattgefunden haben. Dann können Teile, die die gleiche Entfernung besitzen, miteinander verbunden werden. Das Modell der "Überobjekte" basiert also auf Mechanismen, die auch zur Objektergänzung stattfinden müssen.

Daß das Gehirn Verbindungskonturen schafft, die in der wahrzunehmenden Figur gar nicht vorhanden sind, gilt inzwischen als erwiesen. So reagieren bestimmte Neuronen in der visuellen Sehrinde nachweislich auf die imaginären Konturen im Kanizsa-Dreieck (Zeki 1992/93, S.34) aus Abbilung 55.

Natürlich ist es nicht leicht, ein Modell zu erstellen, das die relative Position der Objekte und Teilformen zueinander so erfaßt, daß es in allen Situationen zu eindeutigen Ergebnissen kommt. Noch größere Schwierigkeiten treten auf, wenn einkalkuliert wird, daß sich solche Positionen verändern können. Allerdings laufen solche Veränderungen oft in einer Weise ab, die für ein bestimmtes Objekt oder eine Objektgruppe charakteristisch ist. Daher ist die Bewegung innerhalb eines Objektes für das Erkennen nicht notwendigerweise ein Störfaktor, sondern wirkt vielmehr unterstützend. 
 
 

10. Eigenschaftenkapitel: Erfassen der Bewegungen von Objektteilen
 

Was hier kurz erarbeitet werden soll, ist eine Liste jener Daten, die einfach zu erfassen sind und mit deren Hilfe eine objektspezifische Beschreibung von Bewegung möglich ist. Auf ein Zellmodell werde ich verzichten, da ich der Ansicht bin, daß dieses Thema zu viele Lösungswege zuläßt, als daß eine Chance bestünde, daß ein erstelltes Modell in einer analogen Beziehung zu Prozessen im Gehirn stünde.

Objektspezifische Bewegungen gehören zu den Objekteigenschaften. Es geht hier also nicht um jene Bewegung, die ein Objekt im Verhältnis zum Betrachter ausführt, sondern darum, wie die Teile eines Objektes sich zueinander bewegen.

Dinge können an objektspezifischen Bewegungen erkannt werden. So erkennen wir zum Beispiel einen Menschen oft schon von weiter Ferne an der spezifischen Rhythmik seines Ganges. Die Beine eines altersschwachen Mannes werden sich in Relation zu seinem Körper anders bewegen als die einer jungen Frau oder eines kleinen Kindes.

Die Basis für eine objektspezifische Erfassung von Bewegungen liegt in deren Zuordnung und Gliederung. (Dieses Problem ist in diesem Text bereits bei der Frage aufgetaucht, warum Objekte überhaupt konturiert werden müssen.) Bewegte Beine gehören zum Beispiel zu einem Körper. Der Körper ist die Quelle der Bewegung, also muß im Rahmen einer objektspezifischen Erfassung die Bewegung in Relation zu ihm gemessen werden. Genauer betrachtet kommt es mitunter richtiggehend zu einer Bewegungshierachie. Die Bewegung der Finger wird im Verhältnis zur Hand, deren Bewegung im Verhältnis zum Unterarm und dessen Position im Verhältnis zum Oberarm bestimmt. Die Hierarchie entspricht dabei genau dem Strukturgerüst des Objektes.

Die Erfassung von Bewegung lehnt sich an jene Unterteilung, die im Rahmen der Formerkennung passiert ist, nicht nur an, sondern sie hilft auch bei deren Erstellung. Welche Punkte des Projektionsbildes dem selben bewegten Teil angehören und an welchen Stellen Teile zu einem Objekt verbunden sind, ist aus Bewegungsgesetzen definierbar. So kann umgekehrt auch die Bewegung genutzt werden, um ein Strukturgerüst zu erstellen. Die Basis dafür bilden die folgenden Überlegungen:

  1. Eine Objektteilform ist dadurch definiert, daß sich bei deren Bewegung der räumliche Abstand ihrer Punkte zueinander nicht ändert (3D- Raum).
  2. Alle Punkte eines Teils beginnen und beenden ihre Bewegung zur selben Zeit.
  3. Ein Gelenk ist dort, wo sich die Bewegungen der Teilform und des Körpers angleichen.
  4. Ein Objekt besteht aus der Summe seiner Teile. Das bedeutet, bereits die Zahl der beweglichen Teile ist ein wichtiges Erkennungsmerkmal.
Wie auf der Basis von so wenigen Anhaltspunkten sinnvoll Objekte an deren Bewegung erkannt werden können, wird erst verständlich, wenn Grunderfahrungen mit einkalkuliert werden, die zu einer Einschränkung der Interpretation einer Wahrnehmung führen. Dieses Thema ist eigentlich dem nächsten Teil der Arbeit zuzuordnen, wo es um die Abspeicherung der Begriffe geht. Trotzdem soll bereits hier anhand von zwei Beispielen gezeigt werden, wie beschränkt die Möglichkeiten einer sinnvollen Interpretation von wahrgenommenen Bewegungen auf diesem Planeten sind. Ich nehme an, daß ein Kind relativ früh in seinem Leben folgende zwei Grunderfahrungen macht: · Als Quelle von runden Bewegungen ist ein Lebewesen anzunehmen. Die Teile von Maschinen beschleunigen im Gegensatz dazu meist geradlinig, ihre Bewegung ist eher eckig und enthält meist Wiederholungen.

· Der Umgang mit leblosen Gegenständen ist dem Menschen eigen. Kleinere leblose Gegenstände werden also meist von einem Menschen und nicht von einem Tier bewegt.

Wenn wir die beiden letztgenannten Punkte mit einkalkulieren wird klar, warum ein bewegtes Taschenlampenlicht in der Finsternis genügt, um zu erkennen, daß sich dort ein Mensch befindet.
 
 

11. Eigenschaftenkapitel: Überblick
 

Die Modelle zur Erfassung der Objekteigenschaften sind damit abgeschlossen, und es ergeben sich einige wesentliche Fragen: Was wurde überhaupt bisher erreicht? Was liefert das Modell derzeit?

Es wäre sicherlich zu weit gegriffen, wolle man auf der derzeitigen Stufe der Verarbeitung schon von "Erkennen" sprechen. Ich würde sogar sagen, daß genaugenommen bisher nichts anderes erreicht wurde als eine besondere Art der Vermessung des zu Sehenden, eine objektspezifische Datenaufbereitung. Beschrieben werden dabei nur die Relationen zwischen den Objekten, denn es gibt keinen absoluten Fixpunkt, an dem die Dinge gemessen werden könnten.

Alle komplexen Arbeitsschritte in diesem Teil der Arbeit konnten durch Abwandlungen eines einzigen Modells erledigt werden: dem Signalflußmodell. Dieses wurde, je nach Anwendungsbereich spezifisch modifiziert. Zur Tiefenermittlung starteten die Signale von allen vorhandenen Winkeln, einschließlich der Winkel, die in Texturen vorkommen. Zur Erfassung der Achsen begann der Signalfluß an den Konturen. Zur Objekttrennung und Verbindung begann er noch selektiver nur an Konturwinkeln.

Die systemische Verwandtschaft aller Modelle läßt die Vorstellung einer evolutionalen Entwicklung zu. Die verschiedenen Signalflußsysteme könnten also auseinander hervorgegangen sein, wobei den Beginn vielleicht eine einfache Ebene zur Objekttrennung und Größenerfassung geliefert hat, und die anderen Ebenen Kopien derselben darstellen, die durch eine Reihe von Mutationen abgewandelt wurden und so neue Funktionen übernahmen.

Ein weiterer wesentlicher Aspekt der Modelle ist, daß sie eine mögliche Antwort auf eine Frage bieten, die schon seit der Antike durch die Wissenschaften schwirrt, nämlich ob der Mensch ohne oder mit Vorerfahrung auf die Welt kommt. Die Antwort lautet: Wahrscheinlich kommt er mit der Anlage auf die Welt, die Dinge von vorn herein brauchbar zu vermessen, nämlich in räumlicher und zeitlicher Relation zueinander. Ich halte es für durchaus wahrscheinlich, daß Analogien zu einigen der vorgestellten Systeme bereits genetisch mitgegeben sind und nicht erst durch Erfahrung erworben werden müssen. Wie Rupert Riedl in "Strategie der Genesis" zeigen konnte, ist abgeschriebene Information billiger als erworbene. Deshalb entwickeln Lebewesen vor allem in jenen Bereichen individuelles Lernvermögen, wo ihre Umwelt keine Vorprogrammierung zuläßt.
 
 

11.1. Erwartungen versus Ergebnisse
 

Die Datenflut aus den Netzhäuten ist in den letzten Verarbeitungsschritten auf wenige Kanäle zusammengeschrumpft, in denen zeitlich kodiert bestimmte Objekteigenschaften gesendet werden. In diesen Leitungen fließen die Struktur, Textur, Größen, Flächenausrichtung usw., welche in den Objektzentren gesammelt wurden. Weiters gibt es Kanäle, in denen die seriellen Forminformationen gesendet werden. Die Aufspaltung der Objekteigenschaften auf solche Kanäle erscheint in gewisser Weise unbefriedigend. Man stellt sich unter Wahrnehmungen etwas anderes vor als Zellsignale, doch es muß uns bewußt sein, daß im Gehirn nichts anderes vorkommt. Wenn es zum Beispiel um die Entschlüsselung der Perspektive geht, so erwartet man sich so etwas wie die Drehung von Objekten im vorgestellten Raum, man erwartet sich Prozesse, die mechanisch nachvollziehbar sind. Statt dessen wurden nur einige Zellsignale ein wenig mathematisch manipuliert. Ist es nicht Betrug, hier von "Entschlüsselung der Perspektive" zu sprechen?

Ich würde sagen, es wäre Betrug gewesen, wenn in diesem Textabschnitt von Drehungen der Objekte im vorgestellten Raum die Rede gewesen wäre. In diesem Stadium der Verarbeitung visueller Information gibt es noch keine Vorstellung. Wir befinden uns auf einer viel zu elementaren Ebene. Die Objekteigenschaften sind noch nicht einmal zu Begriffen zusammengefügt, und es fehlt auch eine andere wesentliche Basis für alle Vorstellung, das Merkvermögen und die willentliche Aktivierung des Gemerkten.

Natürlich war bisher schon oft von visuellen Vorstellungen die Rede. Es ging um deren Beschaffenheit. Über diese ist inzwischen einiges bekannt, auch wenn noch völlig unerwähnt geblieben ist, wie all die Informationen abgespeichert werden und was Vorstellungen bewußt macht.

Die Aufgabe für den nächsten Teil der Arbeit wird darin bestehen, zu beschreiben, wie die Daten aus den Kanälen abgespeichert und mit bereits vorgekommenen Eigenschaftskombinationen verglichen werden. Es wird also darum gehen, Objekte an ihren Eigenschaften zu erkennen.

Aber wahrnehmen ist mehr. Wir nehmen nicht nur eine Kombination von Eigenschaften wahr. Vor uns befindet sich eine bis in das kleinste Detail betrachtbare Welt. Allerdings muß an dieser Stelle zwischen "betrachtbar" und "erfassbar" unterschieden werden. Der Eindruck, daß die Welt vor uns bis in das kleinste Detail erfaßt würde, ist sicherlich falsch. Richtig ist vielmehr, daß wir von dem, was sich vor uns befindet, jeden kleinsten Teil, sobald unsere Aufmerksamkeit auf ihn fällt, detailliert betrachten können. Es ist uns dabei selten bewußt, daß wir zu diesem Zeitpunkt das ganze Rundherum kaum registrieren, und wenn, dann nur äußerst ungenau, also ohne Ausarbeitung der Formen, denn diese erfolgt meiner Ansicht nach seriell.

Das Verhältnis von Wahrnehmung und Vorstellung läßt sich vergleichen mit dem Vorgang, von einem Schummelzettel das abzuschreiben, was man nicht im Kopf hat. Im kurzen Moment des Betrachtens verfügen wir allerdings wirklich über das, was auf dem Zettel steht. Generell ist das Wissen, welches wir von den Dingen haben, nie so genau, wie uns die Wahrnehmung glauben läßt. Das kann jeder bei dem Versuch, ein Objekt abzuzeichnen, erfahren. Sobald wir den Blick auf das Zeichenblatt wenden, sind vom Objekt nur mehr einige Formeigenschaften übrig, und wir bemerken, daß kaum etwas erfaßt wurde. Nur durch ständiges Hin- und Herschauen ist eine genauere Zeichnung möglich. Das Gefühl, die Welt im Kopf zu haben, ergibt sich nur daraus, daß wir die Augen sechzehn Stunden am Tag offen haben. Über jenen Teil davon, den wir uns merken, verfügen wir in einer anderen Weise als über jene Fülle, die wir wahrnehmen. Wir können uns aus dem Bereich dessen, was wir uns von der Welt visuell zu merken vermögen, Teile aussuchen, die wir dann innerlich "sehen", wobei uns aber bewußt ist, daß das Bild selbst produziert wurde. Meiner Ansicht nach entspricht dieses Kramen im Speicher der Gestaltbegriffe dem, was allgemein als "Vorstellung" bezeichnet wird.

Die Abspeicherung von Gestaltbegriffen ist für das Erkennen absolut notwendig. Auch Tiere müssen über einen solchen Speicher verfügen. Ein von gegenwärtigen Umweltreizen unabhängiger, bewußter Zugang zu diesem Speicher, wie er für Vorstellung notwendig ist, kann bei Tieren nur begrenzt angenommen werden. Er ist für das Erkennen dessen, was sich gegenwärtig vor den Augen befindet, keineswegs notwendig, ja in dieser Hinsicht sogar hinderlich. Trotzdem liegt hier der Schlüssel zum Erfolg des Wesens "Mensch". Denken ist Vorstellung. In der Vorstellung entwickeln wir Theorien und Pläne. Vorstellung dürfte aber auch die Basis für jedes bewußte Erleben und Empfinden sein. Vorstellungen sind zeitlos. Bewußtsein schafft eine Überbrückung der Zeit und verbindet momentane Erlebnisse mit vergangenen Erfahrungen. Ohne diese Verbindung ist kein bewußtes Empfinden der Gegenwart denkbar.

Deshalb ist die Welt unserer Vorstellungen wertvoll. Forscher, Denker und Künstler verbindet, daß sie sich überdurchschnittlich stark darum bemühen, diese Welt zu erweitern. Aber auch ein Gespräch unter Nachbarn, oder der Plan eines Gartenzaunes entspringen der visuellen Vorstellung. So gesehen sind wir bereits vollkommen umgeben von unseren visuellen Produkten. Es ist naheliegend, daß diese Produkte in irgendeiner Form dem menschlichen Vorstellungsvermögen entsprechen. Wenn das Erkennen mit Grundformen und Symmetrieachsen arbeitet, so müßten sich diese Elemente über die Vorstellungen auch auf die Gegenstände übertragen, die der Mensch schafft.

Und so ist es! Die Produkte, die der Mensch schafft, sind meist geradlinig, glatt und symmetrisch. Allerdings kann das auch damit begründet werden, daß sie so ihren Zweck besser erfüllen. Auf eine Gruppe von Formen trifft dieses Argument jedoch nicht zu: Kunstwerke. Sie dienen vor allem dazu, Vorstellungen zu speichern und im Menschen jederzeit wieder auszulösen. Sie sind für mich nichts anderes als zu Material gewordene Vorstellungen.

Vorstellungen bestehen aus Gestaltbegriffen. Gestaltbegriffe sind die Basis für das Wiedererkennen von Objekten. Sie verkörpern die Summe aller Gestalteigenschaften. So liegt die Vermutung nahe, daß die Trennung der Eigenschaften, welche das Wahrnehmungsmodell bisher erbracht hat, sich im bildnerischen Ausdruck des Menschen widerspiegeln. Dieser Überlegung folgend will ich nun versuchen, Bilder zu nützen, um die dargestellten Modelle zu stützen.
 
 
 
Weiter im Text*
Zum Inhaltsverzeichnis*

 

  
Relative Intelligenz
von Rainer K. Liedtke
Sonstige Artikel:
Sämtliche Märchen
Kompendium der Psychiatrischen Pharmakotherapie
Molekularbiologie für Dummies: Der Stoff, aus dem das Leben ist
von Petra Neis-Beeckmann
Wallpaper City Guide: Hamburg (Wallpaper City Guides)
von Editors of Wallpaper Magazine
 
   
 
     

Back to the topic site:
StudyPaper.com/Startseite/Computer/Informatik/Bioinformatik

External Links to this site are permitted without prior consent.
   
  Home  |  deutsch  |  Set bookmark  |  Send a friend a link  |  Copyright ©  |  Impressum