Felix Golcher
2005
Abschlussarbeit, vorgelegt am
Centrum für Informations und Sprachverarbeitung München der
Geschwister-Scholl-Universität München
Einleitung:
In der vorliegenden Arbeit stelle ich eine sprachstatistische Größe vor, die in sehr unterschiedlichen natürlichen Sprachen ein überraschend uniformes Verhalten zeigt. In nicht natürlichsprachigen Texten tritt dieses Phänomen dagegen nicht auf.
Die untersuchte Größe basiert auf dem Begriff des Suffixbaumes: Der Suffixbaum eines Textes ist eine baumartige Indexstruktur, die gewöhnlich für sehr schnelle Suchverfahren in großen Texten verwendet wird. Daneben aber erlaubt ein Suffixbaum unmittelbaren und vollständigen Zugriff auf die Information, welche Zeichenketten im zugrundeliegenden Text vorkommen und wie sie mit anderen Zeichenketten kombiniert werden.
Die Zahl der Verzweigungen im Suffixbaum gibt Auskunft über das Ausmaß an Wiederholungen im zugrundeliegenden Text: Viele Verzweigungen stehen für viele Wiederholungen, wenige Verzweigungen für wenige Wiederholungen.
Ich untersuche in dieser Arbeit die
Zahl der Verzweigungen in Suffixbäumen bezogen auf die Länge des
eingelesenen Textes. Diese Größe bezeichne ich mit
Ich verwende Daten aus insgesamt 21 Sprachen, die vier verschiedenen Sprachfamilien angehören und mit einem breiten Spektrum an qualitativ unterschiedlichen Schriftsystemen geschrieben werden.
Das gleichförmige Verhalten der Größe
Im Verlauf der Arbeit wird
Es folgt ein kurzer Überblick über den Inhalt der Arbeit.
In Kapitel 2 wird der Begriff des Suffixbaumes
präzisiert und anschaulich gemacht. Es folgt die Definition der
Größe
Bemerkungen zur Methodik und die grundlegenden experimentellen Ergebnisse finden sich in Kapitel 3. Die Resultate werden kritisch diskutiert und ihre Implikationen in einem kurzen Abschnitt (Kapitel 3.5) zusammengestellt.
In Kapitel 4 wird der oben angesprochene Vergleich mit dem
Zipfschen Gesetz durchgeführt. Kapitel 5 untersucht
die Größe
Kapitel 7 enthält eine Zusammenfassung der experimentellen Ergebnisse und der Schlussfolgerungen, die man aus ihnen ziehen kann.
In den Anhängen am Schluss der Arbeit finden sich ergänzende Untersuchungen und detaillierte Informationen zu den untersuchten Sprachen, die für das grundlegende Verständnis der Arbeit nicht entscheidend sind.
Eine klärende Anmerkung ist angebracht: In dieser Arbeit bezeichnet der Terminus "natürliche Sprache" ohne Ausnahme natürliche Sprachen in ihrer schriftlichen Form.
Download PDF