Statistische Aspekte von Suffixbäumen natürlichsprachiger Texte

Felix Golcher
2005
Abschlussarbeit, vorgelegt am
Centrum für Informations und Sprachverarbeitung München der
Geschwister-Scholl-Universität München

Einleitung:

In der vorliegenden Arbeit stelle ich eine sprachstatistische Größe vor, die in sehr unterschiedlichen natürlichen Sprachen ein überraschend uniformes Verhalten zeigt. In nicht natürlichsprachigen Texten tritt dieses Phänomen dagegen nicht auf.

Die untersuchte Größe basiert auf dem Begriff des Suffixbaumes: Der Suffixbaum eines Textes ist eine baumartige Indexstruktur, die gewöhnlich für sehr schnelle Suchverfahren in großen Texten verwendet wird. Daneben aber erlaubt ein Suffixbaum unmittelbaren und vollständigen Zugriff auf die Information, welche Zeichenketten im zugrundeliegenden Text vorkommen und wie sie mit anderen Zeichenketten kombiniert werden.

Die Zahl der Verzweigungen im Suffixbaum gibt Auskunft über das Ausmaß an Wiederholungen im zugrundeliegenden Text: Viele Verzweigungen stehen für viele Wiederholungen, wenige Verzweigungen für wenige Wiederholungen.

Ich untersuche in dieser Arbeit die Zahl der Verzweigungen in Suffixbäumen bezogen auf die Länge des eingelesenen Textes. Diese Größe bezeichne ich mit V. Die zentrale Aussage der vorliegenden Arbeit ist die Beobachtung, dass V für natürlichsprachige Texte eine Konstante darstellt. Ihr Wert schwankt von Sprache zu Sprache nur unerheblich und ist auch von der Textlänge im Wesentlichen unabhängig.

Ich verwende Daten aus insgesamt 21 Sprachen, die vier verschiedenen Sprachfamilien angehören und mit einem breiten Spektrum an qualitativ unterschiedlichen Schriftsystemen geschrieben werden.

Das gleichförmige Verhalten der Größe V vergleiche ich mit dem Zipfschen Gesetz, einem schon seit langem bekannten sprachstatistischen Phänomen, das sich in allen natürlichsprachigen Texten ausreichender Länge findet. Der Vergleich gibt Einblick in die Bedeutung der beiden Phänomene und begegnet dem Verdacht, dass die Konstanz von V lediglich eine neue Manifestation des Zipfschen Gesetzes ist.

Im Verlauf der Arbeit wird V auch für verschiedene Klassen nicht natürlichsprachiger Texte untersucht: Für rein zufällig erstellte Texte, für Programmcode und für den Output eines evolutionär arbeitenden Computerprogramms, mit dem sich Texte mit bestimmten statistischen Merkmalen erzeugen lassen. Es ergeben sich jeweils eindeutige qualitative und quantitative Unterschiede zwischen dem Verhalten von V für natürlichsprachige und nicht natürlichsprachige Texte.

Es folgt ein kurzer Überblick über den Inhalt der Arbeit.

In Kapitel 2 wird der Begriff des Suffixbaumes präzisiert und anschaulich gemacht. Es folgt die Definition der Größe V. Dieser einleitende Teil wird von einer Übersicht über die untersuchten Sprachen abgeschlossen.

Bemerkungen zur Methodik und die grundlegenden experimentellen Ergebnisse finden sich in Kapitel 3. Die Resultate werden kritisch diskutiert und ihre Implikationen in einem kurzen Abschnitt (Kapitel 3.5) zusammengestellt.

In Kapitel 4 wird der oben angesprochene Vergleich mit dem Zipfschen Gesetz durchgeführt. Kapitel 5 untersucht die Größe V und das Zipfsche Gesetz für zufällig erstellte Texte. Das Verhalten von V für Programmcode behandelt Kapitel 6.

Kapitel 7 enthält eine Zusammenfassung der experimentellen Ergebnisse und der Schlussfolgerungen, die man aus ihnen ziehen kann.

In den Anhängen am Schluss der Arbeit finden sich ergänzende Untersuchungen und detaillierte Informationen zu den untersuchten Sprachen, die für das grundlegende Verständnis der Arbeit nicht entscheidend sind.

Eine klärende Anmerkung ist angebracht: In dieser Arbeit bezeichnet der Terminus "natürliche Sprache" ohne Ausnahme natürliche Sprachen in ihrer schriftlichen Form.

Download PDF