Zurück zur Hauptseite


Inhaltsübersicht:

Organisation von Wissensspeichern

Besonderheiten der Organisation des Wissens-Speichers Internet

Achtung Lemmafalle

Achtung: Personalisierung der Abfragen

Unterschiede zwischen konventionellen Lexika im Printmedium und dem Internet


Es ist ein bisschen wie beim Fischen. Da muss man Kenntnisse haben über

  • die Fische (Egli und Hechte beissen auf Köderfische; Brachsmen mögen Brot; Schleien Würmer ...)
  • die Gewässer (Felchen leben in Seen, nicht im Gebirgsbächen)
  • die Fangmethoden (Angelrute, Reuse, Harpune usw.)

Analog muss man bei der Suche in Wissensspeichern Bescheid wissen über

  • die Art des gesuchten Dokuments (Text, Bild, publiziertes Buch, Archivmaterial, ...)
  • die Organisation des Speichermediums (Internet, Deep Web, Bibliothek, ...)
  • die Suchtechniken (systematisches Verzeichnis, alphabetischer Katalog, Blättern in einer Liste, Ganzschriftlektüre ...)

Und Geduld braucht’s auch bei beidem.


Die Art, wie ein Wissensspeicher organisiert ist, bestimmt, wie man darin etwas suchen (und allenfalls finden) kann.

Von der Welt ins Verzeichnis… (Organisation von Wissensspeichern)

Die Welt ist alles, was der Fall ist. Unser Wissen davon (das gesellschaftliche Wissen einer Kultur, Ethnie zu einem bestimmten historischen zeitpunkt, das individuelle Wissen) ist ein Teil davon.

Werden Teile dieses Wissens erkundet und in Medien (Bücher, Filme, Schallplatten usw.) gepackt, so geschieht eine Reduktion von Komplexität; denn es werden Wissens-Gebiete ausgegrenzt, Dinge ausgeblendet, Vereinfachungen gemacht, Komplexes wird in eine lineare Reihenfolge gebracht.

Grösse einer Universitätsbibliothek (Zentralbibliothek Zürich heute) ca. 4,7 Millionen Bücher; Grösse einer Institutsbibliothek (Beispiel: Deutsches Seminar der Uni Zürich Ende 2005): 52'247 Bücher aufgestellt auf 1’761 Laufmeter.

Diese Menge ist immer noch unüberschaubar. Die Komplexität wird weiter dadurch reduziert, dass die einzelnen Elemente eine ›Adresse‹ bekommen: Sie werden beschlagwortet nach Autoren, Titelstichworten, Schlagworten – von jedem führt (mittels der Signatur) ein Pfad zum zugehörigen Buch. Ein solcher Katalog ist ein vereinfachtes Abbild der Bibliothek. – Ebenso haben die Artikel in Enzyklopädien am Anfang ein Lemma (Mehrzahl: Lemmata), sonst müsste man ja bei jeder Abfrage alle 24 Bände des Brockhaus durchlesen.

Bei grossen Beständen ist auch ein solcher Katalog noch unüberschaubar (früher gab es in Bibliotheken Katalogsäle mit Regalen mit Hunderten von Schubladen, in denen die Kärtchen mit den Büchertiteln abgelegt waren) und muss seinerseits organisiert werden. Dabei gibt es grundsätzlich zwei Verfahren

  • alphabetische Anordnung der Schlagwörter, Autoren, Büchertitel
  • systematische Anordnung der Schlagwörter. Diese Methode kennen wir meist in kleineren Bibliotheken, die nach dem DEWEY-System angelegt sind, zum Beispiel:
    5 Naturwissenschaft und Mathematik
    51 Mathematik
    52 Astronomie
    521 Theoretische Astronomie
    522 Praktische Astronomie
    523 Beschreibende Astronomie
    523.3 Mond
    523.34 Oberfläche, Berge, Ebenen
    523.38 Mondfinsternisse

Jetzt ist Übersicht gewonnen. Die 24 Buchstaben lernen wir früh in einer standardisierten Abfolge auswendig; Primarschüler wissen, wie man Wörter nach dem zweiten Buchstaben unterordnet. Die Dewey Decimal Classification passt in ein einziges Buch.

Die folgende Grafik stammt von P.Michel, der erst viel später bemerkt hat, dass Paul OTLET in seinem »Traité de Documentation« bereits 1934 eine beinahe identische gezeichnet hat. Hier ist sie eingescannt.

(Dieselbe Graphik als PDF-File mit Text)

nach oben

…und vom Verzeichnis zurück in die Welt (Recherche)

In der Grafik sind wir bis jetzt jetzt von unten nach oben geschritten ... und jetzt verfolgen wir sie von oben nach unten:

Ich habe eine Frage. Die muss – wenn ich einen herkömmlichen Wissensspeicher benutze –

  • bei einem alphabetischen Verzeichnis recht präzis sein (nur schon bei einem französischen Enzyklopädie finde ich unter ›Mond‹ nichts, ich muss unter ›Lune‹ nachschlagen); mit vagen Vorstellungen (es gab doch da so einen Maler, der teilte das Bild in Rechtecke verschiedener Grösse, die er teilweise farbig ausmalte – wie hiess der?) kommt man nirgends hin.
  • bei einem systematischen Verzeichnis muss ich wissen, wie z.B. Mr. Dewey die Welt geordnet hat (wenn ich mich über Kannibalen orientieren will, muss ich wissen, ob er dieses Thema unter ›fremde Völker, Kriegssitten‹ abgelegt hat oder unter Kochrezepten).

Mit Verstand und Glück finde ich einen Eintrag im Katalog mit einer Signatur, die mich in der Bibliothek zum Regal und dort zum Buch führt,

und darin öffnet sich dann die Welt – jedenfalls soweit dieses Buch sie erfasst hat. Aber vielleicht führt es ja weiter zu andern Büchern. In den seltensten Fällen gibt der Autor zu, was er nicht herausgefunden hat.

nach oben

Besonderheiten im Internet

Der Wissens-Speicher Internet ist auf verschiedene Art organisiert. Dies ist bei der Recherche zu berücksichtigen. Teils ergeben sich Vereinfachungen (Quick & Dirty-Suche), teils Komplikationen.

Beschaffenheit des gesuchten DokumentsProblematikTechniken des Benutzers bei der Suche
Verfasser-NamenNamen sind einigermaßen stabil; Probleme bei Transkription aus anderen Alphabeten.Wer den Namen des Verfassers kennt, kann leicht danach suchen.
Es enthält vom Autor bzw. Verlag angefügte Schlagwörter (≠Stichwörter)Schlagwörter sind von der Produzenten-Benützer-Gemeinschaft anerkannte, definierte (in einem Thesaurus gespeicherte) Termini.Wer die Termini des Thesaurus kennt (Spezialwissen), kann leicht danach suchen.
Speicher enthält zusätzliche Findehilfen, z.B. taxonomische Ordnung mittels DDC.Problematik aller Taxonomien!Absuchen muss gelernt sein.
Es enthält Text.Text = natürlichsprachliche Wörter, konjugiert, flektiert; das heisst nicht auf die Grundform (Infinitiv, Nominativ) gebracht.Erst zu Zeiten der OCR-erfassten Texte kann man mit Volltextsuche einen Text absuchen; aber nur nach dem genauen String.
Es enthält nicht-textliche Bestandteile (Bilder, Musik, …). Bildsuche ist heute technisch noch kaum realisierbar.
Es sind ihm durch Benutzer Tags (Etiketten) zugewiesen worden (social tagging).Vgl. folksonomyDer Benutzer fischt im Trüben, weil er nicht weiss, welche Tags andere gesetzt haben.
In einem html-Dokument gibt es Titel-Hierarchien: <h1>, <h2>, usw., die für das Ranking bei Google eine Rolle spielen.html-Dokumente enthalten eine gewisse ›Gewichtung‹.Benutzer trifft zuerst auf die Wörter (≠Termini), welche der Suchroboter im Dokument ›zuoberst‹ findet.
Das Dokument ist von den Suchrobotern nicht erfasst worden.Problem des ›deep web‹Benutzer muss andere Werkzeuge kennen wie z.B. Bibliothekskataloge.

nach oben


Achtung ›Lemma-Falle‹

Als »Lemma« bezeichnen wir das Stichwort, unter dem ein Artikel in einer Enzyklopädie aufgeführt wird; die Adresse, unter der ich die Daten im Speicher finde. Lemmata werden in einer herkömmlichen Enzyklopädie von der Redaktion gesetzt und verwaltet; seit 1704 (im deutschen Sprachraum) setzt sich deren alphabetisch sortierte Anordnung durch.

(A) Bereits die natürliche Semantik der Sprache des Datenspeicher/Benutzers verstellt den Blick.

Wir glauben naiverweise, dass dasjenige eine ›Entität‹ sei, wofür wir ein Wort haben. (Ernst Leisi. Der Wortinhalt, 1952: Hypostasierung). Schon ein Vergleich der Schulsprachen lehrt, dass dies keineswegs so ist: französisch terre, monde, sol — deutsch Erde, Land, Welt; englisch control — deutsch: Steuerung, Regelung, Bedienung.

Das ist bei Dingen, die eine deutliche aussersprachliche Struktur haben (der Mond, der afrikanische Elefant, Louis XIV., Natriumchlorid) unproblematisch. Man überlege sich indessen, wo in einer nicht-deutschsprachigen Enzyklopädie ›Dinge‹ abgespeichert sind wie Bildung — französisch formation, éducation, connaissances, Adj: cultivé(e), lettré(e)

»Die Worte liegen uns im Wege! – Überall, wo die Uralten ein Wort hinstellten, da glaubten sie eine Entdeckung gemacht zu haben. Wie anders stand es in Wahrheit! – sie hatten an ein Problem gerührt und indem sie wähnten, es gelöst zu haben, hatten sie ein Hemmniss der Lösung geschaffen. – Jetzt muss man bei jeder Erkenntniss über steinharte verewigte Worte stolpern, und wird dabei eher ein Bein brechen, als ein Wort.« (Nietzsche, »Morgenröthe« I, 47)

Eine Folge dieser Vorstellung ist, dass wir bei einer alphabetisch geordneten Enyzklopädie fälschlicherweise glauben, sie enthalte zwischen A und Z (von alpha bis omega) ALLES Wissen.

(B) Wenn wir eine Enzyklopädie nur nach den Lemmata abfragen, so können uns Aussagen entwischen, die durchaus enthalten sind, aber unter anderen Lemmata abgespeichert wurden.

Beispiele aus historisch abgelegenen Epochen sind besonders aufschlussreich, weil wir hier mit einem fremden Blick schauen.

Beispiel: Das »Damen Conversations-Lexicon« von C. Herloßsohn (1834–38; 2.Aufl. 1846) kennt zwar einen Artikel »Emancipation« , behandelt dort aber nur die Losspechung von Sklaven oder der Katholiken in Irland, nicht die Frauen. Es finden sich indessen viele emanziptorische Gedanken in den einzelnen Artikel über Länder, z.B. »Türkei (Frauen)« oder »China (Frauen)« sowie im Artikel »Adel«, wo erwähnt wird, dass nach dem salischen Gesetz Frauen aus der Erbfolge ausgeschlossen bleiben, wodruch sich die Männer an den Frauen vergangen hätten.
Beispiel: Nationenstereotypen finden sich im »Damen Conversations-Lexicon« auch an versteckten Orten, z.B. im Artikel über den »Walzer«, von vom graziösen Frankreich und dem steifen England die Rede ist.
Beispiel: In der Enzyklopädie von Krünitz gibt es keinen Artikel zur Kinderarbeit. Aber selbstverständlich wird sie allenthalben erwähnt, z.B. heisst es im Artikel »Nähnadel« (Band 101 (1806) , S. 4), dass bei deren Verfertigung viele Arbeiten anfallen, und dabei werden Kinder beschäftigt.

Man sage nicht, mit der heutzutage möglichen Volltext-Suche sei das Problem behoben. Zwar können wir so innerhalb der einzelnen Artikel suchen, umgehen also unter Umständen den grobschlächtigen lemmatisierenden Zugriff der Lexikon-Redaktion, aber hinter das Problem (A) kommen wir auch so nicht.

nach oben


Achtung: Personalisierung der Abfragen

Die Personalisierung anhand des Suchverlaufs bedeutet: es werden Suchen, die der Benutzer ausgeführt habt, und Ergebnisse, auf die er geklickt hat, gespeichert und bei neuen Suchabfragen mitbedacht. Dies geschieht nicht nur mittels Cookies oder im Cache auf dem Rechner des Benutzers (was er ja wieder löschen könnte), sondern bei Google selbst, das ein User-Profil erstellt. Das sei sehr hilfreich, denn der Benutzer komme so viel schneller zu den Dingen, für die er sich ja immer schon interessiert hat. Google sagt: »Durch die Personalisierung Ihrer Ergebnisse auf Grundlage Ihres Suchverlaufs hoffen wir, Ihnen die nützlichsten, relevantesten Inhalte für Ihre Suche zu liefern.« – Aber wollen wir denn immer nur in unseren eigenen 4 Wänden suchen? Es ist dies eine »tückische Hilfe«, denn auf diese Weise wird immer mehr der fruchtbare Zufall, der Serendipity-Effekt ausgeschlossen. Vgl. dazu den hervorragenden Artikel von Miriam Meckel (NZZ 20.9.2011, S.58 = http://www.nzz.ch/nachrichten/kultur/medien/rettet-den-zufall-1.12576142).


Unterschiede zwischen herkömmlichen Lexika, Enzyklopädien, Bibliotheken und den modernen webgestützten Datenbanken und Suchrobotern

  • Information overload ist nichts Neues. Bereits im Spätmittelalter und im 16. Jahrhundert gab es Wissensspeicher, die von einer einzelnen Person nicht mehr ganz durchgelesen werden konnten.
    • Zedlers »Großes vollständiges Universal-Lexikon aller Wissenschaften und Künste« (1732–1754) umfasst 64 Folio-Bände + 4 Supplementbände; 750’000 Artikel auf 62’571 Seiten; es ist das grösste zu Ende geführte deutsche Lexikon.
    • Johann Georg Krünitz (1728–1796), »Ökonomische Enzyklopädie oder allgemeines System der Land-, Haus- und Staats-Wirthschaft in alphabetischer Ordnung«, 242 Bände, Berlin 1786–1858.
    • Ersch & Gruber, »Allgemeine Enzyklopädie der Wissenschaften und Künste«, 1818–1889, 168 Bände
    • Vgl. die Liste historischer Enzklopaedien
  • Neu bei der Recherche im World Wide Web ist die Möglichkeit der Volltextsuche. Man kann nach Wörtern innerhalb der gespeicherten Dokumente suchen. (Früher hätte man eben den ganzen Brockhaus durchlesen müssen.) Aber Achtung: Wörter in echten Texten sind (in indoeuropäischen Sprachen) konjugiert, flektiert; das heisst nicht auf die Grundform (Infinitiv, Nominativ) gebracht. Google findet Lämmer nicht, wenn man Lamm eingibt.
  • Die Volltextsuche ist praktisch beim Auffinden von Zitaten. (Zum Satz "parcere subiectis et debellare superbos" findet Google am 23.2.09 in 0.58 Sekunden etwa 5'020 Einträge – in der ante-retialen Zeit hätte man das kaum gefunden.) – Aber: Wer ganze Texte absucht, profitiert nicht vom Expertenwissen der Leute, die eine Wissenselement intelligent beschlagwortet haben.
  • Dabei ist sehr praktisch die Möglichkeit, nach Vereinigungs- (Eros OR Cupido) und Schnittmengen (Eros AND Mythologie) zu suchen oder gewisse Wörter willkürlich auszuschliessen (NOT Erotik).
  • Nur scheinbar neu ist die Vernetzung des Web mittels »Links«. Bereits die Encyclopédie (1751) enthielt sog. »Renvois« (= Querverweise). Aufgepasst: Links sind keine echten Assoziationen; sie sind vom Autor der Website gesetzt; wir folgen nur seinen Hinweisen. Freilich klickt jeder User andere an, das heisst: die User bauen sich ihre eigenen Komposit-Traktate selbst zusammen.
  • Früher brüteten Teams jahrelang an der Redaktion von Enzyklopädien; die Artikel waren sorgfältig überprüft und aufeinander abgestimmt – dies ist allerdings noch keine Gewähr für Richtigkeit. Im Internet kann jeder Idiot seinen Ramsch auf einen Server schmeissen.
  • Die Flüchtigkeit des Web. Schätzungen: Die Halbwertszeit von Links beträgt 55 Monate; die Lebenszeit eines Dokuments im Schnitt 2,5 Monate. Auch im Gutenberg-Zeitalter mussten Enzyklopädien gelegentlich auf einen neueren Kenntnisstand gebracht werden. Man hat das – allerdings in gemächlicherem Tempo – alle Jahre mit Supplementbänden realisiert.
  • Die alphabetische Ordnung oder die der Dezimalklassifikation sind einsichtig; ihre Grenzen sind bekannt. Wie der Page-Rank-Algorithmus von Google es schafft, gewisse Funde ganz oben zu placieren, und was er willkürlich ausblendet, ist ein Firmengeheimnis.
  • Eine Enzyklopädie aus Papier war absehbar. 24 Bände. Was nicht drin steht, gibt es nicht. – Das Web ist unabsehbar. Terabytes. Millionen von Sites. Wir merken immer wieder, dass wir nicht die ersten und einzigen sind. Wer kennt die merküwrdige Pflanze BOROMETZ, von der man einst glaubte, dass als deren Früchte kleine, wollene Lämmchen wachsen? Google findet 3'910 Einträge (23.2.09). Das entmutigt, untergräbt den Willen, selbst etwas Neues herauszufinden.
  • Das Web fördert die falsche Mentalität, alles Wissen sei ›irgendwo abgelegt‹ und man finde es mit Google. Das stimmt aus verschiedenen Gründen nicht (Reifikation).
  • Die Wikipedia macht einsichtig, dass Wissen stets im Wandel ist. Wr sich als sachverständig fühlt, kann Artikel überschreiben und setzt sich der internationalen Gemeinschaft zur Kritik aus. In der Rubrik ›Diskussion‹ lässt sich das Schicksal der Überarbeitungen verfolgen. Das stimmt optimistisch.

nach oben


Update 9.8.12 pm

Page last modified on August 07, 2012, at 08:35 PM