Gefunden, und dann?
Was macht die Suchmaschine, wenn der Crawler da war und ein Dokument gefunden hat? Was geschieht mit dem Dokument, bevor es in den Suchmaschinenindex aufgenommen wird? Die Antworten auf diese Fragen sind komplex, aber die wichtigsten Vorgänge sollen hier erläutert werden. Ein Verständnis dieser Vorgänge liefert uns Hinweise auf mögliche Optimierungen, weil wir unsere Seiten so strukturieren können, daß die nachfolgenden Vorgänge schnell, fehlerlos und effektiv ablaufen. Dokumente die diese Prozesse ohne Probleme durchlaufen werden bei Suchabfragen sicherlich besser gewichtet als Dokumente welche Fehler beinhalten.
Grundsätzliche Dokumentverarbeitung
Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format erzeugt werden. Hierzu wird das Dokument von allen Bestandteilen “befreit”, die für die Indexierung keine Rolle spielen. Es werden vor alle Bestandteile entfernt, welche keinen “Inhalt” haben. So werden HTML Programmierungen ebenso entfernt wie JavaScript. (Daraus kann man ableiten, dass JavaScript nicht suchmaschinenfreundlich ist.)
Text aus HTML Tags
Anschließend werden innerhalb des Dokumentes Texte extrahiert, welche innerhalb bestimmter Tags stehen. So wird beispielsweise der Titel des Dokumentes aus dem <title> Tag extrahiert, wichtige Informationen bzw. Überschriften aus den <h1> bis <h6> Tags und Inhalte aus den <p> Tags.
Aus einem Dokument mit folgender Struktur:
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN”
“http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml” xml:lang=”de” lang=”de”>
<head>
<meta http-equiv=”content-type” content=”text/html; charset=utf-8″ />
<title>Suchmaschinenfreundliche Dokumente</title>
<meta name=”generator” content=”BBEdit 8.7″ />
</head>
<body>
<h1>Hier ist die Überschrift</H1>
<p>Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder
Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der
Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format
erzeugt werden.</p>
</body>
</html>
extrahiert der Parser folgendes:
Dokumenttitel: Suchmaschinenfreundliche Dokumente
Überschrift1: Hier ist die Überschrift
Inhalt: Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder
Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der
Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format
erzeugt werden.
Was wird gespeichert?
Die gefundenen Informationen aus den Tags werden gespeichert und sind ein wesentlicher Bestandteil bei der Anzeige von Suchergebnissen. Daraus können wir bereits ableiten, daß die Standardkonforme HTML Auszeichnung sehr wichtig ist. Sind die Tags fehlerhaft werden die darin enthaltenen Informationen nicht berücksichtigt. Andererseits können wir bei richtigem Einsatz der Tags Vorteile erzielen.
Wie mit den enthaltenen und gespeicherten Informationen weiter verfahren wird, folgt im nächsten Teil.
Artikel die auch interessant sein könnten:







