4. März 2008 0 Kommentare

Gefunden, und dann?

Was macht die Suchmaschine, wenn der Crawler da war und ein Dokument gefunden hat? Was geschieht mit dem Dokument, bevor es in den Suchmaschinenindex aufgenommen wird? Die Antworten auf diese Fragen sind komplex, aber die wichtigsten Vorgänge sollen hier erläutert werden. Ein Verständnis dieser Vorgänge liefert uns Hinweise auf mögliche Optimierungen, weil wir unsere Seiten so strukturieren können, daß die nachfolgenden Vorgänge schnell, fehlerlos und effektiv ablaufen. Dokumente die diese Prozesse ohne Probleme durchlaufen werden bei Suchabfragen sicherlich besser gewichtet als Dokumente welche Fehler beinhalten.

Grundsätzliche Dokumentverarbeitung

Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format erzeugt werden. Hierzu wird das Dokument von allen Bestandteilen “befreit”, die für die Indexierung keine Rolle spielen. Es werden vor alle Bestandteile entfernt, welche keinen “Inhalt” haben. So werden HTML Programmierungen ebenso entfernt wie JavaScript. (Daraus kann man ableiten, dass JavaScript nicht suchmaschinenfreundlich ist.)

Text aus HTML Tags

Anschließend werden innerhalb des Dokumentes Texte extrahiert, welche innerhalb bestimmter Tags stehen. So wird beispielsweise der Titel des Dokumentes  aus dem <title> Tag extrahiert, wichtige Informationen bzw. Überschriften aus den <h1> bis <h6> Tags und Inhalte aus den <p> Tags.

Aus einem Dokument mit folgender Struktur:

<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN”
“http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml” xml:lang=”de” lang=”de”>
<head>
<meta http-equiv=”content-type” content=”text/html; charset=utf-8″ />
<title>Suchmaschinenfreundliche Dokumente</title>
<meta name=”generator” content=”BBEdit 8.7″ />
</head>
<body>
<h1>Hier ist die Überschrift</H1>
<p>Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder
Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der
Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format
erzeugt werden.</p>
</body>
</html>

extrahiert der Parser folgendes:

Dokumenttitel: Suchmaschinenfreundliche Dokumente

Überschrift1: Hier ist die Überschrift

Inhalt: Findet der Crawler ein Dokument, so wird dieses genommen wie es ist. Der Crawler kann weder
Inhalte, Strukturen oder Links identifizieren. Diese Aufgabe übernimmt ein anderes Programm: der
Parser. Zuerst muss aus der reinen Zeichenfolge des Dokumentes ein strukturiertes Format
erzeugt werden.

Was wird gespeichert?

Die gefundenen Informationen aus den Tags werden gespeichert und sind ein wesentlicher Bestandteil bei der Anzeige von Suchergebnissen. Daraus können wir bereits ableiten, daß die Standardkonforme HTML Auszeichnung sehr wichtig ist. Sind die Tags fehlerhaft werden die darin enthaltenen Informationen nicht berücksichtigt. Andererseits können wir bei richtigem Einsatz der Tags Vorteile erzielen.

Wie mit den enthaltenen und gespeicherten Informationen weiter verfahren wird, folgt im nächsten Teil.

Artikel die auch interessant sein könnten:

  1. Was ist eine Suchmaschine?

Tags:

Leave a Reply

Kommentarregeln, bitte beachten:

"Namen" welche Keywörtern oder Firmennamen entsprechen sind hier nicht erwünscht, weil ich mit Menschen diskutieren möchte. Ebenso unerwünscht ist die Verlinkung auf reine Affiliateseiten. Derartige Verlinkungen erhalten ein freundliches Nofollow oder die Kommentare werden vor bereit Veröffentlichung entfernt. Immer Nofollow gibt es für andere Blogger, welche bei sich selbst nur Nofollow-Links verteilen ;-)