Hilfe
Hinter netluchs.de steht ein mächtiger Volltextindex. Dieser wird über
die Eingabe eines Suchbegriffs in das Eingabefeld auf der Startseite
und den nachfolgenden Click auf den "Suchen"-Button
ausgelöst. Nachfolgend erscheint die Ergebnisseite. Diese stellt die
verschiedenen Treffer mit ihren zusätzlich ermittelten
Meta-Informationen dar.
Der Suchbegriff umfasst nicht nur einzelne Worte, sondern erlaubt es
als Term auch komplexe Anfagen zu stellen. Die nachfolgend
beschriebenen Möglichkeiten lassen sich natürlich auch kombinieren.
- UND-Verknüpfung
- Bei der Eingabe mehrer Worte in das Suchfeld, bedeutet dies,
dass alle diese Begriffe im Dokument vorkommen müssen (Wort 1 UND
Wort2 UND Wort3 ...). Sie können in unterschiedlicher Reihenfolge
und an unterschiedlichen Positionen auftreten.
Beispiel: apachen arizona
- ODER-Verknüpfung
- Für eine Suche nach zwei inhaltlich getrennten Begriffen, die
beide in dem Dokument vorkommen können (oder auch nicht) sind
mehrere Suchanfragen nacheinander notwendig.
- Einen Begriff ausschließen (NICHT)
- Gerade bei inhaltlich sehr weitläufigen Suchbegriffen, macht es
Sinn, Dokumente auszuschließen, die bestimmte Worte
beinhalten. Dies erreicht man, indem man dem auszuschließenden Wort
ein Minus-Zeichen ("-") direkt voranstellt (ohne Leerzeichen
zwischen dem Minus und dem Begriff!)
Beispiel: apachen karl may -dvd -bischofswerda old shatterhand
- Reihenfolge der Begriffe aufrecht erhalten (Phrasensuche)
- Bei der normalen UND-Verknüpfung können die Worte an beliebigen
Stellen im Dokument vorkommen. Wenn diese aber in exakt einer
Reihenfolge stehen sollen (Textphrase), kann man die entsprechenden
Worte durch Anführungszeichen (") zusammenfassen.
Beispiel: "häuptling der apachen" Geronimo
- Begriff in der URL suchen
- Eine normale Suche durchsucht alle Bestandteile eines Dokuments
(Titel, Text, URL). Sofern man die URL des Servers oder Teile der
URL kennt, kann man einen Term auch nur auf die URL
beschränken. Dies geschieht, indem man dem Begriff ein "url:"
voranstellt.
Beispiel: url:impressum "karl may"
- Ergebnisse nach bestimmten Sites filtern
- Wenn eine Trefferliste auf eine bestimmte Site begrenzt werden
soll kann man auch den speziellerern Filter "site:" zusätzlich zu
anderen Suchterms angeben. Damit werden nur Treffer ausgegeben, die
von dieser speziellen Site stammen.
Beispiel: "karl may" site:www3.mdr.de
- Ergebnisse auf bestimmte Dateitypen eingrenzen
- Mit Hilfe des Terms "type:" kann man die Ausgabe auf bestimmte
Dateitypen eingrenzen. Typische Dateitypen sind: html,
pdf, xml, msword, plain, ...
Beispiel: "karl may" type:pdf
- Sprache des Dokuments eingrenzen
- Sofern beim Erfassen der Dokumente durch die Suchmaschine eine
Sprache erkannt werden konnte, lassen sich die Ergebnisse mit Hilfe
des Terms "lang:" auf eine bestimmte Spache eingrenzen
(de, en, fr, it, ...).
- Zeitraum der letzten Veränderung eingrenzen
- Mit Hilfe des Term "date:VON-BIS" können die Ergebnisse
hinsichtlich des Zeitpunkts ihrer letzten Veränderung begrenzt
werden. Sofern beim Crawlen kein Datum
erkannt werden konnte, wird das Datum der Aufnahme der Seite in den
Index genutzt. Sowohl "VON" als auch "BIS" müssen im Format "JJJJMMTT"
(vier Stellen für das Jahr "J", zwei für den Monat "M" und zwei für
den Tag "T" angegeben werden. Soll ein Ende des Zeitraum "offen"
sein, so muss das Datum als 00000000 bzw. 99999999 beschrieben
werden.
Beispiel: "karl may" date:20040101-20041231
Besondere Abfragen
- DNS- und Whois-Informationen einer Domain oder IP abfragen
- Mit Hilfe des Terms "dns:" lassen sich DNS- und whois-Anfragen für
eine Domain, einen Hostname oder eine IP durchführen.
Beispiel: dns:netluchs.de
Technik und Statistik
netluchs.de basiert auf
Nutch und
Lucene. Als Datenquellen werden
neben dem eigenen Index auch
Wikipedia und
dmoz ausgewertet. Die Server laufen
unter
Solaris und
Gentoo.
Einige Eckdaten (Stand Juni 2008)
- Hadoop:
- 10 Tasktracker
- 6 Datanodes
- 1 Namenode
- 1 Secondary-Namenode
- DFS Capacity: 4,94 TB
- DFS Used: 2,44 TB
- Anzahl an durchsuchbaren Dokumenten:
- 16.062.148 (Crawler)
- 656.630 (deutschsprachige Wikipedia)
- 479.487 (Dmoz - national)
- 4.782.802 (Dmoz - international (nur teilweise genutzt))
- Größe des Lucene-Index (Crawler): 37 GB
- Segmentgröße des Crawlers (ohne Cache): 498 GB
- beantwortete Suchanfragen je Monat: ca. 2,2 Millionen
Semager
Netluchs.de nutzt die Hilfe von
Semager,
um verwandte Suchbegriffe vorzuschlagen. Semager ist eine
Suchmaschine, die mit mathematischen Methoden die Bedeutung (Semantik)
von Wörtern berechnet. Die semantische Suche von Semager findet
verwandte Begriffe und Internetseiten die dem gesuchtem Zusammenhang
entsprechen, aber nicht zwingend die Suchbegriffe enthalten.
Weitere Informationen zu Semager finden Sie unter: