netluchs.de realisiert von nebel.de
 
 

Hilfe

Hinter netluchs.de steht ein mächtiger Volltextindex. Dieser wird über die Eingabe eines Suchbegriffs in das Eingabefeld auf der Startseite und den nachfolgenden Click auf den "Suchen"-Button ausgelöst. Nachfolgend erscheint die Ergebnisseite. Diese stellt die verschiedenen Treffer mit ihren zusätzlich ermittelten Meta-Informationen dar. Der Suchbegriff umfasst nicht nur einzelne Worte, sondern erlaubt es als Term auch komplexe Anfagen zu stellen. Die nachfolgend beschriebenen Möglichkeiten lassen sich natürlich auch kombinieren.
UND-Verknüpfung
Bei der Eingabe mehrer Worte in das Suchfeld, bedeutet dies, dass alle diese Begriffe im Dokument vorkommen müssen (Wort 1 UND Wort2 UND Wort3 ...). Sie können in unterschiedlicher Reihenfolge und an unterschiedlichen Positionen auftreten.

Beispiel: apachen arizona

ODER-Verknüpfung
Für eine Suche nach zwei inhaltlich getrennten Begriffen, die beide in dem Dokument vorkommen können (oder auch nicht) sind mehrere Suchanfragen nacheinander notwendig.

Einen Begriff ausschließen (NICHT)
Gerade bei inhaltlich sehr weitläufigen Suchbegriffen, macht es Sinn, Dokumente auszuschließen, die bestimmte Worte beinhalten. Dies erreicht man, indem man dem auszuschließenden Wort ein Minus-Zeichen ("-") direkt voranstellt (ohne Leerzeichen zwischen dem Minus und dem Begriff!)

Beispiel: apachen karl may -dvd -bischofswerda old shatterhand

Reihenfolge der Begriffe aufrecht erhalten (Phrasensuche)
Bei der normalen UND-Verknüpfung können die Worte an beliebigen Stellen im Dokument vorkommen. Wenn diese aber in exakt einer Reihenfolge stehen sollen (Textphrase), kann man die entsprechenden Worte durch Anführungszeichen (") zusammenfassen.

Beispiel: "häuptling der apachen" Geronimo

Begriff in der URL suchen
Eine normale Suche durchsucht alle Bestandteile eines Dokuments (Titel, Text, URL). Sofern man die URL des Servers oder Teile der URL kennt, kann man einen Term auch nur auf die URL beschränken. Dies geschieht, indem man dem Begriff ein "url:" voranstellt.

Beispiel: url:impressum "karl may"

Ergebnisse nach bestimmten Sites filtern
Wenn eine Trefferliste auf eine bestimmte Site begrenzt werden soll kann man auch den speziellerern Filter "site:" zusätzlich zu anderen Suchterms angeben. Damit werden nur Treffer ausgegeben, die von dieser speziellen Site stammen.

Beispiel: "karl may" site:www3.mdr.de

Ergebnisse auf bestimmte Dateitypen eingrenzen
Mit Hilfe des Terms "type:" kann man die Ausgabe auf bestimmte Dateitypen eingrenzen. Typische Dateitypen sind: html, pdf, xml, msword, plain, ...

Beispiel: "karl may" type:pdf

Sprache des Dokuments eingrenzen
Sofern beim Erfassen der Dokumente durch die Suchmaschine eine Sprache erkannt werden konnte, lassen sich die Ergebnisse mit Hilfe des Terms "lang:" auf eine bestimmte Spache eingrenzen (de, en, fr, it, ...).
Zeitraum der letzten Veränderung eingrenzen
Mit Hilfe des Term "date:VON-BIS" können die Ergebnisse hinsichtlich des Zeitpunkts ihrer letzten Veränderung begrenzt werden. Sofern beim Crawlen kein Datum erkannt werden konnte, wird das Datum der Aufnahme der Seite in den Index genutzt. Sowohl "VON" als auch "BIS" müssen im Format "JJJJMMTT" (vier Stellen für das Jahr "J", zwei für den Monat "M" und zwei für den Tag "T" angegeben werden. Soll ein Ende des Zeitraum "offen" sein, so muss das Datum als 00000000 bzw. 99999999 beschrieben werden.

Beispiel: "karl may" date:20040101-20041231

Besondere Abfragen

DNS- und Whois-Informationen einer Domain oder IP abfragen
Mit Hilfe des Terms "dns:" lassen sich DNS- und whois-Anfragen für eine Domain, einen Hostname oder eine IP durchführen.

Beispiel: dns:netluchs.de

Technik und Statistik

netluchs.de basiert auf Nutch und Lucene. Als Datenquellen werden neben dem eigenen Index auch Wikipedia und dmoz ausgewertet. Die Server laufen unter Solaris und Gentoo.

Einige Eckdaten (Stand Juni 2008)

  • Hadoop:
    • 10 Tasktracker
    • 6 Datanodes
    • 1 Namenode
    • 1 Secondary-Namenode
  • DFS Capacity: 4,94 TB
  • DFS Used: 2,44 TB
  • Anzahl an durchsuchbaren Dokumenten:
    • 16.062.148 (Crawler)
    • 656.630 (deutschsprachige Wikipedia)
    • 479.487 (Dmoz - national)
    • 4.782.802 (Dmoz - international (nur teilweise genutzt))
  • Größe des Lucene-Index (Crawler): 37 GB
  • Segmentgröße des Crawlers (ohne Cache): 498 GB
  • beantwortete Suchanfragen je Monat: ca. 2,2 Millionen

Semager

Netluchs.de nutzt die Hilfe von Semager, um verwandte Suchbegriffe vorzuschlagen. Semager ist eine Suchmaschine, die mit mathematischen Methoden die Bedeutung (Semantik) von Wörtern berechnet. Die semantische Suche von Semager findet verwandte Begriffe und Internetseiten die dem gesuchtem Zusammenhang entsprechen, aber nicht zwingend die Suchbegriffe enthalten. Weitere Informationen zu Semager finden Sie unter:
 
  Impressum | Site Anmelden | Netlikon | dmoz | netluchs.at | netluchs.ch | nebel.de
©2006 Michael Nebel, webmaster@netluchs.de Letzte Änderung 26. Juni 2006
Valid HTML 4.01!