netluchs.de realisiert von nebel.de
 
 

Hilfe

Hinter netluchs.de steht ein mächtiger Volltextindex. Dieser wird nach der Eingabe eines Suchbegriffs in das Eingabefeld auf der Startseite und dem nachfolgenden Click auf den "Suchen"-Button abgefragt. Nachfolgend erscheint die Ergebnisseite. Diese stellt die verschiedenen Treffer mit ihren zusätzlich ermittelten Meta-Informationen dar. Der Suchbegriff umfasst nicht nur einzelne (oder mehrere) Worte, sondern kann mit Hilfe verschiedener Terme zu komplexen Anfagen erweitert werden. Die nachfolgend beschriebenen Möglichkeiten lassen sich natürlich auch kombinieren.
UND-Verknüpfung
Bei der Eingabe mehrer Worte in das Suchfeld, bedeutet dies, dass alle diese Begriffe im Dokument vorkommen müssen (Wort 1 UND Wort2 UND Wort3 ...). Sie können in unterschiedlicher Reihenfolge und an unterschiedlichen Positionen auftreten.

Beispiel: apachen arizona

ODER-Verknüpfung
Für eine Suche nach zwei inhaltlich getrennten Begriffen, die beide in dem Dokument vorkommen können (oder auch nicht) sind mehrere Suchanfragen nacheinander notwendig.

Einen Begriff ausschließen (NICHT)
Gerade bei inhaltlich sehr weitläufigen Suchbegriffen, macht es Sinn, Dokumente auszuschließen, die bestimmte Worte beinhalten. Dies erreicht man, indem man dem auszuschließenden Wort ein Minus-Zeichen ("-") direkt voranstellt (ohne Leerzeichen zwischen dem Minus und dem Begriff!)

Beispiel: apachen karl may -dvd -bischofswerda old shatterhand

Reihenfolge der Begriffe aufrecht erhalten (Phrasensuche)
Bei der normalen UND-Verknüpfung können die Worte an beliebigen Stellen im Dokument vorkommen. Wenn diese aber in exakt einer Reihenfolge stehen sollen (Textphrase), kann man die entsprechenden Worte durch Anführungszeichen ("") zusammenfassen.

Beispiel: "häuptling der apachen" Geronimo

Begriff in der URL suchen
Eine normale Suche durchsucht alle Bestandteile eines Dokuments (Titel, Text, URL). Sofern man die URL des Servers oder Teile der URL kennt, kann man einen Term auch nur auf die URL beschränken. Dies geschieht, indem man dem Begriff ein "url:" voranstellt.

Beispiel: url:impressum "karl may"

Ergebnisse nach bestimmten Sites filtern
Wenn eine Trefferliste auf eine bestimmte Site begrenzt werden soll kann man auch den speziellerern Filter "site:" zusätzlich zu anderen Suchterms angeben. Damit werden nur Treffer ausgegeben, die von dieser speziellen Site stammen.

Beispiel: "karl may" site:www3.mdr.de

Ergebnisse auf bestimmte Dateitypen eingrenzen
Mit Hilfe des Terms "type:" kann man die Ausgabe auf bestimmte Dateitypen eingrenzen. Typische Dateitypen sind: html, pdf, xml, msword, plain, ...

Beispiel: "karl may" type:pdf

Sprache des Dokuments eingrenzen
Sofern beim Erfassen der Dokumente durch die Suchmaschine eine Sprache erkannt werden konnte, lassen sich die Ergebnisse mit Hilfe des Terms "lang:" auf eine bestimmte Spache eingrenzen (de, en, fr, it, ...).
Zeitraum der letzten Veränderung eingrenzen
Mit Hilfe des Term "date:VON-BIS" können die Ergebnisse hinsichtlich des Zeitpunkts ihrer letzten Veränderung begrenzt werden. Sofern beim Crawlen kein Datum erkannt werden konnte, wird das Datum der Aufnahme der Seite in den Index genutzt. Sowohl "VON" als auch "BIS" müssen im Format "JJJJMMTT" (vier Stellen für das Jahr "J", zwei für den Monat "M" und zwei für den Tag "T" angegeben werden. Soll ein Ende des Zeitraum "offen" sein, so muss das Datum als 00000000 bzw. 99999999 beschrieben werden.

Beispiel: "karl may" date:20040101-20041231

Besondere Abfragen

DNS- und Whois-Informationen einer Domain oder IP abfragen
Mit Hilfe des Terms "dns:" lassen sich DNS- und whois-Anfragen für eine Domain, einen Hostname oder eine IP durchführen.

Beispiel: dns:netluchs.de

Wikipedia durchsuchen
Der Term "wikipedia:" vor einem Suchwort, konzentriert die Suche auf Wikipedia. In diesem Fall kommt ein optimierter Spezialindex zum Einsatz.

Beispiel: wikipedia:hamburg

Boolsche Abfragen (im Aufbau)
Testweise ist die Abfrage des mit komplexen boolschen Operatoren m&oouml;glich. Diese kann aber leider schnell an die Grenzen des Luceneindex stoßen.

Beispiel: boolean:"(maurice OR jean) AND ravel"

Technik und Statistik

netluchs.de basiert auf Nutch und Solr. Als Datenquellen werden neben dem eigenen Index auch Wikipedia und dmoz ausgewertet. Die Server laufen unter Gentoo.

Einige Eckdaten (Stand Juni 2008)

  • Hadoop:
    • 6 Tasktracker
    • 6 Datanodes
    • 1 Namenode
    • 1 Secondary-Namenode
  • DFS Capacity: 5,92 TB
  • beantwortete Suchanfragen je Monat: ca. 1,2 Millionen
 
  Impressum | Site Anmelden | Netlikon | nebel.de
©2006 Michael Nebel, webmaster@netluchs.de Letzte Änderung 26. Juni 2006
Valid HTML 4.01!