Hilfe
Hinter netluchs.de steht ein mächtiger Volltextindex. Dieser wird nach
der Eingabe eines Suchbegriffs in das Eingabefeld auf der Startseite
und dem nachfolgenden Click auf den "Suchen"-Button
abgefragt. Nachfolgend erscheint die Ergebnisseite. Diese stellt die
verschiedenen Treffer mit ihren zusätzlich ermittelten
Meta-Informationen dar.
Der Suchbegriff umfasst nicht nur einzelne (oder mehrere) Worte, sondern kann mit Hilfe verschiedener Terme
zu komplexen Anfagen erweitert werden. Die nachfolgend
beschriebenen Möglichkeiten lassen sich natürlich auch kombinieren.
- UND-Verknüpfung
- Bei der Eingabe mehrer Worte in das Suchfeld, bedeutet dies,
dass alle diese Begriffe im Dokument vorkommen müssen (Wort 1 UND
Wort2 UND Wort3 ...). Sie können in unterschiedlicher Reihenfolge
und an unterschiedlichen Positionen auftreten.
Beispiel: apachen arizona
- ODER-Verknüpfung
- Für eine Suche nach zwei inhaltlich getrennten Begriffen, die
beide in dem Dokument vorkommen können (oder auch nicht) sind
mehrere Suchanfragen nacheinander notwendig.
- Einen Begriff ausschließen (NICHT)
- Gerade bei inhaltlich sehr weitläufigen Suchbegriffen, macht es
Sinn, Dokumente auszuschließen, die bestimmte Worte
beinhalten. Dies erreicht man, indem man dem auszuschließenden Wort
ein Minus-Zeichen ("-") direkt voranstellt (ohne Leerzeichen
zwischen dem Minus und dem Begriff!)
Beispiel: apachen karl may -dvd -bischofswerda old shatterhand
- Reihenfolge der Begriffe aufrecht erhalten (Phrasensuche)
- Bei der normalen UND-Verknüpfung können die Worte an beliebigen
Stellen im Dokument vorkommen. Wenn diese aber in exakt einer
Reihenfolge stehen sollen (Textphrase), kann man die entsprechenden
Worte durch Anführungszeichen ("") zusammenfassen.
Beispiel: "häuptling der apachen" Geronimo
- Begriff in der URL suchen
- Eine normale Suche durchsucht alle Bestandteile eines Dokuments
(Titel, Text, URL). Sofern man die URL des Servers oder Teile der
URL kennt, kann man einen Term auch nur auf die URL
beschränken. Dies geschieht, indem man dem Begriff ein "url:"
voranstellt.
Beispiel: url:impressum "karl may"
- Ergebnisse nach bestimmten Sites filtern
- Wenn eine Trefferliste auf eine bestimmte Site begrenzt werden
soll kann man auch den speziellerern Filter "site:" zusätzlich zu
anderen Suchterms angeben. Damit werden nur Treffer ausgegeben, die
von dieser speziellen Site stammen.
Beispiel: "karl may" site:www3.mdr.de
- Ergebnisse auf bestimmte Dateitypen eingrenzen
- Mit Hilfe des Terms "type:" kann man die Ausgabe auf bestimmte
Dateitypen eingrenzen. Typische Dateitypen sind: html,
pdf, xml, msword, plain, ...
Beispiel: "karl may" type:pdf
- Sprache des Dokuments eingrenzen
- Sofern beim Erfassen der Dokumente durch die Suchmaschine eine
Sprache erkannt werden konnte, lassen sich die Ergebnisse mit Hilfe
des Terms "lang:" auf eine bestimmte Spache eingrenzen
(de, en, fr, it, ...).
- Zeitraum der letzten Veränderung eingrenzen
- Mit Hilfe des Term "date:VON-BIS" können die Ergebnisse
hinsichtlich des Zeitpunkts ihrer letzten Veränderung begrenzt
werden. Sofern beim Crawlen kein Datum
erkannt werden konnte, wird das Datum der Aufnahme der Seite in den
Index genutzt. Sowohl "VON" als auch "BIS" müssen im Format "JJJJMMTT"
(vier Stellen für das Jahr "J", zwei für den Monat "M" und zwei für
den Tag "T" angegeben werden. Soll ein Ende des Zeitraum "offen"
sein, so muss das Datum als 00000000 bzw. 99999999 beschrieben
werden.
Beispiel: "karl may" date:20040101-20041231
Besondere Abfragen
- DNS- und Whois-Informationen einer Domain oder IP abfragen
- Mit Hilfe des Terms "dns:" lassen sich DNS- und whois-Anfragen für
eine Domain, einen Hostname oder eine IP durchführen.
Beispiel: dns:netluchs.de
- Wikipedia durchsuchen
- Der Term "wikipedia:" vor einem Suchwort, konzentriert die Suche auf Wikipedia. In diesem Fall kommt ein optimierter Spezialindex zum Einsatz.
Beispiel: wikipedia:hamburg
- Boolsche Abfragen (im Aufbau)
- Testweise ist die Abfrage des mit komplexen boolschen Operatoren m&oouml;glich. Diese kann aber leider schnell an die Grenzen des Luceneindex stoßen.
Beispiel: boolean:"(maurice OR jean) AND ravel"
Technik und Statistik
netluchs.de basiert auf
Nutch und
Solr. Als Datenquellen werden
neben dem eigenen Index auch
Wikipedia und
dmoz ausgewertet. Die Server laufen
unter
Gentoo.
Einige Eckdaten (Stand Juni 2008)
- Hadoop:
- 6 Tasktracker
- 6 Datanodes
- 1 Namenode
- 1 Secondary-Namenode
- DFS Capacity: 5,92 TB
- beantwortete Suchanfragen je Monat: ca. 1,2 Millionen