Computer: PerfectSearch (aus Wiki)

11. May 20202. July 2021 dkracht

PerlfectSearch (aus Wiki)

Meine Situation und die Anforderungen

Nachdem mir der Linux-Server mit ht://dig nicht mehr zur Verfügung steht, habe ich nach einer Site-Suchmaschine gesucht, die auf den mir zur Verfügung stehenden Plattformen lauffähig ist (und die ich auch mit wenig Aufwand zum Laufen bekomme).

Die Lösung: Perlfect Search

Fündig geworden bin ich bei meinem neuen WebProvider-Provider www.westhost.com. Der bietet seinen Kunden Perlfect Search von Giorgos Zervas und Daniel Naber an. Das ist eine reine Perl-Lösung, arbeitet also nicht wie ht://dig mit C++ Programmen, die auf der Server-Plattform compiliert werden müsssen (Binaries). Siehe auch: IX 11/2000.

Wer sich für Perlfect Search (aktuelle Version 3.31b) entscheidet, kann folgende Vorteile nutzen:

einfache Installation
sinnvolles Ranking, also nach Relevanz sortierte Treffer
‘+’ und ‘-’-Operatoren wie bei der Suchmaschine Altavista
die Ergebnisseite ist leicht anzupassen
OpenSourceSoftware (GPL)
Indexing of dynamical web-content (via http protocol)
Indexing of PDF since version 3.20 (requires PdftoText)
Indexing of MicrosoftWord (requires Antiword)

Installation auf lokalem Notebook

Definitive Software Library ID: PerlfectSearch
Name: Perlfect Search
Version: 3.31b
Hersteller/Bezugsquelle: http://www.perlfect.com
Installations-Ordner: E:\var\www\www.kr8.de\cgi-bin\perlfect
Konfigurations-Dateien: /perlfect/search/conf.pl
Systemvoraussetzungen:
- WebServer mit CGI (z.B. Apache)
- Perl 5.004 oder höher
- Perl Modul DB_File 1.72 (ppm / install DB_File / quit )
- diverse Perl-Module
- PdftoText zum Indexieren von PDF-Dokumenten
- Antiword zum Indexieren von MicrosoftWord-Dokumenten

Anwendungshinweise

http://www.perlfect.com/freescripts/search/faq.shtml

(1) Erstellen des Index

Im Ordner /perlfect/search: perl indexer.pl

(2) Aufruf der Suchfunktion

Suchen in der lokalen Website krachtweb.kr8.de <form method=”get” action=”http://krachtweb.kr8.de/cgi-bin/perlfect/search/search.pl“> <input type=”hidden” name=”p” value=”1″> <input type=”hidden” name=”lang” value=”en”> <input type=”hidden” name=”include” value=””> <input type=”hidden” name=”exclude” value=””> <input type=”hidden” name=”penalty” value=”0″> <input type=”hidden” name=”mode” value=”all”> <input type=”text” name=”q”><input type=”submit” value=”Search”> </form>

Perlfect Search Installation 3.31b

Mein WebProvider-Provider Westhost verwendet <a href=”http://www.westhost.com/vps.html“>Virtual Private Server (VPS) Technologie</a>, womit man noch viel mehr machen könnte. Aber dies ist erst einmal ein erster ganz einfacher Schritt nach dem Motto “Keep It Simple and Stupid”.

Zum Testen der ganzen Geschichte auf meinem lokalen Computer musste ich eine aktuelle Version von Perl installieren (Active Perl 5.6.1) und das Perl Package DB_File 1.806 (www.cpan.org) zur Unterstützung von Berkeley DB.

Zuerst zur Installation: Obwohl das README das Installationsskript anpreist, ist die Einrichtung selbst ohne Skript so einfach, dass man sie am besten gleich von Hand ausführt.

Im Verzeichnis /var/www/cgi-bin entpackt man das Archiv.
Nun sind in der Datei conf.pl die ersten fünf Optionen anzupassen, alle anderen Werte dienen der Feineinstellung und können zunächst unverändert bleiben.
Bei der manuellen Installation muss man im Installationsverzeichnis ein Verzeichnis data anlegen, das die Index-Dateien aufnimmt.
Alle Perl-Dateien ausser search.pl sollten Rechte bekommen, die eine Ausführung als CGI nicht gestatten. Alternativ kann man sie in ein vom Webserver nicht benutztes Verzeichnis kopieren.
Der Aufruf ./indexer.pl im Verzeichnis /var/www/cgi-bin/search generiert den Index.
Jetzt bleibt nur noch, die Datei search_ form.html, eventuell mit einem angepassten action-Wert in das Wurzelverzeichnis des HTTP-Daemons zu kopieren, und man kann mit dem Testen der Suchmaschine beginnen.

Perlfect Search zum Testen

Suchen in der Website www.kr8.de <form method=”get” action=”https://www.kr8.de/cgi-bin/search/search.pl“> <input type=”hidden” name=”p” value=”1″> <input type=”hidden” name=”lang” value=”en”> <input type=”hidden” name=”include” value=””> <input type=”hidden” name=”exclude” value=””> <input type=”hidden” name=”penalty” value=”0″> <input type=”hidden” name=”mode” value=”all”> <input type=”text” name=”q”><input type=”submit” value=”Search”> </form>

Indexing of Dynamic Web Content

Perlfect Search kann im Prinzip nicht nur statischen HTML-Content, sondern auch dynamischen Content indizieren. Beim Indizieren durch Perlfect Search liest das Indizierer-Modul indexer.pl … Allerdings sind mir zwei Probleme aufgefallen:

…not below… URLs ohne Hostnahmen, z.B. http:/repository, werden nicht erkannt.
Bei Eintragen in den Index wird die URL am “?” abgeschnitten. Aus “http://host/phpwiki/index.php?page=seite1” wird “http://host/phpwiki/index.php“. So wird die schönste Fundstellenliste dann doch völlig unbrauchbar…

Indexing PDF-Documents with Perlfect Search

Seit der Version 3.20 gibt es die Option, PDF-Dokumente zu indizieren. Dazu muss in conf.pl der Parameter $EXT_FILTER gesetzt werden. Benötigt wird das Programm pdftotext.exe, das in xPDF enthalten ist: Xpdf: A PDF Viewer for X.

Freundlicherweise sind auf der Website XPDF auch Win32-Binaries, sodass man sofort mit dem Indizieren von PDF-Dateien unter Windows loslegen kann. Einziges Problemchen: Falls man ausser PDF-Dateien noch andere Datei-Typen im Indizierungsberech herumzuliegen hat, sollten diese unbedingt über MIME-Types unterscheidbar sein. In meinem Fall musste ich in der Apache-Konfigurationsdatei mime.types folgendes ergänzen:

Application/vnd.visio vsd
image/x-emf emf
image/x-wmf wmf
image/x-swi swi

nun wurden die in der PerlfectSearch-Konfigurationsdatei conf.pl selektierten PDF-Dateien (Application/PDF) bestens indiziert und die anderen nicht (der Versuch, die anderen auch zu indizieren brachte nämlich einen Absturz).

Weitere Einzeiheiten: http://www.danielnaber.de/perlfectsearch/

— Main.DietrichKracht – 24 Jan 2004

Computer: DtSearch (aus Wiki)

26. April 202021. July 2021 dkracht

DtSearch (aus Wiki)

Gehört zu: Suchmaschinen

Suchmaschine dtSearch

Klassische Suchmaschine auf Perl-Basis.

Installation

Definitive Software Library ID: dtSearch

— Main.DietrichKracht – 15 Oct 2005

Retrieved from my Wiki

Computer: YahooDesktopSearch (aus Wiki)

6. April 20208. March 2026 dkracht

YahooDesktopSearch (aus Wiki)

Gehört zu: Suchmaschinen
Siehe auch: CopernicDesktopSearch

Stand: 01.01.2021

Hintergrundinformationen zu Yahoo Desktop Search

Der Kampf der Desktop-SuchMaschinen geht weiter. Nun (Jan 2005) hat Yahoo sein Angebot als Beta bereitgestellt. Dies basiert auf X1Search und enthält die Viewer-Technologie “Outside In” der Firma Stellent. X1 Search wurde von Bill Gross und seinem Team, die schon 1989 durch das geniale Produkt “Lotus Magellan” bekannt geworden waren, entwickelt.

Highlights:

Die Inhalte von ZIP-Archiven werden genau so indexiert als wären sie in “normle Einzeldateien” in einem Ordner.
Viele Zig-Dateitypen (Magellan, Outside In !!!) werden indexiert und im Viewer schön angezeigt
E-Mail wird auch ordentlich indexiert, allerdings nur wenn man MicrosoftOutlook bzw. Outlook Express hat.

Installation auf ComputerBraunbaer

Definitive Software Library ID: YahooDesktopSearch
Name: Yahoo! Desktop Search Beta
Version: 1.0 Build 1500zk
Hersteller/Bezugsquelle: http://desktopsearch.yahoo.com
Systemvoraussetzungen: WindowsXP oder Windows2000 SP3
Installations-Ordner: D:\bin\Yahoo\Yahoo Desktop Search
Konfiguration:
- Index Location: D:\var\YahooDesktopSearch
- E-Mail: Outlook
- Additional File Extensions:
  - .bat .cmd .dbf .fla .ics .ini .log .m3u
  - .odt .ods .odp .odg .odm .odf .php .pls .rtf
  - .svg .swf .sxw .sxc sxp .vsd .vss .vst .wk1 .wk3 .wk4 .wmf .xls .xlm
- Files: …

Installation auf ComputerLonzo

Definitive Software Library ID: YahooDesktopSearch
Name: Yahoo! Desktop Search Beta
Version: 1.0 Build 1500zk
Hersteller/Bezugsquelle: http://desktopsearch.yahoo.com
Systemvoraussetzungen: WindowsXP oder Windows2000 SP3
Installations-Ordner: D:\Programme\Yahoo!\Yahoo! Desktop Search
Konfiguration:
- Index Location: E:\tmp\YahooDesktopSearch
- E-Mail: Outlook
- File Extensions: .wmf ….
- Files: …..

— Main.DietrichKracht – 16 Jan 2005

Retrieved from my Wiki

Computer: Windows Desktop Search Engines

9. March 20159. October 2025 dkracht

Gehört zu: Microsoft Windows
Siehe auch: Desktop Suchmaschinen, Dateiverwaltung

Stand: 14.09.2021

Windows Desktop Search

Ich möchte meine umfangreichen Datenbestände (z.B. Word, Excel, Powerpoint, PDF, E-Mail, JPG, MP3, MP4 u.a.) auf meinen eigenen Computern durchsuchen, um zu bestimmten Themen und Sichwörtern alles relevante zu finden. Dies nennt man “Desktop Search”.

Erforderlich ist eine Suche nach Dateinamen, Metadaten und nach Dateiinhalt sog. Volltextsuche.

Mein Desktop Search Stand 2015

Vor Jahren hatte ich mich für die Suchmaschine “X1 Search” entschieden, weil sie viel schneller war als die damals (um das Jahr 2000) im Windows XP von Microsoft mitgelieferte und weil sie die gefundenen Dateien extrem schnell in einem großen Vorschaufenster (Viewer) anzeigte.

Alternativen waren später “Google Desktop Search”, das es nun (2015) nicht mehr gibt und “Copernic Desktop Search” abgekürzt “CDS”, was eine etwas gewöhnungsbedürftige Oberfläche hat.

Kürzlich (Feb. 2015) habe ich die allerneueste Version von X1 Search (Version 8) ausprobiert. Sie ist sehr schön und kann auch IMAP-Server als sog. Datenquelle indizieren. Mir scheint aber, dass die in den meisten Dokumenten vorhandenen Metadaten (z.B. Titel, Keywords, Description etc.) nicht indiziert werden. Deswegen untersuche ich das aktuelle “Windows Search” von Microsoft, das Bestandteil von Windows 7 ist. Die Metadaten der Dateien werden ja sogar im Windows Explorer ganz schön angezeigt…

Lösungsalternativen zum Desktop Search

X1 Search – hat Viewer und ist schnell
Google Desktop Search – gibt es nicht mehr
Copernic Desktop Search
X1 Search Version 8
Windows Search (Bestandteil von Windows 7 bzw. Windows 10)
DocSearcher
Search Everything – Schnelle Suche, aber nur nach Dateinamen
Listary
Wox
WordPress

Konfiguration und Gebrauch von Desktop Search

Everything

Aktuell (2025) benutze ich die Software Everything. Die sucht nur nach Dateinamen und nicht nach Dateiinhalt (keine Volltextsuche). Auch Dateibetrachtung (Viewer) ist nicht enthalten. Dafür sucht aber Everything extrem schnell nach Dateinemen. Man sollte also sprechende Dateinamen verwenden.

Die Schnelligkeit erreicht Everything über eine Indexierung, wobei bei NTFS-Partitions der intern vorhandene NTFS-Index mitbenutzt wird. Nur nicht-NTFS-Patitionen sollten also durch Everything indexiert werden.

Copernic Desktop Search

Benutze ich nicht mehr.

DocSearcher

Auf die kostenlose Software DocSearcher bin ich über eine Internet-Recherche gestoßen. DocSearcher wird u.a. von Chip und von Computer Bild empfohlen.

DocSearcher benutzt die Open Source Lösungen Apache Lucene (Suchmaschine), Apache POI (Java API zu Office Dokumenten) und Apache PDF Box.

DocSearcher benötigt ein Java Runtime Environment.

Volltextsuche für unterstützte Dateitypen: HTML, Word, Excel, PPT nicht, PDF, TXT, “OpenOffice” / “StarOffice”

Menüleiste -> Index -> Create new index

Windows Search

1. Schritt: Windows-Komponente aktivieren: -> Systemsteuerung -> Programme -> Windows-Funktionen aktivieren und deaktivieren -> Checkbox “Windows Search”

2. Schritt: Windows Search als “Standard-Suchmaschine” für Windows einstellen: -> Standard-Programme -> Standard-Programme festlegen -> (WARTEN) -> “Windows-Search-Explorer”

3. Schritt: Orte (sprich Ordner) für die Indizierung einstellen: -> Indizierungsoptionen -> Diese Orte indizieren -> Ändern -> Häkchen an – Häkchen aus …. (bei mir wurden anfangs hier nicht alle Ordner angezeigt, musste einen Tag warten, dann ging’s)

4. Dateitypen ….. Index-Filter …..

Wo wird der Index gebildet? /ProgramData/Microsoft/Search/Data/Applications/Windows/…… Da kann ich evtl. verfolgen, wie ein großer Index langsam aufgebaut wird….

Windows.edb ?????

Im Hintergrund läuft dann ein “Windows Service” der ständig die (oben konfigurierten Order und Datei-Typen) überwacht und ggf. indiziert wie angegeben (Dateiname, Metadaten, Inhalt….)

Computer: Suchmaschinen (aus Wiki)

4. January 20048. March 2026 dkracht

Gehört zu: Dokumentenmanagement
Siehe auch: CopernicDesktopSearch, YahooDesktopSearch, Google, Metadaten, DesktopSuchmaschine

Suchmaschinen (aus Wiki)

(Redirected from Suchmaschine)

Suchen und Finden

Meine Anforderungen

Die wichtigste Funktion meines Wissensmanagements (KnowledgeManagement) ist, Dinge wiederaufzufinden, die ich schon irgendwo (auf meinem PC oder in Papierablagen) habe. Darüberhinaus kommt es vor, dass ich Informationen aus fremden Quellen suche.

Klassich ist der Fall eines Archivs, das in spezieller Form Dinge abspeichert, nach denen dann mit speziellen Suchfunktionen gesucht werden kann.
Auch klassisch ist heutzutage das Suchen im Internet, wo im einfachsten Fall nach HTML-Seiten gesucht wird.
Ich möchte möchte nun aber ganz schlicht und ergreifend in allen meinen Dateien auf meinem Notebook-Computer suchen. Für diesen Fall muss ein Index aufgebaut werden, der dann als Basis für Suchanfragen dient.

Aufgabenstellung: Website-Indexer / Desktop-Indexer

Für meine eingene Website möchte ich eine Suchmaschine anbieten, mer Besucher, zusätzlich zur ausgeklügelten Navigation auch über eine Volltextsuche über alle meine Webseiten möglichst direkt das finden kann, was er/sie sucht.

Die dafür eventuell erforderlichen technischen Komponenten auf der Server-Seite müssen sehr genau überlegt werden, denn ein billiger Web-Hosting-Provider bietet da nur sehr wenig.

Zur Zeit ist die eigene Website bei t-online gehostet. Als Provider mit PHP und MySQL steht auch free.fr zur Verfügung.

Siehe auch: http://www.searchtools.com

Lösungsarchitektur

Wichtig ist die Erkenntnis, das hier eine Schichtenarchitektur sinnvoll ist, wobei die untern dargestellten drei Schichten unterschiedliche systemtechnische Anforderungen aben und auch auch unterschiedlichen Systemplattformen laufen könnten.

Indexing – Harvesting

Man benötigt einen wirklich guten Indexer, der die Website wie ein Spider per HTTP-Protokoll durchläuft und dabei den auf der Oberfläche sichtbaren Text indiziert. Damit werden die Hyperlinks durchlaufen, dynamische inhalte (z.b. von PHP, ASP, JSP-Seiten) richtig behandelt, Zeichensätze (Umlaute) richtig beachtet und ggf. weitere Dokumenttypen (PDF, MicrosoftWord, PowerPoint,…) auch verarbeitet.

Das Ergbnis ist eine Dokumentliste und eine Wortliste.

Diese Komponente muss nicht notwendig als Web-Applikation laufen.

Schnelle Indexdatenbank

Die in der Stufe 1 (Indexing/Harvesting) gewonnenen “Rohdaten” werden jetzt veredelt und für den Zweck des schnellen Suchzugriffs optimiert aufbereitet.

Diese Komponente muss nicht notwendig als Web-Applikation laufen. Schnelle Such-Oberfläche

Über ein HTML-Formular soll der Anwender seine Suchbegriffe eingeben. Das Suchergebnis soll dann als Fundstellenliste präsentiert werden.

Diese Komponente muss zwingend als Web-Applikation laufen.

Lösungsmöglichkeiten

Fremdanbieter: Provider für solche Website-Suchmaschinen
ht://Dig (SourceForge)
mnogosearch
siteIndexer (SourceForge)
dtSearch
PerlfectSearch

Software für Suchmaschinen

Man hat sich ja an sehr schöne Suchfunktionen aus dem Internet gewöhnt (früher Altavista, heute Google). Wenn man so etwas auf den lokalen PC übertragen könnte, wäre dann noch eine grosse Frage zusätzlich: Kann ich auch nach den Inhalten von Nicht-HTML-Dateien (z.B. MicrosoftWord, PowerPoint, PDF, E-Mails,…) suchen?

Microsoft:: Da gab es zum Web-Server IIS schon immer einen Index-Server. Für den lokalen PC gibt es auch eine in Windows integrierte Suchfunktion nach Inhalten, die auf einem File-Indexer beruht.
Altavista:: Da gab es mal ein Personal Altavista, mit dem man seine lokalen Daten durchsuchen konnte.
dtSearch:: Habe ich 2001 mal ausprobiert, war gut, aber ist auch teuer.
ht://Dig:: Eine sehr verbreitete klassische Index-/Such-Lösung. Einzelheiten unter HtDig.
Perlfect Search 3.31:: Eine Index-/Such-Lösung in Perl, die mein WebProvider-Provider Westhost unterstützt. Einzelheiten unter PerlfectSearch.
SearchBlox:: Eine in Java (J2EE) auf Basis von Jakarta Lucene (http://jakarta.apache.org/lucene/docs/index.html) realisierte Suchmaschine. Kann auch Word, PowerPoint, PDF und Excel. Leider kommerziell und gepfefferte Preise…. http://www.searchblox.com
nutch:: Eine in Java (J2EE) auf Basis von Jakarta Lucene realisierte einfache OpenSourceSoftware http://www.nutch.org
ASPSeek:: Linux-only. Free Software under GNU GPL. CGI-Fontend… (http://www.aspseek.org)
mnoGoSearch:: … http://www.mnogosearch.org/win.html
Namazu:: ….
sitesearch:: …Teil von….
Search Engine Builder Professional:: Indexiert Dokumenttypen: xyz. Baut lokale Suchmaschine (ASP, PHP, JavaScript – ohne MySQL), die z.B. auch für CD-ROMs und DVDs geeignet ist.
Search Maker Pro:: Indexiert Dokumenttypen: PDF, DOC, RTF, PPT, XLS,.. Dabei werden Dokumentinhalt und Dokument-Property-Felder indexiert. Es wird eine lokale, in sich abgeschlossene Suchmaschine generiert (ASP, PHP, JavaScript), die z.B. auch für CD-ROMs und DVDs geeignet ist.

Update Oktober 2004: Desktop Search

blinkx:: Produkt “blinks 0.4.34” http://www.blinkx.com Windows-Oberfläche, Dateien: …, PDF, PPT, ZIP. Aber völlig instabil.
Anstelle eines Pre-View gibt es ein Pop-Up-Fenster mit einem Abstract.
Copernic:: Produkt “Copernic Desktop Search 1.0” http://www.copernic.com/en/products/desktop-search Windows-Oberfläche, Dateien: TXT/RTF DOC XLS, PPT, Outlook-Mail, PDF, Music, Video, Pictures (ZIP?????)
Enfish:: Produkt Enfish “Professional 6.1” http://www.enfish.com Windows-Oberfläche, Dateien: …PDF, PPT, ZIP-Inhalte, kommerziell
HotBot:: Produkt “HotBot Desktop” http://www.hotbot.com/tools/desktop
Google:: Produkt “Google Desktop Search” http://desktop.google.com Dateien: TXT, DOC, XLS, PPT, Outlook-Mail (PDF nicht)
Filehand:: Produkt “FilehandSearch 2.0” http://www.filehand.com Oberfläche: Windows, Dateien: TXT, DOC, XLS, PPT, PDF, MP3 (ZIP???)
SWISH-E:: http://www.swish-e.org
Wilbur:: Produkt “Wilbur 2.2” http://wilbur.redtree.com Oberfläche: Windows,…
X1 Technologies:: Produkt “X1Search” http://www.x1.com Oberfläche: Windows, ….
X-Dot:: Produkt “x-friend 0.2” http://www.x-friend.de Browser-Oberfläche, Java-basiert, verwendet Apache-Lucene, Dateien: TXT, DOC, XLS, PPT, PDF, IMAP E-Mail, MP3 ID3 Tag, Bilder, ZIP-Archive,…

Update Januar 2005: Desktop Search

Yahoo Desktop Search:: Yahoo hat sich mit X1Search zusammen getan und eine bessere Oberfläche geschaffen. Überragender Pluspunkt bleibt die Viewer-Technologie von X1Search (ex Magellan) YahooDesktopSearch

Meine Bewertung

Tabelle 1: Meine Bewertung von Desktop-Suchmaschinen

Produkt/Klasse	Pro	Contra
blinkx 0.4.34	kann PDF, PPT und ZIP-Inhalte E-Mail: Outlook und Eudora kostenfrei	läuft extrem instabil unter Win2000 kommerziell Thunderbird-E-Mail nicht unterstützt
CopernicDesktopSearch 1.0 Desktop-Indexer	Dokumenten-Preview On-the-fly indexing Kleiner Index (Beispiel: 662MB/34MB)	E-Mail nur Outlook, nicht IMAP/POP3 Indiziert nicht den Inhalt von ZIP-Archiven!!!
dtSearch	Selbsttragende CD-Indizierung	teuer
Enfish 6.1	kann PDF, PPT und ZIP-Inhalte E-Mail Outlook, Lotus Notes, AOL-Mail Schönes Pre-View	E-Mail nicht Thunderbird kommerziell teuer
Filehand 2.0	Windows-Oberfläche	Inhalte von ZIP-Archiven werden nicht indiziert
Google		PDF nicht indiziert Nocht nicht fertig (Beta)
htDig Website-Indexer	Bestandteil der Linux SuSE Edition	CGI-Binary muss kompiliert werden (Cygwin)
mnogoserach
PerlfectSearch Website-Indexer	Plattformen Linux/Windows durch Perl Internationalisierung durch i18n Website-Indexer	PDF und Word durch Third-Party-Zusätze
Wilbur 2.2 Desktop-Indexer	Inhalte von ZIP-Archiven werden indiziert CD-ROM Indexing QuickView support Freeware	PDF und Thunderbird-Email wird indexiert Word und PowerPoint werden nicht indexiert. Kein Document Preview, aber Integration mit QuickView
X1Search 04.09 Desktop-Indexer	Inhalte von ZIP-Archiven werden indiziert Dokument-Preview integriert Guter PowerPoint-Preview	teuer: $99 Thunderbird-Email wird nicht indiziert Im PPT-Preview wird nicht mit Autoscroll auf “first occurance” positioniert
x-friend 0.2 Desktop-Indexer	Plattformunabhägig durch Java Beliebiger WebBrowser Gut passend zur meiner Architektur (Java, WebBrowser, Apache Lucene, IMAP…) E-Mail IMAP Selbsttragende CD-Indizierung	Inhalte von ZIP-Archiven werden nicht indiziert PowerPoint PPT wird nicht indiziert POP3-Email wird nicht indiziert Preview von der Ansichsgrösse nicht einstellbar Sehr schlichter PPT Preview

Meine Lösungsauswahl

Für das russische mnogoserach spricht die Verwendung von PHP für die Search-Funktion.

Allerdings wird ein modifiziertes PHP benutzt, das man sich selbst durch Compilation erzeugen muss. Da die Lösung bei einfachen Providern laufen soll, scheidet diese Variante aus.

Für die Variante ht://Dig spricht:

Die sehr grosse Verbreitung und damit eine Sicherheit für eine mittelfristig gesicherte Nutzung
ht://Dig wird als Bestandteil der SuSE 8.0 Edition mit ausgeliefert (binary)
Eine Compilation unter Win98 mit Cygwin war auf Anhieb erfolgreich.

Nachteil bei ht://Dig ist nach wie vor, dass die Such-Oberfläche als CGI-Executable realisiert ist. Nicht jeder Web-Hosting-Provider lässt “freie CGIs” zu.

Die Auswahl fiel trotzdem auf HtDig, da die Ausgereiftheit und Mächtigkeit der Funktionen sowie die solide Community einfach überzeugen. Der Nachteil der CGI-Suchoberfläche wird im Sinne der Architektur in Kauf genommen, mit der Idee, dafür im Laufe der Zeit einen Austausch vorzunehmen. Die Idee ist, eine PHP-Suchoberfläche entweder direkt auf die Berkely-DB2-Datenbank zu setzten, oder die DB2 auf MySQL zu konvertieren und dann eine PHP-Oberfläche darauf zu setzen.

Mehr Komfort: Enfish oder Copernic oder X1Search

Enfish 6.1 und Copernic bestechen durch sehr elegante Windows-Oberflächen. Allerdings ist die Funktionalität von Copernic nicht ausreichend und Enfish 6.1, das sehr mit seiner Lotus-Notes-Email-Indexierung lockt, ist viel zu teuer. Es bleibt X1Search, das zwar nicht so elegant aussieht, aber durch solide Funktionalität überzeugt.

Indizieren: Was soll, was soll nicht indiziert werden

Da das aufbauen und Aktualisieren eines solchen Index erstens Zeit kostet und zweitens Platz kostet, loht es sich zu überlegen, welche Datei-Typen man wirklich indizieren will und welche man nicht indizieren will.

Postiv (sollen indiziert werden)

Zur Konfiguration von Indexern (Teil einer Suchmaschinen-Architektur) benötigt man MIME-Types und Parser für jeden MIME-Type:

Tabelle 2: Was soll indiziert werden?

Extension	MIME Type	Parser
.dbf	application/dbase application/x-dbase	?
.doc	application/msword	catdoc aus: http://freshmeat.net/projects/catdoc/
.pdf	application/pdf	pdftotext.exe aus XPDF: http://www.foolabs.com/xpdf/
.rtf	application/rtf	?
.xls	application/vnd.ms-excel	catdoc aus: http://freshmeat.net/projects/catdoc/
.ppt	application/vnd.ms-powerpoint	?
.html	text/html	OK
.htm	text/htm	OK
.svg	image/svg+xml	?
.txt	text/plain	OK
.vsd	application/vnd.visio	Visio
.xml	text/xml application/XML	?
.xsl	?	?
.zip	application/zip	?

Negativ (sollen nicht indiziert werden)

*.bak
*.dbs
*.dl_
*.do_
*.dsk
*.ex_
*.e2_
*.ndx
*.ffx (löschen)
*.ffo (löschen)
*.ffl (löschen)
*.ffa (löschen)
*.pqi
*.z

— Main.DietrichKracht – 09 Jan 2004