Desktop Suchmaschine (aus Wiki)
Siehe auch: CopernicDesktopSearch, YahooDesktopSearch, Google, Metadaten, SuchMaschinen
Meine Anforderungen an eine Desktop-Suchmaschine
Die wichtigste Funktion meines Wissensmanagements (KnowledgeManagement) ist, Dinge wiederaufzufinden, die ich schon irgendwo (auf meinem PC (oder in Papierablagen) habe.
Ich möchte möchte nun aber ganz schlicht und ergreifend in allen meinen Dateien auf meinem Notebook-Computer suchen. Für diesen Fall muss ein Index aufgebaut werden, der dann als Basis für Suchanfragen dient.
- Lauffähig auf Windows XP, Windows Vista und Windows 7
- Fundstellen-Anzeige mit Ordner und Dateiname sowie Preview (Viewer Funktion)
- Unterstützung (Indizierung) der wichtigen Dateitypen (ZIP, PDF, Microsoft Office, E-Mail (Outlook und Thunderbird), HTML, Metadaten bei MP3, JPG und AVI).
Short List Desktop Search
- Copernic
- Produkt “Copernic Desktop Search 1.0” http://www.copernic.com/en/products/desktop-search Windows-Oberfläche, Dateien: TXT/RTF DOC XLS, PPT, Outlook-Mail, PDF, Music, Video, Pictures (ZIP?????)
- Produkt Google Desktop Search http://desktop.google.com Dateien: TXT, DOC, XLS, PPT, Outlook-Mail (PDF nicht)
- Filehand
- Produkt “FilehandSearch 2.0” http://www.filehand.com Oberfläche: Windows, Dateien: TXT, DOC, XLS, PPT, PDF, MP3 (ZIP???)
- X1 Technologies
- Produkt “X1Search” http://www.x1.com Oberfläche: Windows, ….
- X-Dot
- Produkt “x-friend 0.2” http://www.x-friend.de Browser-Oberfläche, Java-basiert, verwendet Apache-Lucene, Dateien: TXT, DOC, XLS, PPT, PDF, IMAP E-Mail, MP3 ID3 Tag, Bilder, ZIP-Archive,…
- Yahoo Desktop Search
- Yahoo hat sich mit X1Search zusammen getan und eine bessere Oberfläche geschaffen. Überragender Pluspunkt bleibt die Viewer-Technologie von X1Search (ex Magellan) YahooDesktopSearch
Meine Bewertung
Tabelle 1: Meine Bewertung von Desktop-Suchmaschinen
Produkt/Klasse | Pro | Contra | |
CopernicDesktopSearch 1.0 Desktop-Indexer |
Dokumenten-Preview On-the-fly indexing Kleiner Index (Beispiel: 662MB/34MB) |
E-Mail nur Outlook, nicht IMAP/POP3 Indiziert nicht den Inhalt von ZIP-Archiven!!! |
|
Filehand 2.0 | Windows-Oberfläche | Inhalte von ZIP-Archiven werden nicht indiziert | |
Google Desktop Search | PDF nicht indiziert Nocht nicht fertig (Beta) |
||
X1Search 04.09 Desktop-Indexer |
Inhalte von ZIP-Archiven werden indiziert Dokument-Preview integriert Guter PowerPoint-Preview |
teuer: $99 Thunderbird-Email wird nicht indiziert Im PPT-Preview wird nicht mit Autoscroll auf “first occurance” positioniert |
|
x-friend 0.2 Desktop-Indexer |
Plattformunabhägig durch Java Beliebiger WebBrowser Gut passend zur meiner Architektur (Java, WebBrowser, Apache Lucene, IMAP…) E-Mail IMAP Selbsttragende CD-Indizierung |
Inhalte von ZIP-Archiven werden nicht indiziert PowerPoint PPT wird nicht indiziert POP3-Email wird nicht indiziert Preview von der Ansichsgrösse nicht einstellbar Sehr schlichter PPT Preview |
Meine Lösungsauswahl
Copernic oder X1Search
Copernic bestechen durch seine sehr elegante Windows-Oberfläche. Allerdings ist die Funktionalität von Copernic nicht ausreichend. Es bleibt X1Search, das zwar nicht so elegant aussieht, aber durch solide Funktionalität überzeugt.
Indizieren: Was soll, was soll nicht indiziert werden
Da das aufbauen und Aktualisieren eines solchen Index erstens Zeit kostet und zweitens Platz kostet, loht es sich zu überlegen, welche Datei-Typen man wirklich indizieren will und welche man nicht indizieren will.
Postiv (sollen indiziert werden)
Zur Konfiguration von Indexern (Teil einer Suchmaschinen-Archtektur) benötigt man MIME-Types und Parser für jeden MIME-Type:
Tabelle 2: MIME-Typen
Extension | MIME Type | Parser | |
.dbf | application/dbase application/x-dbase |
? | |
.doc | application/msword | catdoc aus: http://freshmeat.net/projects/catdoc/ | |
application/pdf | pdftotext.exe aus XPDF: http://www.foolabs.com/xpdf/ | ||
.rtf | application/rtf | ? | |
.xls | application/vnd.ms-excel | catdoc aus: http://freshmeat.net/projects/catdoc/ | |
.ppt | application/vnd.ms-powerpoint | ? | |
.html | text/html | OK | |
.htm | text/htm | OK | |
.svg | image/svg+xml | ? | |
.txt | text/plain | OK | |
.vsd | application/vnd.visio | Visio | |
.xml | text/xml application/XML |
? | |
.xsl | ? | ? | |
.zip | application/zip | ? |
Negativ (sollen nicht indiziert werden)
- *.bak
- *.dbs
- *.dl_
- *.do_
- *.dsk
- *.ex_
- *.e2_
- *.ndx
- *.ffx (löschen)
- *.ffo (löschen)
- *.ffl (löschen)
- *.ffa (löschen)
- *.pqi
- *.z
— Dkracht 21:47, 3 July 2011 (CEST)