Fernsehen: Wiki-WinTV

WinTV

Contents

 TV-Tuner WinTV USB von Hauppauge

Dieses kleine USB-Hardware-Teil habe ich mir vor ca. zwei Jahren gekauft. Damit kann ich mit dem Notebook wunderbar Fernsehen. Auch das Schiessen von Standfotos und das Mitschneiden von Fernsehsendungen (Aufnahmen, Recording, Capturing, Video) ist möglich.

Herzstück ist der WinTV USB Treiber, der den TV-Tuner als Windows-Videoquelle zur Verfügung stellt. Auf diese Videoquelle können beliebige Windows-Programme zugreifen; z.B. VirtualDub, RealProducer, CyberLink VCR,…. – oder auch das zum Lieferumfang gehörige “WinTV2000″….

 Installation Treiber

  • Definitive Software Library ID: WinTV_USB
  • Name: WinTV USB
  • Version: 2.62.21125.0
  • Hersteller/Bezugsquelle: Hauppauge http://www.hauppauge.com/html/sw_tvusb.htm
  • Installations-Verzeichnis: C:\WINNT\system32 (ksdata.ax, ksinterf.ax,…, ksxbar.ax)
  • Konfigurations-Dateien:
  • Systemvoraussetzungen: vfwwdm.dll (Video for Windows)

 Installation Anwendungssoftware

 Schritte zur Neuinstallation

Ein paar Probleme macht es immer wieder, die neuesten Treiber und die neueste Software zu bekommen und zu installieren. Gerade heute (23.01.2004) habe ich für mein Windows 2000 WinTV erfolgreich neuinstalliert.

  • Aktuelle Versionen Downloaden von http://www.hauppauge.com/html/sw_tvusb.htm
  • hcwclear.exe zur vollständigen Entinstallation von Treibern (USB. Plug-and-Play), und Anwendungssoftware (TV-Tuner, VideoCapture)
  • USB-Treiber: usbdrv262_21125.exe installieren
  • Anwendungssoftware wintv2k40_21126.exe installieren

 Neuigkeiten

  • TV-Tunerkarte: NVTV ist eine TV Tuner Karte (PCI) von Nvidia, die mit einem analogen TV-Tuner und einem schnellen MPEG2-Encoder bzw-Decoderchip ausgetattet ist. Preis EUR 140…
  • DVB-T gibt es seit dem 24. Mai 2004 in Hannover/Braunschweig und Bremen/Oldenburg. Hamburg folgt im November…

 DivX 5.1 Codec und MJPEG (16.11.2003)

DivX als Weiterentwicklung des MPEG-4 Codecs von Microsoft ist der zukunftssichere Standard für Video-Aufnahmen. Allerdings kann ich Live-Aufnahmen vom TV-Tuner damit nicht machen. Das scheint mit dem Microsoft MPEG-4 Codec zu gehen. Empfohlen wird aber, Live-Aufnahmen mit dem MJPEG-Codec zu machen und die dann in einem weiteren Durchlauf auf DivX (Sound dann als MP3) zu komprimieren.

Das MJPEG-Codec von PICVideo (Pegasus) wurde installiert. Die Live-Aufnahme erfolgt mit folgenden Einstellungen:

  • Video Compression: PICVideo MJPEG Codec, Compression/Quality: 17
  • Audio Compression: PCM 44100 kHz, 16 Bit, Stereo, 172 kByte/s (Quailtät einer Audio-CompactDisk)
  • Framerate 25 fps mit 320×240 Pixel

Mit diesen Einstellungen werden ein Speicherplatz von 30 MByte pro Minute benötigt (unkomprimiert: 220 MB/Min).

Nach der Live-Aufnahme wird wie folgt komprimiert:

  • Video: DivX 5.1, 1-pass, Performance/Quality: Standard, Bitrate 1200
  • Audio: MPEG-3, 44100 Hz, 96 KB/s

Mit diesen Einstellungen wird dann nur noch ein Speicherplatz von 10 MByte pro Minute benötigt.

— Main.DietrichKracht – 23 Jan 2004

Computer: Wiki-Adressbuch

Adressbuch

Contents

Siehe: LDAP, OpenLDAP, ApacheDS, E-Mail-Client, vCard

 Aktuelles

  • Von meinem Outlook auf dem T400 habe alle “Contacts” als vCard-Files exportiert. Adressbuch#Exportieren_Outlook_Comntacts
  • Zur Datensicherung habe ich die vCard-Files nach Z:\Backups\OutlookContacts kopiert
  • Als Adressbuch-Manager habe auf ComputerThinkbaer ein Outlook 2010 ohne E-Mail installiert und dort alle vCards importiert. Die Photos sind dabei erhalten geblieben

 Meine Adressbücher und Telefonbücher

Werden benötigt

  • zum Telefonieren
  • für das Schreiben von E-Mails mit dem E-Mail-Client
  • zur Speicherung von Adressen von Bekannten, Restaurants, Hotels, Golfplätzen etc.

Zur Zeit arbeite ich mit folgenden Adressbüchern:

Um alle diese verschiedenen Adressbücher zu verwalten (Impoprt/Export, Backup, evtl. Synchronisierung…) suche ich einen Adressbuch-Manager

 Meine Anforderungen an einen Adressbuch-Manager

  • Verwaltung in einer Datenbank mit der Möglichkeit des Import und Export von LDIF und/oder vCard-Formaten (etwa als Langfrist-Backup in einem nicht-proprietären Format)
  • Import/Export MozillaThunderbird
  • Import/Export MicrosoftOutlook
  • Import/Export Nokia N8-00 Smartphone
  • Alle Adressfelder von Outlook, einschießlich eines Fotos, müssen unterstützt werden
  • Der Adressbestand soll in mehrere Adressbücher unterteilt werden können

 Meine Short List von Adressbuch-Managern

  • vCardMagic

 Outlook-Adressbuch

Berufliche Gründe gaben den Ausschlag dafür doch wieder MicrosoftOutlook mit seinem Adressbuch (Telefonbuch) und seinem Terminkalender einzusetzen.

 Synchronisieren mit SmartPhone

Die Synchronisation des Outlook-Adressbuchs mit meinem SmartPhone ist ein wichitges Auswahlkriterium für das SmartPhone.

SmartPhone mit Windows CE
Hervorragende Synchronosation da alles Microsoft (ActiveSync und Nachfolger)
SmartPhone mit Symbian
Problematisch z.B. Nokia N8-00 mit Nokia OVI ergeugt doppelte Einträge im Adressbuch
SmartPhone mit Android
 ?????

Generelle wichtige Punkte beim Synchronisieren sind:

  • SyncML als Basis
  • Menge der Adressen und Telefonnummern, die auf dem Telefon gespeichert werden können

 Exportieren Outlook Comntacts

MicrofoftOutlook unterstützt vCard das offene (Internet) Format für Adressen leider nur rudimentär. Wenn mann massenweise Kontakte als vCard exportieren will, gibt es folgenden Trick (mit Outlook 2007):

  • Contacts multipel selektieren
  • Menue: Actions –> Send full Contact –> In Internet Format vCard
  • This creates an email with the vCards as attachments. Type in a meaningfull “Subject” and store in “Drafts”
  • Switch to “Email Drafts” and select that new email with the attached vcards
  • Menue: File –> “Save Attchments” –> “All Attachments”

 Thunderbird-Adressbuch E-Mail-Client

Nach der Umstellung des E-Mail-Clients von Mozilla 1.5 auf MozillaThunderbird 0.5 konnte die PalmHotSync Funktion einsetzt werden. Das Palm-Adressbuch und das E-Mail-Client-Adressbuch wurden manuell bereinigt und konsolidiert. Von nun an ist das Thunderbird-Adressbuch mein führendes Adressbuch und wird auf den Palm mit PalmHotSync regelmäßig heruntergeladen.

 Thunderbird Import vCard

…. morefunctionsforAB-TB3-0.6.4.3.xpi …

 Synchronsation

Ähnlich wie ich meine Terminkalender über Google synchronisiere (und für Datensicherheit sorge), so möchte ich auch mein Adressbuch bei einem WebProvider pflegen und von da aus mit meinen lokalen Kopien synchronisieren. Google hat zwar auch einen Adressbuch-Service, allerdings gibt es in einem Google-Adressbuch nur einen Bruchteil der Datenfelder, die ich in meinem Outlook-Adressbuch bzw. Thunderbird-Adressbuch habe.

Daher ging ich auf die Suche nach einem Provider, der sich auf Outlook- bzw. Thunderbird-Adressbücher spezialisiert hat.

 Plaxo

Mein erster Treffer war: http://www.plaxo.com, wo ich mich mit zwei Identities angemeldet habe (rubaschow und bunsch).

 Google

Bei Google hat man als Zugabe zur E-Mail auch ein Adressbuch. Das Kan man über Google-Mail ansprechen (links oben) oder aber auch direkt über: http://www.google.com/contacts

 t-online

Siehe: SyncML

 Telefonnummern-Datenbank

Zur automatischen Unterscheidung von Privat-Telefonaten von Geschäfts-Telefonaten aus dem elektronischen Einzelverbindungsnachweis von Vodafone habe ich alle per Handy benutzen Telefonnummern in eine MySQL-Datenbanktabelle getan. Zusätzlich habe ich die im Handy (Nokia 6310i) gespeicherten Telefonnummern mit Hilfe des Programms Oxygen Phone Manager II in ein Excel-Sheet exportiert und dann in besagte Datenbanktabelle konsolidiert. Als führender Datenbestand soll nun die MySQL-Datenbank dienen.

 Palm-Adressbuch

Mein Adressbuch verwalte ich als Palm-Adressbuch (Palm-Handheld), wobei die Mutterversion, die auf dem PC befindliche Version ist, die mit der Software PalmDesktop verwaltet wird. Die Palm-Adress-Datenbank wird per PalmHotSync ebenfalls auf dem PC gespeichert.

Der Inhalt der Palm-Adress-Datenbank AddressDB.pdb kann mit einem kleinen Perl-Programm pdb2ldif von Geoff Silver (http://www.netadmintools.com/text/pdb2ldif.txt, http://www.netadmintools.com/art81.html) in LDIF-Format konvertiert werden. Allerdings musste ich ein Paar kleinere Anpassungen an pdb2ldif vornehmen, um für meine Zwecke eine vollständige Abdeckung meiner Anforderungen zu erhalten.

Die Palm-Adress-Datenbank AddressDB.pdb befindet sich auf dem Palm. Um sie auf den PC zu kopieren reicht ein Palm-Hotsync manchmal nicht aus, sondern man muss die Palm-Datenbanken mit einem speziellen Hilfsprogramm auf den PC kopieren; siehe dazu: PalmHotsync. (Tilo Christ hat das Pilot-Xfer von Kenneth Albanowski auf Win32 portiert.)

Nun muss nur noch die mit pdb2ldif erstellte LDIF-Datei in meinen OpenLDAP-Server geladen werden. Das mache ich mit der LDIF-Import-Funktion von Jarek Gawor’s genialem LDAPBrowserEditor.

 LDAP-Adressbücher

Auf meinem OpenLDAP-Server verwalte ich folgende Adressbücher:

  • GMO-Lotus-Notes-Adressbuch (migriert vom Lotus-Notes-Server, mit Password-Hashs)
  • GMO-Veteranen (GMO-Mitarbeiter mit den privaten E-Mail-Adressen)
  • Palm-Adressbuch (mit pdb2ldif als LDIF importiert)
  • Rolodap-Testbestand
  • NLDAP-Staging (für www.nldap.com, vereinfachtes Rolodap)

 LDAP-GMO-Lotus-Notes

  • Root: o=gmo, c=de
  • Objectclass: dominoPerson

LDAP-GMO-Veteranen

  • Root: ou=contacts, o=kr8, c=de
  • Objectclass: inetOrgPerson

 Palm-Adressbuch

  • Root: ou=palm, o=kr8, c=de
  • Objectclass: inetOrgPerson (ändern auf: mozillaAaPersonObsolete)

 Rolodap-Testbestand

  • Root: o=contacts.kr8.de
  • Objectclass: rolodapContact, rolodapUser, rolodapBook, rolodapadmin

 NLDAP-Staging

  • Root: ou=lonzo, ou=user, o=NOVELL
  • Objectclass: nur standards

— Main.DietrichKracht – 10 Jan 2004

Consulting: Wiki-Begriffslexikon

BegriffsLexikon

Contents

These pages have been converted to Joomla

 Ausführliche Themen-Artikel

 Stichworte

 Abakus

Aus dem guten alten GMO-Lexikon stammt der Abakus: Abac.gif

 Behaim, Martin (1459-1507)

konsturierte 1492 den ersten Globus (Kugelgestalt der Erde)

 Darwin, Charles (1809-1882)

Britischer Naturforscher. From 1831 to 1836 Darwin served as naturalist aboard the H.M.S. Beagle on a British science expedition around the world. – u.a. auch zu den Galapagos Inseln…

1859 Evolutionstheorie: “”On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life”
I have called this principle, by which each slight variation, if useful, is preserved, by the term Natural Selection.
—Charles Darwin from “The Origin of Species”
VoyageOfTheBeagle.gif
Quelle: http://www.oum.ox.ac.uk/onlinedb/darwin/darimage/darmap1.htm
http://www.pbs.org/wgbh/evolution/educators/lessons/lesson2/act1.html

 Googol

Im Jahre 1938 von Edward Kasner geprägter Begriff für die Zahl 10 hoch 1000.

 Humbold, Alexander von (1769-1859)

Vom 6. Dezember 1827 bis zum 27. März 1828 hielt Alexander von Humboldt in der Berliner Singakademie eine Reihe öffentlicher Vorträge über »Physikalische Geographie«, später »Kosmos-Vorlesungen« genannt. Ein Unbekannter fertigte eine Mitschrift an; die folgenden Texte geben dieses Manuskript wieder.
[[1]]

 Kompass

Quelle: [[2]]
Der Kompass wurde schon im Jahr 271 im Kaiserreich China erfunden. Damals bestand der Kompass aus einem Stück Magneteisenstein, der an einem Faden aufgehängt war und Südweiser genannt wurde. Nach Europa gelangte der Kompass über die Araber erst 1190.

Vor der Einführung des Kompasses orientierten sich die Seefahrer an Himmelskörpern, an Landmarken und an der Tiefe der See mittels Messung mit dem Lot.

Vor etwa vierhundert Jahren, im Jahre 1600, veröffentlichte William Gilbert, der spätere Leibarzt von Königin Elizabeth I von England, seine große Studie über den Magnetismus, “De Magnete” – “Über den Magneten”. Dieses Werk gab zum erstenmal eine rationale Erklärung für die mysteriöse Eigenschaft der Kompassnadel, sich in Nord-Süd-Richtung auszurichten: die Erde selbst ist magnetisch.

Eine sehr ausführliche und schöne Darstellung über die Leistungen Gilberts und die Entwicklung der Forschung über den Erdmagnetismus findet man unter: [[3]]

 Kratakau 1883

Am 27.8. um 10:02 GMT explodiert der Indonesische Vulkan Kratakau. Der Knall reisst im 3000 km entfernten Australien die Menschen aus dem Schlaf. Eine 38m hohe Flutwelle trifft Java und Sumatra und fordert 36000 Todesopfer. Die Flutwelle erreicht auch die amerikanische Westküste und Europa. Staubwolken in 80km Höhe umziehen die ganze Erde.

Bei dem Ausbruch wurden ca. 20 Kubik-Kilometer Lava und Asche freigesetzt. Die Stärke der Explosion von VEI=6 wurde in geschichtlicher Zeit nur übertroffen von Tambora (1815), Vesuv (79 n.Chr.) und Santorin. Die atmosphärische Druckwelle konnte von Barographen auf der ganzen Welt verfolgt werden wie sie in fünf Tagen insgesamt sieben Mal zwischen Kratakau und dem Antipoden in der Karibik hin und her lief.
Erdumfang: 40.000 km = 40.000.000 m —> Bis zum Antipoden: 20.000.000 m
Schallgeschwindigkeit: 300 m/sec
Laufzeit einmal zum Antipoden: 20.000.000 / 300 = 66.667 sec = 1111 min = 18,52 Stunden
Sieben Mal: 7 * 18,52 = 129,63 Stunden = 5 Tage 9 Stunden 38 Minuten

Kratakau Website: [[4]]

 1903-1906 Roald Amundsen Nordwest-Passage

Link: [[5]]

Nwpmap03.gif
Quelle: Bruno [[6]]

 Mercator, Gerhard (1512-1594)

Erfinder der Seekarte. Veröffentlichte 1569 seine Weltkarte “NOVA ET AVCTA ORBIS TERRAE DESCRIPTIO AD USUM NAVIGANTIUM” in der für die Seefahrt seither üblichen Mercator Projektion (winkeltreu; d.h. die Loxodrome ist eine Gerade).

 System/360

Im April 1964 von IBM angekündigte Computerbaureihe mit folgenden Besonderheiten:

  • Plattenspeicher als Standard-Speichermedium
  • Zeichen werden in Bytes codiert, die aus 8 Bit bestehen
  • Hauptkomponenten des Betriebssystems OS MFT/MVT (OS/390, z/OS)
    • Device-independant Input/Output
    • Warteschlangenverwaltung für Batch-Jobs (JCL)
    • Interrupt-gesteuerter Supervisor, der dynamisch Hauptspeicher und CPU für die Tasks zuordnet (“Kernel”)

 Tambora 1815

Vulkanausbruch

 Turbine

In der Geschichte der Technik hatte ich schon in meiner Timeline beschrieben: Dampfmaschine, Ottomotor/Dieselmotor, Elektromotor(?), aber noch nicht die Dampfturbine, die zum Schffsantrieb und zum Antrieb von Elektro-Generatoren viel verwendet wird….

Heissen Dampf unmittelbar in Bewegung umzusetzen soll schon das Prinzip der Äolipile (Heron von Alexandria) gewesen sein.

1884 erhielt Charles A. Parson das Patent für die Gleichdruckdampfturbine. Parson entwickelte das erste turbinengetriebene Schiff, die Turbinia, die 1897 in Dienst gestellt wurde und eine Geschindigkeit von 34,5 Knoten erreichte.

Dampfturbinen sind Schellläufer, z.B. 18000 U/min. Für die Erzeugung von Wechselstrom arbeitete man mit 3600 U/min oder 1800 U/min für eine 60-Hz-Strom.

 Göbelki Tepe

 Monolithen in Ostanatolien älter als Stonehenge

EM – Bei Ausgrabungen in Ostanatolien legen kurdische und deutsche Archäologen derzeit den ältesten Tempel der Welt frei. Sie haben bereits 36 große Pfeiler ausgegraben, die alle über drei Meter Höhe messen. Zwei von ihnen sind sogar fünf Meter hoch. Damit erreichen sie die Größe der Monolithe von Stonehenge (Südengland). Allerdings sind die Kalkstein-Kolosse im osttürkischen Bergland um 6.000 Jahre älter. Vor 11.000 Jahren, am Ende der Altsteinzeit, sollen Jäger und Sammler auf dem Göbelki Tepe („Nabelberg“) ein ganzes Kultzentrum angelegt haben, zu dem es bis heute keinen Vergleich gibt.

Dr. Klaus Schmidt, Prähistoriker des Deutschen Archäologischen Instituts in Berlin räumt ein, daß man „primitiven“ Steinzeitmenschen bislang eine derartige Monumentalarchitektur nicht zugestehen wollte. Die Ausgrabung dieses Tempels sei eine Sensation. Nicht zuletzt auch deshalb, weil die Erbauer in grauer Vorzeit bereits T-Träger geschaffen hätten. Sie wurden am Stück aus dem Kalkstein des Bergrückens gehauen und auf planierten Terrazzoböden aufgestellt. Viele seinen mit Tierreliefs geschmückt, mit Füchsen, Löwen, Stieren, Keilern und Schlangen.

Quelle: [[7]]

 Terra X – Jenseits von Eden

Sendung auf 3Sat am 03.02.2005 – 20:15 Uhr (Erstsendung: 16.11.2003)
Lifestyle in der Steinzeit
Film von Gerhard Thiel

1994 macht der Archäologe Klaus Schmidt in Anatolien, tief im Osten der Türkei und nahe der Grenze zu Syrien, bei einer Geländebegehung eine sensationelle Entdeckung: In den sperrigen Steinbrocken, die Bauern beim Pflügen ihrer Felder achtlos beiseite geschafft haben, erkennt er Überreste einer steinzeitlichen Kultanlage. Ein Fund, der die bisherigen Erkenntnisse der urgeschichtlichen Wissenschaft umgekrempelt hat. In mehreren Grabungskampagnen schälte das Team des Deutschen gewaltige Bauten aus der Erde. Der altsteinzeitliche Ruinenhügel von Göbekli Tepe hält die Urgeschichtler in Atem, denn das Werk prähistorischer Ingenieurskunst entstand vor etwa 11.000 Jahren – 5.000 Jahre vor der ersten Stadtgründung im Zweistromland und 7.000 Jahre vor der Existenz der Pyramiden. Die Theorie, erst der sesshafte Farmer habe mit dem Hausbau die Immobilie ins Spiel gebracht und damit die neolithische Revolution angezettelt, fällt mit der Freilegung der Anlage von Göbekli Tepe in sich zusammen. Ihre Entdeckung belegt außerdem, dass die Wiege der Zivilisation weder – wie bisher angenommen – in Mesopotamien noch in Palästina stand, sondern in der heutigen Türkei.

Der Film erzählt die weithin unbekannte Geschichte vom “Lifstyle” der Menschen in der Altsteinzeit.

ZDF Sendung vom 30.08.2004: [[8]]

 Zheng He

Chinesischer Admiral (1371-1435), der als Seefahrer und Entdecker vor den Europäischen Entdeckern (Vasco da Gama, Kolumbus,…) die ganze Welt entdeckt haben soll und auch die Quelle für entsprechendes Kartenmaterial darstellt, das später die Europäer verwendeten.

Erste Reise 1405-07 von Nanking nach Kalikut (Kozhikode).

Literatur:

— Main.DietrichKracht – 10 Jan 2004

Computer: Wiki-Suchmaschinen

SuchMaschinen

(Redirected from Suchmaschine)

Contents

 Suchen und Finden

Siehe auch: CopernicDesktopSearch, YahooDesktopSearch, Google, Metadaten, DesktopSuchmaschine

 Meine Anforderungen

Die wichtigste Funktion meines Wissensmanagements (KnowledgeManagement) ist, Dinge wiederaufzufinden, die ich schon irgendwo (auf meinem PC oder in Papierablagen) habe. Darüberhinaus kommt es vor, dass ich Informationen aus fremden Quellen suche.

  • Klassich ist der Fall eines Archivs, das in spezieller Form Dinge abspeichert, nach denen dann mit speziellen Suchfunktionen gesucht werden kann.
  • Auch klassisch ist heutzutage das Suchen im Internet, wo im einfachsten Fall nach HTML-Seiten gesucht wird.
  • Ich möchte möchte nun aber ganz schlicht und ergreifend in allen meinen Dateien auf meinem Notebook-Computer suchen. Für diesen Fall muss ein Index aufgebaut werden, der dann als Basis für Suchanfragen dient.

Aufgabenstellung: Website-Indexer / Desktop-Indexer

Für meine eingene Website möchte ich eine Suchmaschine anbieten, mer Besucher, zusätzlich zur ausgeklügelten Navigation auch über eine Volltextsuche über alle meine Webseiten möglichst direkt das finden kann, was er/sie sucht.

Die dafür eventuell erforderlichen technischen Komponenten auf der Server-Seite müssen sehr genau überlegt werden, denn ein billiger Web-Hosting-Provider bietet da nur sehr wenig.

Zur Zeit ist die eigene Website bei t-online gehostet. Als Provider mit PHP und MySQL steht auch free.fr zur Verfügung.

Siehe auch: http://www.searchtools.com

 Lösungsarchitektur

Wichtig ist die Erkenntnis, das hier eine Schichtenarchitektur sinnvoll ist, wobei die untern dargestellten drei Schichten unterschiedliche systemtechnische Anforderungen aben und auch auch unterschiedlichen Systemplattformen laufen könnten.

 Indexing – Harvesting

Man benötigt einen wirklich guten Indexer, der die Website wie ein Spider per HTTP-Protokoll durchläuft und dabei den auf der Oberfläche sichtbaren Text indiziert. Damit werden die Hyperlinks durchlaufen, dynamische inhalte (z.b. von PHP, ASP, JSP-Seiten) richtig behandelt, Zeichensätze (Umlaute) richtig beachtet und ggf. weitere Dokumenttypen (PDF, MicrosoftWord, PowerPoint,…) auch verarbeitet.

Das Ergbnis ist eine Dokumentliste und eine Wortliste.

Diese Komponente muss nicht notwendig als Web-Applikation laufen.

 Schnelle Indexdatenbank

Die in der Stufe 1 (Indexing/Harvesting) gewonnenen “Rohdaten” werden jetzt veredelt und für den Zweck des schnellen Suchzugriffs optimiert aufbereitet.

Diese Komponente muss nicht notwendig als Web-Applikation laufen.

Schnelle Such-Oberfläche

Über ein HTML-Formular soll der Anwender seine Suchbegriffe eingeben. Das Suchergebniss soll dann als Fundstellenliste präsentiert werden.

Diese Komponente muss zwingend als Web-Applikation laufen.

 Lösungsmöglichkeiten

  1. Fremdanbieter: Provider für solche Website-Suchmaschinen
  2. ht://Dig (SourceForge)
  3. mnogosearch
  4. siteIndexer (SourceForge)
  5. dtSearch
  6. PerlfectSearch

 Software für Suchmaschinen

Man hat sich ja an sehr schöne Suchfunktionen aus dem Internet gewöhnt (früher Altavista, heute Google). Wenn man so etwas auf den lokalen PC übertragen könnte, wäre dann noch eine grosse Frage zusätzlich: Kann ich auch nach den Inhalten von Nicht-HTML-Dateien (z.B. MicrosoftWord, PowerPoint, PDF, E-Mails,…) suchen?

Microsoft:
Da gab es zum Web-Server IIS schon immer einen Index-Server. Für den lokalen PC gibt es auch eine in Windows integrierte Suchfunktion nach Inhalten, die auf einem File-Indexer beruht.
Altavista:
Da gab es mal ein Personal Altavista, mit dem man seine lokalen Daten durchsuchen konnte.
dtSearch:
Habe ich 2001 mal ausprobiert, war gut, aber ist auch teuer.
ht://Dig:
Eine sehr verbreitete klassische Index-/Such-Lösung. Einzelheiten unter HtDig.
Perlfect Search 3.31:
Eine Index-/Such-Lösung in Perl, die mein WebProvider-Provider Westhost unterstützt. Einzelheiten unter PerlfectSearch.
SearchBlox:
Eine in Java (J2EE) auf Basis von Jakarta Lucene (http://jakarta.apache.org/lucene/docs/index.html) realisierte Suchmaschine. Kann auch Word, PowerPoint, PDF und Excel. Leider kommerziell und gepfefferte Preise…. http://www.searchblox.com
nutch:
Eine in Java (J2EE) auf Basis von Jakarta Lucene realisierte einfache OpenSourceSoftware http://www.nutch.org
ASPSeek:
Linux-only. Free Software under GNU GPL. CGI-Fontend… (http://www.aspseek.org)
mnoGoSearch:
http://www.mnogosearch.org/win.html
Namazu:
….
sitesearch:
…Teil von….
Search Engine Builder Professional:
Indexiert Dokumenttypen: xyz. Baut lokale Suchmaschine (ASP, PHP, JavaScript – ohne MySQL), die z.B. auch für CD-ROMs und DVDs geeignet ist.
Search Maker Pro:
Indexiert Dokumenttypen: PDF, DOC, RTF, PPT, XLS,.. Dabei werden Dokumentinhalt und Dokument-Property-Felder indexiert. Es wird eine lokale, in sich abgeschlossene Suchmaschine generiert (ASP, PHP, JavaScript), die z.B. auch für CD-ROMs und DVDs geeignet ist.

 Update Oktober 2004: Desktop Search

blinkx:
Produkt “blinks 0.4.34” http://www.blinkx.com Windows-Oberfläche, Dateien: …, PDF, PPT, ZIP. Aber völlig instabil.
Anstelle eines Pre-View gibt es ein Pop-Up-Fenster mit einem Abstract.
Copernic:
Produkt “Copernic Desktop Search 1.0” http://www.copernic.com/en/products/desktop-search Windows-Oberfläche, Dateien: TXT/RTF DOC XLS, PPT, Outlook-Mail, PDF, Music, Video, Pictures (ZIP?????)
Enfish:
Produkt Enfish “Professional 6.1” http://www.enfish.com Windows-Oberfläche, Dateien: …PDF, PPT, ZIP-Inhalte, kommerziell
HotBot:
Produkt “HotBot Desktop” http://www.hotbot.com/tools/desktop
Google:
Produkt “Google Desktop Search” http://desktop.google.com Dateien: TXT, DOC, XLS, PPT, Outlook-Mail (PDF nicht)
Filehand:
Produkt “FilehandSearch 2.0” http://www.filehand.com Oberfläche: Windows, Dateien: TXT, DOC, XLS, PPT, PDF, MP3 (ZIP???)
SWISH-E:
http://www.swish-e.org
Wilbur:
Produkt “Wilbur 2.2” http://wilbur.redtree.com Oberfläche: Windows,…
X1 Technologies:
Produkt “X1Searchhttp://www.x1.com Oberfläche: Windows, ….
X-Dot:
Produkt “x-friend 0.2” http://www.x-friend.de Browser-Oberfläche, Java-basiert, verwendet Apache-Lucene, Dateien: TXT, DOC, XLS, PPT, PDF, IMAP E-Mail, MP3 ID3 Tag, Bilder, ZIP-Archive,…

Update Januar 2005: Desktop Search

Yahoo Desktop Search:
Yahoo hat sich mit X1Search zusammen getan und eine bessere Oberfläche geschaffen. Überragender Pluspunkt bleibt die Viewer-Technologie von X1Search (ex Magellan) YahooDesktopSearch

 Meine Bewertung

Produkt/Klasse Pro Contra
blinkx 0.4.34 kann PDF, PPT und ZIP-Inhalte
E-Mail: Outlook und Eudora
kostenfrei
läuft extrem instabil unter Win2000
kommerziell
Thunderbird-E-Mail nicht unterstützt
CopernicDesktopSearch 1.0
Desktop-Indexer
Dokumenten-Preview
On-the-fly indexing
Kleiner Index (Beispiel: 662MB/34MB)
E-Mail nur Outlook, nicht IMAP/POP3
Indiziert nicht den Inhalt von ZIP-Archiven!!!
dtSearch Selbsttragende CD-Indizierung teuer
Enfish 6.1 kann PDF, PPT und ZIP-Inhalte
E-Mail Outlook, Lotus Notes, AOL-Mail
Schönes Pre-View
E-Mail nicht Thunderbird
kommerziell teuer
Filehand 2.0 Windows-Oberfläche Inhalte von ZIP-Archiven werden nicht indiziert
Google PDF nicht indiziert
Nocht nicht fertig (Beta)
htDig
Website-Indexer
Bestandteil der Linux SuSE Edition CGI-Binary muss kompiliert werden (Cygwin)
mnogoserach
PerlfectSearch
Website-Indexer
Plattformen Linux/Windows durch Perl
Internationalisierung durch i18n
Website-Indexer
PDF und Word durch Third-Party-Zusätze
Wilbur 2.2
Desktop-Indexer
Inhalte von ZIP-Archiven werden indiziert
CD-ROM Indexing
QuickView support
Freeware
PDF und Thunderbird-Email wird indexiert
Word und PowerPoint werden nicht indexiert.
Kein Document Preview, aber Integration mit QuickView
X1Search 04.09
Desktop-Indexer
Inhalte von ZIP-Archiven werden indiziert
Dokument-Preview integriert
Guter PowerPoint-Preview
teuer: $99
Thunderbird-Email wird nicht indiziert
Im PPT-Preview wird nicht mit Autoscroll auf “first occurance” positioniert
x-friend 0.2
Desktop-Indexer
Plattformunabhägig durch Java
Beliebiger WebBrowser
Gut passend zur meiner Architektur (Java, WebBrowser,
Apache Lucene, IMAP…)
E-Mail IMAP
Selbsttragende CD-Indizierung
Inhalte von ZIP-Archiven werden nicht indiziert
PowerPoint PPT wird nicht indiziert
POP3-Email wird nicht indiziert
Preview von der Ansichsgrösse nicht einstellbar
Sehr schlichter PPT Preview

 Meine Lösungsauswahl

Für das russische mnogoserach spricht die Verwendung von PHP für die Search-Funktion.

Allerdings wird ein modifiziertes PHP benutzt, das man sich selbst durch Compilation erzeugen muss. Da die Lösung bei einfachen Providern laufen soll, scheidet diese Variante aus.

Für die Variante ht://Dig spricht:

  • Die sehr grosse Verbreitung und damit eine Sicherheit für eine mittelfristig gesicherte Nutzung
  • ht://Dig wird als Bestandteil der SuSE 8.0 Edition mit ausgeliefert (binary)
  • Eine Compilation unter Win98 mit Cygwin war auf Anhieb erfolgreich.

Nachteil bei ht://Dig ist nachwievor, dass die Such-Oberfläche als CGI-Executable realisiert ist. Nicht jeder Web-Hosting-Provider lässt “freie CGIs” zu.

Die Auswahl fiel trotzdem auf HtDig, da die Ausgereiftheit und Mächtigkeit der Funktionen sowie die solide Community einfach überzeugen. Der Nachteil der CGI-Suchoberfläche wird im Sinnne der Architektur in Kauf genommen, mit der Idee, dafür im Laufe der Zeit einen Austausch vorzunehmen. Die Idee ist, eine PHP-Suchoberfläche entweder direkt auf die Berkely-DB2-Datenbank zu setzten, oder die DB2 auf MySQL zu konvertieren und dann eine PHP-Oberfläche darauf zu setzen.

Mehr Komfort: Enfish oder Copernic oder X1Search

Enfish 6.1 und Copernic bestechen durch sehr elegante Windows-Oberflächen. Allerdings ist die Funktionalität von Copernic nicht ausreichend und Enfish 6.1, das sehr mit seiner Lotus-Notes-Email-Indexierung lockt, ist viel zu teuer. Es bleibt X1Search, das zwar nicht so elegant aussieht, aber durch solide Funktionalität überzeugt.


 Indizieren: Was soll, was soll nicht indiziert werden

Da das aufbauen und Aktualisieren eines solchen Index erstens Zeit kostet und zweitens Platz kostet, loht es sich zu überlegen, welche Datei-Typen man wirklich indizieren will und welche man nicht indizieren will.

 Postiv (sollen indiziert werden)

Zur Konfiguration von Indexern (Teil einer Suchmaschinen-Archtektur) benötigt man MIME-Types und Parser für jeden MIME-Type:

Extension MIME Type Parser
.dbf application/dbase
application/x-dbase
 ?
.doc application/msword catdoc aus: http://freshmeat.net/projects/catdoc/
.pdf application/pdf pdftotext.exe aus XPDF: http://www.foolabs.com/xpdf/
.rtf application/rtf  ?
.xls application/vnd.ms-excel catdoc aus: http://freshmeat.net/projects/catdoc/
.ppt application/vnd.ms-powerpoint  ?
.html text/html OK
.htm text/htm OK
.svg image/svg+xml  ?
.txt text/plain OK
.vsd application/vnd.visio Visio
.xml text/xml
application/XML
 ?
.xsl  ?  ?
.zip application/zip  ?

 Negativ (sollen nicht indiziert werden)

  • *.bak
  • *.dbs
  • *.dl_
  • *.do_
  • *.dsk
  • *.ex_
  • *.e2_
  • *.ndx
  • *.ffx (löschen)
  • *.ffo (löschen)
  • *.ffl (löschen)
  • *.ffa (löschen)
  • *.pqi
  • *.z

— Main.DietrichKracht – 09 Jan 2004