Computer: HtDig (aus Wiki)

HtDig (aus Wiki)

Gehört zu: Suchmaschinen

Suchmaschine ht://Dig

ht://Dig ist der Klassiker unter den SuchMaschinen.

The ht://Dig system is a complete world wide web indexing and searching system for a domain or intranet. This system is not meant to replace the need for powerful internet-wide search systems like Lycos, Infoseek, Google and AltaVista. Instead it is meant to cover the search needs for a single company, campus, or even a particular sub section of a web site.

ht://Dig was developed at San Diego State University as a way to search the various web servers on the campus network.


  • Boolean search
  • Excerpts
  • HTML and Text Files
  • PDF
  • doc2html (OpenOffice)
  • ….


  • Definitive Software Library ID: htdig
  • Name: ht://Dig
  • Version: 3.2.0b6 (v3.1.6 tested under Cygwin)
  • Hersteller/Bezugsquelle:
  • Systemvoraussetzungen: Cygwin, Perl, gcc, make, Apache
  • Installations-Ordner:
    • Indexer: D:\htdig, D:\home\htdig (exe files)
    • Searcher: CGI (exe files)
  • Konfigurations-Dateien: htdig.conf ( s.u. )


Idiot’s Guide to Installing ht://Dig on Win32:

5. Lösung mit ht://Dig

5.1 Beschaffung

ht://Dig Version 3.1.6 wurde von beschafft und zum Testen auf Win98 unter Cygwin umgewandelt.

Dabei hat der ” target=”_blank” Guide to installing ht://Dig on Win32 sehr geholfen.

Die Produktiv-Version der Suchmaschine soll unter Linux (SuSE 8.0) laufen und dort war ht://Dig 3.1.5 bereits als Bestandteil der Erstinstallation vorhanden.

5.2 Konfiguration: htdig.config

  • max_head_length:     10000 –> 50000
  • max_doc_size:        200000
  • description_meta_names: description
  • keywords_meta_names:   keywords
  • maximum_word_length:    12 —> 24
  • bad_extensions:      .mid .swf  .asf  .mp3
  • locale:            de_DE
  • translate_quot:          true

5.3 Indexing

cd  /opt/www/htdig/bin<br>./htdig -v -c ../conf/htdig.conf<br>./htmerge -v -c ../conf/htdig.conf

5.4 Searching

<form method="post" action="http://myserver/cgi-bin/htsearch%22>
<input type="hidden" name="method" value="and">
<input type="hidden" name="format" value="builtin-long">
<input type="hidden" name="sort" value="score">
<input type="hidden" name="config" value="htdig">
<input type="hidden" name="restrict" value="">
<input type="hidden" name="exclude" value="">
<p>Search this Website:</p>
<input type="text" size="15" name="words" value="" style="background-color: 99CCFF;">
<input type="submit" value="Suchen">

6. Erweiterungen

ht://Dig benutzt seit Version 3.1.0 als Datenbank “Berkeley DB2” ([[1]] ).

Die Idee ist, mit PHP auf diese Datenbank zuzugreifen. Dazu muss ein PHP mit DBA-Unterstützung beim Web-Hosting-Provider vorhanden sein und dann als “DBA-Handler” db2 unterstützen. Tests mit phpinfo() ergaben:

SuSE 8.0 mit PHP 4.1.0

dba: DBA support enabled. Supported handlers: gdbm ndbm

Win98 mit PHP 4.1.1

dba: DBA support enabled. Supported handlers: db3

Provider mit PHP 4.2.2

dba: DBA support enabled. Supported handlers: ndbm db2

Erstes PHP-Script “phpdbatest1.php” zum Lesen der ht://Dig Berkeley DB2 Dokumentendatenbank[edit]

Näheres bei Colin Viebrock: <a href=”“></a>

$id = dba_open("db.docdb","r","db2");
if ($id) {
echo "<p>dba_open succsessful</p>";
$key = dba_firstkey ($id);
$i = 0;
while ($key != false) {
$i = $i + 1;
echo "$i: $key <br>";
$key = dba_nextkey ($id);
echo "<h3>nextDocID: " + dba_fetch("nextDocID",$id) + "</h3>";
} else {
echo "dba_open failed\n";

<a href=”” target=”_blank”>Testweiser Aufruf dieses PHP-Scripts</a>.

Perl-Script zum Lesen der ht://Dig Berkeley DB2 Dokumentendatenbank

In findet man das Perl Modul htdig-database-0.52 womit man mithilfe von Perl-Scripts in ht://Dig-datenbanken lesen kann. Diese aktuelle Version funtioniert auch mit ht://Dig 3.1.5 mit der Berkeley DB2 Datenbank.


   cd \htdig\bin
   perl listdocdb -v ../conf/htdig.conf

Durch Beschäftigung mit diesem perl-Skript kann man sicher eine Menge über die Struktur der Datenbank lernen und die Erkenntniise auf PHP übertragen……

— Main.DietrichKracht – 24 Jan 2004