HtmlIndex (HtmlFilter) for DL indexing of html articles

Digital Librarian war und ist ein gutes Tool. Irgendwann wurden die html files immer populärer und es gab dafür keinen Indexing Filter. Die guten Leute von NeXT hatten das schon vorausgesehen und deshalb die Erweiterungsmöglichkeit mit eingebaut.

HtmlIndex hat mir gute Dienste beim Durchforsten der ersten Heise c't CDs geleistet. Es basiert auf dem hervorragenden NewsIndex von Izumi Ohzawa, izumi@pinoko.berkeley.edu. Die Fehler sind dann wahrscheinlich von mir.

Zum Download HtmlIndex-0.21.N.s.tgz (ca. 120kb)

Aus dem readme:

Html filtering and description services for DL indexing of 
html articles.  The following two services are implemented.

[1] HtmlDescribe Service: Describes html articles based currently on TITLE and Hn tags. With this service, when you search in DigitalLibrarian, titles are listed in the format:
title -- header1 -- header2 -- header3
[2] HtmlFilter Service: The purpose of this filter is to remove junk, such as complete html anchors(.*) and simple html tags (<.*>) before the article text is handed over to indexing scanner. This should reduce the size of .index.store somewhat (upto 20% compared with Version 0.91).

> Letzte Aktualisierung : 1. Dezember 2007