INFORMATIONSWISSENSCHAFT

Titel / Titel:

Thematisches Aufspüren von Web-Dokumenten - Eine kritische Betrachtung von Focused Crawling-Strategien.

Author / Autor

Höhfeld, S. & Kwiatkowski, M. 

Source / Quelle

Höhfeld, S. & Kwiatkowski, M. (2007): Thematisches Aufspüren von Web-Dokumenten - Eine kritische Betrachtung von Focused Crawling-Strategien. In: IWP - Information Wissenschaft & Praxis 58 (2), 69-82. 

Language / Sprache

German/Deutsch

 

Thematisches Aufspüren von Web-Dokumenten - Eine kritische Betrachtung von Focused Crawling-Strategien.

Herkömmliche Suchmaschinen dienen der breiten Websuche und zeichnen sich zumeist durch eine hohe Quantität – nicht unbedingt durch Qualität – ihrer Ergebnismengen aus. Zum Suchen von Dokumenten wird ein allgemeiner Crawler eingesetzt, der Webseiten aufspürt, um große Datenspeicher aufzubauen. Focused Crawler gehen dagegen gezielter vor: Nicht enorme Datenmengen sollen durchsucht, gespeichert und indexiert werden, sondern nur bestimmte, thematisch relevante Segmente des World Wide Web. Der Focused Crawler muss einen möglichst optimalen Weg durch das Web finden, um Knowledge Discovery zu betreiben. Dabei bleiben die für eine Thematik irrelevanten Bereiche des Web unberücksichtigt. Die Aufgabe wird dadurch erheblich verkleinert und der Ressourcenaufwand verringert. Ziel ist die Produktion qualifizierter Suchergebnisse zu einem bestimmten Wissensgebiet. Im Allgemeinen können Focused Crawling-Techniken für den Aufbau spezialisierter vertikaler Suchmaschinen eingesetzt werden. Sie sind darü- ber hinaus im Bereich der Digitalen Bibliotheken von Vorteil. Da diese oft über einen thematischen Schwerpunkt verfügen und der qualifizierten Literatur-Untersuchung dienen, müssen sie einen gewissen Qualitätsanspruch Genüge leisten und dabei lediglich Anfragen zu einem definierten Wissensbereich bedienen. Der Einsatz von Focused Crawling bietet sich also an, um eine hohe Dokument-Qualität in einer spezifischen Domäne zu gewährleisten. Dieser Review-Artikel beleuchtet grundlegende Ansätze des Focused Crawling und verfolgt diese bis in die aktuellen Entwicklungen. Praktische Einsatzgebiete und aktuelle Systeme untermauern die Bedeutsamkeit des Forschungsgebiets. Darüber hinaus wird eine kritische Betrachtung der aufgeführten Ansätze geleistet.

Topical Crawling of Web Documents. A Critical Review of Focused-Crawling Strategies

Traditional search engines conduce to the general Web-Search and the results are normally characterised by high quantity – not necessarily by quality. To seek for documents, a general crawler is used, that downloads Web pages in order to build huge data storages. Topical Crawlers proceed more tightly focused: Only thematically relevant segments of the World Wide Web get searched, stored and indexed. The Focused Crawler must find an optimal way through the Web in order to do Knowledge Discovery. The areas of the Web that are irrelevant for a topic remain unconsidered on that occasion. Thus the complexity of the task and the need for resources get reduced. Goal is the production of qualified search results to a certain knowledge area. In general, Focused Crawling-technologies can be used for the construction of specialized vertical search engines. They are also beneficial in the area of digital libraries. Since these often focus on a thematic field and serve the qualified literature examination, they must meet a certain quality claim and must serve queries merely on that occasion to a defined knowledge area. The use of Focused Crawling therefore offers a high document quality in a specific domain. This review article presents the basic approaches in the field of Focused Crawling up to the current developments. Practical application areas and current systems show the significance of the research area. In addition, a critical reflection of the presented approaches is conducted.

PDF