Information Retrieval

Aufbau, Ziele und Arbeitsformen

Information Retrieval beschäftigt sich mit der Suche nach Informationen und mit der Repräsentation, Speicherung und Organisation von Wissen. Information Retrieval modelliert Informationsprozesse, in denen Benutzer aus einer großen Menge von Wissen die für ihre Problemstellung relevante Teilmenge suchen. Dabei entsteht Information, die im Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext angepasst ist. [nach Salton]

Unter Informationsdienstleistung fallen alle Betätigungen, die von geschulten Informationsspezialisten gezielt und im gegenseitigen Kontakt mit Informationsnachfragenden und in deren Auftrag für die Befriedigung aktueller und latenter Informationsbedürfnisse und zur Lösung konkreter Informationsprobleme unter Ausnutzung aller verfügbarer Ressourcen des Informationsmarktes angeboten und ausgeführt werden. [Schmidt zit. nach Rittberger]

Informationsvermittlung umfasst die in der Regel professionelle Tätigkeit der Recherche, Selektion, Beschaffung, Bewertung, Aufbereitung und Weitergabe von Daten, Texten, Materialien und Medien zur Deckung von Informationsbedürfnissen Dritter. Informationsvermittlung schließt die Lücke zwischen Informationsangebot und Informationsnachfrage. [Kuhlen zit. nach Rittberger]

Phasen der Informationsvermittlung

  • Informationsanfrage und Informationsbedarfsermittlung
  • Recherche und Informationsbeschaffung
  • Informationsaufbereitung und -bereitstellung

Ablauf des Blockes Information Retrieval

  1. Informationsmarkt; Typologie der Informationsquellen und Suchwerkzeuge
  2. Web-Retrieval

    1. Suchdienste im Web
    2. Suchdienste im Deep-Web
    3. Webarchivierung

  3. Elektronisches Publizieren und Open Access
  4. Online-Dienstleister (Hosts) und Host-Retrieval; Werkzeuge und Methodik
  5. Proprietäre Information Retrieval Systeme (ein Beispiel)

Im Lehrgebiet Information Retrieval kann eine Prüfungsvorleistung erworben (Bearbeitung eines Rechercheauftrages) und ein Teilnehmer-Praxisbericht gehalten werden. Für die schriftliche Hausarbeit kann ein Thema aus dem thematischen Schwerpunkt Information Retrieval gewählt werden.

Lernziele des Kurses Information Retrieval

  • Typologie der Informationssysteme kennen
  • Struktur von Dokumentationseinheiten und deren inhaltliche Erschließung in Datenbanken ermitteln können
  • Praktisch recherchieren können
  • Informationsbedarf eines Benutzers analysieren können
  • wissen, wie man relevante Informationsquellen auswählt
  • wissen, wie Problemstellungen auf retrievalfähige Frageformulierungen abgebildet werden
  • verschiedene Recherchestrategien kennen und anwenden können
  • Recherchen bewerten und einfach aufbereiten können
  • knappe Übersicht über die nationale und internationale Angebotssituation (Datenbanken und Hosts) gewinnen
  • in der Lage sein, ein Problem mit heterogenen Informationsquellen bearbeiten zu können
  • Kostenstruktur ermitteln und preisgünstige Recherche durchführen können
  • Mit dem Begriff Internet vertraut sein, den Aufbau und die Besonderheiten des Internet kennen
  • Suchdienste im WWW kennen und in der Lage sein, die richtigen auszuwählen
  • WWW-Recherchen sowohl im sichtbaren als auch im Deep-Web durchführen können

Zentrale Begriffe

Zahlreiche zentrale Begriffe des Information Retrievals finden Sie u.a. auch an folgenden Stellen im WWW:

http://de.wikipedia.org/wiki/Information-Retrieval

Glossar zu Suchmaschinen
http://www.sup4u.de/suchmaschinen-glossar/R/

TerminosaurusRex -Informationswissenschaft in Begriffen
http://server02.is.uni-sb.de/trex/index.php

Information Retrieval (Informationsbeschaffung, Informationsvermittlung)

Eine Disziplin, die sowohl im Bereich der Informationswissenschaft als auch der Informatik angesiedelt ist und  die Methoden  des computergestützten Wiederauffindens von Informationen in Informationssystemen untersucht

Recherche (Retrieval, search)

Ein Arbeitsvorgang, bei dem ein Rechercheauftrag bearbeitet und dadurch ein Teil des Informationsbedarfs befriedigt wird

Rechercheablauf

Besteht aus:
Recherchevorbereitung, Recherchedurchführung und Recherchenachbereitung

Dokument (Document [nach Gaus, 2003])

Ein physisch vorliegendes Dokument: Buch, Zeitschrift, Bild, ein Museumsex-ponat usw. Das

Dokumentarische Bezugseinheit (DBE, [nach Gaus, 2003])

Die zu speichernde und zu bearbeitende Einheit. Kann mit der Dokumentationseinheit übereinstimmen, ein Teil dieser sein oder mehrere Dokumentations-einheiten umfassen.

Beispiele: ein Buch, ein Kapitel, eine Buchreihe, eine Zeitschrift, ein Zeitschriftenartikel, ein Bild, eine Bildsammlung, usw.

Dokumentationseinheit oder Datensatz (Record, Set, [nach Gaus, 2003])

In einem Informationssystem gespeicherte Einheit. Entspricht der Dokumentarischen Bezugseinheit.

Datenbank (data base)

Besteht aus einer Menge gleichstrukturierter Datensätze (Dokumentendatei) sowie aus einer Reihe von Indexdateien. Jeder Datensatz besteht aus mehreren Feldern, die Feldeinträge stellen Informationen dar.

Datenbanktypen werden gebildet in Abhängigkeit von der Struktur, Inhalt, Quel-lenart oder des zu Grunde liegenden Datenmodells.

Index (Indexdatei, Register)

Alphabetisch geordnete Listen mit allen Einträgen eines Feldes (z.B. Autor-Index ist eine alphabetisch sortierte Liste aller in der Dokumentendatei erfassten Autoren. Zu jedem Suchfeld muss ein Index angelegt worden seien.

Ein Basicindex enthält Einträge wichtiger Felder. Die Indexdateien werden vom System automatisch angelegt.

Invertierung

Der Vorgang, bei dem ein Index erzeugt wird. Es gibt direkte Invertierung, wortweise und phrasenweise Invertierung.

Host (Datenbankanbieter, Vendor, Distributor, Online-Service)

Serviceeinrichtungen mit der Hauptaufgabe, Datenbanken für die Recherchen zur Verfügung zu stellen. DIALOG, STN, GBI, GENIOS, DIMDI sind Beispiele für Hosts.

online

Elektronischer Datenaustausch zwischen Computern über öffentliche Netze, Online-Dienste oder das Internet.

Kommunikationssoftware

Programm, welches eine online-Verbindung zwischen zwei Computern unterstützt.

Retrievalsoftware

Programm, welches die Führung eines online-Dialoges übernimmt. (ProBase, Rechercheoberflächen von CD-ROM-Datenbanken etc.)

CD-ROM-Datenbank

Auf CD-ROM gespeicherte Datenbanken, die lokal oder im Netz genutzt werden können.

Retrievalsprache (Abfragesprache, Kommandosprache, Recherchesprache, Daten-banksprache, host language)

Künstliche Sprache mit der professionelle Nutzer auf den Datenbestand zugreifen. Retrievalsprachen beinhalten u.a. Befehle zur Datenbankauswahl, Einsichten in die Indexlisten, Suchbefehle, Dokumentenausgabe und statistische Aufbereitung von Ergebnissen. Beispiele: DIALOG Classic, Messenger, TRIP, DSO u.a.

Retrievalstrategie (Recherchestrategie, Suchstring)

Genauer Plan zur Durchführung einer Recherche. In Abhängigkeit von der Anfrageformulierung und dem gestellten Rechercheziel unterscheidet man zwischen freitextbasierten und dokumentationssprachenbasierten Strategien sowie zwischen Blockbildungs-, Zitatbasierten-, Spezifische-Wörter-Priorität- und schrittweisen Verfeinerung-Strategien.

Boolesche Operatoren (Logische Operatoren)

AND, OR, NOT, seltener UND, ODER, NICHT

AND: alle mit AND verknüpften Begriffe müssen in den Dokumenten vorkom-men

OR: mindestens einer der mit OR verknüpften Begriffe muss im Dokument vor-kommen

NOT: schließt den nachfolgenden Begriff aus

Verarbeitungsreihenfolge: NOT vor AND vor OR

Abstandsoperatoren (Nachbarschaftsoperatoren, Proximity Operatoren, Kontextope-ratoren)

Mit ihrer Hilfe wird eine Kontextabhängigkeit zwischen Suchbegriffen definiert. Z.B. können so Dokumente gesucht werden, bei denen die Suchbegriffe direkt nebeneinander (Phrase) oder im gleichen Satz, Abschnitt etc. stehen

Es gibt keine einheitliche Notation für diese Operatoren; möglich sind:

W - direkt nebeneinander in angegebener Reihenfolge stehend, bzw. nW für maximal n Wörter dazwischen möglich.

N - nebeneinander stehend, die Reihenfolge beliebig, bzw. nN – für maximal n Wörter dazwischen

S – im selben grammatikalischen Satz stehend

P – im selben Absatz stehend

L – im selben Feld stehend

Nicht jedes Retrievalsystem bietet die Möglichkeit einer kontextbezogenen Verknüpfung von Suchbegriffen.

Client

Programm oder Rechner, der Kontakt zu einem Server aufnimmt und dort bereitgestellte Informationen oder Dienste abruft.

Z.B. Kommunikationssoftwarepakete sind Clients, Internetbrowser wir Mozilla Firefox oder Internet Explorer sind Clients, Programme zum Empfangen und Abschicken von Emails sind Clients, ein PC, von dem aus eine online-Recherche durchgeführt wird, ist ein Client.

Server

Ein Rechner oder die auf dem Rechner aufliegende Software, der bzw. die in einem Netzwerk einen Dienst anbietet. Diese Leistungen oder Informationen können von anderen Rechnern (Clients) abgerufen werden.

Beispiele: Email-Server, WWW-Server, FTP-Server oder auch ein Großrechner bei FIZ-Karlsruhe, auf dem über 200 Datenbanken für Recherchen zur Verfügung stehen, ist ein Server.

Trunkierung / Maskierung

Durch vereinbarte Zeichen wird ein oder werden mehrere Zeichen am Ende oder iinnerhalb eines Suchbegriffes weggelassen (informat?, mi#rocomputer)

Die Trunkierungs- Maskierungszeichen sind nicht normiert und sind systemabhängig. Üblich sind folgende Zeichen: *, ?, $, #.

Protokoll (online-Sitzung), Online-Protokoll

Eine Textdatei, in der die online-Sitzung protokolliert wird. Zum Teil werden Protokolle durch die Kommunikationssoftware verwaltet, zum Teil muss der Recherchierende sich selbst um das Öffnen und Speichern des online-Protokolls kümmern.

Protokoll

Konventionen zur elektronischen Datenübertragung zwischen Rechnern bzw. zwischen verschiedenen Systemen.

Beispiele: Z39.50- Kommunikationsprotokoll zwischen bibliothekarischen Systemen, Internet-Protokolle TCP/IP, SMTP, FTP, TELNET u.a.

Internet

Weltweiter Netzverbund. Besteht aus verschiedenen Diensten, z.B. WWW, Email, Telnet, Newsgroups, FTP u.a.

Suchmaschine

Automatisch angelegte Indexe, die Recherchen im Internet unterstützen.

Beispiele: google.de, altavista.com, ask.com u.a.

Webkatalog

Intellektuell erstellte Kataloge, die nach einem Ordnungsprinzip erschlossene Internetseiten aufzeichnen.

Beispiele: yahoo.de, web.de, dmoz.de u.a.

Portal

Fachspezifisches oder fachübergreifendes, inhaltlich erschlossenes und personalisiertes Angebot an Internetadressen.

Beispiele: geo-guide.de, handwerkguide.de, statistik-portal.de, my.yahoo.com u.a.

Suchagent

Software, die Suche im Internet durch eine Reihe von Funktionen unterstützt. Funktionalitäten der Agenten: Suchanfragen speichern und überwachen; Ergebnisse zu Suchanfragen speichern; Suche innerhalb der Ergebnissen, Nutzerprofile verwalten u.a. (Beispiel: Copernic)

Precision

Qualitätsparameter einer Recherche. Durch die Precision wird das Verhältnis gefundener relevanter zu allen gefundenen Dokumenten berechnet.

Recall

Qualitätsparameter für eine Recherche. Durch den Recall wird das Verhältnis gefundener relevanter zu allen im System enthaltenen relevanten Dokumenten berechnet.

Literatur

Monographien und Aufsätze:

Baeza-Yates, R. ; Ribeiro-Neto, B. : Modern Information Retrieval. - New York : Addison-Wesley, 1999 http://www.sims.berkeley.edu/~hearst/irbook/ [Stand 4.12.07]

Buder, M. ; Rehfeld, W. ; Seeger, Th. ; Strauch, D. (Hrsg.): Grundlagen der praktischen Information und Dokumentation : Ein Handbuch zur Einführung in die fachliche Informationsarbeit ; Bd. 1 und 2. - 5., völlig neu gefaßte Ausgabe; München : Saur, 2004

Gaus, W.: Dokumentations- und Ordnungslehre: Theorie und Praxis des Information Retrieval. - 4. Auflage; Berlin; Heidelberg; New York: Springer, 2003

Henzler, R.: Information und Dokumentation: Sammeln, Speichern und Wiedergewinnen von Fachinformation in Datenbanken. - Berlin; Heidelberg; New York: Springer, 1992

Kuropka, Dominik: Modelle zur Repräsentation natürlichsprachlicher Dokumente. Ontologie-basiertes Information-Filterin und -Retrieval mit relationalen Datenbanken. - Berlin : Logos-Verl. , 2004.
(Advances in information systems and management science ; 10)
ISBN 3-8325-0514-8

Poetzsch, Eleonore: Information Retrieval : Einführung in Grundlagen und Methoden / Eleonore Poetzsch. - 5., völlig neu bearb. Aufl. - Berlin: E. Poetzsch-Verlag, 2006

ISBN 3-935035-75-6

Poetzsch, Eleonore: Wirtschaftsinformation. Online-CD-ROM- Internet/ Eleonore Poetzsch. - 2., völlig neu bearb. u. erw. Aufl. - Potsdam : Verl. für Berlin-Brandenburg, 2004

ISBN 3-935035-58-6
Diese und weitere Publikationen von Poetzsch, Eleonore unter:
http://www.e-poetzsch.de

Rittberger, Marc: Materialien zur Informationsvermittlung I. (Skript zur Vorlesung an der Universität Konstanz). 1998

C. J. van RIJSBERGEN: INFORMATION RETRIEVAL http://www.dcs.gla.ac.uk/~iain/keith/ [Stand 4.12.07]

Salton, G. ; McGill, M. J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg; New York: McGraw-Hill, 1987

Stock, W.G.: Information Retrieval. Informationen suchen und finden. Lehrbuch. - München : Oldenbourg, 2007.
ISBN 3-486-58172-4

Links

Zuständige Dozentin

Zum Profil von Valentina Engelhardt