Indexierung von Dokumenten – 3 Arten, wie Du Deine Dokumente indexieren kannst

Veröffentlicht 22.04.2022

Jule Geuting Marketing Managerin d.velop

Indexierung Beitragsbild

Wie sicherlich jeder hast auch Du Dich schon einmal bei langen Zahlenfolgen vertippt, oder? Das ist schnell passiert und kann auch beim manuellen Indexieren von Dokumenten vorkommen. Die Folge: Ein Dokument lässt sich nicht wiederfinden, oder der Workflow zu einem Dokument startet nicht wie geplant. In diesem Blogartikel erfährst Du, wie das mithilfe von Indexierung nicht mehr passieren kann und welche verschiedenen Arten von Indexierungsvorgehen existieren.

Indexierung und Verschlagwortung von Dokumenten

Definition Indexierung

Die Indexierung, auch genannt Verschlagwortung oder Verstichwortung, ist eine Möglichkeit, um Eigenschaften und Informationen zu einem Dokument zuzuordnen und dessen Sachverhalt zu erschließen.

Beim Indexieren geht es darum, Dokumente besser und digital ordnen zu können. Es gibt verschiedenen Verfahren, mit denen Du indexieren kannst, somit auch verschiedene Möglichkeiten.

Grundsätzlich können die unterschiedlichsten Arten von Dokumenten indexiert werden. Allgemein wird die Methode der Indexierung in Unternehmen oftmals aber für Textdokumente wie Rechnungen, Bestellungen oder Auftragsbestätigungen verwendet. Die Indexierung von Dokumenten dient der digitalen Bearbeitung, Archivierung und damit einhergehend auch das Wiederfinden von bereits abgelegten Dokumenten. Du kannst es Dir vorstellen, als wäre Dein Dokumentenmanagementsystem eine Suchmaschine und Du gibst ein Schlagwort ein, um ein bestimmtes Dokument zu finden. Dafür muss es aber nach diesem besagten Schlagwort abgelegt bzw. indexiert worden sein. Wie das gehen kann, erfährst Du in den folgenden Abschnitten.

Manuelle Indexierung

Die manuelle Indexierung ist eine der Arten zur Verarbeitung von Dokumenten. Sie wird ohne Hilfe einer Software angewandt. Bei diesem Verfahren der Indexierung werden repräsentative Schlagwörter durch einen Indexierer zugewiesen. Wenn der Vorgang der Indexierung abgeschlossen ist, wird von den entsprechenden Experten:innen im Unternehmen mithilfe von Terminologie-Listen oder anderen Regelwerken alles noch einmal überprüft. Diese Art zu indexieren ist zeitaufwändig und dazu noch teuer. Ein Vorteil dabei ist es, dass Du keine Indexierungs-Software kaufen musst. Die Qualität des Ergebnisses der Indexierung hängt immer von der durchführenden Person ab. Außerdem muss der Benutzer sich mit dem Indexierungsvokabular auskennen, um recherchieren zu können.

Automatische Indexierung

Im Jahr 2020 wurde eine Umfrage zum Thema KI-Nutzung in der PR durchgeführt. Es wurden 415 Fach- und Führungskräfte aus Pressestellen und PR-Agenturen befragt, 41 Prozent gaben an, dass sie in den nächsten Jahren einen großen Nutzten in der automatischen Verschlagwortung von Dokumenten sehen.

Die automatische Indexierung ist ein Verfahren zur Generierung von inhaltlichen Metadaten in digitalen Dokumentenmanagementsystemen. Was bei der zuvor beschriebenen Variante händisch erfolgt, wird bei der automatischen Indexierung an eine Software ausgelagert. Es wird hierbei versucht durch verschiedene Einstellungen und Konfigurationen ein Ergebnis zu erzielen, welches möglichst nah an das der manuellen Indexierung herankommt. Es gibt verschiedene Arten eine automatische Indexierung durchzuführen. Hier drei Beispiele:

  • Volltextindexierung: Hier übernimmt das System alle Wörter eines Textes in einen Index, somit kann nach diesen Worten gesucht werden. Alle Wörter mit Ausnahme von Wortwiederholungen und Stoppwörtern werden übernommen.
  • Statische Indexierung: Es wird anhand der Worthäufigkeit eine Auswahl von Worten getroffen, die in den Index aufgenommen werden.
  • Semantische Indexierung: Hierbei wird nicht nach bestimmten Wörtern indexiert, sondern nach Themenbereichen.

Die Informationen werden automatisch eingelesen und dann als Schlagwort gespeichert. Selbst unbekannte Dokumente sind für das automatische Verfahren kein Problem. Bei solchen Dokumenten scannt die Software das ganze Dokument nach Mustern ab. Auch die Form des Textes bzw. Dokuments erkennt die Software selbstständig. Die Erkennung von jeglichen Informationen ist auch möglich.

Ein wesentlicher Vorteil der automatischen Indexierung ist natürlich der geringe Personalaufwand und damit einhergehend die schnellere Bearbeitung des Vorgangs. Dazu kommt, dass die Informationen der Dokumente unmittelbar nach dem Einpflegen verfügbar und von überall abrufbar sind. Diese Variante der Indexierung eignet sich besonders gut für strukturierte Dokumente.

Halbautomatische Indexierung

Die halbautomatische Indexierung auch Indizierung genannt ist ein Verfahren der Indexierung, welches teils von einer Software und teils manuell verarbeitet wird. Die Eigenschaften werden von der Software ermittelt und dann manuell angepasst, falls erforderlich. Indexierung wird also größtenteils durch die Software vorgenommen und nur die Vor- oder Nachbereitungen werden manuell gesteuert. Bei der automatischen Indexierung kann es zu verfälschten Ergebnissen kommen, wenn zum Beispiel eine Mehrfachbedeutung von Begriffen eintritt oder die Erkennungsleistung der Software versagt. Diese Nachteile gibt es bei der halbautomatischen Indexierung nicht, da dort durch manuelles Zutun eine Kontroll-Instanz entsteht. So erreicht man eine gute Ergebnisqualität, allerdings muss zeitlich auch mehr Aufwand investiert werden.

Hier noch einmal eine Übersicht für Dich:

Indexierungssoftware

Im folgenden Bild ist eine Indexierungs-Software zu sehen. Dabei kommt die Optical Character Recognition zum Einsatz. Wie die genau funktioniert, haben wir in dem Blogartikel OCR-Software im Einsatz: Funktionsweise & Nutzen auf einen Blick für Dich zusammengeschrieben.

Indexierungssoftware anhand einer Indexierungsmaske

Diese Abbildung zeigt eine Indexierungsmaske, wo der Nutzer die Möglichkeit hat, die zuvor mittels OCR erkannten Daten zu überprüfen und ggf. zu korrigieren. Es wird also die halbautomatische Indexierung vorgenommen. Nach der Bearbeitung werden das Dokument und die erkannten Daten bereitgestellt. Anschließend können sie an verschiedenste Drittsysteme (z.B. SAP, NAV, …) übergeben werden.

Das manuelle Abarbeiten von eingehenden Dokumenten ist sehr zeitaufwendig und fehleranfällig. Je nach Arbeitsweise können Dokumente einen sehr langen Weg durch ein Unternehmen gehen und bis zur finalen Bearbeitung vergeht sehr viel Zeit. Dem kann mithilfe von Indexierung von Dokumenten entgegengewirkt werden.

In diesem Factsheet haben wir für Dich nochmal beschrieben, wie umfassende automatisierte Dokumenterfassung mit dem d.velop document reader funktioniert.

Mit der automatischen Dokumentenerkennung auf dem Weg in die Zukunft.