Ausreißererkennung im Data Mining

Montag, 8. Juli 2019

Ausreißer in Datensätzen mit Hilfe von Techniken und Algorithmen aus dem Data Mining einfach identifizieren.

Holger Fullriede, Spezialist, Revision Models, NORD/LB Norddeutsche Landesbank.

I. Einleitung

Im Zuge der fortschreitenden Digitalisierung fallen immer größeren Datenmengen an. Traditionelle, stichprobenbasierte Prüfungstechniken stoßen dabei an ihre Grenzen. Zudem sind Methoden des maschinellen Lernens als Teil des Hypes um die Künstliche Intelligenz in aller Munde. Die Möglichkeit, einfach Erkenntnisse aus der Analyse großer Datenmengen zu gewinnen, scheint in greifbare Nähe gerückt. Es stellt sich die Frage, wie in der Internen Revision ein einfacher, kostengünstiger Einstieg in diese Techniken gelingen kann und was dabei zu beachten ist.

Für den Einstieg in die Datenanalyse eignen sich z. B. Methoden des Data Mining. Unter Data Mining versteht man die Entdeckung unbekannter Muster in bekannten Daten. Dabei sollen die Muster interessant sein, was an den Kriterien Neuheit, Allgemeingültigkeit, Nichttrivialität, Nützlichkeit sowie Verständlichkeit gemessen wird. Üblicherweise ist das Data Mining in einen vollständigen Prozess mit vorheriger Datenselektion, Datenvorverarbeitung und Datentransformation, sowie anschließender Interpretation der Ergebnisse eingebettet, welcher auch als Wissensgewinnung in Datenbanken („Knowledge Discovery in Databases“) bezeichnet wird[1].

Ein Teilgebiet des Data Mining beschäftigt sich mit der Erkennung von Ausreißern in den Datensätzen. Unter Ausreißern (Outlier) oder Anomalien versteht man in diesem Zusammenhang untypische und auffällige Datensätze. Nach Hawkins (1980) ist „ein Ausreißer eine Beobachtung, die sich von den anderen Beobachtungen so deutlich unterscheidet, dass man denken könnte, sie sei von einem anderen Mechanismus generiert worden“[2].

Bei der Anwendung statistischer Analysen sind Ausreißer in den Daten häufig unerwünscht, da sie die Ergebnisse erheblich verzerren können. Sie werden daher oft aussortiert. Im Prüfungskontext dagegen können sie die interessantesten Werte in den Daten sein, weil das Auftreten von Ausreißern beispielsweise auf Kontrollschwächen hindeuten kann. Insbesondere in großen, mehrdimensionalen Datenmengen kann die Identifizierung von Ausreißern jedoch schwierig sein. Zwei Techniken zur Identifikation von Ausreißern in numerischen Daten sollen daher exemplarisch vorgestellt werden[3]. [...]
Beitragsnummer: 2591

Weiterlesen?


Dies ist ein kostenpflichtiger Beitrag aus unseren Fachzeitschriften.

Um alle Beiträge lesen zu können, müssen Sie sich bei meinFCH anmelden oder registrieren und danach eines unserer Abonnements abschließen!

Anmeldung/Registrierung

Wenn Sie angemeldet oder registriert sind, können Sie unter dem Menüpunkt "meinABO" Ihr

aktives Abonnement anschauen oder ein neues Abonnement abschließen.


Hinterlassen Sie einen Kommentar

Kommentare:

Um die Webseite so optimal und nutzerfreundlich wie möglich zu gestalten, nutzen wir Google Analytics und hierfür erforderliche Cookies. Weitere Infos finden Sie in unseren Datenschutzhinweisen.