Montag, 8. Juli 2019

Ausreißererkennung im Data Mining

Ausreißer in Datensätzen mit Hilfe von Techniken und Algorithmen aus dem Data Mining einfach identifizieren.

Holger Fullriede, Spezialist, Revision Models, NORD/LB Norddeutsche Landesbank.

I. Einleitung

Im Zuge der fortschreitenden Digitalisierung fallen immer größeren Datenmengen an. Traditionelle, stichprobenbasierte Prüfungstechniken stoßen dabei an ihre Grenzen. Zudem sind Methoden des maschinellen Lernens als Teil des Hypes um die Künstliche Intelligenz in aller Munde. Die Möglichkeit, einfach Erkenntnisse aus der Analyse großer Datenmengen zu gewinnen, scheint in greifbare Nähe gerückt. Es stellt sich die Frage, wie in der Internen Revision ein einfacher, kostengünstiger Einstieg in diese Techniken gelingen kann und was dabei zu beachten ist.

Für den Einstieg in die Datenanalyse eignen sich z. B. Methoden des Data Mining. Unter Data Mining versteht man die Entdeckung unbekannter Muster in bekannten Daten. Dabei sollen die Muster interessant sein, was an den Kriterien Neuheit, Allgemeingültigkeit, Nichttrivialität, Nützlichkeit sowie Verständlichkeit gemessen wird. Üblicherweise ist das Data Mining in einen vollständigen Prozess mit vorheriger Datenselektion, Datenvorverarbeitung und Datentransformation, sowie anschließender Interpretation der Ergebnisse eingebettet, welcher auch als Wissensgewinnung in Datenbanken („Knowledge Discovery in Databases“) bezeichnet wird[1].

Ein Teilgebiet des Data Mining beschäftigt sich mit der Erkennung von Ausreißern in den Datensätzen. Unter Ausreißern (Outlier) oder Anomalien versteht man in diesem Zusammenhang untypische und auffällige Datensätze. Nach Hawkins (1980) ist „ein Ausreißer eine Beobachtung, die sich von den anderen Beobachtungen so deutlich unterscheidet, dass man denken könnte, sie sei von einem anderen Mechanismus generiert worden“[2].

Bei der Anwendung statistischer Analysen sind Ausreißer in den Daten häufig unerwünscht, da sie die Ergebnisse erheblich verzerren können. Sie werden daher oft aussortiert. Im Prüfungskontext dagegen können sie die interessantesten Werte in den Daten sein, weil das Auftreten von Ausreißern beispielsweise auf Kontrollschwächen hindeuten kann. Insbesondere in großen, mehrdimensionalen Datenmengen kann die Identifizierung von Ausreißern jedoch schwierig sein. Zwei Techniken zur Identifikation von Ausreißern in numerischen Daten sollen daher exemplarisch vorgestellt werden[3]. [...]
Beitragsnummer: 2591

Weiterlesen?


Dies ist ein kostenloser Beitrag aus unserem Beitragsarchiv.

Um diese Beiträge lesen zu können, müssen Sie sich bei meinFCH anmelden oder registrieren und danach auf Beitragsarchiv klicken.

Anmeldung/Registrierung

Wenn Sie angemeldet oder registriert sind, können Sie unter dem Menüpunkt "Beitragsarchiv" Ihre

Beiträge anschauen.

Beiträge zum Thema:

Beitragsicon
3G am Bankarbeitsplatz: Knifflige Umsetzung, Arbeitsrecht, Datenschutz

Der Bundestag hat am 18.11.2021 umfangreiche Veränderungen des Infektionsschutzgesetzes und weiterer Gesetze und Verordnungen beschlossen.

29.11.2021

Beitragsicon
Das digitale Zahlungsverhalten der Generation Y in Deutschland

Die Digitalisierung erreicht einen immer größeren Stellenwert in unserer Gesellschaft und die gesamte Wirtschaft. Die Umwandlung analoger Werte in digitale Formate lässt sich in allen Bereichen des täglichen Lebens beobachten.

01.03.2021


Um die Webseite so optimal und nutzerfreundlich wie möglich zu gestalten, werten wir mit Ihrer Einwilligung durch Klick auf „Annehmen“ Ihre Besucherdaten mit Google Analytics aus und speichern hierfür erforderliche Cookies auf Ihrem Gerät ab. Hierbei kommt es auch zu Datenübermittlungen an Google in den USA. Weitere Infos finden Sie in unseren Datenschutzhinweisen im Abschnitt zu den Datenauswertungen mit Google Analytics.