Diesmal will ich schon mal etwas zu meinem Abschlussprojekt für den Kurs sagen. Was auch weitere Kurs-Inhalte widerspiegelt. Ein Vorschlag für das Thema der Arbeit war die ‚Analyse eines öffentlich verfügbaren Datensatzes‘. Bei der Überlegung welcher Daten mich interessieren, ist mir das Schlagwort „Kriminalstatistik“ eingefallen. Entsprechende Datensätze sind über die Seite des BKA frei zugänglich. Es sind sogar relativ viele verschiedene Tabellen verfügbar. Für mein Projekt habe ich mir Tabellen aus der deutschlandweiten Ebene für das Jahr 2022 rausgesucht, d.h. welche zu den Straftaten, den Tatverdächtigen und den Opfern. Dann interessierte mich noch eine räumliche Verteilung, also in welchen Städten wurden welche Taten wie oft verübt. Und zuletzt ein zeitlicher Verlauf, hier Fallzahlen seit dem Jahr 1987. Wie im Letzen Beitrag beschreiben ist der erste wichtige Schritt die Datenvorverarbeitung, so auch mit diesen Datensätzen. Die Qualität der Datensätze war relativ gut, d.h. es waren wenig Korrekturen nötig. Hauptsächlich mussten jeweils führende Zeilen entfernt werden, da die Überschriften der Spalten auf mehrere Zeilen verteilt waren. In Power BI ist beim Import nur eine Zeile als Spaltenüberschrift möglich.
Ein Ziel bei der Datenanalyse ist die Darstellung von Daten, oder dem was daraus zu Lesen ist, und zwar in Form eines Berichts, wie es in Power BI genannt wird. Dieser Bericht – in anderen Tools auch als Dashboard bezeichnet – soll so aufgebaut sein, dass der Leser möglichst einfach die Inhalte und Ergebnisse der Analyse lesen kann. Dazu gibt es – wie im Letzen Beitrag beschreiben – die Visualisierungen. Auch der Output des Abschlussprojekts soll ein solcher Bericht sein. Daher will ich kurz was zu den entsprechenden Visualisierungen sagen. Inhalte von Datensätzen oder Statistiken – also nackte Zahlen – werden mit schlichten Tabellen gezeigt. Generell kann man Tabellen und Diagramme auch filtern. Z.B. lässt sich über einen Datenschnitt eine Tabelle auf einzelne Straftaten einschränken. Große Unterschiede in den Fallzahlen sind so leicht ersichtlich. Um verschiedene Werte aus der Straftaten-Tabelle besser miteinander zu vergleichen habe ich als nächstes ein Säulendiagramm gewählt. Hier wird z.B. klar, dass die Zahl aller erfassten Fälle deutlich höher ist als die der aufgeklärten Fälle. Die Verteilung von Straften auf verschiedene Städte lässt sich gut in einer Landkarte darstellen. Hier werden die Fallzahlen durch unterschiedlich große Blasen abgebildet.
Bei nächsten Mal werde ich noch auf weitere Funktionen in Power BI eingehen. Außerdem fehlt in der Arbeit noch eine tatsächliche Auswertung gewisser Teildaten und eine entsprechende Bewertung.


