Knowledge Discovery & Visual Data Mining

  • Pedestrian & Bicycle crashes in the region of Chapel Hill: Where do the crashes took place?
    Pedestrian & Bicycle crashes in the region of Chapel Hill: Where do the crashes took place?

Knowledge Discovery & Visual Data Mining – A Case Study for Master’s Degree Modules with D3.js using the example of Pedestrian and Bicycle Crash Data in the Region of Chapel Hill

Meine Masterarbeit befasst sich mit dem Prozess des Knowledge Discovery & Visual Data Mining. Sie enthält eine Fallstudie für Kurse eines Master-Studiums. Diese Fallstudie zielt darauf ab, Studenten zu befähigen den Prozess mit d3.js durchzuführen, der in einer Website resultiert. Dazu werden Datensätze von Fußgängern- (vgl. Town of Chapel Hill, 2016b) und Fahrrad-Unfalldaten (vgl. Town of Chapel Hill, 2016a) in der Region Chapel Hill als Datenquellen für die Fallstudie verwendet (verschiedenste aktuelle Daten aus Chapel Hill können hier gefunden werden: Town of Chapel Hill Open Data portal ).

Für die Erläuterung des Prozesses werden die Begriffe Knowledge Discovery from Data, (Visual) Data Mining, Data, und Attributes definiert. Außerdem werden verschiedene Attributtypen, Diagrammtypen und Prozessmodelle beschrieben. Insbesondere wird das CRISP-DM wird genauer beschrieben, da es an die Bedürfnisse der Fallstudie angepasst ist.

Die Fallstudie selbst besteht aus zwölf Schritten und einem Zwischenschritt innerhalb von sechs definierten Phasen, um elf Ziele zu erreichen. Diese Ziele werden während der Schritte der Fallstudie definiert. Die Studenten können diesen Prozess Schritt für Schritt nachvollziehen. Außerdem wird während der Fallstudie detailliert erklärt, wie Diagramme mit JavaScript und d3.js erstellt werden können. Daher können die Studenten den Programmiercode für die Diagramme, die ihnen gefallen, verwenden und an ihre eigenen Projekte anpassen.

Außerdem wird d3.js mit R und Shiny verglichen, um zu erklären, wann man welches dieser beiden Werkzeuge sinnvoll einsetzt. Am Ende dieser Master Thesis gibt es eine kritische Betrachtung dieser Arbeit, sowie einige weitere Forschungsmöglichkeiten.

Hier kann die Master-Arbeit, sowie die zugehörige Kolloquiumspräsentation gerne eingesehen werden:

Master-Arbeit

Kolloquium-Präsentation

Bevölkerung in Deutschland 2010-2015

  • Shiny-App: weibliche Bevölkerung in Deutschland 2015
    Shiny-App: weibliche Bevölkerung in Deutschland 2015

Mit Shiny visualisieren – Bevölkerung in Deutschland 2010-2015

In der Arbeit „Mit Shiny visualisieren – Die Bevölkerungsverteilung in Deutschland“ geht es um die Verwendung des R-Packages Shiny von RStudio als „Web Application Framework“01 für R, in das eine Einführung gegeben werden soll.

Es wird der Aufbau einer Multiple-File Shiny-App erläutert. Eine solche App besteht grundsätzlich aus den beiden R-Scripten ui.R und server.R Die ui.R ist dabei für die Darstellung der Benutzeroberfläche zuständig, während die server.R die Funktionen der App implementiert02.

Darüber hinaus wird erläutert, wie weitere R-Scripte und R-Packages, sowie Daten aus Tabellen mit eingebunden werden können. Auch die Besonderheiten der Formatierung von Tabellen werden erklärt. Außerdem müssen diese Daten im Ordner „data“ der Shiny-App gespeichert werden03. Auch ist es möglich, Funktionen von dem bekannten Datenvisualisierungswerkzeug „D3“ mit Shiny zu implementieren.

Die Erstellung einer Shiny-App wird an dem Beispiel der Visualisierung der prozentualen Anteile an Männern und Frauen in den einzelnen Bundesländern der Bundesrepublik Deutschland, in den Jahren von 2010 bis 2015, anhand einer Karte noch einmal verdeutlicht.

Außerdem wird erläutert, dass mit Shiny fast alles visualisiert werden kann, aber durchaus die Berechnung von Kurven über Annäherungswerte gegebenenfalls berücksichtigt werden muss. Ein weiterer Schwachpunkt ist, dass die Webveröffentlichung ohne Einschränkungen, gegebenenfalls kostenintensiv sein kann.

Alles in Allem ist Shiny jedoch ein sehr mächtiges Werkzeug, dass durchaus Potential haben könnte, in Zukunft zu DEM Werkzeug für Datenvisualisierung im Internet zu werden.


01 Vgl. Shiny by RStudio (Stand: 07.01.2017)
02 Vgl. Shiny by RStudio: LESSON 1 – Welcome to Shiny (Stand: 07.01.2017)
03 Shiny by RStudio: LESSON 5 – Use R scripts and data (Stand: 07.01.2017)

Hier kann die Dokumentation gerne eingesehen werden:

Bevölkerung in Deutschland 2010-2015 – Dokumentation

Digitalisierung in Deutschland – Tweets

  • Interface der Shiny-App: Die (gesellschaftliche) Digitalisierung in Deutschland am Beispiel von Twitter-Nachrichten (Tweets) – Visualisierung in R und Shiny
    Interface der Shiny-App: Die (gesellschaftliche) Digitalisierung in Deutschland am Beispiel von Twitter-Nachrichten (Tweets) – Visualisierung in R und Shiny

Die (gesellschaftliche) Digitalisierung in Deutschland am Beispiel von Twitter-Nachrichten – Visualisierung in R und Shiny

In meiner Bachelor-Arbeit geht es um die Implementierung einer Web-Applikation (App) mit R und Shiny. Diese App dient der Visualisierung in Form einer interaktiven, kartographischen Infografik. Hiermit wird der Grade der (gesellschaftlichen) Digitalisierung in Deutschland und den Bundesländern visualisiert. Dazu erfolg die Visualisierung am Beispiel von Twitter-Nachrichten. Twitter-Nachrichten werden auch Tweets genannt.

Zur Umsetzung wird die Programmiersprache R in RStudio verwendet. Hierbei ermöglicht das R-Package „shiny“ die Erstellung einer Web-Applikation direkt mit R. Die Implementierung der Karte erfolgt außerdem mit dem R-Package „leaflet“. Darüber hinaus stammen die Daten der Tweets aus der Twitter-Streaming-API und werden mit dem R-Package „rtweets“ abgerufen.

Bei der Implementierung dieser App wird das R-Skript „ui“, für das User Interface, sowie das R-Skript „server“ und 22 weitere Skripte, für die Implementierung der Funktionen, verwendet. Außerdem enthält sie eine CSS-Datei namens „style“ für die visuelle Darstellung.

Um zu zeigen, wie verschiedene Fragen zur Digitalisierung der Gesellschaft anhand von Tweets visualisiert werden können, werden zwei Beispiel-Fragen beantwortet. Als erstes wird die Frage, zu welcher Tageszeit die Digitalisierung am stärksten ist, beantwortet. Danach lautet die andere Frage, an welchem Tag die Digitalisierung am stärksten ist. So gibt es vom 07.12.2017 bis 13.12.2017 vier tägliche Streams für jeweils eine Stunde. Diese zeigen, dass die Digitalisierung am Abend in Nordrhein-Westfalen und in Berlin am stärksten ist. Während Nordrhein-Westfalen am 10.12.2017 und Berlin am 08.12.2017 die stärkste Digitalisierung aufweist.

Danach wird die Kritik an dieser App beschrieben. Dabei ist die stärkste Kritik die Frage nach der Repräsentativität von Tweets für die Digitalisierung. Außerdem gibt es noch viele Möglichkeiten für zukünftige weitere Forschungen.

Hier kann die Bachelor-Arbeit, sowie die zugehörige Kolloquiumspräsentation und das Plakat gerne eingesehen werden:

Bachelor-Arbeit: Digitalisierung in Deutschland

Kolloquium-Präsentation: Digitalisierung in Deutschland

Plakat zur Bachelor-Arbeit : Digitalisierung in Deutschland