Da es nach meinem Malte-Urlaub länger ruhig war, will doch mal wieder auf meinen Status beim Lernen der Programmiersprache Python kommen. Bzw. wie es mit dem Buch „Einführung in Data Science“ weiter gegangen ist. Hier hatte ich zuletzt -klick- über das Auslesen von Webseiten-Daten berichtet, und speziell über die Flugsuch-Seite ‚Skyscanner‘. Leider bin ich hier kaum weiter gekommen, da eine aufwendige Registrierung nötig gewesen wäre. Daher hatte ich mich für das Auslesen über andere frei zugängliche APIs entscheiden. Eine Seite, auf der ich dann viel ausprobiert habe, ist ‚https://open-meteo.com/‘. Hier kann man weltweite Wetterinformationen auslesen. Fand ich auch relativ spannend, und ist es für Interessierte sicherlich noch mehr. Eine kleinere eher spielerische Seite ist ‚https://www.swapi.tech/‘, die Daten über das Star-Wars Universum zur Verfügung stellt.
In der Zwischenzeit bin ich aber auch generell im Buch vorangekommen. Im letzten Artikel war der Stand Kapitel 9, und nun bin ich bei Kapitel 21. Besonders herausfordernd bei dem ganzen Stoff – auf den ich punktuell eingehen werde – ist, dass viele Kapitel auf Dinge aus vorangegangenen Kapiteln aufbauen. Und so tauchen manche Funktionen, d.h. Abschnitte von Programmiercode, zum Teil auch verschachtelt auf. Ich will versuchen es anhand von einem Einblick zu erklären. Falls jemand mal reinschnuppern will, hier kann man das Inhaltsverzeichnis einsehen: https://www.assets.dpunkt.de/leseproben/13335/1_Inhaltsverzeichnis.pdf
Nach dem Beschaffen von Daten und dem Arbeiten mit Daten ging es schon mit dem Thema ‚maschinelles Lernen‘ weiter. Im Kontext mit Data Science bedeutet maschinelles Lernen, mit vorhandenen Daten ein mathematisches Model zu erstellen, also zu programmieren, welches weitere Daten vorhersagen kann. Die Mathematik dahinter besteht grob gesagt aus Beziehungen zw. Variablen, also Funktionen. Und aus Vektor-Rechnung, da es häufig um mehrdimensionale Variablen geht. Also wie man sieht keine leichte Kost. In den darauffolgenden Kapiteln werden verschiedene solcher Modelle vorgestellt, wie man sie programmiert und bespielhaft damit arbeitet. Ein klassisches Beispiel, das vermutlich zum Standard Lernprogramm gehört, ist das Schreiben eines Spamfilters. Weiter wird mit Regressions-Modellen gearbeitet, also statistischen Modellen. Und hier wird auf Stoff aus Kapiteln zu lineare Algebra und Statistik zurückgegriffen, die sehr am Anfang kommen (Kapitel 14 ⇒ 4). Danach wird es noch interessanter, aber auch komplexer, mit dem Thema ‚Neuronale Netzwerke‘. Interessant an den besagten Modelle und den neuronalen Netzwerke finde ich, dass man sie trainieren kann bzw. muss. D.h. je mehr Ausgangs-Daten man zur Verfügung hat, je besser können die Programme vorhersagen. Daher auch Begriff ‚Maschinelles Lernen‘. Man kann noch nicht von künstlicher Intelligenz reden, aber es geht in die Richtung. Näher auf Neuronale Netzwerke und das restliche Buch gehe ich dann das nächste Mal ein