Langsam wird es interessant

Endlich hab ich die Muse gefunden, wieder ein wenig über die Fortschritte meines – ich nenne es mal  – Selbststudiums zu berichten. Das Buch zu den Grundlagen der Programmiersprache Python habe inzwischen durch. Bis auf die letzten eins zwei Kapitel, da diese dann etwas zu speziell waren. Aber sonst bin ich ganz zufrieden, die Basics entsprechend vertieft zu haben. Ein wichtiges Thema, das ich nun auch kennengelernt habe, ist das ‚objektorientierte Programmieren‘. Was mir noch deutlich fehlt ist Routine. D.h. regelmäßiges Programmieren und auch längere Abschnitte schreiben, um diese grundlegenden Kennnisse besser parat zu haben. Momentan schaue ich noch oft nach, um wieder zu wissen, wie man etwas schreibt.
Nun arbeite ich in dem Data-Science Buch weiter. Hier geht es einerseits also sehr mathematisch zur Sache, wobei das erst Kapitel 9 von insgesamt 27 ist. Daher wird sich vermutlich der Anspruch hier noch steigern. Bisher geht es um Dinge wie Statistik, Werteverteilung, Standabweichung, und Wahrscheinlichkeitsrechnung. Dies sind allgemein Vorgehensweisen um Daten zu analysieren. Ein weiteres Feld, in das das Buch einsteigt, ist die Datenbeschaffung. Und hier wird es gerade interessant, wie ich finde. Denn es geht z.B. um das Auslesen von Daten auf Internetseiten. Für gelernte Programmierer natürlich nichts Besonderes, aber als Anfänger bin ich gespannt, was da möglich ist. Leider oder auch logischerweise ist dies nicht ganz einfach. Hier will ich zwei wesentliche Hürden nennen. Teilweise benötigt man zur jeweiligen Webseite eine passende “Übersetzung“ (bestehend aus Parser & Bibliothek), die bei dem Abruf des Quellcodes für die Programmiersprache lesbare Daten erzeugt. Als andere Möglichkeit des Datenabrufs stellen viele Webseiten Schnittstellen zur Verfügung, so genannte APIs (Application Programming Interface). Um mit diesen zu kommunizieren, benötigt man vereinfacht gesagt Passwörter, und um diese zu bekommen muss man sich entsprechend anmelden bzw. registrieren. Diese Schritte sind mit einem gewissen (Programmier-)Aufwand verbunden. Aber mit der entsprechenden Routine wiederum relativ leicht umzusetzen. Manche Webseiten bieten auch öffentliche APIs an, die man ohne Registrierung ansprechen kann. In der Regel haben diese eingeschränkte Funktionalitäten, und begrenzte Zugriffsraten. Aber für Test- oder Lernzwecke eine gute Alternative.
So bin ich bei der Suche auf die öffentliche Schnittstelle der Seite skyscanner.net gestoßen, also eine Suchmaschine für Flüge. Und konnte hier ich meine ersten Versuche mit API zu arbeiten durchführen. Soweit ich bisher gelesen habe, ist es hier im Wesentlichen möglich z.B. automatisiert Flugverbindungen und deren Preise abzurufen. Ob dies auch über die öffentliche API klappt muss ich noch herausfinden. Bisher konnte ich z.B. eine Liste sämtlicher Flughäfen weltweit abrufen, die bei skyscanner gelistet sind. Anscheinend sind dies über 17000 Stück, wenn hier nicht noch ein Fehler drin steckt. Die Fehlersuche und -korrektur in Datenmengen wäre dann weiteres Thema, das bereits in dem Buch angeschnitten wurde. Vielleicht berichte ich darüber auch mal. Aber generell wird es wie gesagt gerade erst spannend …