Redshift Cloud

Mit Redshift hat der Cloud Platzhirsch Amazon Web Service (AWS) eine gemanagte Data Warehouse Lösung in der Cloud im Angebot mit der deutliche Kostenersparnisse und höhere Flexibilität möglich sind als mit einer klassischen On-Premise Lösung im eigenen Datacenter. Außerdem ist es ein idealer Kandidat für Unternehmen für die erste Kontaktaufnahme mit der Cloud, ohne direkt kritische operative Systeme zu verlagern. managetopia unterstützt seine Kunden in der AWS Cloud mit seinen AWS zertifizierten Solution Architects.

Unser Kunde setzt seit der Eröffnung des ersten AWS Data Centers auf deutschem Boden verstärkt auf Cloud Lösungen. Die Vorteile liegen auf der Hand: Keine Investitionen oder Fixkosten für die Anschaffung teurer Server, keine Festlegung auf Server Technologien für die nächsten Jahre, flexible Erhöhung oder Verringerung der Server-Kapazitäten, verringerte Kosten für IT-Personal und Sicherheit im eigenen Datacenter und hohe Transparenz der Kosten.

Als die Analyse mehrerer Dutzend Gigabyte an Transaktionsdaten eines großen Einzelhandelsunternehmens durchgeführt werden sollte, war schnell klar dass nur mit AWS die nötigen Ressourcen zeitnah bereitzustellen sind. On-Premise waren nicht genügend Kapazitäten vorhanden, und die Anschaffung neuer Server wäre zu teuer und würde zu lange dauern. Zunächst stand die Entscheidung an, wie die Daten in die Cloud transferiert werden sollten.

Prinzipiell gibt es dafür 3 Möglichkeiten:

  • Transfer über die normale Leitungen des ISP
  • Transfer über eine direkte dedizierte Verbindung zum AWS Backbone über einen der diversen AWS Verbindungs-Standorten
  • Verschicken als Snowball (*)

Bei letzterem handelt es sich prinzipiell um eine gesicherte SSD-Festplatte in der Größe eines Amazon Paketes, die mechanisch stark geschützt ist und verschlüsselte Daten speichert. Nach Rücksendung an AWS können die Daten zügig von AWS importiert werden. Da unser Kunde schon über eine dedizierte Verbindung zum AWS verfügte war darüber der Transfer der Daten in wenigen Stunden möglich. Der Snowball schied daher als Option aus; durch die Postlaufzeiten von 3-4 Tagen wäre hier erst ein Vorteil entstanden, hätte die Datenmenge im Terabyte-Bereich gelegen.

Parallel zum Transfer der Daten, musste der Redshift Cluster konzipiert und aufgesetzt werden. Entscheidend für die Performanz und natürlich auch die Kosten ist die Anzahl an Rechenknoten, die der Redshift Cluster enthält: Mehr Rechner, schnellere Abfragen. Jeder Rechner wird pro Stunde in Rechnung gestellt. Mit den ca. 300 Millionen Datensätzen in der Haupt-Faktentabelle des DWH (DataWareHouse) lagen die Laufzeiten vieler Abfragen bei Verwendung nur eines Knotens noch im Sekundenbereich, allerdings können komplexe SQL-Abfragen teilweise einige (wenige) Minuten dauern. Daher stellte sich die Frage, ob man die Performanz durch Hinzunahme weiterer Rechenknoten verbessern sollte. Da aber nur ein Analyst und kein Team aus mehreren Personen die Analysen machen sollte, wurde die Entscheidung gefällt, die Laufzeiten zu akzeptieren und damit die Kosten möglichst gering zu halten. Außerdem ist es im Nachhinein immer möglich den Cluster zu vergrößern. Danach war das Aufsetzen des DWH Cluster in wenigen Klicks erledigt und er war nach 5 Minuten betriebsbereit.

Wie in datenintensiven Projekten üblich war außerdem eine Datenbereinigung nötig. Wie häufig war dies auch hier wieder der Haupttreiber für den Aufwand. Bei großen Datenmengen muss man dabei sehr strukturiert vorgehen: Einzelne Schritte dauern viele Minuten teilweise sogar Stunden. Nach der mehrtägigen Phase der Bereinigung war das eigentliche Beladen des Data Warehouse mit den Daten dann wiederum schnell erledigt. Im AWS Backbone ist der Transfer von mehreren GB schnell erledigt – ähnlich wie im lokalen Netzwerk.

Nach dem erfolgreichen Aufsetzen und Beladen des Redshift DWH, war es dann Zeit für die eigentliche Analyse der Daten. Hier verhält sich Redshift nicht anders als ein lokales DWH. Auf PostrgeSQL basierend spricht Redshift standard SQL. Analysten verbinden sich mit Standard SQL-Clients, Tableau, Alteryx und weiteren BI Tools. Nach einigen Wochen wurden die Ergebnisse der Analyse dem Kunden präsentiert. Nach Projektende wurden die Daten archiviert und der Redshift Cluster außer Dienst gestellt – wie die Inbetriebnahme innerhalb weniger Minuten. Danach entstehen keine Kosten mehr. Innerhalb wenigen Wochen wurde so ein komplexes Analyseprojekt mit großen Datenmengen erfolgreich abgeschlossen. Hier zeigt sich deutlich das Potential der Cloud, insbesondere in Bezug auf Flexibilität und Kosteneinsparungen.

(*) Mit dem Amazon Snowmobil steht seit Ende 2016 sogar eine weitere Möglichkeit zum Datentransferbereit, wenn Sie Exabyte an Daten haben sollten und diese mit einem Truck abholen müssen 
(https://aws.amazon.com/de/snowmobile/)

Der Service von AWS heißt Direct Connect (https://aws.amazon.com/de/directconnect/)

AWS Snowball (https://aws.amazon.com/de/snowball/)

Du interessierst dich für unser Lösungsportfolio oder hast eine Projektanfrage?
Wir finden eine passende Lösung für dein Problem.


KONTAKT