In der modernen, digitalisierten Welt sind wir es gewohnt, Informationen schnell und einfach über das World Wide Web abrufen zu können. Die Informationen werden benutzerfreundlich dargestellt und sind für eine Vielzahl an Endgeräte optimiert. Doch bietet das Web nicht nur Endanwendern und Privatpersonen neue Wege der Informationsgewinnung: Informationen, die noch vor wenigen Jahrzenten mühsam in Büchern, Katalogen oder Listen recherchiert werden mussten, sind heute mit wenigen Klicks nachschlagbar.
Diese freie Verfügbarkeit von Daten stellt viele Firmen aber auch vor neue Probleme. In immer mehr Fällen sind diese Daten alles, was den Wert einer Unternehmung ausmacht – Sie frei zur Verfügung zu stellen, ein Geschäftsrisiko. Daher stößt man gerade bei der professionellen Sammlung von Daten schnell an die Grenzen des technisch Möglichen.
Denn Wissen selbst ist Macht
Frei nach Francis Bacons geflügeltem Wort bieten viele Anbieter nur eingeschränkten Zugriff auf ihren Informationsschatz. Am Beispiel eines Online-Shops wird das Dilemma schnell deutlich: Für den Online-Auftritt eines Shops ist es zwingend nötig, alle Produkte möglichst gut beschrieben, bebildert und leicht such- und filterbar darzustellen. Doch stellt das eigene Produktportfolio, samt Materialien, Preisen und Bildern ein schützenswertes Asset dar, das man vor Mitbewerbern schützen will. Viele Firmen verbieten daher den Zugriff auf Ihre Datenschnittstellen und unternehmen große Anstrengungen, den unbefugten Zugriff auf diese zu unterbinden. Oftmals ist ein Zugriff auf die Daten nur über einen herkömmlichen Webseitenaufruf möglich. Aufgrund dieser restriktiven Haltung vieler Firmen und nicht zuletzt auch durch die meist sehr speziellen Anforderungen, bieten existierende Auslesetools nicht genügend Flexibilität, um das gewünschte Ergebnis erzielen zu können. Dies hat zur Folge, dass viele Firmen riesige Datensammlungscenter zur Informationsgewinnung zu Rate ziehen. In diesen wird zunächst ein Workflow definiert, auf die verfügbaren Kapazitäten verteilt und die Informationen anschließend durch manuelles Aufrufen der Seiten gesammelt. Dieser Vorgang beinhaltet einige Nachteile, die oftmals aufgrund einer (vermeintlich) fehlenden Alternative in Kauf genommen werden:
- Hohe Fehleranfälligkeit
Manuelle Fehleingaben und Übertragungsfehler führen zu schlechter Datenqualität. - Bearbeitungszeit linear abhängig von Datenmenge
Die steigt meist linear zu der auszulesenden Datenmenge. - Schlechte Wiederholbarkei
Eine Wiederholung der Datensammlung bedeutet meist eine Verdopplung der benötigen Zeit und der Kosten. - Hohe Kosten (ab mittleren Datenmengen)
Die linear ansteigende Bearbeitungszeit bedeutet meist auch hohe Kosten ab mittleren Datenmengen.
Die Alternative
Kommen bestehende Tools aufgrund der Komplexität der Aufgabe nicht in Frage und wiegen die Nachteile einer manuellen Auslese zu schwer, bietet sich die Programmierung eines Custom-Tools an, das genau für die akute Fragestellung implementiert und optimiert wird. Zur Erläuterung des Implementationsprozesses ziehen wir erneut das Beispiel des Web-Shops zu Rate:
Problemstellung
Produkte mehrerer, konkurrierender Webshops sollen automatisiert ausgelesen und in eine untereinander vergleichbare Form gebracht werden.
1. Spezifikation der benötigten Informationen
Am Anfang der Implementation sind alle Informationen zu definieren, die später ausgewertet werden sollen. In unserem Beispiel sollen verschiedene Produkte anhand Ihrer Art und Materialzusammensetzung verknüpft und anschließend preislich verglichen werden.
2. Manuelles Screening der Webseiten
Sind die nötigen Informationen definiert, folgt ein manuelles Screening der Webseiten. Hierbei wird zum einen überprüft, ob die nötigen Informationen verfügbar sind und zum anderen, welche Automatisierungsverfahren in Frage kommen.
3. Indexierung der verfügbaren Seiten (Erstellung einer Sitemap)
Für die Automatisierung ist es anschließend nötig, eine Liste aller auszulesenden Seiten zu erstellen. Diese sog. Sitemap wird von einigen Shops bereits zur Verfügung gestellt, muss für eine Vielzahl der Shops aber eigens erstellt werden. Hierzu werden manuell eindeutige Merkmale einer Produktseite gesammelt und diese automatisiert geprüft. Entspricht eine Webseite den Kriterien, wird sie in die Sitemap übernommen.
4. Speicherung der auszuwertenden Webseiten
Anhand der erstellten Sitemap werden alle Webseiten zunächst parallelisiert heruntergeladen. Dies beschleunigt den nachfolgenden Datensammlungsprozess, ermöglicht das erneute Durchsuchen der Daten und macht unabhängig von eventuellen Serverausfällen oder Webseiten-Updates. Dieser Prozess kann zudem speziell an etwaigen Sicherheitsrichtlinien der einzelnen Shops angepasst werden.
5. Data Parsing
Für das Sammeln der benötigten Informationen werden die in Punkt 2 gescreenten Erkenntnisse genutzt, um die benötigten Informationen aus den heruntergeladenen Webseiten auszulesen (z.B. durch Verwendung von Regular Expressions). Die Daten werden hierbei vom Dataparsing-Tool zunächst temporär zwischengespeichert und können anschließend nahezu beliebig weiterverarbeitet werden.
6. Data Consolidation
Die zunächst zwischengespeicherten Daten können im letzten Schritt nun anhand eindeutiger Merkmale verknüpft, bereinigt und in die gewünschte Form gebracht werden. Die Bereitstellung der Daten erfolgt je nach Einsatzgebiet z.B. als „Comma Separated Values“-Textdatei oder als Excel-Tabelle. Im Vergleich zur manuellen Datensammlung bietet dieser automatisierte Ansatz viele Vorteile:
- Geringe Fehleranfälligkeit
Manuelle Fehleingaben werden vermieden.
- Bearbeitungszeit (nahezu)
unabhängig von Datenmenge:
Der Herunterlade- und Ausleseprozess benötigt meist nur wenige Stunden. -
Einfache Wiederholbarkeit
Ein erneutes Auslesen der Daten (auch mit erweitertem Anforderungsprofil) ist durch die geringe Bearbeitungszeit meist schnell und kostengünstig möglich. - Niedrigere Kosten (ab mittleren Datenmengen)
Die geringe Bearbeitungszeit senkt die Kosten ab mittleren Datenmengen oder bei nötigen Wiederholungen.
Den vielen Vorteilen stehen lediglich die zunächst nötigen initialen Implementierungskosten gegenüber. Nach Abschluss des anfängliches Screenings und der eigentlichen Implementierung der benötigten Funktionen, sind Erweiterungen und Wiederholungen der Datenauslese sehr kostengünstig und mit geringem Zeitaufwand möglich.
Zusammenfassung
Du interessierst dich für unser Lösungsportfolio oder hast eine Projektanfrage?
Wir finden eine passende Lösung für dein Problem