Big Data Databases Explained

 

WAS IST EINE BIG-DATA-DATENBANK?

Da Organisationen für das Erlangen wertvoller Geschäftserkenntnisse immer häufiger auf Big Data zurückgreifen, hat sich herauskristallisiert, dass die traditionellen relationalen Datenbankverwaltungssysteme (RDBMS), die seit 30 Jahren Branchenstandard sind, diesen neuen Datenmassen nicht mehr gewachsen sind. Somit wurde eine Vielzahl Datenbankoptionen für den Einsatz von Big Data entwickelt. Zwar unterscheiden sich diese Lösungen alle voneinander, sie dienen jedoch alle dem Zweck, die Einschränkungen der RDBMS hinter sich zu lassen und es Organisationen zu ermöglichen, Nutzen aus ihren Daten zu ziehen.

WOZU BENÖTIGT MAN BIG-DATA-DATENBANKEN?

Möchte man ergründen, warum neue Datenbankoptionen für die Verarbeitung von Big Data erforderlich sind, muss man die Bedeutung der drei Haupteigenschaften von Big Data kennen: Volumen, Vielfalt und Geschwindigkeit.

  • Volumen: Wie es der Name schon sagt, wird Big Data in Petabyte, Exabyte und sogar in Zettabyte gemessen. Traditionelle RDBMS werden durch Vergrößerung der Server- und Speicherkapazitäten aufskaliert. Da diese Systeme jedoch nicht auf den Betrieb mit Standardhardware ausgerichtet sind und hochkomplexe Sharding-Technologien zum Einsatz kommen, mit denen Daten auf verschiedene Datenbankserver verteilt werden, kann eine Skalierung zu extremen Kosten und störenden Unterbrechungen führen. Mit einem Oracle-RAC-System kann es beispielsweise Millionen kosten, Datenmengen von lediglich 20 Terabyte zu speichern – ein Datenvolumen, das heute nach einem Tag Datensammlung in einer größeren Organisation bereits aufgebraucht sein kann. Im Gegensatz dazu werden mit Big-Data-Datenbanken Kosten und Belastung durch Aufskalierung minimiert, indem Skalierungstechniken zum Einsatz kommen, die mit minimalem oder ohne manuelles Eingreifen auf kostengünstiger Standardhardware betrieben werden können.
  • Vielfalt: In der Vergangenheit waren die meisten Daten so strukturiert, dass sie den unflexiblen RDBMS-Anforderungen entsprachen. Mit dem Aufkommen von Big Data jedoch wächst das Volumen unstrukturierter Daten – einschließlich Daten aus Social-Media-Posts, Bildern, Video und Zeitreihendaten aus dem IoT – deutlich schneller an als das Volumen der strukturierten Daten. RDBMS können heterogene Daten, die nicht in ein vorbestimmtes Schema passen, nur dann verwalten, wenn umständliche und komplexe Problemumgehungen eingesetzt werden. Bei Big-Data-Datenbanken besteht dieses Problem nicht. Hier kommen flexible Datenspeicherungsmodelle zum Einsatz, die so konstruiert wurden, dass sämtliche Datentypen problemlos gespeichert und mithilfe einer Vielzahl Methoden abgefragt werden können.
  • Geschwindigkeit: Im Zeitalter der Big Data ist Geschwindigkeit wichtiger denn je. Riesige Volumina heterogener Daten werden in Echtzeit erstellt und es wird erwartet, dass diese auch nahezu in Echtzeit gesammelt, gespeichert und verarbeitet werden können. Besonders bedeutsam ist dies bei Datentypen wie IoT-Zeitreihendaten. Sind RDBMS nicht in der Lage, das Volumen und die Vielzahl verschiedener Big-Data-Typen zu verarbeiten, leidet deren Leistung und es kommt zu Systemausfällen. Big-Data-Datenbanken sind darauf ausgerichtet, die anspruchsvollen Anforderungen der Sammlung unermesslicher Mengen aller Datentypen zu erfüllen, ohne dass dabei Einbußen bei Leistung oder Verfügbarkeit entstehen.

VORTEILE VON BIG-DATA-DATENBANKEN

Systeme, bei deren Entwicklung die Verarbeitung von Big Data im Vordergrund steht, werden oft NoSQL-Datenbanken genannt, weil sie sich nicht unbedingt auf die von RDBMS verwendete SQL-Abfragesprache verlassen. Es gibt viele Varianten und Marken für NoSQL-Datenbanken, die jeweils für unterschiedliche Anwendungsfälle entwickelt wurden. Die wichtigsten Kategorien für NoSQL-Datenbanken sind: Dokument, Schlüssel/Wert, Diagramm, große Tabellen und Zeitreihen und noch einige weitere. Jede Technologie bietet ganz eigene Vorteile, doch Big Data-Anwendungsfälle profitieren im Allgemeinen wie folgt davon:

  • Skalierbarkeit: NoSQL-Datenbanken verfügen nicht über die hinderliche Komplexität und erzeugen nicht die störenden Unterbrechungen und unermesslichen Kosten, die bei der Skalierung traditioneller RDBMS entstehen. Da zusätzliche Kapazitäten problemlos und jederzeit hinzugefügt oder wieder entfernt werden können, ermöglichen es NoSQL-Lösungen einer Organisation, einfach aufzuskalieren, um Big Data optimal zu nutzen.
  • Kosteneffizienz: Durch den Einsatz kostengünstiger Standardhardware für NoSQL-Lösungen wachsen die Einsparungen gegenüber RDBMS im Laufe der Zeit dramatisch an, da nach und nach immer größere Kapazitäten für die Verarbeitung von Peta- und Exabytes an Big Data erforderlich sind. Außerdem müssen Organisationen lediglich die Menge Hardware aufbringen, die für die aktuellen Kapazitätsanforderungen benötigt wird, anstatt im Voraus große Investitionen zu tätigen.
  • Flexibilität: Unabhängig davon, ob eine Organisation Anwendungen für Web-, Mobil- oder IoT-Geräte entwickelt, verhindern oder verlangsamen die festen Datenmodelle von RDBMS die Möglichkeiten einer Organisation, auf die Anforderungen von Big-Data-Anwendungen einzugehen. NoSQL ermöglicht es Entwicklern, sämtliche Datentypen einzusetzen und Optionen abzufragen, die sich für den spezifischen Anwendungsfall am besten eignen. Somit entstehen Möglichkeiten für eine sehr viel schnellere und flexiblere Anwendungsentwicklung.
  • Leistung: Wie bereits erwähnt entstehen bei der Leistungssteigerung von RDBMS umfangreiche Kosten sowie Fixkosten für manuelles Sharding. Wenn jedoch andererseits einer NoSQL-Datenbank Rechnerressourcen hinzugefügt werden, steigt die Leistung proportional an, sodass Organisationen zuverlässig eine schnellere Benutzererfahrung ermöglichen können.
  • Hochverfügbarkeit: Typische RDBMS arbeiten mit primären/sekundären Architekturen, die sehr komplex sind und bei denen oft einzelne Schwachstellen großen Schaden anrichten können. Dank einer Masterless-Architektur, mit deren Hilfe Daten automatisch auf verschiedene Ressourcen verteilt werden, wird durch einige „verteilte“ NoSQL-Systeme sichergestellt, dass die Datenbank stets verfügbar ist. So werden die umfangreichen Lese- und Schreibanforderungen von Big-Data-Anwendungen jederzeit erfüllt.

tier-1-line class=

RIAK KV UNTERSTÜTZT DIE ANFORDERUNGEN VON BIG DATA

Für Organisationen, die die Anforderungen von Big-Data-Anwendungen erfüllen möchten, bietet Riak KV umfassende Skalierbarkeit, schnelle Leistung, Hochverfügbarkeit und leistungsstarke Datenmodelle für die Speicherung unstrukturierter Daten.

Mehr über Riak KV

RIAK TS FÜR ZEITREIHEN- UND IOT-DATEN

Das für schnelle Lese- und Schreibanforderungen an Zeitreihendaten optimierte Riak TS ist robust, umfassend skalierbar und bedienerfreundlich und eignet sich optimal für Organisationen, die IoT-, Sensor- und Gerätedaten speichern, abfragen und analysieren möchten.

Mehr über Riak TS