Hazelcast Jet: Die neue, schlanke Lösung für Distributed Data Processing

 

Die auf parallele Streams spezialisierte Prozessengine erlaubt datenintensiven Big-Data-Applikationen, durch die Verteilung der Datenströme, Operationen in Nahe-Echtzeit abzuwickeln

 

Hazelcast, führender Anbieter von In-Memory Data Grids (IMDG), hat heute „Hazelcast Jet“ vorgestellt, die Engine für optimierte Prozessverteilung in Big-Data-Umgebungen. Hazelcast Jet ist ein neues, mit Apache 2 lizenziertes Open-Source-Projekt, das Prozesse parallel ausführt, um datenintensiven Applikationen Operationen nahezu in Echtzeit zu ermöglichen. Erreicht wird dies durch die IMDG-Storage-Funktionen von Hazelcast. Die Lösung setzt dabei auf Directed Acyclic Graphs (DAG), um die individuellen Schritte in der Prozess-Pipeline zu strukturieren. Hazelcast Jet ist leicht zu implementieren und kann sowohl Batch- als auch Stream-basierte Processing-Applikationen ausführen. Die Lösung ist geeignet für Anwendungen, die Nahe- Echtzeitgeschwindigkeiten brauchen, beispielsweise Sensoren-Updates in IoT-Architekturen (Internet of Things) für Thermostate oder Lichtsysteme in der Haussteuerung, In-Store e-Commerce-Systeme oder Social-Media-Plattformen. 

 

Vor allem IoT-Geräte produzieren große Mengen an Daten, die anschließend aufbereitet werden müssen. Oft ist es entscheidend, die Analyse in beinahe Echtzeit durchzuführen, zum Beispiel bei der Log-Analyse, dem Monitoring, bei Betrug- und Fälschungsverdacht sowie Dashboard-Datenauszügen oder -Datenplatzierungen. Die Herausforderungen auf diesem Gebiet sind vielfältig: 

 

● die Aufnahme großer Datenmengen bei gleichzeitiger Aufmerksamkeit für weitere, eingehende Aufgaben

 

● die Entdeckung und Erkennung von Anomalien sowie die Validierung von eingehenden Daten

 

● die Analyse, Kumulation sowie Berechnung von Situationen in nahezu Echtzeit 

 

● der Umgang mit sehr großen Latenzzeiten beim Zugriff auf Daten

 

● das Reporting, entweder on-Demand oder nach vorher definierten Batch-Routinen 

 

Hazelcast Jet basiert auf einer One-record-per-time-Architektur: die Lösung bearbeitet eingehende Records so schnell wie möglich anstatt sie zuerst in Micro-Batches zu sammeln. Auf diese Weise reduziert Hazelcast Jet konsequent die Verzögerungen für Applikationen. Jet nimmt die Daten in hoher Geschwindigkeit auf – via Socket, Datei, Hadoop Distributed File System (HDFS) oder Kafka-Schnittstellen – und wickelt die Business Logik oder komplexe Berechnungen eingehender Daten ab. Dieser reine In-Memory-Ansatz macht Jet 20 Mal schneller als Hadoop und erlaubt Anwendern, ihre Service-Level-Anforderungen zu erreichen. Jet ist extrem einfach zu programmieren und zu installieren. Das gilt besonders für OEMs und Microservices, denn Jet kann als Embedded System vollständig integriert werden. 

 

Wichtige Komponenten:

 

● Events-basierte Architektur für TPS-Applikationen (Transaction Processing System) im Low-Latency-Bereich

 

● DAG (directed acyclic graphs) zur Strukturierung des Datenstroms 

 

● High Level java.util.stream-API für niedrige Einstiegshürden

 

● Low Level Core-API (DAG) für maximale Flexibilität bei der Bearbeitung diverser Knoten: Data-Source-Readern, Joiner- und Sorter-Knoten, Sammel- und Data-Sink-Knoten

 

● Verteilte Konnektoren für Lese- und Schreibzugriff: Hazelcast IMDG Map/List, HDFS, Kafka, Datei, Socket

 

„Hazelcast Jet ist eine superschnelle, latenzarme DAG Engine für die Verarbeitung von Big Data”, erklärt Hazelcast-CEO Greg Luck. „Wir sind der Meinung, die Ökosysteme von Hadoop und Spark sind bei der Programmierung und Installation zu kompliziert. Deshalb stellen wir die bewährte Einfachheit von Hazelcast jetzt auch in Big-Data-Umgebungen zur Verfügung und haben Hazelcast Jet als Universallösung für Big-Data- und Java-Programmierer kreiert.”

 

www.knowhow-magazin.de

0
0
0
s2smodern
Cookies erleichtern die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden.
Weitere Informationen Ok