GeeksforGeeks
Hadoop ist ein Open-Source-Software-Programmierframework. Das Framework von Hadoop basiert auf Java Programmiersprache mit etwas nativem Code in Shell-Skript und C.
Dieses Framework wird verwendet, um die Daten zu verwalten, zu speichern und zu verarbeiten & Berechnung für die verschiedenen Anwendungen von Big Data, die unter Clustersystemen ausgeführt werden. Die Hauptkomponenten von Hadoop sind HDFS, MapReduce und YARN.
Cassandra ist ein verteiltes Open-Source-Datenverwaltungssystem mit breitem Spaltenspeicher und NoSQL-Datenbank. In dieser NoSQL-Datenbank bietet die Fähigkeit, eine sehr große Menge an Daten über viele Commodity-Hardware ohne Single Point of Failure und hohe Verfügbarkeit zu handhaben. Der Code ist in Java geschrieben und von der Apache Software Foundation entwickelt.
Unterschied zwischen Hadoop und Cassandra
S.NO . | HADOOP | CASSANDRA |
---|---|---|
1 | Hadoop ist ein skalierbares Framework, das auf kostengünstiger Hardware bereitgestellt werden kann. | Es wird sehr verteilt als Cluster von Instanzen bereitgestellt, die sich alle gegenseitig kennen. |
2 | Hadoop ist ein Framework zur Verarbeitung großer Datenmengen, das auf dem bekannten MapReduce-Programmiermodell basiert. | Cassandra wird hauptsächlich für die Echtzeitdatenverarbeitung verwendet. |
3 | Hadoop unterstützt eine Vielzahl von Formaten. | Cassandra unterstützt keine Bilder. |
4 | Hadoop folgt einer Master-Slave-Architektur. | Cassandra folgt einer Peer-to-Peer-Architektur |
5 | Hadoop wird in einem einzigen Rechenzentrum bereitgestellt. | Cassandra wird sehr verteilt bereitgestellt. |
6 | Es verwendete map Reduce zum Lesen / Schreiben. | Dies verwendet Cassandra query language. |
7 | In Hadoop werden Daten direkt in den Datenknoten geschrieben. | In Cassandra werden Daten zuerst in die Mem-Tabelle und dann auf die Festplatte geschrieben. |
8 | Hadoop hat einen festen Replikationsfaktor von 3. | Der Replikationsfaktor in Cassandra hängt von der Anzahl der Knoten ab. |
9 | Es hat eine hohe Latenzrate. | Es hat weniger latenz rate. |
10 | Hadoop verwendet TCP und UDP für die Kommunikation. | In Cassandra wird das Gossip-Protokoll für die Kommunikation verwendet. |
11 | Es ist für die Stapelverarbeitung von Daten. | Es ist für die Echtzeitverarbeitung. |