Coinbase verspricht eine vollständige Ursachenanalyse nach einem schwerwiegenden Börsenvorfall
Exchange News

Coinbase verspricht eine vollständige Ursachenanalyse nach einem schwerwiegenden Börsenvorfall

Von germanlbn

AWS-Infrastrukturausfälle und Kafka-Wiederherstellungsprobleme haben den Handel bei Coinbase vorübergehend gestoppt.

Coinbase erlitt am 7. Mai einen schwerwiegenden Serviceausfall, der den Handel, den Börsenzugriff und die Aktualisierung von Kundensalden auf mehreren Plattformen beeinträchtigte. Die Probleme betrafen mehrere Stunden lang die Spotmärkte, Derivate, Prime-Dienste und den internationalen Handel. Ingenieure führten das Problem später auf einen Ausfall des Kühlsystems in einem AWS-Rechenzentrum in den USA zurück. Coinbase erklärte, dass Kundengelder sicher blieben und während des Vorfalls keine Daten verloren gingen.

Kafka-Wiederherstellungsprobleme verschärfen Coinbase-Ausfall

Coinbase gab bekannt, dass Überwachungssysteme gegen 23:50 UTC erstmals kaskadierende Kursausfälle erkannten. Kurz darauf folgten mehrere Sev1-Vorfälle, die Notfallmaßnahmen in den Entwicklungsteams auslösten. Interne Systeme, die mit der Kerninfrastruktur der Börse verbunden sind, begannen auszufallen, als die Temperaturen in einem Teil der Racks, die in AWS us-east-1 gehostet werden, anstiegen.

Laut Coinbase-Ingenieuren trafen Hardwareausfälle Systeme, die mit der Matching-Engine der Börse verbunden sind. Diese Engine verarbeitet Aufträge und verwaltet Auftragsbücher auf den Coinbase-Märkten. Infrastrukturprobleme in der betroffenen Einrichtung ließen nur einen Teil der Knoten betriebsbereit. Infolgedessen erreichte der Cluster kein Quorum, was den Handel für Privat- und institutionelle Nutzer vorübergehend blockierte.

Ingenieure sahen sich auch mit Komplikationen im Zusammenhang mit verteilten Kafka-Clustern konfrontiert, die für die interne Nachrichtenübermittlung verwendet werden. Coinbase erklärte, dass diese Cluster täglich mehrere Terabyte an Daten verarbeiten und so konzipiert waren, dass sie während eines Rechenzentrumsausfalls betriebsbereit bleiben. Die Wiederherstellungsgarantien versagten während des Vorfalls, sodass Teams gezwungen waren, Partitionen manuell auf Ersatz-Hardware-Broker wiederherzustellen.

Dedizierter Hardwareausfall verlangsamt Wiederherstellungsprozess

Kunden erlebten verzögerte Saldenaktualisierungen, während die Kafka-Replikation wiederhergestellt wurde. Coinbase erklärte, dass Salden automatisch synchronisiert würden, sobald die Systeme aufgeholt hätten. Vertreter des Unternehmens fügten hinzu, dass während des Ausfalls keine Kunden- oder Transaktionsdaten verloren gegangen seien.

Automatische Wiederherstellungstools entluden Arbeitslasten von etwa 10 Kubernetes-Clustern, die mit der betroffenen Zone verbunden waren. Die meisten internen Dienste kehrten innerhalb von etwa 30 Minuten zurück, nachdem die Ingenieure das Problem isoliert hatten.

Die Wiederherstellung dauerte länger für Systeme, die direkt mit der Matching-Engine der Börse und der Kafka-Infrastruktur verbunden waren, da beide auf dedizierte Hardware und Speicherkonfigurationen angewiesen waren.

Nach der Stabilisierung der Umgebung öffnete Coinbase die Märkte schrittweise wieder. Der Handel wechselte zunächst in den Cancel-Only-Modus, bevor Teams die Produktzustände überprüften. Danach wechselten die Märkte in den Auktionsmodus, bevor der vollständige Handel an der Börse wieder aufgenommen wurde.

Coinbase erklärt, dass während des mehrstündigen Plattformausfalls keine Daten verloren gingen

Coinbase erkannte an, dass Teile seiner Architektur kritische Börseninfrastruktur innerhalb einer einzigen Verfügbarkeitszone konzentrierten. Ingenieure erklärten, dass Standby-Systeme für Failover-Szenarien vorhanden waren, die Isolationsmaßnahmen jedoch während des Vorfalls versagten. Dies verlängerte die Dauer und Ausbreitung des Ausfalls über die beabsichtigten Grenzen hinaus.

Führungskräfte des Unternehmens lobten die interne Koordination während des Wiederherstellungsprozesses. Entwicklungs- und Bereitschaftsteams folgten Berichten zufolge etablierten Notfallwiederherstellungsverfahren, während sie Korrekturen unter eingeschränkten Infrastrukturbedingungen testeten und validierten.

Coinbase entschuldigte sich bei Kunden, die vorübergehend den Zugriff auf ihre Konten und Handelsdienste verloren hatten. Führungskräfte erklärten, dass in den kommenden Wochen eine vollständige Ursachenanalyse veröffentlicht wird, zusammen mit geplanten Zuverlässigkeitsverbesserungen, die darauf abzielen, ähnliche Ausfälle zu verhindern.

germanlbn

Über den Autor

germanlbn

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert