Ausfälle der AWS-Infrastruktur und Probleme bei der Wiederherstellung von Kafka führten zu einem vorübergehenden Stopp des Handels auf Coinbase.
Am 7. Mai kam es bei Coinbase zu einem schwerwiegenden Serviceausfall, der den Handel, den Börsenzugang und die Aktualisierung des Kundenguthabens auf mehreren Plattformen störte. Mehrere Stunden lang waren die Spotmärkte, Derivate, Prime-Dienste und internationale Handelsgeschäfte von Problemen betroffen. Ingenieure führten das Problem später auf einen Ausfall des Kühlsystems in einem AWS-Rechenzentrum in den USA zurück. Coinbase sagte, dass die Kundengelder sicher blieben und während des Vorfalls keine Daten verloren gingen.
Kafka-Wiederherstellungsprobleme verschärfen den Ausfall von Coinbase
Coinbase gab bekannt, dass Überwachungssysteme erstmals gegen 23:50 UTC kaskadierende Angebotsfehler entdeckten. Kurz darauf folgten mehrere Vorfälle der Schweregrad 1, die zu Notfallmaßnahmen aller Technikteams führten. Interne Systeme, die mit der Kerninfrastruktur der Börse verbunden waren, begannen auszufallen, als die Temperaturen in einer Teilmenge der in AWS us-east-1 gehosteten Racks anstiegen.
Gestern@coinbasekam es zu einer mehrstündigen Serviceunterbrechung, die sich auf den Handel, den Börsenzugang und die Aktualisierung des Kontostands auswirkte. Hier ist unsere erste Lektüre von Coinbase Engineering darüber, was passiert ist, wie wir uns erholt haben und was wir angehen.
Am 07.05.2026 um ca. 23:50 UTC beginnt unser…
– rob (@rwitoff)8. Mai 2026
Laut den Ingenieuren von Coinbase kam es zu Hardwarefehlern bei Systemen, die mit der Matching-Engine der Börse verbunden waren. Diese Engine verarbeitet Aufträge und verwaltet Auftragsbücher auf allen Coinbase-Märkten. Infrastrukturprobleme innerhalb der betroffenen Anlage ließen nur einen Teil davon übrigKnotenbetriebsbereit. Infolgedessen erreichte der Cluster nicht das Quorum und blockierte vorübergehend den Handel für Privatanwender und institutionelle Nutzer.
Die Ingenieure sahen sich auch mit Komplikationen im Zusammenhang mit verteilten Kafka-Clustern konfrontiert, die für interne Nachrichten verwendet wurden. Laut Coinbase verarbeiten diese Cluster täglich mehrere Terabyte an Daten und sind so konzipiert, dass sie auch bei einem Ausfall des Rechenzentrums betriebsbereit bleiben. Während des Vorfalls scheiterten die Wiederherstellungsgarantien, was die Teams dazu zwang, Partitionen manuell auf Ersatz-Hardware-Brokern wiederherzustellen.
Ein dedizierter Hardwarefehler verlangsamt den Wiederherstellungsprozess
Bei Kunden kam es zu verzögerten Kontostandaktualisierungen, während die Kafka-Replikation wiederhergestellt wurde. Coinbase sagte, dass die Guthaben automatisch synchronisiert würden, sobald die Systeme aufgeholt hätten. Unternehmensvertreter fügten hinzu, dass während des Ausfalls keine Kunden- oder Transaktionsdaten verschwunden seien.
Automatisierte Wiederherstellungstools entlasteten etwa zehn Kubernetes-Cluster, die mit der betroffenen Zone verbunden waren. Die meisten internen Dienste kehrten innerhalb von etwa 30 Minuten zurück, nachdem die Techniker das Problem lokalisiert hatten.
Bei Systemen, die direkt mit der Exchange-Matching-Engine und der Kafka-Infrastruktur verbunden waren, dauerte die Wiederherstellung länger, da beide auf dedizierten Systemen beruhtenHardwareund Speicherkonfigurationen.
Nachdem sich das Umfeld stabilisiert hatte, öffnete Coinbase die Märkte schrittweise wieder. Der Handel wechselte zunächst in den Nur-Stornierungs-Modus, bevor die Teams den Produktstatus überprüften. Anschließend wechselten die Märkte in den Auktionsmodus, bevor der vollständige Handel an der Börse wieder aufgenommen wurde.
Laut Coinbase gingen während des mehrstündigen Plattformausfalls keine Daten verloren
Coinbaseanerkanntdass Teile seiner Architektur kritische Austauschinfrastruktur innerhalb einer einzigen Verfügbarkeitszone konzentrierten. Die Ingenieure gaben an, dass für Failover-Szenarien Standby-Systeme vorhanden seien, obwohl die Isolationsmaßnahmen während des Ereignisses versagt hätten. Dadurch verlängerten sich die Dauer und die Ausbreitung des Ausfalls über die vorgesehenen Grenzen hinaus.
Die Führungskräfte des Unternehmens lobten die interne Koordination während des Wiederherstellungsprozesses. Berichten zufolge befolgten Technik- und Bereitschaftsteams etablierte Disaster-Recovery-Verfahren, während sie Fehlerbehebungen unter eingeschränkten Infrastrukturbedingungen testeten und validierten.
Coinbase entschuldigte sich bei Kunden, die vorübergehend den Zugriff auf ihre Konten und Handelsdienste verloren hatten. Führungskräfte sagten, dass in den kommenden Wochen eine vollständige Ursachenanalyse sowie geplante Zuverlässigkeitsverbesserungen veröffentlicht werden, die darauf abzielen, ähnliche Ausfälle zu verhindern.
Quelle: Live Bitcoin News





Schreibe einen Kommentar