Coinbase hứa hẹn phân tích nguyên nhân gốc rễ đầy đủ sau sự cố sàn giao dịch lớn
Exchange News

Coinbase hứa hẹn phân tích nguyên nhân gốc rễ đầy đủ sau sự cố sàn giao dịch lớn

Bởi vietnameselbn

Sự cố hạ tầng AWS và vấn đề phục hồi Kafka tạm thời làm gián đoạn giao dịch trên Coinbase.

Coinbase đã gặp sự cố dịch vụ lớn vào ngày 7 tháng 5, làm gián đoạn giao dịch, truy cập sàn và cập nhật số dư khách hàng trên nhiều nền tảng. Các vấn đề ảnh hưởng đến thị trường giao ngay, phái sinh, dịch vụ Prime và hoạt động giao dịch quốc tế trong vài giờ. Các kỹ sư sau đó đã xác định nguyên nhân là do sự cố hệ thống làm mát bên trong một trung tâm dữ liệu AWS tại Hoa Kỳ. Coinbase cho biết tiền của khách hàng vẫn an toàn và không có dữ liệu nào bị mất trong sự cố.

Vấn đề phục hồi Kafka làm trầm trọng thêm sự cố Coinbase

Coinbase tiết lộ rằng hệ thống giám sát lần đầu tiên phát hiện lỗi báo giá liên tiếp vào khoảng 23:50 UTC. Nhiều sự cố Sev1 xảy ra ngay sau đó, kích hoạt các quy trình ứng phó khẩn cấp trên các nhóm kỹ thuật. Các hệ thống nội bộ liên quan đến cơ sở hạ tầng cốt lõi của sàn bắt đầu gặp trục trặc khi nhiệt độ tăng lên bên trong một tập hợp các giá đỡ được lưu trữ trong AWS us-east-1.

Theo các kỹ sư của Coinbase, lỗi phần cứng đã ảnh hưởng đến các hệ thống kết nối với công cụ khớp lệnh của sàn. Công cụ đó xử lý các lệnh và duy trì sổ lệnh trên các thị trường Coinbase. Các vấn đề về cơ sở hạ tầng bên trong cơ sở bị ảnh hưởng chỉ để lại một phần các nút hoạt động. Kết quả là, cụm không đạt được sự đồng thuận, tạm thời chặn giao dịch cho người dùng bán lẻ và tổ chức.

Các kỹ sư cũng gặp phải các biến chứng liên quan đến cụm Kafka phân tán được sử dụng cho nhắn tin nội bộ. Coinbase cho biết các cụm đó xử lý vài terabyte dữ liệu mỗi ngày và được thiết kế để hoạt động trong thời gian mất điện trung tâm dữ liệu. Các đảm bảo phục hồi đã thất bại trong sự cố, buộc các nhóm phải khôi phục thủ công các phân vùng vào các broker phần cứng thay thế.

Lỗi phần cứng chuyên dụng làm chậm quá trình phục hồi

Khách hàng bị chậm cập nhật số dư trong khi sao chép Kafka phục hồi. Coinbase cho biết số dư sẽ được đồng bộ hóa tự động khi các hệ thống bắt kịp. Đại diện công ty nói thêm rằng không có khách hàng hoặc dữ liệu giao dịch nào biến mất trong thời gian ngừng hoạt động.

Các công cụ phục hồi tự động đã xả khối lượng công việc từ khoảng 10 cụm Kubernetes liên kết với khu vực bị ảnh hưởng. Hầu hết các dịch vụ nội bộ đã trở lại trong vòng khoảng 30 phút sau khi các kỹ sư cô lập được vấn đề.

Quá trình phục hồi mất nhiều thời gian hơn cho các hệ thống liên kết trực tiếp với công cụ khớp lệnh sàn và cơ sở hạ tầng Kafka vì cả hai đều dựa vào phần cứng và cấu hình lưu trữ chuyên dụng.

Sau khi ổn định môi trường, Coinbase đã mở lại thị trường theo từng giai đoạn. Giao dịch trước tiên chuyển sang chế độ chỉ hủy lệnh trước khi các nhóm kiểm tra trạng thái sản phẩm. Thị trường sau đó chuyển sang chế độ đấu giá trước khi giao dịch đầy đủ được tiếp tục trên toàn sàn.

Coinbase cho biết không có dữ liệu nào bị mất trong thời gian ngừng hoạt động nền tảng kéo dài nhiều giờ

Coinbase thừa nhận rằng các phần trong kiến trúc của mình đã tập trung cơ sở hạ tầng sàn giao dịch quan trọng trong một vùng khả dụng duy nhất. Các kỹ sư cho biết các hệ thống dự phòng đã sẵn sàng cho các kịch bản chuyển đổi dự phòng, mặc dù các biện pháp cách ly đã thất bại trong sự kiện. Điều đó đã kéo dài thời gian và phạm vi của sự cố vượt quá giới hạn dự kiến.

Các giám đốc điều hành công ty đã ca ngợi sự phối hợp nội bộ trong quá trình phục hồi. Các nhóm kỹ thuật và ứng trực được cho là đã tuân theo các quy trình khắc phục thảm họa đã được thiết lập trong khi thử nghiệm và xác nhận các bản sửa lỗi trong điều kiện cơ sở hạ tầng bị hạn chế.

Coinbase đã xin lỗi các khách hàng tạm thời mất quyền truy cập vào tài khoản và dịch vụ giao dịch của họ. Các giám đốc điều hành cho biết một phân tích nguyên nhân gốc rễ đầy đủ sẽ được công bố trong vài tuần tới, cùng với các cải tiến độ tin cậy đã được lên kế hoạch nhằm ngăn chặn các sự cố tương tự.

vietnameselbn

Về tác giả

vietnameselbn

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *