Coinbase Nangangako ng Buong Pagsusuri sa Pangunahing Sanhi Pagkatapos ng Malaking Insidente sa Exchange
Exchange News

Coinbase Nangangako ng Buong Pagsusuri sa Pangunahing Sanhi Pagkatapos ng Malaking Insidente sa Exchange

Ni filipino2lbn β€”

Ang mga pagkabigo sa imprastraktura ng AWS at mga isyu sa pagbawi ng Kafka ay pansamantalang nagpahinto ng pangangalakal sa Coinbase.

Ang Coinbase ay nakaranas ng malaking pagkawala ng serbisyo noong Mayo 7 na nakagambala sa pangangalakal, pag-access sa palitan, at mga update sa balanse ng customer sa ilang mga platform. Naapektuhan ng mga problema ang mga spot market, derivatives, Prime services, at mga internasyonal na operasyon ng pangangalakal sa loob ng ilang oras. Nang maglaon, natukoy ng mga inhinyero na ang isyu ay dahil sa pagkabigo ng cooling system sa isang AWS data center sa Estados Unidos. Sinabi ng Coinbase na ligtas ang mga pondo ng customer at walang nawalang data sa panahon ng insidente.

Ang mga Problema sa Pagbawi ng Kafka ay Nagpalala sa Pagkawala ng Serbisyo ng Coinbase

Inihayag ng Coinbase na unang natukoy ng mga monitoring system ang sunud-sunod na pagkabigo sa quote bandang 23:50 UTC. Maraming Sev1 incidents ang sumunod pagkatapos, na nag-udyok ng mga emergency response procedure sa mga engineering team. Ang mga internal system na konektado sa pangunahing imprastraktura ng palitan ay nagsimulang mabigo habang tumataas ang temperatura sa loob ng isang subset ng mga rack na naka-host sa AWS us-east-1.

Ayon sa mga inhinyero ng Coinbase, ang mga pagkabigo ng hardware ay tumama sa mga system na konektado sa matching engine ng palitan. Ang engine na iyon ay nagpoproseso ng mga order at nagpapanatili ng order books sa mga merkado ng Coinbase. Ang mga problema sa imprastraktura sa loob ng apektadong pasilidad ay nag-iwan lamang ng bahagi ng mga node na operational. Bilang resulta, nabigo ang cluster na maabot ang quorum, na pansamantalang humadlang sa pangangalakal para sa mga retail at institutional na user.

Naharap din ang mga inhinyero ng mga komplikasyon na may kinalaman sa distributed Kafka clusters na ginagamit para sa internal messaging. Sinabi ng Coinbase na ang mga cluster na iyon ay nagpoproseso ng ilang terabytes ng data araw-araw at idinisenyo upang manatiling operational sa panahon ng pagkawala ng data center. Nabigo ang mga garantiya ng pagbawi sa panahon ng insidente, na pinilit ang mga team na manu-manong ibalik ang mga partition sa mga kapalit na hardware broker.

Ang Pagkabigo ng Dedikadong Hardware ay Nagpabagal sa Proseso ng Pagbawi

Nakaranas ang mga customer ng pagkaantala sa mga update sa balanse habang bumabawi ang Kafka replication. Sinabi ng Coinbase na ang mga balanse ay awtomatikong mase-synchronize kapag ang mga system ay nakaabot na. Idinagdag ng mga kinatawan ng kumpanya na walang data ng customer o transaksyon ang nawala sa panahon ng pagkawala ng serbisyo.

Ang mga automated recovery tools ay nag-alis ng mga workload mula sa humigit-kumulang 10 Kubernetes clusters na konektado sa apektadong zone. Karamihan sa mga internal na serbisyo ay bumalik sa loob ng humigit-kumulang 30 minuto pagkatapos ihiwalay ng mga inhinyero ang problema.

Mas tumagal ang pagbawi para sa mga system na direktang konektado sa matching engine ng palitan at imprastraktura ng Kafka dahil pareho silang umasa sa dedikadong hardware at storage configurations.

Matapos patatagin ang kapaligiran, muling binuksan ng Coinbase ang mga merkado sa mga yugto. Unang lumipat ang pangangalakal sa cancel-only mode bago i-audit ng mga team ang mga estado ng produkto. Pagkatapos ay pumasok ang mga merkado sa auction mode bago ganap na nagpatuloy ang pangangalakal sa buong palitan.

Sinabi ng Coinbase na Walang Nawalang Data sa Panahon ng ilang Oras na Pagkawala ng Serbisyo ng Platform

Kinilala ng Coinbase na ang mga bahagi ng arkitektura nito ay nagkonsentra ng kritikal na imprastraktura ng palitan sa loob ng isang solong availability zone. Sinabi ng mga inhinyero na mayroong standby system para sa failover scenarios, bagama’t nabigo ang mga isolation measures sa panahon ng kaganapan. Pinalawak nito ang tagal at pagkalat ng pagkawala ng serbisyo nang higit sa inilaan na mga limitasyon.

Pinuri ng mga executive ng kumpanya ang internal na koordinasyon sa panahon ng proseso ng pagbawi. Ang engineering at on-call teams ay iniulat na sumunod sa itinatag na disaster recovery procedures habang sinusubok at binibigyang-bisa ang mga fix sa ilalim ng pinipigilang kondisyon ng imprastraktura.

Humingi ng paumanhin ang Coinbase sa mga customer na pansamantalang nawalan ng access sa kanilang mga account at serbisyo ng pangangalakal. Sinabi ng mga executive na ang isang buong root cause analysis ay ilalabas sa mga darating na linggo, kasabay ng mga nakaplanong pagpapabuti ng reliability na naglalayong maiwasan ang mga katulad na pagkabigo.

filipino2lbn

Tungkol sa May-akda

filipino2lbn

Mag-iwan ng Tugon

Ang iyong email address ay hindi ipa-publish. Ang mga kinakailangang mga field ay markado ng *