Ipinangako ng Coinbase ang Buong Pagsusuri ng Root Cause Pagkatapos ng Pangunahing Insidente ng Exchange
Exchange News

Ipinangako ng Coinbase ang Buong Pagsusuri ng Root Cause Pagkatapos ng Pangunahing Insidente ng Exchange

Ni filipino2lbn —

Ang mga pagkabigo sa imprastraktura ng AWS at mga isyu sa pagbawi ng Kafka ay pansamantalang huminto sa pangangalakal sa buong Coinbase.

Ang Coinbase ay dumanas ng isang malaking pagkawala ng serbisyo noong Mayo 7 na nakagambala sa kalakalan, pag-access sa palitan, at mga update sa balanse ng customer sa ilang mga platform. Naapektuhan ng mga problema ang mga spot market, derivatives, Prime services, at international trading operations sa loob ng ilang oras. Nang maglaon, nasubaybayan ng mga inhinyero ang isyu sa isang pagkabigo ng cooling system sa loob ng isang AWS data center sa United States. Sinabi ng Coinbase na ang mga pondo ng customer ay nanatiling ligtas at walang data na nawala sa panahon ng insidente.

Ang Mga Problema sa Pagbawi ng Kafka ay Lumalalim sa Pagkawala ng Coinbase

Ibinunyag ng Coinbase na ang mga monitoring system ay unang nakakita ng mga cascading quote failure sa bandang 23:50 UTC. Sumunod ang maraming insidente sa Sev1 pagkaraan ng ilang sandali, na nag-udyok sa mga pamamaraan ng pagtugon sa emerhensiya sa mga team ng engineering. Ang mga panloob na system na nakatali sa pangunahing imprastraktura ng exchange ay nagsimulang mabigo habang tumaas ang temperatura sa loob ng isang subset ng mga rack na naka-host sa AWS us-east-1.

Ayon sa mga inhinyero ng Coinbase, ang mga pagkabigo ng hardware ay tumama sa mga system na konektado sa katugmang engine ng palitan. Pinoproseso ng engine na iyon ang mga order at pinapanatili ang mga order book sa mga merkado ng Coinbase. Ang mga problema sa imprastraktura sa loob ng apektadong pasilidad ay nag-iwan lamang ng isang bahagi ngmga nodepagpapatakbo. Bilang resulta, nabigo ang cluster na maabot ang quorum, pansamantalang hinaharangan ang kalakalan para sa retail at institutional na mga user.

Ang mga inhinyero ay nahaharap din sa mga komplikasyon na kinasasangkutan ng mga ipinamamahaging Kafka cluster na ginagamit para sa panloob na pagmemensahe. Sinabi ng Coinbase na ang mga cluster na iyon ay nagpoproseso ng ilang terabytes ng data araw-araw at idinisenyo upang manatiling gumagana sa panahon ng pagkawala ng data center. Nabigo ang mga garantiya sa pagbawi sa panahon ng insidente, na pinipilit ang mga team na manu-manong ibalik ang mga partisyon sa mga kapalit na hardware broker.

Pinapabagal ng Dedicated Hardware Failure ang Proseso ng Pagbawi 

Nakaranas ang mga customer ng naantalang pag-update ng balanse habang nabawi ang pagtitiklop ng Kafka. Sinabi ng Coinbase na ang mga balanse ay awtomatikong masi-synchronize kapag nahuli ang mga system. Idinagdag ng mga kinatawan ng kumpanya na walang data ng customer o transaksyon ang nawala sa panahon ng outage.

Ang mga naka-automate na tool sa pagbawi ay nag-drain ng mga workload mula sa humigit-kumulang 10 Kubernetes cluster na nakatali sa apektadong zone. Karamihan sa mga panloob na serbisyo ay bumalik sa loob ng humigit-kumulang 30 minuto pagkatapos na ihiwalay ng mga inhinyero ang problema. 

Nagtagal ang pagbawi para sa mga system na direktang nakatali sa exchange matching engine at imprastraktura ng Kafka dahil pareho silang umaasa sa nakatuonhardwareat mga pagsasaayos ng imbakan.

Matapos patatagin ang kapaligiran, muling binuksan ng Coinbase ang mga merkado sa mga yugto. Unang inilipat sa cancel-only mode ang Trading bago i-audit ng mga team ang mga estado ng produkto. Ang mga merkado pagkatapos ay pumasok sa mode ng auction bago ipagpatuloy ang buong pangangalakal sa buong palitan.

Sinabi ng Coinbase na Walang Nawala na Data Sa Panahon ng Multi-Hour Platform Outage

Coinbasekinilalana ang mga bahagi ng arkitektura nito ay nagkonsentra ng kritikal na imprastraktura ng palitan sa loob ng iisang availability zone. Sinabi ng mga inhinyero na ang mga standby system ay nasa lugar para sa mga failover scenario, kahit na ang mga hakbang sa paghihiwalay ay nabigo sa panahon ng kaganapan. Pinahaba nito ang tagal at pagkalat ng outage na lampas sa mga inilaan na limitasyon.

Pinuri ng mga executive ng kumpanya ang panloob na koordinasyon sa panahon ng proseso ng pagbawi. Ang mga engineering at on-call na team ay iniulat na sumunod sa mga naitatag na pamamaraan sa pagbawi ng sakuna habang sinusubok at pinapatunayan ang mga pag-aayos sa ilalim ng limitadong mga kondisyon sa imprastraktura.

Humingi ng paumanhin ang Coinbase sa mga customer na pansamantalang nawalan ng access sa kanilang mga account at serbisyo sa pangangalakal. Sinabi ng mga ehekutibo na ang isang buong pagsusuri sa ugat ay ilalabas sa mga darating na linggo, kasama ang mga nakaplanong pagpapahusay sa pagiging maaasahan na naglalayong pigilan ang mga katulad na pagkabigo.

Pinagmulan: Live Bitcoin News

filipino2lbn

Tungkol sa May-akda

filipino2lbn

Mag-iwan ng Tugon

Ang iyong email address ay hindi ipa-publish. Ang mga kinakailangang mga field ay markado ng *