GradientTop
PC
Vodeći IT časopis u Srbiji
PC #284 > Iz prakse
ARHIVA BROJEVA | O ČASOPISU | POSTANI SARADNIK | PRETRAGA
preview
Detektiv preko Interneta
Vladimir Kukuruzović
Vredelo bi napisati serijal tekstova o neverovatnim pričama iz data centara. Svaki put kad pomislite da ne može biti luđe, stvarnost vas iznenadi...
- PC #284 (Februar 2021)
- U prodaji po ceni od 200 din

broj

Detektiv preko Interneta

Radnja ove priče je direktno vezana za jednog od globalnih Internet provajdera (ISP) i događa se u periodu od oko nedelju dana. Za naš posao svi ISP-ovi čije usluge koristimo nisu podjednako bitni, ali nema ni jedan koji bi nam bio nebitan. Ovog konkretnog ćemo zvati ISP3, jer je treći po prioritetu naših ISP-ova. Kod njega iz nekih razloga nemamo podešen automatski failover, što je uvek pogrešno, kao što će ova priča i pokazati.

Switch umesto rutera

image
Ruter i switch, jedan iznad drugog. Kako ih (ne) pomešati...

Jednog dana tokom 2020. i tokom pandemije, prestane da radi naš glavni ruter prema njima, što se manifestuje tako što ruter neće ni da se uključi. Naravno da imamo rezervni ruter u magacinu kod tog ISP-a, ali kad je glavni ruter prestao da radi, sve je na brzaka prekonfigurisano preko nekog switch-a koji uopšte nije predviđen da radi rutiranje. Ipak, radilo je. Operaciju smo mogli da obavimo i iz Beograda, bez neke posebne saradnje osoblja ISP-a, jer smo mi još ranije tražili da povežu neke kablove okolo u pripremama da namestimo failover.

Iako je sve radilo preko tog switch-a, nije u pitanju rešenje koje treba ostaviti u produkciji. Dogovorimo se sa tamošnjim tehničarima da prebace sve na zamenski ruter i to u utorak. U utorak su javili da su montirali zamenski uređaj, ali ga nisu povezali, uz najavu da će povezivanje biti u sredu. Dođe jednom i ta sreda, mi čekamo da oni prebodu dva kabla i da to sve proradi... ali se to ne dešava.

I tako počinje zaplet. Pošaljemo im poruku, „ljudi povežite dva kablića, ali nam javite kad to uradite, jer mi moramo da promenimo konfiguraciju uređaja da bi sve to proradilo“. Setite se prologa, nemamo automatski failover, jer smo bili neoprezni. Jesmo mi predvideli taj automatski failover, ali on nije bio podešen, pošto deo podešavanja zahteva i saradnju sa ISP-om.

Vratimo se na našu poruku. Ne deluje kao neki mnogo težak zahtev, ali nam javljaju da zbog pandemije nema nikog od ISP ekipe u data centru, i to onda moraju da odrade remote hands. Nama zadatak i dalje deluje trivijalno, ali šta ćemo, pristanemo da to odrade remote hands, jer koliko to može da bude teško? Pri tome, uređaj je već montiran prethodni dan od strane te ISP ekipe na istu poziciju gde je bio stari uređaj, kablovi su već tu, dakle, ništa ne može da pođe naopako, zar ne?

Nakon toga kreće veliko odugovlačenje, šalju poruku, evo sad će, samo što nije, i sve u tom stilu. Trebalo je da aktiviraju ruter oko 20h po našem vremenu, ali promena nikako da se desi. Jedan od kolega zbog toga nije otišao u na neki privatni sastanak, šalje im ljutite e-mail-ove ali ništa. Negde oko 00:45 javljaju se, eto, poklopile su se zvezde, može za 15 minuta, to jest u 1am po našem vremenu. Posle kraja našeg radnog vremena, ali šta ćemo, računamo da nam je posle potreban možda minut posla, pa pristanemo, što je bilo vrlo neoprezno sa naše strane. Ja sam planirao da legnem oko 2h ujutro, a verujem da su ostali planirali da legnu i ranije, ali... nije se desilo.

Hakovani ruter?

I najzad „udaljene ruke“ prebace kablove, kolega promeni konfiguraciju i sve naizgled radi desetak minuta, ako i toliko. Onda nam kolega javlja: „mene je ruter diskonektovao, a kad sam probao da se konektujem, lista korisnika rutera je bila prazna, izgleda da nam je neko hakovao ruter“. To je već ozbiljna stvar. Ruter je nekorišćen, ovo je prvi put da je na Mreži, i bio je update-ovan na najnoviji RouterOS (da, MikroTik je u pitanju). Kolega nas obraduje da i dalje ima pristup preko konzole, i nakon nekog vremena uspe da podesi tako da možemo i mi ostali da mu priđemo, ali na neki vrlo komplikovan način. Operacija već traje dobrih pola sata.

Ulogujem se i ja na ruter, vidim korisnici su tu, i kolega potvrdi da su i bili tu preko konzole ali da se nisu videli preko Winbox-a. Pa to nema baš nikakvog smisla. Kakve sad to ima veze? Ali šta da se radi. Pogledam ja konfiguraciju preko CLI-a, i ne vidim ništa što bi ukazivalo da je uređaj hakovan. Sve deluje u najboljem redu. I kolega koji se bavi security-jem potvrdi ono što sam već video, a to je da nema tragova hakovanja. Vrlo čudno.

CPU load je 100%, a nema puno saobraćaja. Tri pravila u firewall-u, dakle – ništa značajno. Dobijemo mi tu neke ideje šta bi to moglo da bude, te možda ti neki bridge-vi prave problem, te možda ima neki loop negde a da nismo svesni, ma trista čuda. Krenemo redom. Ukinemo sve interfejse sem spoljnog i unutrašnjeg. Problem je i dalje tu. Ukinemo bridge-ve. Problem je i dalje tu. Vreme prolazi. Glavni gazda me zove, sa nervoznim pitanjima „jel znaš ti da ovo ne radi...“ i pri tome samo doliva ulje na vatru. Već je 3 sata ujutru, on-line smo samo ja i dvojica kolega od kojih je jedan zadužen za security. Da je bio još neko, možda bismo pre ustanovili u čemu je problem.

Dijagnostika

Da skratim priču oko dijagnostike, jer je tu već ponestajalo ideja. Čak smo pomislili da smo pod napadom, ali je saobraćaj bio normalan. I tako počnemo da analiziramo šta troši CPU: network i firewall. Tek to nema smisla. Pa ima samo 3 (tri!) pravila u firewall-u, zašto bi on trošio CPU. Pogledam sama pravila, ništa čudno u njima, nema nikakve magije, sve je regularno. A već sam hteo da preslišam ove moje u slučaju da su dodali neka ludila u firewall, ali nisu, sve je kako sam i očekivao da treba da bude.

Idemo dalje s dijagnostikom. Sledeća stavka je bila network. Ali saobraćaja nema mnogo, tj. ima ga uobičajeno za to doba dana, a to je recimo 30% od maksimalnog koliko uobičajeno bude tokom dana. Baš čudno. Petlji nema, proverili smo, a i one se manifestuju tako što se negde vidi velika količina saobraćaja ili tako što sve prestane da radi, a kod nas to nije slučaj. Rešimo mi da probamo da ukinemo unutrašnji interfejs. Isto 100% CPU load. Vratimo unutrašnji, ukinemo spoljni i CPU load padne na 60%. Pa što sad 60% kad bukvalno ništa ne prolazi, imamo samo jedan interfejs. OK, vratimo mi spoljni interfejs, vrati se CPU load na 100%. Dakle, metodom eliminacije smo došli do toga da:

  • Nije traffic jer ga ima isto kao i ranije za to doba dana.
  • Nije firewall, jer ima manje pravila nego u originalnoj konfiguraciji (ima samo 3 linije, a ranije je bilo dosta više).
  • Nije hakovan uređaj.
  • Reboot nije pomogao.
  • Nije problem sa loop-om pošto ima samo jedan interfejs, nema gde da se vrti u krug.
  • Nije problem u bridge-vima jer smo bridge-eve ukinuli pa ništa.
  • Nije ARP problem (da, i to sam gledao).

    I, šta je ostalo?

    Nije ostalo mnogo toga. Da parafraziram Šerloka Holmsa, kad se odbaci ono što nije, onda ono što je preostalo, ma kako bilo neverovatno, mora biti uzrok naših problema. Možda je uređaj neispravan? Pogledam ja opet CPU load, koji sam gledao sto puta do tad, i još prvi put kad sam gledao sam primetio nešto čudno, a to je da je CPU clock 400 MHz. I jeste mi to bilo čudno, ali pošto sam tad bio u drugom toku misli, misleći da je haknut uređaj i šta sve već ne, nisam detaljnije pogledao zašto je to tako. Ali pošto smo sve ostale opcije potrošili, odlučim da vidim zašto je CPU clock 400 MHz, možda je u nekom power save modu, ko zna. Pogledam malo bolje, kad ono...

    To nije taj uređaj!

    image

    Stavili su nam switch umesto rutera, a pošto je konfiguracija ista, interfejsi se isto zovu, mi to nismo ni primetili. A pošto switch i ruter izgledaju veoma slično, od istog su proizvođača, i iste su boje, ni ekipa iz ISP-a nije primetila. A pošto su i rezervni switch i rezervni ruter izvađeni iz originalnog pakovanja, tj. tad su se prvi put koristili, nisu imali ni uobičajene nalepnice, tako da je identifikacija mogla da se izvrši samo po nazivu modela i po broju portova. Switch ima mnogo slabiji CPU jer tipično switch ne radi rutiranje, pa mu i ne treba neka velika snaga.

    Sad je već 3:30am, ništa od spavanja u 2h. Kažem ja kolegi da ukine skroz firewall, i uređaj „prodiše“. Mada, kad kažem prodiše, i dalje nije sve savršeno, ali bar nije više load 100% i ne drop-uje pakete kao blesav. Dakle, preživećemo do sutra.

    Epilog

    Sledećeg dana opet pričam sa gazdama, pitaju kad će problem da se reši, jer iako to sad radi, jasno je i njima da ćemo morati opet da imamo neki prekid, i traže da najavimo ako ćemo opet 3 sata da drndamo po mreži (kao da smo mi hteli da to drndamo 3 sata).

    A na kraju priče? Rekli su iz ISP-a da će potražiti pravi uređaj i da će ga (valjda) montirati u petak. Dođe taj petak i najzad su montirali uređaj, ali prekasno po našem vremenu. Nakon iskustava od pre neki dan, niko od nas nije hteo da izaziva sudbinu i da u petak uveče traži da se kablovi prevežu kako treba, pa smo to ostavili za ponedeljak, kad je to najzad urađeno. Posao je završen uz manje od pet minuta downtime-a.

    Ova priča ima tri pouke, pored one od ranije da u IT svetu ništa nije jednostavno:

  • Ako nešto ne može da pođe naopako, poći će naopako.
  • Uvek treba namestiti automatski failover, bez obzira na to koliko ISP deluje nebitno.
  • Ako uređaji izgledaju slično, i imaju isti operativni sistem, obavezno proveriti koji je tačno uređaj montiran pre bilo kakvog rada na podešavanju konfiguracije.



  • .

    PC
    Twitter Facebook Feed Newsletter