Pokaż wyniki 1 do 4 z 4

Temat: Awaria macierzy w Beyond (jedna z większych serwerowni w Polsce)

  1. #1
    Zarejestrowany
    Jul 2006
    Postów
    210

    Domyślnie Awaria macierzy w Beyond (jedna z większych serwerowni w Polsce)

    Drodzy użytkownicy!

    Jak zapewne większość z Was już wie z naszego profilu na Facebooku, dziś rano nastąpiła awaria zasilania. Konsekwencją tego jest uszkodzenie macierzy dyskowej oraz niestety także backupu z Waszymi danymi. Cały czas nie znamy do końca przyczyny tak wielkiej awarii i tego, co poszło nie tak, kiedy wyłączono prąd. Ekipa techniczna pracuje i próbuje to ustalić, aby znaleźć konkretną przyczynę.

    Jednocześnie informujemy, że rozpoczęliśmy prace nad odzyskaniem danych i rano się okaże ile uda się przywrócić.

    Rozumiemy Wasze rozgoryczenie dzisiejszą sytuacją. Zaskoczyła nas ona nie mniej niż Was. Prosimy o cierpliwość i odrobinę zrozumienia. Trudno nam w tym momencie określić kiedy e24cloud "wstanie", lecz, wierzcie nam, robimy WSZYSTKO, aby było to jak najszybciej.
    04.06.2012 - Awaria macierzy / Storage failure Ť e24cloud_Forum

    Drodzy Użytkownicy, w związku z poranną awarią zasilania, uszkodzona została macierz dyskowa i w tej chwili całość jest w drodze do Ontrack-a, gdzie zostaną odzyskane wszystkie dane. Nie żałujemy na to środków i będziemy Was informować na bieżąco o postępach. Prosimy o wyrozumiałość i trzymanie kciuków.
    https://www.facebook.com/e24cloud/posts/367775866608999
    Ostatnio edytowane przez MateO : 06-04-2012 - 22:13

  2. #2
    Zarejestrowany
    Jun 2006
    Skąd
    rand(.eu)
    Postów
    8,748

    Domyślnie

    WOW!

    Ok, wypadki chodza po ludziach i tylko wspolczuc pozostaje.

    Niestety, temu mozna bylo zapobiec majac kopie w innej lokalizacji. No nic... na pewna wyciagna lekcje i cos zmienia a na razie trzymajmy kciuki za odzyskanie danych.

    Nie żałujemy na to środków i będziemy Was informować na bieżąco o postępach.
    Na pewno nie zaluja, bo Kroll Ontrack tani nie jest - wiem z wlasnego doswiadczenia, z podobnej sytuacji jak tu opisywana... i moge uczciwie powiedziec ze eksperci z Ontrack'a zrobili super robote - wiec jesli ktos z Was mial tam swoje dane, to sadze ze mozecie byc dobrej mysli

    Powodzenia!
    ctrl-alt-del.cc - soft reset site for IT admins and other staff :-)

  3. #3
    Zarejestrowany
    Jul 2006
    Postów
    210

    Domyślnie e24cloud.com - Aktualne informacje o awarii

    Dzisiaj dostałem takiego e-mail'a:

    Szanowny kliencie,
    Serwery e24cloud.com pracują w nowoczesnej i wyposażonej wg najsurowszych zasad bezpieczeństwa
    serwerowni. Mimo to nie uniknęliśmy awarii, która pociągnęła za sobą poważne skutki. 4 czerwca rano nastąpiła
    dysfunkcja systemu zasilania. Przyczyną przerwy w dostępności zasilania był fatalny zbieg okoliczności – nałożenie
    się sytuacji awaryjnych w kluczowych punktach instalacji:

    a. awaria układu automatycznego sterowania rozdzielniami elektrycznymi,

    b. awaria jednego z głównych wyłączników układu SZR,

    c. nieprecyzyjne dane na temat czasu pracy na bateriach – urządzenia podają 25 minut podczas kiedy faktycznie
    ten czas jest krótszy (15min).

    Dodatkowym okolicznością, która wpłynęła na przebieg awarii był tzw. czynnik ludzki - tak skomplikowany przebieg
    awarii zwiększył poziom stresu, co negatywnie wpłynęło na szybkość podejmowania decyzji. Niemniej czynności
    podjęte przez pracowników firmy, pozwoliły w krótkim czasie usunąć przyczynę problemów oraz przywrócić stabilność zasilania.
    Niestety, na skutek awarii zasilania, uszkodzone zostało środowisko produkcyjne e24cloud.com, na które składają się dwie redundantne grupy macierzy, zbudowane z grup dysków twardych spiętych w RAID 6 (dopuszczalne uszkodzenie 2 dysków). Na nieszczęście, wiele dysków w znacznym stopniu ucierpiało podczas utraty zasilania – w najgorszym przypadku straciliśmy 60% dysków z grupy raidowej.
    Dyski, które zawierały kopie bezpieczeństwa wykonane przez użytkowników zachowały pełną sprawność.

    Aktualnie wszystkie siły wkładamy w odzyskanie danych z uszkodzonych macierzy. Rozumiemy, że wielu z Was miało tam cenne dane i informacje. Czasu, który jest potrzebny na tę operację nie możemy Wam oddać. Wiemy, że jest do dla Was bardzo stresująca sytuacja i rozumiemy Wasze obawy oraz pytania o szczegóły. Jak tylko zakończą się trwające prace, natychmiast się z Wami podzielimy szczegółowymi informacjami na ten temat.

    Harmonogram prac znajdziecie tutaj: Awaria z 04.06.2012 – harmonogram prac związanych z e24cloud.com | e24cloud_DevBlog

    Do momentu zakończenia wszystkich prac naprawczych nie pobieramy żadnych opłat za korzystanie z naszej usługi. Pracujemy również nad systemem premiowym dla aktywnych użytkowników e24cloud.com. Staramy się wypracować jak najkorzystniejsze dla Was rozwiązanie.

    Cały czas możecie się z nami kontaktować za pomoca formularza kontaktowego lub pisząc na e-mail: [email protected] – jesteśmy dla Was dostępni.

    Jest nam przykro i bardzo przepraszamy za zaistniałą sytuację. Zrobimy wszystko by najlepiej i najszybciej rozwiązać wszelkie problemy.

  4. #4
    Zarejestrowany
    Jun 2006
    Skąd
    rand(.eu)
    Postów
    8,748

    Domyślnie

    Strasznie niefortunna sytuacja i przykro patrzec jak preznie rozwijajaca sie firma dostaje od rzeczywistosci kopa w tylek :-/ ale ma to tez swoje dobre strony. Co w tym jest dobrego? To, ze stalo sie to teraz a nie pozniej, gdy firma mialaby znacznie wiecej klientow - rozmiar tragedii bylby kolosalny! Nauka na bledach jest kosztowna i bardzo stresujaca - wiem po sobie :-/

    Czytajac miedzy wierszami...

    Czynniki losowe:
    Kaskadowa awaria - zasilanie, uklad przelaczania, wylacznik SZR - kaskada to najgorsze co moze sie trafic i takie cos najtrudniej przewidziec. Najszczersze wyrazy wspolczucia

    "Bledy" firmy czyli co mozna poprawic w przyszlosci:
    1. okreslenie czasu pracy na bateriach... na prawde?! jak ja bym wierzyl producentom UPSow w to co pisza to dawno poszedlbym z torbami. Czas pracy na bateriach moze byc zblizony do tego co podaje producent tyko wtedy gdy baterie sa nowe i zostaly poprawnie wyprodukowane (co nie jest w ogole takie pewne/oczywiste - takie moje doswiadczenie). Sytuacja w ktorej si znalazlem - nowki baterie zainstalowane w poniedzialek, w czwartek awaria zasilania... UPSy powinny utrzymac serwerownie 25 minut (przy tej ilosci sprzetu ktora byla podlaczona) a wytrzymaly 4.5min jedynie, czyli ponad 5x mniej niz podawal producent :-/ cale szczescie wystarczlo czasu na czystu shutown.

    2. Podniesiony poziom strestu - wiekszosc osob nie zdaje sobie sprawy co dzieje sie z czlowiekiem majacym swiadomosc tego ze biznes lezy na lopatkach albo wlasnie pada a Ty nie mozesz nic zrobic bo Twoj mozg nie nadarza zprzetwarzaniem informacji albo juz widzisz wszystkie skargi klientow, widzisz wyniki finansowe, itd. Widzialem ludzi lamiacych sie w takiej sytuacji, zamarzali, nie mogli sie ruszyc, itd. To normalna reakcja i jedyne co pomaga to przestac myslec o konsekwencjach i skupic sie na ogranczeniu strat. Strat nie unikniesz ale mozesz je ograniczyc jesli szybko zadzialasz. Doswiadczenie zdobyte w takich sytuacjach, cwiczenie takich sytuacji oraz dokladne opisnie procedur awaryjnych i upewnienie sie, ze pracownicy wiedza gdzie je znalezc i ktora procedure wykonac w danym przypadku pomoze przejsc przez takie cos w przyszlosci. Procedura MUSI byc spisana na papierze w prostych krotkich zdaniach. Jesli nie jest na papierze (najlepiej jako numerowana lista polecen) to pracownicy ktorzy niby wiedza co robic nie zrobia zupelnie nic a pracownicy ktorzy wiedza, na pewno o czyms zapomna (stres zrobi swoje - nikt nie jest 100% odporny). Do tego po prostu sie dorasta z czasem i tyle.

    Ja wiem, ze to wyglada jakbym krytykowal firme - zapewniam ze tak nie jest. Dziele sie swoimi doswiadczeniami bedacymy wynikiem moich bledow podczas lat pracy w srodowisku ktore musialo byc on-line 24/7/365, bedac odpowiedzialnym ze systemy znajdujace sie w kilku krajach. Jesli ekipa e24cloud to czyta to pozdrawiam, glowa do gory - taka jest sciezka nauki dla nas wszystkich. Jak emocje opadna pozostaje zrobic dobra kawe, usiasc i przygotowac solidny plan BC/DR i go regularnie testowac.
    ctrl-alt-del.cc - soft reset site for IT admins and other staff :-)

Zasady Postowania

  • Nie możesz zakładać nowych tematów
  • Nie możesz pisać wiadomości
  • Nie możesz dodawać załączników
  • Nie możesz edytować swoich postów
  •  
Subskrybuj