Awarie się zdarzają, wdrożenia nie idą zgodnie z planem, systemy produkcyjne przestają działać. Czy to błąd w kodzie (twoim, czy biblioteki z której korzystasz), czy awaria infrastruktury lub sprzętu, pierwszą rzeczą jest przywrócenie pracy systemu z minimalnymi stratami. Ale co dzieje się później? Czy powinniśmy po prostu wrócić do swoich zajęć? Słyszałeś o “Post Mortem Analysis”? Brzmi strasznie, ale tak naprawdę jest szalenie przydatna praktyka o ile użyta jest poprawnie. I o tym właśnie chciałbym opowiedzieć. Czym jest taka analiza, jak ją efektywnie przeprowadzić, kto powinien (a kto nie) wziąć w niej udział, na co uważać i do czego dążyć podczas tego procesu. W końcu chyba nie chcesz skończyć z taką samą awarią produkcji jutro, prawda?