Подкаст о жизни в IT. Без обсуждения хардкорных технологий и успешного успеха в стартапах. Поговорим о том, что интересует программистов и менеджеров, но сложно обсудить с коллегами и начальством. Мы слушаем реальные истории айтишников и обсуждаем их. Ищем свежий взгляд на старые вопросы.
Обсудить выпуск, предложить свою тему и получить дополнительные материалы можно в телеграм-канале:
https://t.me/kodakodacast
All content for КОДА КОДА is the property of Виктор Корейша and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Подкаст о жизни в IT. Без обсуждения хардкорных технологий и успешного успеха в стартапах. Поговорим о том, что интересует программистов и менеджеров, но сложно обсудить с коллегами и начальством. Мы слушаем реальные истории айтишников и обсуждаем их. Ищем свежий взгляд на старые вопросы.
Обсудить выпуск, предложить свою тему и получить дополнительные материалы можно в телеграм-канале:
https://t.me/kodakodacast
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨
И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.
Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.
Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?
Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту (https://company.tutu.ru/). Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.
Ведут Виктор Корейша (http://t.me/koreysha), руководитель направления Managed Services в Ozon, и Евгений Антонов (http://t.me/eantonov), ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность (https://t.me/general_it_talks).
🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72
КОДА КОДА
Подкаст о жизни в IT. Без обсуждения хардкорных технологий и успешного успеха в стартапах. Поговорим о том, что интересует программистов и менеджеров, но сложно обсудить с коллегами и начальством. Мы слушаем реальные истории айтишников и обсуждаем их. Ищем свежий взгляд на старые вопросы.
Обсудить выпуск, предложить свою тему и получить дополнительные материалы можно в телеграм-канале:
https://t.me/kodakodacast