Home
Categories
EXPLORE
True Crime
Comedy
Sports
Society & Culture
Business
News
History
About Us
Contact Us
Copyright
© 2024 PodJoint
00:00 / 00:00
Sign in

or

Don't have an account?
Sign up
Forgot password
https://is1-ssl.mzstatic.com/image/thumb/Podcasts114/v4/6e/4c/f1/6e4cf16a-11d2-016c-fdd4-e145e15d049a/mza_10215802817563519116.jpeg/600x600bb.jpg
Post Mortem
François Paupier
26 episodes
1 week ago
In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
Show more...
Technology
RSS
All content for Post Mortem is the property of François Paupier and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
Show more...
Technology
https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_episode/8698156/c8c497817675d294.jpeg
#14 Scaler sa réponse à incidents - Le cas Algolia
Post Mortem
29 minutes 23 seconds
4 years ago
#14 Scaler sa réponse à incidents - Le cas Algolia

Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue. Mais par où commencer ? 


Dans cet épisode,  on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité.


Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia  depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia. 


Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier :

  • Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝
  • L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩‍💻
  • De l'importance de monitorer les causes et non les symptômes 🤒


Ressources 

  • La recommandation de Xavier; Le Google SRE Workbook, excellente ressource (et gratuite) pour animer un club de lecture avec votre équipe et réfléchir ensemble sur  des bonnes pratiques transposables dans votre organisation.
  • Pour un exemple de blog post mortem  d'Algolia, je recommande cet excellent article de blog sur leur gestion de l'attaque Salt en mai 2020. 
Post Mortem
In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.