Le SRE, pour site reliability engineer, est généralement un ingénieur software mettant à profit son expérience pour gérer l'infrastructure. Mais bien que ce rôle ait déjà fait l'objet de plusieurs publications (et je vous invite d'ailleurs à retrouver les liens dans les notes de l'épisode), son quotidien reste flou et mal défini.
Tout d'abord, il est responsable de la production. Mais afin que son temps soit harmonieusement partagé entre cette tâche et ses travaux d'automatisation, il doit d'abord définir un budget d'erreur avec les développeurs. Ce budget est une sorte de contrat décrivant combien de temps une application peut être en dessous de son objectif mensuellement. Et pour définir cet objectif, bien évidemment, il faut des points de mesure précis, qui sont appelés des indicateurs. Une fois ce carde mis en place, le SRE devrait pouvoir consacrer 50% de son temps à la production, et l'autre moitié à ses tâches d'automatisation. C'est la théorie.
Mais qu'en est-il réellement ? Pour le savoir, j'ai le plaisir de recevoir Tony Fouchard. Tony est aujourd'hui chef de l'infrastructure chez Prevision.io, mais il a aussi occupé d'autres rôles similaires pour Blablacar et Qwant. Il a une riche expérience de SRE, et il nous invite à partager son quotidien le temps de ce podcast.
Notes de l'épisode
- La collection de livres sur le SRE de Google : https://landing.google.com/sre/books/
Support the show (https://www.patreon.com/electromonkeys)