Member-only story
SRE Kültürünü Geliştirme Üzerine Notlar — IV
1 min readJan 9, 2022
SRE^de herşeyi ölçmek çok önemli. Bura amaç, Servisin durumunu IT ve iş biriminin anlayabilmesi, IT ekibinin analiz yapabilmesi , gerekli aksiyonları buna göre alabilmesi, IT ekibinin daha iyi karar alabilmesi.
Herşeyi ölçmede 2 ana başlıkta ele alınır.
- Reliability ölçme
- Toil ölçme
Reliability için ne ölçmelisin, CPU, Memory, load avarage? Doğru metrik, doğru indikatörlerle ölçüm yapmak, sorun durumunda alarmı doğru almak önemli.
Toil için:
- Toil nedir , tanımla. Bunu paydaşlar ile birlikte tanımlamalısın.
- Uygun bir unit belirle ölçüm için. Dk , yada saat tercih edilir.
- sürekli takip ve ölçüm.
- Toil sayısını ölçümle, ne kadar azaldığını takip et, ekibini güçlendir, destekle toil konusunda düşünmeleri için.
SRE de Hedef belirleme konusu bulunuyor:
- Google OKR leri KPI olarak kullanıyor ve bunlaro 0,0–1,0 aralığında puanlıyor.
- OKR grade de :
- %60–70 aralığı iyi bir score
- OKR perfomans ile aynı ayni karşığa gelmiyor, bireysel katkıları ve etkileri gösterir.
- Kurumsal OKR herkese açık olarak derecelendirilir.
- Çeyrek boyunca sık check-in’ler ilerlemenin korunmasına yardımcı olur
- Transparency yani şeffaklık çok önemli. Feedback loops lar ile…