صاحب العمل نشط
حالة تأهب وظيفة
سيتم تحديثك بأحدث تنبيهات الوظائف عبر البريد الإلكترونيحالة تأهب وظيفة
سيتم تحديثك بأحدث تنبيهات الوظائف عبر البريد الإلكترونيمراجعة العمليات والمنصة والبنية التحتية؛
تنفيذ Grafana OnCall؛
مراجعة وإعادة صياغة عمليات ITSM إذا لزم الأمر.
المسؤوليات في الدور:
تحديد الاختناقات وإعداد التوصيات لتحسين موثوقية الخدمات؛
الاستجابة لحالات الطوارئ الخاصة بالمنصة، وتحديد أسباب الفشل وحلها، وتجميع تقارير ما بعد الوفاة؛
تطوير أدوات المراقبة والتنبيه لضمان التوافر العالي والكشف السريع عن المشكلات المحتملة: (Grafana، Grafana OnCall، Prometheus Alert manager، وما إلى ذلك)؛
المشاركة النشطة في عمليات إدارة التغيير، بما في ذلك تقييم وتنسيق التغييرات في البنية التحتية ضمن جلسات المجلس الاستشاري للتغيير (CAB)؛
تنفيذ ودعم عمليات ITSM لتحسين سير عمل الفريق وتحسين جودة الخدمة.
تطوير وصيانة الوثائق في حالة محدثة.
متطلبات:
أكثر من 3 سنوات من الخبرة في SRE/DevOps؛
فهم مبادئ SRE، والخبرة العملية في تنفيذ ممارسات SRE؛
فهم المبادئ والخبرة العملية في بناء أنظمة مرنة؛
خبرة في أنظمة المراقبة والتسجيل (Prometheus، Graylog، Grafana).
تجربة مع أدوات التشغيل الآلي لبناء البرامج ونشرها (CI/CD): GitLab، Jenkins؛
فهم مبادئ المحاكاة الافتراضية والحاويات؛
فهم البنية التحتية باعتبارها نهج التعليمات البرمجية (IaC) والخبرة؛
إتقان لغة برمجة لتطوير البرامج النصية للأتمتة (Python، Nodejs، Golang، وما إلى ذلك)، والقدرة على فهم رمز الخدمة؛
فهم بروتوكولات الشبكة، والطوبولوجيا، ونماذج الشبكة؛
خبرة في أدوات إدارة التكوين: Ansible, Chef؛
الخبرة الأساسية مع قواعد البيانات العلائقية، مثل PostgreSQL؛
خبرة في إدارة أنظمة التشغيل Linux؛
إتقان اللغتين الإنجليزية والروسية (الحد الأدنى B2).
عن بُعد