company_logo

Full Time Job

Site Reliability Expert /Expert E En Fiabilité Des Sites

Playstation

Montreal, QC 04-19-2024
Apply @ Employer
  • Paid
  • Full Time
  • Senior (5-10 years) Experience
Job Description
Site Reliability Expert (GCP)/Expert• e en fiabilité des sites

Why PlayStation?

//FRENCH FOLLOWS//

In May 2021, we embarked on a journey to start Haven Studios with a small team and big ambitions. Our goal was to build a studio where we could make the kind of games we've always wanted to create – and games we've longed to play.

We've made amazing progress in a short time thanks to our talented, passionate team and their exceptional contributions. We established a culture at Haven grounded in kindness, adaptability and courage that unlocks creativity. Our first new IP for PlayStation is on track to deliver a AAA multiplayer experience with a vision to build a systemic and evolving world focused on freedom, thrill, and playfulness that will keep players entertained and engaged for years.

Haven joined the PlayStation Studios family in 2022, and we are on track to build an exclusive new IP for Playstation and grow the first Sony game development team in Canada.

About the role

We are seeking a skilled and experienced Site Reliability Expert to join our Infrastructure and Operations SRE team and play a key role in ensuring the reliability, scalability, and performance of the cloud-based systems support our studio's game production.

What you will do
• System Architecture and Design:
• Collaborate with development teams to design, implement, and maintain a robust and scalable cloud core infrastructure.
• Work on the architecture and deployment of critical services to ensure high availability and fault tolerance.
• Infrastructure as Code (IaC):
• Utilize Infrastructure as Code principles to automate the provisioning, configuration, and management of cloud infrastructure components.
• Implement best practices for IaC tools such as Terraform or similar technologies.
• Monitoring and Incident Response:
• Develop and maintain comprehensive monitoring solutions to proactively identify and address potential issues.
• Participate in on-call rotations and respond to incidents promptly, ensuring minimal downtime and impact on users.
• Performance and Resource Optimization:
• Continuously optimize system performance and resource utilization, identifying areas for improvement and implementing solutions.
• Conduct regular performance testing and capacity planning to meet growing business needs.
• Security and Compliance:
• Collaborate with security teams to implement and enforce security best practices in the cloud infrastructure.
• Ensure compliance with industry standards and regulatory requirements.
• Collaboration and Documentation:
• Work closely with development teams to streamline the deployment process and improve overall system reliability.
• Document system configurations, procedures, and best practices for knowledge sharing and training.
• Participate and contribute to sprints with the team.
• Assess and size effort associated with work backlog and participate in grooming.
• Communicate effectively with team members, production and management to ensure that project goals and deadlines are met.

What you bring :
• 8+ years of experience as a Site Reliability Specialist, Engineer or similar role.
• Professional experience with GCP public cloud provider.
• In-depth knowledge of Infrastructure as Code principles and tools (e.g., Terraform).
• Expert knowledge of configuration management tools (e.g., Ansible, SaltStack).
• Experience implementing the CI/CD and observability toolchain.
• Experience with containerization and orchestration technologies (e.g., Docker, Kubernetes).
• Experience with version control systems (e.g., Perforce, Git).
• Familiarity with monitoring and logging tools (e.g., Prometheus, ELK stack).
• Substantial knowledge in Linux administration.
• Strong problem-solving skills and the ability to troubleshoot complex issues.
• Self-driven, dedicated to advancing your craft, and eager to learn new techniques and software.
• Excellent communication and collaboration skills.
• Ability to accept feedback and adapt to change.

Bonus Qualifications
• Experience with AWS public cloud provider.
• GCP/AWS certifications or any additional related professional certifications.
• Bilingual in French and English.
• Contributions in Open-Source software.
• Understanding of Games as a Service technical requirements.
• Knowledge of the Rust programming language.

En mai 2021, nous sommes lancés dans la création de Haven Studios avec une petite équipe et de grandes ambitions. Notre objectif était de construire un studio où nous pourrions créer le genre de jeux que nous avons toujours voulu créer - et auxquels nous avons toujours rêvé de jouer ! Nous faisons désormais partie de la famille PlayStations Studios et nous sommes fiers d'avoir l'opportunité de créer une nouvelle propriété intellectuelle exclusive pour Playstation et de former la première équipe de développement Sony au Canada.

Nous avons fait des progrès étonnants en peu de temps grâce à notre équipe talentueuse et passionnée et à ses contributions exceptionnelles. Nous avons instauré chez Haven une culture fondée sur la bienveillance, l'adaptabilité et le courage qui libère la créativité. Notre première nouvelle propriété intellectuelle pour PlayStation est sur la bonne voie pour offrir une expérience multijoueur de niveau AAA, avec la vision de construire un monde systémique et évolutif axé sur la liberté, le frisson et le jeu, qui gardera les joueur• euse• s diverti• e• s et engagé• e• s pendant des années.

Haven a rejoint la famille des studios PlayStations en 2022, et nous sommes sur la bonne voie pour créer une nouvelle propriété intellectuelle exclusive pour Playstation et continuer de bâtir la première équipe de développement de jeux Sony au Canada

Nous sommes à la recherche d'un• e expert• e en fiabilité de site compétent• e et expérimenté• e pour rejoindre notre équipe SRE (Infrastructure et Opérations) et jouer un rôle clé en garantissant la fiabilité, l'évolutivité et la performance des systèmes basés sur le cloud qui soutiennent la production de jeux de notre studio.

Responsabilités et tâches
• Architecture et conception du système :
• Collaborer avec les équipes de développement pour concevoir, mettre en œuvre et maintenir une infrastructure de base robuste et évolutive.
• Travailler sur l'architecture et le déploiement de services critiques pour assurer une haute disponibilité et une tolérance aux pannes.
• Infrastructure as Code (IaC) :
• Utiliser les principes de l'infrastructure en tant que code pour automatiser le provisionnement, la configuration et la gestion des composants de l'infrastructure en nuage.
• Mettre en œuvre les meilleures pratiques pour les outils IaC tels que Terraform ou des technologies similaires.
• Surveillance et réponse aux incidents :
• Développer et maintenir des solutions de surveillance complètes afin d'identifier et de traiter de manière proactive les problèmes potentiels.
• Participer aux rotation d'astreinte et répondre rapidement aux incidents, en veillant à minimiser les temps d'arrêt et l'impact sur les utilisateurs.
• Optimisation des performances et des ressources :
• Optimiser en permanence les performances du système et l'utilisation des ressources, en identifiant les domaines susceptibles d'être améliorés et en mettant en œuvre des solutions.
• Effectuer régulièrement des tests de performance et planifier les capacités pour répondre aux besoins croissants de l'

[more...]

Jobcode: Reference SBJ-rzv292-3-138-179-119-42 in your application.

Company Profile
Playstation

Recognized as a global leader in interactive and digital entertainment, Sony Interactive Entertainment (SIE) is responsible for the PlayStation® brand and family of products and services.