À propos de Mila
Fondé par le professeur Yoshua Bengio de l’Université de Montréal, Mila rassemble des chercheurs spécialisés en intelligence artificielle et plus précisément en apprentissage automatique, apprentissage profond et apprentissage par renforcement. Reconnu mondialement pour ses importantes contributions au domaine de l’apprentissage profond, Mila s’est particulièrement distingué dans la modélisation du langage, la traduction automatique, la reconnaissance d’objets et les modèles génératifs. Depuis 2017, Mila est le fruit d’une collaboration entre l’Université de Montréal et l’Université McGill, en lien étroit avec Polytechnique Montréal et HEC Montréal.
Mila s’est donné pour mission d’être un pôle mondial d’avancées scientifiques qui inspire l’innovation et l’essor de l’intelligence artificielle (IA) au bénéfice de tous.
Pour en connaitre davantage, veuillez consulter https://mila.quebec/
Le Rôle
Mila est à la recherche d'un.e responsable des opérations des grappes de calcul hautement expérimenté.e pour gérer nos infrastructures de calcul;. Cette personne sera responsable de la planification stratégique, de la conception, de la mise en œuvre et de l'exploitation des grappes de calcul haute performance (CHP/IA) et des centres de données. Le candidat retenu jouera un rôle central en garantissant que nos chercheurs et étudiants ont accès à des ressources informatiques de pointe pour repousser les limites de l'IA.
Responsabilités
- Gestion des grappes HPC : Superviser l'architecture, le déploiement, la maintenance et l'optimisation des grappes HPC, en assurant une haute disponibilité, performance et évolutivité.
- Opérations et fiabilité : Établir et appliquer les meilleures pratiques pour les opérations d'infrastructure, la surveillance, le dépannage et la réponse aux incidents afin de maintenir un environnement hautement fiable.
- Gestion budgétaire : Gérer les budgets de l'infrastructure.
- Gestion des fournisseurs: Trouver et prendre contacts avec des fournisseurs, négocier les contrats et les ententes de services
- Sécurité et conformité : Assurer la sécurité et la conformité de tous les composants de l'infrastructure, en mettant en œuvre des mesures de sécurité robustes et des protocoles de protection des données.
- Collaboration : Travailler en étroite collaboration avec les chercheurs, les professeurs et les autres départements pour comprendre leurs besoins informatiques et fournir des solutions adaptées.
Innovation : Se tenir au courant des dernières avancées en matière d'infrastructure informatique et de matériel d'IA, en proposant et en mettant en œuvre des solutions innovantes pour améliorer les capacités de Mila.
Qualifications
- Baccalauréat ou maîtrise en informatique, en ingénierie ou dans un domaine connexe.
- 10+ ans d'expérience en infrastructure informatique, dont au moins 5 ans dans un rôle de leadership en gestion d'environnements informatiques complexes.
- Expertise approfondie en architecture, conception et opérations de grappes HPC, y compris une expérience avec les ordonnanceurs (par exemple, Slurm), les interconnexions haute vitesse (par exemple, InfiniBand) et les systèmes de fichiers parallèles (par exemple, Lustre, BeeGFS).
- Expérience avérée en gestion de centres de données, d'infrastructure réseau et de solutions de stockage.
- Solide compréhension des technologies de virtualisation (par exemple, Proxmox, Docker, Podman).
- Expérience avec l'infrastructure as code (par exemple, Ansible, Terraform) et les outils d'automatisation.
- Excellentes compétences en leadership, en communication et en relations interpersonnelles, avec la capacité d'articuler des concepts techniques complexes à des publics techniques et non techniques.
- Capacité démontrée à gérer des projets, à prioriser les tâches et à travailler efficacement dans un environnement de recherche rapide.
- Une passion pour contribuer à la recherche de pointe en IA et un engagement envers la mission de Mila.
Compétences souhaitables
- Expérience avec le calcul accéléré par GPU et les frameworks d'apprentissage profond.
- Connaissance des environnements de calcul de recherche et des défis spécifiques rencontrés par les chercheurs en IA.
- Familiarité avec les technologies open-source et les contributions communautaires.
- L’occasion de contribuer à une mission unique avec un impact important;
- Un programme d’assurance collective complet (maladie, dentaire, invalidité, vie, assurance voyage et garanties complémentaires);
- Un programme d’aide aux employés et à la famille;
- Un accès à un service de télémédecine;
- Une politique de congés annuels offrant une base de 20 jours de vacances dès l’embauche;
- Un régime d’épargne retraite avec contribution de l’employeur minimale de 4%;
- Une généreuse enveloppe flexible vous permettant de personnaliser vos avantages sociaux en fonction de ce qui contribue à votre bien-être. Vous pouvez sélectionner et combiner les options qui correspondent à vos besoins parmi les crédits style de vie, une assurance bonifiée, des journées de vacances supplémentaires et une contribution enrichie au régime de retraite;
- Un horaire flexible, un horaire d’été et une possibilité de télétravail;
- Un milieu de travail au cœur de la Petite Italie, dans le quartier branché Mile-Ex, à proximité des transports en commun;
- Une équipe d’experts de leur domaine, des gens passionnés et passionnants;
- Une ambiance de travail collaborative et inclusive.
About Mila
Founded by Professor Yoshua Bengio from the University of Montreal, Mila brings together researchers specializing in artificial intelligence (AI), particularly in machine learning. Globally recognized for its significant contributions to the fields of deep learning and reinforcement learning, Mila has distinguished itself in areas such as language modeling, machine translation, object recognition, and generative models. Since 2017, Mila has been the result of a collaboration between the University of Montreal and McGill University, in close partnership with Polytechnique Montreal and HEC Montreal.
Mila’s mission is to be a global hub for scientific advancements, inspiring innovation and the growth of artificial intelligence for the benefit of all.
The Role
Mila is seeking a highly experienced and visionary Head of Infrastructure to lead and evolve our critical computing infrastructure. This individual will be responsible for the strategic planning, design, implementation, and operation of Mila's high-performance computing (HPC/AI) clusters, data centers, and network infrastructure. The successful candidate will play a pivotal role in ensuring that our researchers and students have access to state-of-the-art computing resources to push the boundaries of AI.
Responsibilities
- Strategic Leadership: Develop and execute a comprehensive infrastructure strategy aligned with Mila's research goals, including future needs for growth and emerging technologies.
- HPC Cluster Management: Oversee the architecture, deployment, maintenance, and optimization of HPC clusters, ensuring high availability, performance, and scalability.
- Vendor Management & Procurement: Lead the RFP process for the procurement of new HPC clusters and other infrastructure components, ensuring cost-effectiveness and alignment with technical requirements.
- Team Leadership: Lead, mentor, and grow a team of skilled infrastructure engineers and administrators.
- Operations & Reliability: Establish and enforce best practices for infrastructure operations, monitoring, troubleshooting, and incident response to maintain a highly reliable environment.
- Budget Management: Manage infrastructure budgets.
- Security & Compliance: Ensure the security and compliance of all infrastructure components, implementing robust security measures and data protection protocols.
- Collaboration: Work closely with researchers, faculty, and other departments to understand their computing needs and provide tailored solutions.
- Innovation: Stay abreast of the latest advancements in computing infrastructure and AI hardware, proposing and implementing innovative solutions to enhance Mila's capabilities.
Qualifications
- Bachelor's or Master's degree in Computer Science, Engineering, or a related field.
- 10+ years of experience in IT infrastructure, with at least 5 years in a leadership role managing complex computing environments.
- Deep expertise in HPC cluster architecture, design, and operations, including experience with schedulers (e.g., Slurm), high-speed interconnects (e.g., InfiniBand), and parallel file systems (e.g., Lustre, BeeGFS).
- Proven experience managing data centers, network infrastructure, and storage solutions.
- Strong understanding of virtualization technologies (e.g., Proxmox, Docker, Podman).
- Experience with infrastructure as code (e.g., Ansible, Terraform) and automation tools.
- Excellent leadership, communication, and interpersonal skills, with the ability to articulate complex technical concepts to both technical and non-technical audiences.
- Demonstrated ability to manage projects, prioritize tasks, and work effectively in a fast-paced research environment.
- A passion for contributing to cutting-edge AI research and a commitment to Mila's mission.
Desirable Skills
- Experience with GPU-accelerated computing and deep learning frameworks.
- Knowledge of research computing environments and the specific challenges faced by AI researchers.
- Familiarity with open-source technologies and community contributions.
Why Join Mila?
- The opportunity to contribute to a unique mission with a major impact;
- A comprehensive group insurance program (health, dental, disability, life, travel and extended benefits);
- An employee and family assistance program;
- Access to a telemedicine service;
- A vacation policy offering a base of 20 days' vacation upon hiring;
- A retirement savings plan with a minimum employer contribution of 4%;
- A generous flexible package allowing you to tailor your benefits to what contributes to your well-being. You can select and combine options to suit your needs, including lifestyle credits, enhanced insurance, extra vacation days and increased pension contributions;
- Flexible working hours, a summer schedule and the possibility of telecommuting;
- A work environment in the heart of Little Italy, in the trendy Mile-Ex district, close to public transportation;
- A team of passionate experts in their field;
- A collaborative and inclusive work environment.