Comment Surveiller les Performances du serveur
La surveillance du serveur est importante pour une performance optimale du serveur afin de ne pas perturber votre entreprise. Cependant, la surveillance des performances du serveur peut être dispersée et complexe. Garder un œil sur tout est devenu une bataille difficile. Les informations sur le serveur vous permettent de mieux comprendre ce qui n’a pas fonctionné. Des outils, comme Retrace, qui rendent cette bataille difficile plus simple et plus facile à gérer. Apprenons à surveiller les performances du serveur.
Qu’est-ce que la surveillance du serveur ?
La surveillance du serveur implique de garder un œil sur diverses métriques pour assurer son bon fonctionnement. La surveillance de différentes métriques permet de repérer facilement les goulots d’étranglement.
Derrière chaque service en ligne critique, il y a généralement plusieurs serveurs responsables – physiques ou virtuels. Un serveur physique peut exécuter plusieurs moteurs, ce qui entraîne plusieurs fonctions de serveur. Quelques exemples de serveurs physiques sont les serveurs de base de données, les serveurs d’applications et les serveurs Web
Pourquoi la surveillance des serveurs est importante
La surveillance des serveurs est essentielle pour identifier de manière proactive les problèmes de performances avant qu’ils n’affectent l’utilisateur final. En outre, la surveillance du serveur aide à comprendre l’utilisation des ressources système du serveur. Cela vous permet de mieux planifier la capacité du serveur.
La surveillance du serveur fournit une bonne indication de la réactivité et de la disponibilité du serveur – le tout au nom de l’absence de perturbation dans la livraison de votre service à vos clients.
Les mesures de surveillance peuvent également indiquer une menace de cybersécurité. Ceci est essentiel avec l’hébergement Web où l’exposition au Web peut entraîner un profil de serveur Web de menace accru.
Comment surveiller les performances du serveur
Légende: Dans l’hébergement Web, les panneaux de contrôle incluent souvent des outils de surveillance qui peuvent aider à montrer l’utilisation de diverses ressources.
La clé d’une stratégie de surveillance de serveur réussie est d’identifier les domaines sur lesquels se concentrer et de créer une base de performance. Cela interprète correctement les performances de votre serveur à des fins d’alerte et récolte des informations à valeur ajoutée via des rapports.
Il existe des outils de surveillance de serveur qui peuvent vous y aider. Ils peuvent également aider à surveiller les applications ou l’ensemble de l’infrastructure. Stackify Retrace est un excellent outil pour assurer une stratégie de surveillance de serveur réussie. La solution Retrace APM de Stackify vous donne une vue d’ensemble de la pile de votre serveur. La plate-forme Retrace analyse automatiquement toutes les applications qui contribuent à votre infrastructure informatique, ce qui vous permet de surveiller un large éventail de mesures basées sur les performances et de prendre des mesures avant que de petites erreurs et incohérences ne deviennent incontrôlables. Retrace donne à votre équipe:
- Surveillance des performances des applications
- Fonctions de gestion des applications
- Un outil de journalisation centralisé
- Une vue ligne par ligne de votre code et de la manière dont il s’adapte à la vue d’ensemble
- Rapports de suivi des erreurs robustes
- Une suite de fonctions de surveillance du serveur en temps réel
- Fonctions de surveillance des utilisateurs individuels
Une solution de surveillance des performances tout-en-un, comme Retrace, vous permet de disséquer facilement votre pile de serveurs et de repérer les zones de faiblesse avant qu’une panne catastrophique plus importante ne se produise. Il vous donne une vue à long terme du fonctionnement de votre serveur et de ses applications constitutives sous charge réseau.
Zones clés à surveiller
Que vos serveurs s’exécutent sous Windows ou Unix, ces zones de performances clés constituent un bon point de départ pour toute stratégie de surveillance de serveur. Il est important de suivre ces indicateurs de performance en tant qu’indicateurs des goulots d’étranglement de performance.
État physique du serveur
Ceci s’applique aux serveurs sur site ; Les serveurs sur site ont besoin d’une protection contre les risques environnementaux et les dommages. En plus de garder les serveurs dans une pièce sécurisée, vous devez vous assurer que la température et l’alimentation des serveurs.
La température ne peut pas dépasser le niveau recommandé pour des performances efficaces dans votre environnement de serveur. Si la température commence à augmenter régulièrement, cela pourrait signaler un problème de ventilateur ou autre chose. Vous devrez enquêter plus avant.
Vous devez également surveiller les régulateurs d’alimentation sur l’entrée d’alimentation de votre serveur. Ils doivent gérer et lisser les surtensions et les creux de puissance. Cependant, en cas de coupure de l’alimentation principale, votre alimentation sans interruption (UPS) peut vous faire gagner du temps pour passer à l’alimentation de secours.
Unité centrale de traitement (CPU) & Mémoire
Chaque fois que les performances d’un serveur se dégradent, les suspects habituels sont l’utilisation du processeur du serveur et les ressources mémoire. Si l’utilisation du processeur de votre serveur est inhabituellement élevée ou si l’utilisation de la mémoire est élevée (moins d’espace mémoire disponible), les performances de vos applications en souffriront.
Il est bon de savoir quels sont les processus les plus gourmands en CPU et en mémoire sur votre serveur. Ceci est important pour résoudre rapidement les problèmes d’utilisation des ressources. Les métriques à mesurer incluent le nombre de processus CPU, le nombre de threads CPU et le % de Temps d’interruption CPU.
Vous devrez surveiller l’utilisation de la mémoire de votre serveur. Cela inclut la mémoire libre disponible, les pages de tarifs sont écrites pour libérer de l’espace mémoire physique, entre autres. Toutes ces mesures peuvent vous aider à comprendre l’état de santé de votre serveur à tout moment.
Disponibilité du serveur
Votre site Web doit fonctionner et être disponible 24 heures sur 24. La disponibilité du serveur mesure la durée de fonctionnement d’un système. Cette mesure est utile pour vous alerter lorsque le système a peut-être redémarré sans le savoir.
Si vous découvrez un écart entre la période de disponibilité attendue du serveur et le chiffre de disponibilité du serveur, le système a échoué au moins une fois. Confirmez si toutes les tâches planifiées devant s’exécuter à peu près au même moment que lorsque le système a échoué ont été terminées.
Activité du disque
L’activité du disque est le temps nécessaire à un lecteur de disque pour traiter activement les demandes. Plusieurs mesures clés doivent être surveillées:
- Temps d’occupation du disque – mesure le pourcentage de temps pendant lequel le disque est actif. Si cette valeur est élevée, cela signifie que vos demandes d’accès au disque s’accumulent.
- Opérations d’entrée et de sortie (I/OPs) – indique la charge de travail sur le lecteur de disque. La surveillance de cette mesure peut aider à comprendre la charge de travail subie par votre disque.
- Lecture/écriture sur disque – mesure le temps nécessaire pour lire/écrire des blocs de données à partir du disque. La valeur inférieure signifie que les performances sont bonnes.
- Longueur de la file d’attente de disque – mesure le temps nécessaire pour traiter une requête dans une file d’attente. Pour de meilleures performances, la longueur de la file d’attente du disque doit être minimale.
Notez que la surveillance des performances du disque est extrêmement cruciale pour les tâches qui nécessitent beaucoup d’I/OPs.
Utilisation du fichier Page
Les données inutilisées ou non traitées sont stockées dans le fichier page.Les opérations qui dépassent l’espace limité de mémoire vive (RAM) du système d’exploitation (OS) sont également envoyées au fichier de page à stocker.
Lorsque vous constatez que son utilisation est élevée, cela signifie que le fichier d’échange du système n’est pas suffisant pour répondre aux besoins de votre serveur.
Une autre mesure importante est l’échange de pages. Chaque fois que votre serveur est à court de mémoire de travail, une zone d’espace disque est réservée pour enregistrer temporairement des données afin de libérer plus d’espace. Nous ne recommandons pas l’échange de pages. En règle générale, cela signifie que vous n’avez pas provisionné suffisamment de mémoire pour exécuter votre serveur.
N’oubliez pas que l’échange de pages est une résolution à court terme de l’épuisement de la capacité mémoire. Étant donné que l’échange de pages réduit le temps de réponse, cela doit être évité.
Commutateurs de contexte
La commutation de contexte est un processus intensif. Cela se produit lorsque le noyau (programme informatique au cœur du système d’exploitation d’un ordinateur) fait passer le processeur d’un processus ou d’un thread à un autre. Les ressources CPU sont utilisées chaque fois qu’un changement de contexte se produit. Ainsi, lorsqu’une commutation de contexte étendue se produit, des ressources CPU de plus en plus importantes sont utilisées.
Ceci est dû à l’exécution de plusieurs processus occupés ou à des bogues d’application qui augmentent le nombre de changements de contexte. Une augmentation soudaine du changement de contexte sur un serveur peut indiquer un problème. Par conséquent, la surveillance des commutateurs de contexte est essentielle pour les performances de votre serveur.
Synchronisation temporelle
Les systèmes du même réseau qui partagent des fichiers ou communiquent entre eux ont des activités liées au temps. Alors, imaginez si les horloges système ne sont pas synchronisées? Les résultats pourraient être désastreux.
Des horloges inexactes peuvent entraîner l’écrasement des données ou créer des conflits de version. Dans le pire des cas, cela peut entraîner un fonctionnement incorrect des programmes. Surveillez toujours les décalages d’horloge système par rapport à une horloge de référence.
Utilisation des poignées
Les poignées font référence aux ressources auxquelles une application fait référence. Les applications en cours d’exécution sur votre serveur demandent et reçoivent des ressources, après quoi elles sont renvoyées au système d’exploitation. Parfois, en raison d’une erreur de programme, l’application « oublie » de retourner la poignée après utilisation. C’est une fuite de poignée.
Rappelez-vous que les ressources sur un serveur sont limitées. Des fuites de poignée répétées peuvent « épuiser » le serveur au fil du temps, entraînant une dégradation des performances du serveur. Surveillez et gérez l’utilisation de près au fil du temps. Si le nombre de poignées ouvertes augmente considérablement ou de manière constante, cela pourrait impliquer une fuite de poignée.
Vous devrez enquêter et identifier les coupables. Vous pouvez soit mettre fin à ces processus, soit corriger les programmes.
Activité du processus
Il peut y avoir des cas où une application crée de nouveaux processus sans arrêter les processus précédemment démarrés. La gestion et le multitâche de ces processus peuvent alourdir votre serveur.
En conséquence, les performances de votre serveur en souffriront considérablement.Assurez-vous que les applications s’exécutent correctement et se terminent correctement. Pour ce faire, vous devez suivre et surveiller toutes les activités de processus sur votre serveur.
Trafic réseau
La surveillance de l’activité réseau est cruciale pour mesurer les performances de votre serveur. Chaque interface réseau fournit une indication de la charge d’activité du réseau. Si l’utilisation de la bande passante approche la vitesse maximale de l’interface réseau, cela pourrait indiquer un goulot d’étranglement possible.
En surveillant en permanence les activités d’entrée et de sortie (E/S) sur la carte réseau, vous pouvez détecter d’éventuelles pannes matérielles ou surcharges. Vous pouvez également planifier la configuration matérielle requise pour garantir des performances optimales du serveur.
Activité TCP
Vos applications sont orientées connexion. Ils utilisent TCP comme protocole de transport. HTTP, SQL, SMTP utilisent TCP en dessous. Si les performances de la couche TCP diminuent, les performances de votre application diminuent également.
Plusieurs mesures importantes aident à surveiller TCP:
- Le taux de connexion vers et depuis le serveur permet d’indiquer la charge de travail du serveur.
- Le nombre de baisses de connexion sur le serveur. Un nombre élevé pourrait indiquer un problème.
- % des retransmissions – les retransmissions se produisent lorsque le serveur ne reçoit pas d’accusé de réception du client. Lors du délai d’expiration, le serveur doit à nouveau envoyer la transmission. Pour garantir de bonnes performances TCP, gardez les retransmissions au minimum. Gardez à l’esprit que des retransmissions répétées peuvent entraîner une réduction sévère du débit.
Fichiers journaux du système d’exploitation
Le moyen le plus courant de surveiller la santé de votre serveur est probablement les journaux du système d’exploitation car ils contiennent des détails d’erreur, des plantages et d’autres types d’anomalies pour vous aider à résoudre tout problème.
Alors que Windows propose des fichiers journaux Système, de sécurité et d’application, Unix a des fichiers journaux système et des fichiers journaux cron stockés dans le répertoire /var/log. Une surveillance, une analyse et une alerte périodiques régulières des événements de journal peuvent vous alerter de toute anomalie du serveur.
- À propos de l’auteur
- Derniers articles
À propos de Jason Chow
- Comment surveiller les performances du serveur – Mai 17, 2021