PSteam28nov2018¶
Présents : Jean-Michel, Philippe, Catherine
Préparation de la réunion - questions de Catherine¶
- fichier de suivi de Catherine : https://atrium.in2p3.fr/10da4f8b-e945-4d8d-8eb0-3e03b4f4ea9d
- TODO CB donne les bons droits sur ce fichier !
- pourquoi le LLR est "coloré" ?
- dans quels logs voit-on que les perfsonars envoient des mesures ?
- JMB : certainement dans psscheduler.log ("posted results to...")
- pourquoi Subatech est passé gris ?
- JMB : A la date de la réunion tech, une de nos machines ne répondait plus suite à un problème de mise à jour auto intempestive (https://github.com/perfsonar/toolkit/issues/351). Affaire réglée.
- commandes de tests (avec les options) ?
- comment on récupère les meshs ?
- server web http centralisé, attention à un message de G. Philippon ca marche en ipv4 et pas en ipv6 (ou vice versa)
- TODO CB envoie un message pour inscription de JMB et Philippe sur site de definition des meshs
Quelques notes de la réunion¶
- Objectifs de notre "team" : initialement (pour CB) comprendre les résultats du dashboard dual-stack ; après nos premières constatations (tous les perfsonar FR ne passent pas les tests check_mk -> nous nous concentrons sur les tests check_mk dans un 1er temps
- Pertinence de regarder le dashboard (JMB) : le dashboard est souvent gris -> montre une défaillance dans les services centraux (récupération des tests ou autres) ; aussi au dernier HEPIX annonce que ce dashboard allait être abandonné à terme TODO demander à WLCG quel outil à terme
- nous sommes d'accord sur le fait que le check_mk doit renvoyer des résulats pertinents (pas le maddash) et on examine en direct tous les trois les résultats de check_mk :
- nous nous posons des questions sur la signification des graphes (icone avec un "sinus") : "pl" packet loss en % ? (on voit bien la coupure réseau au LAPP lundi et mardi) "rta" ? rtmax ? rtmin ? TODO demander à WLCG quelles sont ces métriques et si elles représentent juste un ping de la machine, soit, cette machine est alive
- on examine les warnings (ils sont présents pour chaque machine) : c'est quand les autres hosts ne répondent pas -> pas de notre fait -> on ignore
- on examine les critical :
- CPPM : version trop vieille de pS - pas grave
- LPC (clrperf-owamp.in2p3.fr) : version trop vieille (on ignore) et "esmond freshness" -> quand on regarde le toolkit (https://clrperf-owamp.in2p3.fr) esmond tourne -> le service tourne mais ne remonte rien -> sans doute esmond à relancer
- LLR llrpsonar1.in2p3.fr : les tests datent du 5 sept. avec vieille version de perfsonar (on ignore ce dernier) et pbs de configuration de meshs -> ca explique peut-etre pourquoi le LLR est coloré dans les meshs
- LAPP aucun critical mais LAPP a aussi des vieux tests ; au moment ou j'ecris ces notes (CB, 18h23) la plupart des tests du LAPP ont ete maJ <- je me souviens que Philippe a reschedulé les tests en effet pendant notre réunion ;-)
- questions à poser à WLCG :
- pourquoi certains tests sont si vieux ? (schedule automatiques bloqués ?)
- quels types de tests on peut re-scheduler ?
- la date du 5 sept. 2018 est commune pour pas mal de vieux tests (LAPP, CPPM, CEA) -> que s'est-il passé ?
- on décide TODO :
- maintenant : on se concentre sur check_mk
- CB fait un draft avec ces questions pour envoi à Marian & Schawn
- on verra comment on avance en fonction de leurs réponses
- JMB a les commandes et CB a trouvé les options des commandes -> CB envoie les options (DONE) et JM et Phil essaient de recontruire les commandes exactes des tests du dashboards
- plus tard il faudra regarder Grafana
- CB donne les bons droits sur son fichier dans ATRIUM
- Philippe nous a dit avoir changé qq-chose le 27, mais quoi ?
- nos perfsonars :
- pS bande passante : Subatech et LAPP machnes à 10 Gbps ; LPSC 1 Gbps -> LPSC bof
- pS latency : Subatech LAPP LPSC 1 Gbps -> OK
- LPSC 4.1.1, LAPP 4.1.3, Subatech 4.1.3
- Subatech et LAPP proposent : MaJ de leur pS à la version 4.1.4
- Subatech Fait le 29/11 et résultat visibles dans Check_mk qq minutes après. Cependant toujours gris le 30/11 pour les tests Maddash bandwidth IPV4 et IPV6.
- LAPP : pas de "globaly registered" -> Philippe vérifie enregistrement GOCDB