Project

General

Profile

PSteam28nov2018

Présents : Jean-Michel, Philippe, Catherine

Préparation de la réunion - questions de Catherine

  • fichier de suivi de Catherine : https://atrium.in2p3.fr/10da4f8b-e945-4d8d-8eb0-3e03b4f4ea9d
    • TODO CB donne les bons droits sur ce fichier !
  • pourquoi le LLR est "coloré" ?
  • dans quels logs voit-on que les perfsonars envoient des mesures ?
    • JMB : certainement dans psscheduler.log ("posted results to...")
  • pourquoi Subatech est passé gris ?
  • commandes de tests (avec les options) ?
  • comment on récupère les meshs ?
    • server web http centralisé, attention à un message de G. Philippon ca marche en ipv4 et pas en ipv6 (ou vice versa)
    • TODO CB envoie un message pour inscription de JMB et Philippe sur site de definition des meshs

Quelques notes de la réunion

  • Objectifs de notre "team" : initialement (pour CB) comprendre les résultats du dashboard dual-stack ; après nos premières constatations (tous les perfsonar FR ne passent pas les tests check_mk -> nous nous concentrons sur les tests check_mk dans un 1er temps
  • Pertinence de regarder le dashboard (JMB) : le dashboard est souvent gris -> montre une défaillance dans les services centraux (récupération des tests ou autres) ; aussi au dernier HEPIX annonce que ce dashboard allait être abandonné à terme TODO demander à WLCG quel outil à terme
  • nous sommes d'accord sur le fait que le check_mk doit renvoyer des résulats pertinents (pas le maddash) et on examine en direct tous les trois les résultats de check_mk :
    • nous nous posons des questions sur la signification des graphes (icone avec un "sinus") : "pl" packet loss en % ? (on voit bien la coupure réseau au LAPP lundi et mardi) "rta" ? rtmax ? rtmin ? TODO demander à WLCG quelles sont ces métriques et si elles représentent juste un ping de la machine, soit, cette machine est alive
    • on examine les warnings (ils sont présents pour chaque machine) : c'est quand les autres hosts ne répondent pas -> pas de notre fait -> on ignore
    • on examine les critical :
      • CPPM : version trop vieille de pS - pas grave
      • LPC (clrperf-owamp.in2p3.fr) : version trop vieille (on ignore) et "esmond freshness" -> quand on regarde le toolkit (https://clrperf-owamp.in2p3.fr) esmond tourne -> le service tourne mais ne remonte rien -> sans doute esmond à relancer
      • LLR llrpsonar1.in2p3.fr : les tests datent du 5 sept. avec vieille version de perfsonar (on ignore ce dernier) et pbs de configuration de meshs -> ca explique peut-etre pourquoi le LLR est coloré dans les meshs
    • LAPP aucun critical mais LAPP a aussi des vieux tests ; au moment ou j'ecris ces notes (CB, 18h23) la plupart des tests du LAPP ont ete maJ <- je me souviens que Philippe a reschedulé les tests en effet pendant notre réunion ;-)
  • questions à poser à WLCG :
    • pourquoi certains tests sont si vieux ? (schedule automatiques bloqués ?)
    • quels types de tests on peut re-scheduler ?
    • la date du 5 sept. 2018 est commune pour pas mal de vieux tests (LAPP, CPPM, CEA) -> que s'est-il passé ?
  • on décide TODO :
    • maintenant : on se concentre sur check_mk
    • CB fait un draft avec ces questions pour envoi à Marian & Schawn
      • on verra comment on avance en fonction de leurs réponses
    • JMB a les commandes et CB a trouvé les options des commandes -> CB envoie les options (DONE) et JM et Phil essaient de recontruire les commandes exactes des tests du dashboards
    • plus tard il faudra regarder Grafana
    • CB donne les bons droits sur son fichier dans ATRIUM
    • Philippe nous a dit avoir changé qq-chose le 27, mais quoi ?
  • nos perfsonars :
    • pS bande passante : Subatech et LAPP machnes à 10 Gbps ; LPSC 1 Gbps -> LPSC bof
    • pS latency : Subatech LAPP LPSC 1 Gbps -> OK
    • LPSC 4.1.1, LAPP 4.1.3, Subatech 4.1.3
    • Subatech et LAPP proposent : MaJ de leur pS à la version 4.1.4
      • Subatech Fait le 29/11 et résultat visibles dans Check_mk qq minutes après. Cependant toujours gris le 30/11 pour les tests Maddash bandwidth IPV4 et IPV6.
    • LAPP : pas de "globaly registered" -> Philippe vérifie enregistrement GOCDB