LPS:Letní odstávka

Z HelpDesk
Verze z 15. 8. 2019, 13:51, kterou vytvořil Svamberg (diskuse | příspěvky) (→‎ISS: aktualizace)

Zde by měl postupně vykrystalizovat seznam všeho, co budem dělat o velke profylaxi v létě.

Termín:
Úterý 13.8.2019 od 16:00 až pondělí 19.8.2019 do 22:00

Komu dát vědět:

  • CESNET e-mailem na support@cesnet.cz a to z důvodu:
    • MetaCentrum - clustery KKY v UI420b, vše co se týká UL011, licenční servery, AFS, kerberos, ...
    • Datové úložiště - vše ohledně UL011: konektivita, chlad, elektrika
    • Konektivita pro ostatni subjekty

Podmínky:
Datovou síť používanou pro interní telefony odstavovat v pracovní době jen na nezbytně nutnou dobu.

Vysvětlivky:

  • červěně (red): To co MUSÍ (kontrolovaně, z nějakéh důvodu) fungovat = klíčový provoz ZČU
  • oranžově (orange): Důsledek prací -> tedy to co nepůjde
  • zeleně (green): Pro úspěch provedené práce je vyžadováno
  • šedě (gray): Odloženo na menší profylaxi
  • tlustě (b): Práce nelze přesunout, protože je na to nasmlouvána externí firma nebo jsou k tomu jiné důvody, jako oznámení zákazníkům
  • přeškrnuto (s): Práce je úspěšně dokončena

Průběh odstávky je v RT#307268

Akce na celou odstávku

  • Problematika zajištění provozu klíčových služeb ZČU (to co musí chodit)
    • Spisová služba: Je nutno zajistit provoz mezi 7-9hod ranní, kdy se přebírá pošta. Závisí na: síti, eris.zcu.cz, webauth, LDAP, db ESPIS, ESPISTST. Kontakt: S. Brož
    • IP telefonie: Standard. Kontakt: L.Šmíd
    • Menza (iskam) - v době odstávky je uzavřena, ale beží koleje, neplánované mimořádnosti ovlivňující iskam dát vědět, kontakt: S. Brož.



Pondělí 12.8.2019

  • Není odstávka! Je to čas určený pro přípravu.

Úterý 13.8.2019 od 16:00

  • vypnutí notifikací z icingy [List]

Před začátkem prací je nutné vypnout služby výrazně závisející na sítí:

Síť poběží ještě v době 16-17 hodin - to je čas na vypnutí všech systémů.

Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!

 --- dopoledne pred profylaxi:
  ---- prepojeni hj-sw z ic-sp1-sw:e1/59 na ic-sp2-sw:e1/52 na L3 (zruseni redundance pro vsechny VRF, zustanou funkcni pres pc-sw, L3 hj-sw:e1/50: switchport trunk native vlan 720)
  ---- aktivace redundantnich L3 paternich spoju z ic-sp2-sw do ul-sw, ek-sw a us-sw (vcetne BGP/OSPF routingu)
  ---- konfigurace redundantnich L3 paternich spoju z ic-sp2-sw do ic-l1/2/a/b-sw, pridani ACL vty pro cely WEBnet  (bez BGP/OSPF routingu)
  ---- konfigurace L3 paternich vPC spoju mezi ic-l1a/b-sw a ic-l2a/b-sw pres vpc local vlan 3967 (bez BGP/OSPF routingu)
  ---- aktivace vsech iBGP RRC peeru na vsech RR (ic-sp1/2-sw, ul-sw, ek-sw)
  ---- uprava ACL vty pro cely WEBnet 147.228.0.0/16 na vsech N9K
  ---- nahrani zmenove EVPN konfigurace <box>-evpn.confg na lokalni bootflash vsech N9K
 --- od 16 hod:
  ---- ta-sw: pilotni L3 BGP/EVPN/VXLAN konfigurace
  ---- ta-sw: reload in 600; copy ta-sw-evpn.confg running-config
  ---- ic-sp1-sw: test konektivity ta-sw (int e1/53: switchport trunk native vlan 752), BGP/OSPF OK?
  ---- ta-sw: overeni spravnosti/uplnosti pilotni L3 BGP/EVPN/VXLAN konfigurace (eliminace eventualni systemove chyby)
  ---- ta-sw: reload cancel (pokud bude konektivita OK)
  ---- lk-sw: reload in 600; copy lk-sw-evpn.confg running-config
  ---- pc-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 748), BGP/OSPF OK?
  ---- lk-sw: reload cancel (pokud bude konektivita OK)
  ---- vc-sw: reload in 600; copy vc-sw-evpn.confg running-config
  ---- jj-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 744), BGP/OSPF OK?
  ---- vc-sw: reload cancel (pokud bude konektivita OK)
  ---- hj-sw: reload in 600; copy hj-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity hj-sw, BGP/OSPF OK?
  ---- pc-sw: test konektivity hj-sw (int e1/50: switchport trunk native vlan 724), BGP/OSPF OK?
  ---- hj-sw: reload cancel (pokud bude konektivita OK)
  ---- pc-sw: reload in 600; copy pc-sw-evpn.confg running-config
  ---- hj-sw: test konektivity pc-sw, BGP/OSPF OK?
  ---- jj-sw: test konektivity pc-sw (int e1/50: switchport trunk native vlan 728), BGP/OSPF OK?
  ---- pc-sw: reload cancel (pokud bude konektivita OK)
  ---- jj-sw: reload in 600; copy jj-sw-evpn.confg running-config
  ---- pc-sw: test konektivity jj-sw, BGP/OSPF OK?
  ---- kl-sw: test konektivity jj-sw (int e1/50: switchport trunk native vlan 732), BGP/OSPF OK?
  ---- jj-sw: reload cancel (pokud bude konektivita OK)
  ---- kl-sw: reload in 600; copy kl-sw-evpn.confg running-config
  ---- jj-sw: test konektivity kl-sw, BGP/OSPF OK?
  ---- ek-sw: test konektivity kl-sw (int e1/53: switchport trunk native vlan 740), BGP/OSPF OK?
  ---- ic-sp1-sw: test konektivity kl-sw (int e1/54: switchport trunk native vlan 736), BGP/OSPF OK?
  ---- kl-sw: reload cancel (pokud bude konektivita OK)
  ---- ec-sw: reload in 600; copy ec-sw-evpn.confg running-config
  ---- ic-sp1-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 784), BGP/OSPF OK?
  ---- ek-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 788), BGP/OSPF OK?
  ---- kl-sw: reload cancel (pokud bude konektivita OK)
  ---- ek-sw: reload in 600; copy ek-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ek-sw
  ---- kl-sw: test konektivity ek-sw
  ---- ic-sp1-sw: test konektivity ek-sw (int e1/50: switchport trunk native vlan 716), BGP/OSPF OK?
  ---- ek-sw: reload cancel (pokud bude konektivita OK)
  ---- ek-sw: test eBGP CESNET
  ---- us-sw: reload in 600; copy us-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity us-sw
  ---- ic-sp1-sw: test konektivity us-sw (int e1/51: switchport trunk native vlan 776), BGP/OSPF OK?
  ---- us-sw: reload cancel (pokud bude konektivita OK)
  ---- ul-sw: reload in 600; copy ul-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ul-sw
  ---- us-sw: test konektivity ul-sw
  ---- ic-sp1-sw: test konektivity ul-sw (int e1/49: switchport trunk native vlan 708), BGP/OSPF OK?
  ---- ul-sw: reload cancel (pokud bude konektivita OK)
  ---- ul-sw: test eBGP CESNET
  ---- ic-l1a-sw: reload in 600; copy ic-l1a-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ic-l1a-sw
  ---- ic-sp1-sw: test konektivity ic-l1a-sw (int e1/55: L3 bone), BGP/OSPF OK?
  ---- ic-l1a-sw: reload cancel (pokud bude konektivita OK)
  ---- ic-l1b-sw: reload in 600; copy ic-l1b-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ic-l1b-sw
  ---- ic-sp1-sw: test konektivity ic-l1b-sw (int e1/56: L3 bone), BGP/OSPF OK?
  ---- ic-l1b-sw: reload cancel (pokud bude konektivita OK)
  ---- ic-l2a-sw: reload in 600; copy ic-l2a-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ic-l2a-sw
  ---- ic-sp1-sw: test konektivity ic-l2a-sw (int e1/57: L3 bone), BGP/OSPF OK?
  ---- ic-l2a-sw: reload cancel (pokud bude konektivita OK)
  ---- ic-l2b-sw: reload in 600; copy ic-l2b-sw-evpn.confg running-config
  ---- ic-sp2-sw: test konektivity ic-l2b-sw
  ---- ic-sp1-sw: test konektivity ic-l2b-sw (int e1/58: L3 bone), BGP/OSPF OK?
  ---- ic-l2b-sw: reload cancel (pokud bude konektivita OK)
  ---- ic-sp1-sw: reload in 600; copy ic-sp1-sw-evpn.confg running-config
  ---- ic-sp1-sw: pripojeni na konzoli a sledovani bootu
  ---- ic-sp1-sw: test konektivity, BGP/OSPF OK?
  ---- ic-sp1-sw: reload cancel (pokud bude konektivita OK)
  ---- ic-sp1-sw: komplexni kontrola BGP/OSPF OK?
 --- cca od 21 hod:
  ---- komplexni kontrola paterniho BGP/OSPF
  ---- komplexni kontrola L2 VPN/EVPN
  ---- komplexni kontrola L3 VPN/EVPN
 --- cca od 23 hod:
  ---- v pripade overeni zakladni funkcnosti paterniho BGP/OSPF a L2VPN/L3VPN: ponechani konfigurace (jinak rollback)

Středa 14.8.2019

10:00 krátká informační schůzka v kuchyňce 4.p - aktuální stav prací na síti

Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!

 --- cca od 9 hod:
  ---- overovani konfigurace/ladeni/opravy BGP/EVPN/VXLAN
  ---- ic-sp2-sw: pridani konfigurace IC-UL HSRP
  ---- ic-sp2-sw: upravy konfigurace statickeho smerovani a redistribuce static-to-ospf
  ---- ic-sp1/2-sw: vytvoreni konfigurace IC HSRP
  ---- upravy konfiguraci pripojeni externich siti: nahrazeni SVI za L3 rozhrani
  ---- optimalizace spanning tree/root bridge na paternich boxech N9k
 --- cca od 16 hod:
  ---- v pripade rollbacku 13.8., novy pokus o konfiguraci BGP/EVPN/VXLAN

Čtvrtek 15.8.2019

Základní funkčnost sítě, je možné pracovat na dalších aktivitách

PIS

ODS

  • upgrady stroju jessie -> stretch -> buster: phix [List, Olda]
  • upgrade CFEngine [List]
  • upgrade Icinga/Director/Grafana [List]
  • upgrade Bacula [Olda]

Pátek 16.8.2019

PIS

  • upgrade databází [x3dw, petr]

Víkend 17-18.8.2019

  • zapnutí notifikací z icingy [List]


Nic nového nerozjíždět, poladit nedodělky a být připraven na pondělní testování

Nutné otestovat Magion pro pondělní kontroly, viz pondělí.

Pondělí 19.8.2019

Kontrola služeb uživateli (SIS/AUP), koordinace v samostatném RT#307268

Magion (a vše pro něj musí být funkční), viz zápis 27/2019 ze schůze CIV:

  • Shrnutí: V pondělí 19.8. přijdou 3 kontroly, nedá se s tím nic dělat, musí fungovat Magion.
  • Zároveň je zde požadavek na připojení jejich počítačů do sítě a poskytnutí odpovídající technické podpory. Potřebujeme předem MAC adresy počítačů.
  • Závěr: Marek zařídí vše potřebné pro kontrolu, posuneme ověření funkčnosti Magionu z pondělí na víkend.

Seznam nezařazených prací aneb možno provést kdykoliv

LPS

ISS

Upgrade Moodle - stroj phix.zcu.cz. Součinnost - kompletní záloha stroje (Olda), upgrade systému (List).

KPS

ODS

  • odsun zbylých virtuálů z XEN na KVM (cloud), zůstávají Windows + thanatos [windows skupina, Indy]
  • poweroff/poweron lamia, gmontest, zen1 ... z duvodu resetu managementu, který se zablokoval [List]

Kdokoliv

  • čistka v lednicích RC a jednotlivých patrech [marek & čepi & já taky pomůžu]
  • deratizace různých zákoutí RC [marek & čepi & já]

Rušené služby, servery

Servery

  • hades? viz RT#304847
  • dbvsrr

Služby

Poučení z krizového vývoje anebo poznámky na příště

  • Dodelat HA web zcu.cz - zalozni instance mimo ZCU (CESNET, JCU, Amazon, ...), viz majlenova prednaska
  • Udelat zalozni instance zasadnich sluzeb (SIP, radius, webkdc, ...) na infrastrukture nezavisle na disk. poli