LPS:Letní odstávka

Z HelpDesk

Zde by měl postupně vykrystalizovat seznam všeho, co budem dělat o velke profylaxi v létě.

Termín:
Úterý 13.8.2019 od 16:00 až pondělí 19.8.2019 do 22:00

Komu dát vědět:

  • CESNET e-mailem na support@cesnet.cz a to z důvodu:
    • MetaCentrum - clustery KKY v UI420b, vše co se týká UL011, licenční servery, AFS, kerberos, ...
    • Datové úložiště - vše ohledně UL011: konektivita, chlad, elektrika
    • Konektivita pro ostatni subjekty

Podmínky:
Datovou síť používanou pro interní telefony odstavovat v pracovní době jen na nezbytně nutnou dobu.

Vysvětlivky:

  • červěně (red): To co MUSÍ (kontrolovaně, z nějakéh důvodu) fungovat = klíčový provoz ZČU
  • oranžově (orange): Důsledek prací -> tedy to co nepůjde
  • zeleně (green): Pro úspěch provedené práce je vyžadováno
  • šedě (gray): Odloženo na menší profylaxi
  • tlustě (b): Práce nelze přesunout, protože je na to nasmlouvána externí firma nebo jsou k tomu jiné důvody, jako oznámení zákazníkům
  • přeškrnuto (s): Práce je úspěšně dokončena

Průběh odstávky je v RT#255944

Akce na celou odstávku

  • Problematika zajištění provozu klíčových služeb ZČU (to co musí chodit)
    • Spisová služba: Je nutno zajistit provoz mezi 7-9hod ranní, kdy se přebírá pošta. Závisí na: síti, eris.zcu.cz, webauth, LDAP, db ESPIS, ESPISTST. Kontakt: S. Brož
    • IP telefonie: Standard. Kontakt: L.Šmíd
    • Menza (iskam) - v době odstávky je uzavřena, ale beží koleje, neplánované mimořádnosti ovlivňující iskam dát vědět, kontakt: S. Brož.



Pondělí 12.8.2019

  • Není odstávka! Je to čas určený pro přípravu.

Úterý 13.8.2019 od 16:00

Před začátkem prací je nutné vypnout služby výrazně závisející na sítí:

  • cloud (nesoi + nut + consus)
  • oracle databáze
  • diskové pole (NFS)

Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!

 --- dopoledne pred profylaxi:
  ---- prepojeni hj-sw z ic-sp1-sw:e1/59 na ic-sp2-sw:e1/52 na L3 (zruseni redundance pro vsechny VRF, zustanou funkcni pres pc-sw, L3 hj-sw:e1/50: switchport trunk native vlan 768)
  ---- aktivace redundantnich L3 paternich spoju z ic-sp2-sw do ul-sw, ek-sw a us-sw (vcetne BGP/OSPF routingu)
  ---- konfigurace redundantnich L3 paternich spoju z ic-sp2-sw do ic-l1/2/a/b-sw, pridani ACL vty pro cely WEBnet  (bez BGP/OSPF routingu)
  ---- konfigurace L3 paternich vPC spoju mezi ic-l1a/b-sw a ic-l2a/b-sw pres vpc local vlan 3967 (bez BGP/OSPF routingu)
  ---- aktivace vsech iBGP RRC peeru na vsech RR (ic-sp1/2-sw, ul-sw, ek-sw)
  ---- uprava ACL vty pro cely WEBnet 147.228.0.0/16 na vsech N9k
 --- od 16 hod:
  ---- ta-sw: pilotni L3 BGP/EVPN/VXLAN konfigurace
  ---- ta-sw: configure replace bootflash:///ta-sw-evpn.confg commit-timeout 30
  ---- ic-sp1-sw: test konektivity ta-sw (int e1/53: switchport trunk native vlan 752), BGP/OSPF OK?
  ---- ta-sw: overeni spravnosti/uplnosti pilotni L3 BGP/EVPN/VXLAN konfigurace (eliminace eventualni systemove chyby)
  ---- ta-sw: configure replace commit (pokud bude konektivita OK)
  ---- lk-sw: configure replace bootflash:///lk-sw-evpn.confg commit-timeout 30
  ---- pc-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 748), BGP/OSPF OK?
  ---- lk-sw: configure replace commit (pokud bude konektivita OK)
  ---- vc-sw: configure replace bootflash:///vc-sw-evpn.confg commit-timeout 30
  ---- jj-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 744), BGP/OSPF OK?
  ---- vc-sw: configure replace commit (pokud bude konektivita OK)
  ---- hj-sw: configure replace bootflash:///hj-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity hj-sw, BGP/OSPF OK?
  ---- pc-sw: test konektivity hj-sw (int e1/50: switchport trunk native vlan 724), BGP/OSPF OK?
  ---- hj-sw: configure replace commit (pokud bude konektivita OK)
  ---- pc-sw: configure replace bootflash:///pc-sw-evpn.confg commit-timeout 30
  ---- hj-sw: test konektivity pc-sw, BGP/OSPF OK?
  ---- jj-sw: test konektivity pc-sw (int e1/50: switchport trunk native vlan 728), BGP/OSPF OK?
  ---- pc-sw: configure replace commit (pokud bude konektivita OK)
  ---- jj-sw: configure replace bootflash:///jj-sw-evpn.confg commit-timeout 30
  ---- pc-sw: test konektivity jj-sw, BGP/OSPF OK?
  ---- kl-sw: test konektivity jj-sw (int e1/50: switchport trunk native vlan 732), BGP/OSPF OK?
  ---- jj-sw: configure replace commit (pokud bude konektivita OK)
  ---- kl-sw: configure replace bootflash:///kl-sw-evpn.confg commit-timeout 30
  ---- jj-sw: test konektivity kl-sw, BGP/OSPF OK?
  ---- ek-sw: test konektivity kl-sw (int e1/53: switchport trunk native vlan 740), BGP/OSPF OK?
  ---- ic-sp1-sw: test konektivity kl-sw (int e1/54: switchport trunk native vlan 736), BGP/OSPF OK?
  ---- kl-sw: configure replace commit (pokud bude konektivita OK)
  ---- ec-sw: configure replace bootflash:///ec-sw-evpn.confg commit-timeout 30
  ---- ic-sp1-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 784), BGP/OSPF OK?
  ---- ek-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 788), BGP/OSPF OK?
  ---- kl-sw: configure replace commit (pokud bude konektivita OK)
  ---- ek-sw: configure replace bootflash:///ek-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ek-sw
  ---- kl-sw: test konektivity ek-sw
  ---- ic-sp1-sw: test konektivity ek-sw (int e1/50: switchport trunk native vlan 716), BGP/OSPF OK?
  ---- ek-sw: configure replace commit (pokud bude konektivita OK)
  ---- ek-sw: test eBGP CESNET
  ---- us-sw: configure replace bootflash:///us-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity us-sw
  ---- ic-sp1-sw: test konektivity us-sw (int e1/51: switchport trunk native vlan 776), BGP/OSPF OK?
  ---- us-sw: configure replace commit (pokud bude konektivita OK)
  ---- ul-sw: configure replace bootflash:///ul-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ul-sw
  ---- us-sw: test konektivity ul-sw
  ---- ic-sp1-sw: test konektivity ul-sw (int e1/49: switchport trunk native vlan 708), BGP/OSPF OK?
  ---- ul-sw: configure replace commit (pokud bude konektivita OK)
  ---- ul-sw: test eBGP CESNET
  ---- ic-l1a-sw: configure replace bootflash:///ic-l1a-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ic-l1a-sw
  ---- ic-sp1-sw: test konektivity ic-l1a-sw (int e1/55: L3 bone), BGP/OSPF OK?
  ---- ic-l1a-sw: configure replace commit (pokud bude konektivita OK)
  ---- ic-l1b-sw: configure replace bootflash:///ic-l1b-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ic-l1b-sw
  ---- ic-sp1-sw: test konektivity ic-l1b-sw (int e1/56: L3 bone), BGP/OSPF OK?
  ---- ic-l1b-sw: configure replace commit (pokud bude konektivita OK)
  ---- ic-l2a-sw: configure replace bootflash:///ic-l2a-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ic-l2a-sw
  ---- ic-sp1-sw: test konektivity ic-l2a-sw (int e1/57: L3 bone), BGP/OSPF OK?
  ---- ic-l2a-sw: configure replace commit (pokud bude konektivita OK)
  ---- ic-l2b-sw: configure replace bootflash:///ic-l2b-sw-evpn.confg commit-timeout 30
  ---- ic-sp2-sw: test konektivity ic-l2b-sw
  ---- ic-sp1-sw: test konektivity ic-l2b-sw (int e1/58: L3 bone), BGP/OSPF OK?
  ---- ic-l2b-sw: configure replace commit (pokud bude konektivita OK)
  ---- ic-sp1-sw: configure replace bootflash:///ic-sp1-sw-evpn.confg commit-timeout 30
  ---- ic-sp1-sw: pripojeni na konzoli a sledovani bootu
  ---- ic-sp1-sw: test konektivity, BGP/OSPF OK?
  ---- ic-sp1-sw: configure replace commit (pokud bude konektivita OK)
  ---- ic-sp1-sw: komplexni kontrola BGP/OSPF OK?
 --- cca od 21 hod:
  ---- komplexni kontrola paterniho BGP/OSPF
  ---- komplexni kontrola L2 VPN/EVPN
  ---- komplexni kontrola L3 VPN/EVPN
 --- cca od 23 hod:
  ---- v pripade overeni zakladni funkcnosti paterniho BGP/OSPF a L2VPN: ponechani konfigurace (jinak rollback)

Středa 14.8.2019

Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!

 --- cca od 9 hod:
  ---- overovani konfigurace/ladeni/opravy BGP/EVPN/VXLAN
  ---- ic-sp2-sw: pridani konfigurace IC-UL HSRP
  ---- ic-sp1/2-sw: vytvoreni konfigurace IC HSRP
 --- cca od 16 hod:
  ---- v pripade rollbacku 12.3., novy pokus o konfiguraci BGP/EVPN/VXLAN

Čtvrtek 15.8.2019

Základní funkčnost sítě, je možné pracovat na dalších aktivitách

PIS

  • upgrade databází [x3dw, petr]

ODS

  • upgrady stroju jessie -> stretch -> buster
  • upgrade CFEngine
  • upgrade Icinga/Director/Grafana
  • upgrade Bacula

Pátek 16.8.2019

PIS

  • upgrade databází [x3dw, petr]

Víkend 17-18.8.2019

Nic nového nerozjíždět, poladit nedodělky a být připraven na pondělní testování

Nutné otestovat Magion pro pondělní kontroly, viz pondělí.

Pondělí 19.8.2019

Kontrola služeb uživateli (SIS/AUP), koordinace v samostatném RT#XXXXXXX

Magion (a vše pro něj musí být funkční), viz zápis 27/2019 ze schůze CIV:

  • Shrnutí: V pondělí 19.8. přijdou 3 kontroly, nedá se s tím nic dělat, musí fungovat Magion.
  • Zároveň je zde požadavek na připojení jejich počítačů do sítě a poskytnutí odpovídající technické podpory. Potřebujeme předem MAC adresy počítačů.
  • Závěr: Marek zařídí vše potřebné pro kontrolu, posuneme ověření funkčnosti Magionu z pondělí na víkend.

Seznam nezařazených prací aneb možno provést kdykoliv

LPS

KPS

ODS

  • změna přihlašování na support.zcu.cz, tak aby i uživatelé mohli chodit na HTTPS. [List, Majlen]
  • odsun zbylých virtuálů z XEN na KVM (cloud), zůstávají Windows + thanatos [windows skupina, Indy]
  • poweroff/poweron lamia, gmontest, zen1 ... z duvodu resetu managementu, který se zablokoval [List]

Kdokoliv

  • čistka v lednicích RC a jednotlivých patrech [marek & čepi & já taky pomůžu]
  • deratizace různých zákoutí RC [marek & čepi & já]

Rušené služby, servery

Servery

  • hades? viz RT#304847

Služby

Poučení z krizového vývoje anebo poznámky na příště