LPS:Letní odstávka
Zde by měl postupně vykrystalizovat seznam všeho, co budem dělat o velke profylaxi v létě.
Termín:
Úterý 13.8.2019 od 16:00 až pondělí 19.8.2019 do 22:00
Komu dát vědět:
- CESNET e-mailem na support@cesnet.cz a to z důvodu:
- MetaCentrum - clustery KKY v UI420b, vše co se týká UL011, licenční servery, AFS, kerberos, ...
- Datové úložiště - vše ohledně UL011: konektivita, chlad, elektrika
- Konektivita pro ostatni subjekty
Podmínky:
Datovou síť používanou pro interní telefony odstavovat v pracovní době jen na nezbytně nutnou dobu.
Vysvětlivky:
- červěně (red): To co MUSÍ (kontrolovaně, z nějakéh důvodu) fungovat = klíčový provoz ZČU
- oranžově (orange): Důsledek prací -> tedy to co nepůjde
- zeleně (green): Pro úspěch provedené práce je vyžadováno
- šedě (gray): Odloženo na menší profylaxi
- tlustě (b): Práce nelze přesunout, protože je na to nasmlouvána externí firma nebo jsou k tomu jiné důvody, jako oznámení zákazníkům
přeškrnuto (s): Práce je úspěšně dokončena
Průběh odstávky je v RT#307268
Akce na celou odstávku
- Problematika zajištění provozu klíčových služeb ZČU (to co musí chodit)
- Spisová služba: Je nutno zajistit provoz mezi 7-9hod ranní, kdy se přebírá pošta. Závisí na: síti, eris.zcu.cz, webauth, LDAP, db ESPIS, ESPISTST. Kontakt: S. Brož
- IP telefonie: Standard. Kontakt: L.Šmíd
- Menza (iskam) - v době odstávky je uzavřena, ale beží koleje, neplánované mimořádnosti ovlivňující iskam dát vědět, kontakt: S. Brož.
Pondělí 12.8.2019
- Není odstávka! Je to čas určený pro přípravu.
Úterý 13.8.2019 od 16:00
- vypnutí notifikací z icingy [List]
Před začátkem prací je nutné vypnout služby výrazně závisející na sítí:
- cloud (nesoi + nut + consus)
- Vypne se support ale i SIP -> nepujdou telefony, externi stagy, ...!!!
- Public:Honza801/debian_cluster_buster
- oracle databáze
Síť poběží ještě v době 16-17 hodin - to je čas na vypnutí všech systémů.
Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!
--- dopoledne pred profylaxi: ---- prepojeni hj-sw z ic-sp1-sw:e1/59 na ic-sp2-sw:e1/52 na L3 (zruseni redundance pro vsechny VRF, zustanou funkcni pres pc-sw, L3 hj-sw:e1/50: switchport trunk native vlan 720) ---- aktivace redundantnich L3 paternich spoju z ic-sp2-sw do ul-sw, ek-sw a us-sw (vcetne BGP/OSPF routingu) ---- konfigurace redundantnich L3 paternich spoju z ic-sp2-sw do ic-l1/2/a/b-sw, pridani ACL vty pro cely WEBnet (bez BGP/OSPF routingu) ---- konfigurace L3 paternich vPC spoju mezi ic-l1a/b-sw a ic-l2a/b-sw pres vpc local vlan 3967 (bez BGP/OSPF routingu) ---- aktivace vsech iBGP RRC peeru na vsech RR (ic-sp1/2-sw, ul-sw, ek-sw) ---- uprava ACL vty pro cely WEBnet 147.228.0.0/16 na vsech N9K ---- nahrani zmenove EVPN konfigurace <box>-evpn.confg na lokalni bootflash vsech N9K
--- od 16 hod:
---- ta-sw: pilotni L3 BGP/EVPN/VXLAN konfigurace ---- ta-sw: reload in 600; copy ta-sw-evpn.confg running-config ---- ic-sp1-sw: test konektivity ta-sw (int e1/53: switchport trunk native vlan 752), BGP/OSPF OK? ---- ta-sw: overeni spravnosti/uplnosti pilotni L3 BGP/EVPN/VXLAN konfigurace (eliminace eventualni systemove chyby) ---- ta-sw: reload cancel (pokud bude konektivita OK)
---- lk-sw: reload in 600; copy lk-sw-evpn.confg running-config ---- pc-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 748), BGP/OSPF OK? ---- lk-sw: reload cancel (pokud bude konektivita OK)
---- vc-sw: reload in 600; copy vc-sw-evpn.confg running-config ---- jj-sw: test konektivity lk-sw (int e1/51: switchport trunk native vlan 744), BGP/OSPF OK? ---- vc-sw: reload cancel (pokud bude konektivita OK)
---- hj-sw: reload in 600; copy hj-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity hj-sw, BGP/OSPF OK? ---- pc-sw: test konektivity hj-sw (int e1/50: switchport trunk native vlan 724), BGP/OSPF OK? ---- hj-sw: reload cancel (pokud bude konektivita OK)
---- pc-sw: reload in 600; copy pc-sw-evpn.confg running-config ---- hj-sw: test konektivity pc-sw, BGP/OSPF OK? ---- jj-sw: test konektivity pc-sw (int e1/50: switchport trunk native vlan 728), BGP/OSPF OK? ---- pc-sw: reload cancel (pokud bude konektivita OK)
---- jj-sw: reload in 600; copy jj-sw-evpn.confg running-config ---- pc-sw: test konektivity jj-sw, BGP/OSPF OK? ---- kl-sw: test konektivity jj-sw (int e1/50: switchport trunk native vlan 732), BGP/OSPF OK? ---- jj-sw: reload cancel (pokud bude konektivita OK)
---- kl-sw: reload in 600; copy kl-sw-evpn.confg running-config ---- jj-sw: test konektivity kl-sw, BGP/OSPF OK? ---- ek-sw: test konektivity kl-sw (int e1/53: switchport trunk native vlan 740), BGP/OSPF OK? ---- ic-sp1-sw: test konektivity kl-sw (int e1/54: switchport trunk native vlan 736), BGP/OSPF OK? ---- kl-sw: reload cancel (pokud bude konektivita OK)
---- ec-sw: reload in 600; copy ec-sw-evpn.confg running-config ---- ic-sp1-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 784), BGP/OSPF OK? ---- ek-sw: test konektivity ec-sw (int e1/52: switchport trunk native vlan 788), BGP/OSPF OK? ---- kl-sw: reload cancel (pokud bude konektivita OK)
---- ek-sw: reload in 600; copy ek-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ek-sw ---- kl-sw: test konektivity ek-sw ---- ic-sp1-sw: test konektivity ek-sw (int e1/50: switchport trunk native vlan 716), BGP/OSPF OK? ---- ek-sw: reload cancel (pokud bude konektivita OK) ---- ek-sw: test eBGP CESNET
---- us-sw: reload in 600; copy us-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity us-sw ---- ic-sp1-sw: test konektivity us-sw (int e1/51: switchport trunk native vlan 776), BGP/OSPF OK? ---- us-sw: reload cancel (pokud bude konektivita OK)
---- ul-sw: reload in 600; copy ul-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ul-sw ---- us-sw: test konektivity ul-sw ---- ic-sp1-sw: test konektivity ul-sw (int e1/49: switchport trunk native vlan 708), BGP/OSPF OK? ---- ul-sw: reload cancel (pokud bude konektivita OK) ---- ul-sw: test eBGP CESNET
---- ic-l1a-sw: reload in 600; copy ic-l1a-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ic-l1a-sw ---- ic-sp1-sw: test konektivity ic-l1a-sw (int e1/55: L3 bone), BGP/OSPF OK? ---- ic-l1a-sw: reload cancel (pokud bude konektivita OK)
---- ic-l1b-sw: reload in 600; copy ic-l1b-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ic-l1b-sw ---- ic-sp1-sw: test konektivity ic-l1b-sw (int e1/56: L3 bone), BGP/OSPF OK? ---- ic-l1b-sw: reload cancel (pokud bude konektivita OK)
---- ic-l2a-sw: reload in 600; copy ic-l2a-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ic-l2a-sw ---- ic-sp1-sw: test konektivity ic-l2a-sw (int e1/57: L3 bone), BGP/OSPF OK? ---- ic-l2a-sw: reload cancel (pokud bude konektivita OK)
---- ic-l2b-sw: reload in 600; copy ic-l2b-sw-evpn.confg running-config ---- ic-sp2-sw: test konektivity ic-l2b-sw ---- ic-sp1-sw: test konektivity ic-l2b-sw (int e1/58: L3 bone), BGP/OSPF OK? ---- ic-l2b-sw: reload cancel (pokud bude konektivita OK)
---- ic-sp1-sw: reload in 600; copy ic-sp1-sw-evpn.confg running-config ---- ic-sp1-sw: pripojeni na konzoli a sledovani bootu ---- ic-sp1-sw: test konektivity, BGP/OSPF OK? ---- ic-sp1-sw: reload cancel (pokud bude konektivita OK) ---- ic-sp1-sw: komplexni kontrola BGP/OSPF OK?
--- cca od 21 hod:
---- komplexni kontrola paterniho BGP/OSPF ---- komplexni kontrola L2 VPN/EVPN ---- komplexni kontrola L3 VPN/EVPN
--- cca od 23 hod:
---- v pripade overeni zakladni funkcnosti paterniho BGP/OSPF a L2VPN/L3VPN: ponechani konfigurace (jinak rollback)
Středa 14.8.2019
10:00 krátká informační schůzka v kuchyňce 4.p - aktuální stav prací na síti
Vyhrazeno síťařům pro zásadní změny v konfiguraci sítě!
--- cca od 9 hod:
---- overovani konfigurace/ladeni/opravy BGP/EVPN/VXLAN ---- ic-sp2-sw: pridani konfigurace IC-UL HSRP ---- ic-sp2-sw: upravy konfigurace statickeho smerovani a redistribuce static-to-ospf ---- ic-sp1/2-sw: vytvoreni konfigurace IC HSRP ---- upravy konfiguraci pripojeni externich siti: nahrazeni SVI za L3 rozhrani ---- optimalizace spanning tree/root bridge na paternich boxech N9k
--- cca od 16 hod:
---- v pripade rollbacku 13.8., novy pokus o konfiguraci BGP/EVPN/VXLAN
Čtvrtek 15.8.2019
Základní funkčnost sítě, je možné pracovat na dalších aktivitách
PIS
ODS
- upgrady stroju jessie -> stretch -> buster
- upgrade CFEngine
- upgrade Icinga/Director/Grafana
- upgrade Bacula
Pátek 16.8.2019
PIS
- upgrade databází [x3dw, petr]
Víkend 17-18.8.2019
- zapnutí notifikací z icingy [List]
Nic nového nerozjíždět, poladit nedodělky a být připraven na pondělní testování
Nutné otestovat Magion pro pondělní kontroly, viz pondělí.
Pondělí 19.8.2019
Kontrola služeb uživateli (SIS/AUP), koordinace v samostatném RT#307268
Magion (a vše pro něj musí být funkční), viz zápis 27/2019 ze schůze CIV:
- Shrnutí: V pondělí 19.8. přijdou 3 kontroly, nedá se s tím nic dělat, musí fungovat Magion.
- Zároveň je zde požadavek na připojení jejich počítačů do sítě a poskytnutí odpovídající technické podpory. Potřebujeme předem MAC adresy počítačů.
- Závěr: Marek zařídí vše potřebné pro kontrolu, posuneme ověření funkčnosti Magionu z pondělí na víkend.
Seznam nezařazených prací aneb možno provést kdykoliv
LPS
ISS
Upgrade Moodle - stroj phix.zcu.cz. Součinnost - kompletní záloha stroje (Olda), upgrade systému (List).
KPS
ODS
- odsun zbylých virtuálů z XEN na KVM (cloud), zůstávají Windows + thanatos [windows skupina, Indy]
- poweroff/poweron lamia, gmontest, zen1 ... z duvodu resetu managementu, který se zablokoval [List]
Kdokoliv
- čistka v lednicích RC a jednotlivých patrech [marek & čepi & já taky pomůžu]
- deratizace různých zákoutí RC [marek & čepi & já]
Rušené služby, servery
Servery
- hades? viz RT#304847
dbvsrr
Služby
Poučení z krizového vývoje anebo poznámky na příště
- Dodelat HA web zcu.cz - zalozni instance mimo ZCU (CESNET, JCU, Amazon, ...), viz majlenova prednaska
- Udelat zalozni instance zasadnich sluzeb (SIP, radius, webkdc, ...) na infrastrukture nezavisle na disk. poli