Shrnutí

Toto je dokumentace k storage systému implementovaném na Západočeské univerzitě. Cílem tohoto dokumentu je popsat implementaci a zapojení diskového systému fy IBM plus příslušnou SAN infrastrukturu. Zahrnut je i popis základních úkonů a popis chování clusteru v různých situacích.

Prostředí je se sestává ze 2 lokalit – serverovna UI420 a UL008. V každé z lokalit je instalován jeden řadič pole IBM n6240, které dohromady tvoří Stretch Metrocluster (diskový systém rozprostřený přes dvě lokality). Systém obsahuje dva řadiče fungující v režimu clusteru – tzn. v případě výpadku jednoho z řadičů jeho funkci přebírá (transparentně pro klienty) partnerský řadič. Redundance je navíc zvýšena o replikaci diskových boxů mezi 2 lokalitami, takže systém je schopen fungovat nejen při výpadku řadiče, ale i diskového boxu v libovolné lokalitě.

Základní informace

Hardware

Informace o řadičích

Následující tabulka uvádí základní informace o řadičích polí.

Tabulka 1 - Device Details

Řadič	Hardware Platform	Serial No.	System ID	Data ONTAP® Version	Umístění
fc-p1-a	n6240 HA	2858E2113A623622	1574594286	8.1RC2	I420
fc-p1-b	n6240 HA	2858E2113A623611	1574564369	8.1RC2	UL008

Kapacita

Následující tabulka uvádní počty disků přiřazených, alokovaných a "spare". Přiřazené disky jsou disky vlastněné daným řadičem. Alokované disky jsou disky použité v agregátech (obsahují data). "Spare" disky jsou disky použitelné v případě výpadku některého z alokovaných disků pro rekonstrukci RAID.

Hrubá kapacita je celková hrubá kapacita získaná vynásobením hrubé capacity jednoho disku daného typu počtem přiřazených disků.

Tabulka 2 - Kapacita

Řadič	Přiřazené disky	Alokované disky	Spare disky	Velikost disku	Hrubá kapacita
fc-p1-a	56	54	2	600FC15K	33600 GB
fc-p1-a	56	54	2	2000ATA	112000 GB
fc-p1-b	56	54	2	600FC15K	33600 GB
fc-p1-b	14	13	1	2000ATA	28000 GB

Poznámka: Hrubá kapacita NENÍ rovna použitelné kapacitě!!!

Rozložení v racku

Zapojení diskových polic do portů řadičů a propojení lokalit

Tabulka 3 - Zapojení portů

Řadič	port	lokální disková police	port v patchpanelu	vzdálená disková police
fc-p1-a	5a	N/A	U42:9-10	UL008 EXN1000 ID2 dolní levý
fc-p1-a	5b	UI420 EXN1000 ID3 horní levý	N/A	N/A
fc-p1-a	5c	N/A	U42:5-6	UL008 EXN4000 ID1 dolní levý
fc-p1-a	5d	UI420 EXN4000 ID4 horní pravý	N/A	N/A
fc-p1-a	6a	N/A	U41:9-10	UL008 EXN1000 ID1 horní levý
fc-p1-a	6b	UI420 EXN1000 ID1 dolní pravý	N/A	N/A
fc-p1-a	6c	N/A	U41:5-6	UL008 EXN4000 ID4 horní levý
fc-p1-a	6d	UI420 EXN4000 ID1 dolní levý	N/A	N/A
fc-p1-b	5a	N/A	U42:7-8	UI420 EXN1000 ID1 horní pravý
fc-p1-b	5b	UL008 EXN1000 ID2 horní pravý	N/A	N/A
fc-p1-b	5c	N/A	U42:3-4	UI420 EXN4000 ID4 dolní pravý
fc-p1-b	5d	UL008 EXN4000 ID4 dolní pravý	N/A	N/A
fc-p1-b	6a	N/A	U41:7-8	UI420 EXN1000 ID3 dolní levý
fc-p1-b	6b	UL008 EXN1000 ID1 dolní pravý	N/A	N/A
fc-p1-b	6c	N/A	U41:3-4	UI420 EXN4000 ID1 horní levý
fc-p1-b	6d	UL008 EXN4000 ID1 horní pravý	N/A	N/A

Tabulka 4 - Propojení cluster interconnectu

Řadič	port	port v patchpanelu
fc-p1-a	IC1	U42:1-2
fc-p1-a	IC2	U41:1-2
fc-p1-b	IC1	U42:1-2
fc-p1-b	IC2	U41:1-2

Konfigurace úložiště

Tato sekce popisuje rozdělení úložiště na úrovni agregátů, volume apod.

Agregát

Agregát je tvořen jedním čí více tzv. plexů (skupina disků). Každý plex je dále tvořej jednou či více RAID-Groups, nad kterými je vytvářen RAID. Pokud není agregát zrcadlen, obsahuje pouze jeden plex. Pokud je licencována funkcionalita SyncMirror, může být do každého agregátu přidán další plex, který je následně synchronně zrcadlen se zdrojovým plexem (jako RAID1 mezi 2 plexy). Při vytváření aggregátu Data ONTAP přiřadí datové a paritní disky do daných RAID-groups/plexů na základě zadaných parametrů (velikost RAID-group, úroveň RAIDu, zrcadlení apod.) Agregát tvoří jeden logický celek – souvislý prostor, který může být dále spravován/dělen. Pro zvýšení použitelného místa v agregátu do něj lze přidat disky (do stávající či nové RAID-group). Nicméně disk do agregátu jednou přidaný nemůže být odebrán bez zničení celého agregátu. Pro další informace o agregátech a jejich správě doporučujeme dokumentaci výrobce Data ONTAP 8.1RC2 Storage Management Guide, http://now.netapp.com/NOW/knowledge/docs/ontap/rel81rc2/pdfs/ontap/smg.pdf

Veškeré agregáty jsou nakonfigurovány následovně:

aggr create <aggr_name> [-m] –r <raid_size> –t <raid_type> <total # disks>
snap reserve –A <aggr_name> <snap_reserve_pct>

Následující tabulka shrnuje informace o agregátech. Tabulka 5 - Aggregate configuration.

Řadič	Agregát	RAID Type	Počet disků	Typ disků	SAS Bridge	Zrcadleno	Velikost RAID Group	Snap Reserve	Použitelná kapacita
fc-p1-a	aggr_p1a_fc_mirror	RAID-DP	54	600FC15K	NE	ANO	28	5%	11689 GiB
fc-p1-a	aggr_p1a_sata_single	RAID-DP	28	2000ATA	NE	NE	14	0%	35763 GiB
fc-p1-a	aggr_sata_mirror	RAID-DP	26	2000ATA	NE	ANO	16	5%	15571 GiB
fc-p1-a	aggr_p1a_sas_mirror	RAID-DP	46	600SAS15K	ANO	ANO	23	5%	9818 GiB
fc-p1-a	aggr_p1a_sas2_mirror	RAID-DP	94	600SAS10K	ANO	ANO		5%	20105 GiB
fc-p1-b	aggr_p1b_fc_mirror	RAID-DP	54	600FC15K	NE	ANO	28	5%	11689 GiB
fc-p1-b	aggr_p1b_sata_singl	RAID-DP	13	2000ATA	NE	NE	16	0%	16391 GiB
fc-p1-b	aggr_p1b_sas_mirror	RAID-DP	46	600SAS10K	ANO	ANO		5%	9818 GiB
fc-p1-b	aggr_p1b_sata_mirror	RAID-DP	23	2000BSAS	ANO	ANO		5%	26896 GiB

Volume

Volume je logická jednotka (souborový systém), jehož struktura může být zpřístupněna uživatelům pomocí souborových služeb:

• Pomocí NFS pro UNIXové klienty

• Pomocí CIFS pro klienty s OS Windows

Volume označený vol0 je systémový volume každého řadiče. Na tento volume je ukládána konfigurace a není použit pro uživatelská data.

Veškeré volume (mimo vol0) jsou nakonfigurovány následovně:

vol create <vol_name> <aggregate> <size><unit>
vol options <vol_name> [ create_ucode | convert_ucode ] on
snap sched <vol_name> <snapshot schedule>
snap reserve <vol_name> <snapreserve %>

Následující tabulka shrnuje informace o volumech. Tabulka 6 - Volumes configuration.

Řadič	Volume	Agregát	Kapacita	Snap Reserve	Použitelná kapacita
fc-p1-a	vol0	aggr0	120 GB	0%	120 GB
fc-p1-b	vol0	aggr0	200 GB	0%	200 GB

Propagované diskové prostory

IBM nSeries pole umožňují přístup k datům na souborové (CIFS/NFS) nebo blokové (FC/iSCSI) úrovni. Při použítí souborového přístupu klienti používají souborový systém na úrovni VOLUME (kapitola 3), při blokové úrovni je třeba definovat ještě jednu úroveň navíc. LUN (Logical Unit Number) je z hlediska nSeries pole pouze speciálním typem souboru s příznakem „toto je blokové zařízení“. Je definován na úrovni VOLUME a propagován je pomocí tzv. InterfaceGroups (igroup).

IGroup je skupina identifikátorů (iniciátorů), kterým je povoleno k danému LUN přistupovat. Jsou to buď iniciátory typu WorldWideName (WWN) či WorldWidePortName (WWPN) – v případě FC protokolu – nebo iSCSIQualifiedName (IQN) či EnterpriseUniqueIdentifiers (EUI) v případě iSCSI.

Postup je pak následující:

a) Vytvoření volume

b) Vytvoření LUN v daném volume

c) Vytvoření igroup (FC nebo iSCSI)

d) Namapování daného LUN patříčné igroup

Konfigurace LUN

Tabulka 7 - Velikosti a mapování LUN.

Filer Name	LUN Path	LUN OS Typ	Mapped to iGroup	LUN ID	Size
fc-p1-a	xxxx	linux	cico	0	10 GB
fc-p1-b	xxxx	linux	cico	1	50 GB

Konfigurace iGroup

Interface group (igroup) jsou vytvářeny následujícím způsobem:

igroup create [-f | -i] –t linux  <igroup_name>
igroup set <igroup_name> alua yes
igroup add <igroup_name> <WWPN1>
igroup add <igroup_name> <WWPN2>

...

ALUA příznak umožní klientům automaticky (bez přidání daších nástrojů) určit “kratší” cestu k datům (je rozdíl mezi cestou primo na řadič vlastnící disk a cestou přes partnerský řadič a cluster interconnect – tato cesta by měla být využívána pouze v případě výpadku). Podpora ALUA rozšíření SCSI protokolu je nativně ve většíně moderních OS (včetně GNU Debian Linux 6).

Tabulka 8 - Definice iGroup

iGroup	typ (FCP/iSCSI)	OS Typ	identifikátor	ALUA
cico	FCP	linux	21:00:00:e0:8b:81:f0:a5 21:00:00:e0:8b:0b:83:52	ANO

Síťová konektivita

Řadiče IBM nSeries mají několik síťových rozhraní. Pro bazální administraci lze použít Service Processor (SP). Jde o samostatnou komponentu (není přímou součástí pole z hlediska OS), která zpřístupní sériovou konzoli přes SSH. Jiný protokol není podporován.Přes toto rozhraní není možné přistupovat k datům ani jej využít pro jiné způsoby managementu (např. OnCommand System Manager).

Další konfigurované rozhraní je e0a – toto rozhraní slouží jak pro management (ssh, OnCommand ...) tak pro data (FTP, HTTP, CIFS, NFS, iSCSI)

Systém je nakonfigurován tak, že v případě výpadku řadiče dojde na rozhraní e0a přeživšího řadiče k vytvoření aliasu s IP rozhraní e0a padlého řadiče (Partner Adresa v tabulce).

Tabulka 9 - Síťová rozhraní

Řadič	Interface	IP Adresa	Netmask	Partner Adresa	VIF
fc-p1-a	e0a	147.228.6.12	255.255.255.0	147.228.6.10	N/A
fc-p1-a	e0b	N/A	N/A	N/A	N/A
fc-p1-a	e0a	N/A	N/A	N/A	N/A
fc-p1-a	c0b	N/A	N/A	N/A	N/A
fc-p1-a	e0M	N/A	N/A	N/A	N/A
fc-p1-a	SP	147.228.6.11	255.255.255.0	N/A	N/A
fc-p1-b	e0a	147.228.6.10	255.255.255.0	147.228.6.12	N/A
fc-p1-b	e0b	N/A	N/A	N/A	N/A
fc-p1-b	c0a	N/A	N/A	N/A	N/A
fc-p1-b	c0b	N/A	N/A	N/A	N/A
fc-p1-b	e0M	N/A	N/A	N/A	N/A
fc-p1-b	SP	147.228.6.13	255.255.255.0	N/A	N/A

FrontEnd SAN

Základní informace

SAN struktura zpřístupňující diskové pole serverům se skládá ze 2 FC switchů Qlogic SANBox 5800.

Switche jsou propojeny mezi sebou pomocí 2 tras (2 E-porty na každém switchi).

Z hlediska FC infrastruktury se oba řadiče dohromady tváří jako jediné zařízení (mají jediné společné WWN) a odlišit je lze pouze pomocí unikátního WWPN každého portu (viz tabulku 8).

Každý LUN je přístupný na všech portech systému (jak na portech řadiče, který daný LUN vlastní, tak na portech partnerského řadiče).

Každý klientský server by měl být zapojen do SAN tak, aby jeho měl přístupné všechny porty obou řadičů (pro případ výpadku řadiče).

Výběr výhodnější cesty k danému LUNu zajišťuje multipathing software na klientovi – pokud systém podporuje rozšíření SCSI protokolu ALUA, není potřeba žádný dodatečný SW.

Zapojení FC portů polí IBM nSeries

Tabulka 10 - Zapojení FC portů

Řadič	FC Port	Režim	WWN	WWPN	Port ve switchi
fc-p1-a	3a	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:81:8d:ba:66:ee	fc-s10 port 9
fc-p1-a	3b	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:82:8d:ba:66:ee	fc-s11 port 9
fc-p1-a	4a	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:83:8d:ba:66:ee	fc-s10 port 19
fc-p1-a	4b	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:84:8d:ba:66:ee	fc-s11 port 19
fc-p1-b	3a	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:81:9d:ba:66:ee	fc-s20 port 9
fc-p1-b	3b	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:82:9d:ba:66:ee	fc-s20 port 19
fc-p1-b	4a	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:83:9d:ba:66:ee	fc-s21 port 9
fc-p1-b	4b	Target	50:0a:09:80:8d:ba:66:ee	50:0a:09:84:9d:ba:66:ee	fc-s21 port 19

LAN konfigurace FC switchů

Tabulka 11 - Síťová rozhraní FC Switchů

FC-Switch	Lokalita	SN	IP Adresa	Netmask
fc-s10	UI 420	1012L52038	147.228.6.56	255.255.255.0
fc-s11	UI 420	1012L51927	147.228.6.57	255.255.255.0
fc-s20	UL 008	1026L50618	147.228.6.58	255.255.255.0
fc-s21	UL 008	1010L50381	147.228.6.59	255.255.255.0

Propojení switch – ISL

Tabulka 12 - Propojení – E-porty

FC-Switch	Lokalita	port	patchpanel port
fc-s10	UI 420	0	U42:11-12
fc-s10	UI 420	1	U41:13-14
fc-s11	UI 420	0	U41:11-12
fc-s11	UI 420	1	U42:13-14
fc-s20	UL 008	0	U42:11-12
fc-s20	UL 008	1	U41:13-14
fc-s21	UL 008	0	U41:11-12
fc-s21	UL 008	1	U42:13-14

Konfigurační soubory

Konfigurační soubory každého řadiče jsou uloženy na tzv. root volume – což je v tomto případě vol0. Základní soubory jsou dva /etc/hosts a /etc/rc.

Soubor /etc/hosts je shodný pro oba řadiče:

/etc/hosts:
#Auto-generated by setup Tue Nov 22 11:42:04 CET 2011
127.0.0.1 localhost
147.228.6.12    fc-p1-b fc-p1-b-e0a
147.228.6.10    fc-p1-a fc-p1-a-e0a

147.228.6.13    fc-p1-b-sp
147.228.6.11    fc-p1-a-sp

# 0.0.0.0       fc-p1-b-e0b
# 0.0.0.0       fc-p1-b-e0M
# 0.0.0.0       fc-p1-b-e0P
147.228.57.19   smtp.czu.cz     mailhost

Soubor /etc/rc je pro každý řadič unikátní:

fc-p1-b:
#Auto-generated by setup Tue Dec 20 10:23:03 GMT 2011
hostname fc-p1-b
ifconfig e0a `hostname`-e0a mediatype auto flowcontrol full netmask 255.255.255.0 partner e0a
route add default 147.228.6.1 1
routed on
options dns.domainname zcu.cz
options dns.enable on
options nis.enable off
savecore

fc-p1-a:
#Auto-generated by setup Tue Dec 20 11:00:30 GMT 2011
hostname fc-p1-a
ifconfig e0a `hostname`-e0a mediatype auto flowcontrol full netmask 255.255.255.0 partner e0a
route add default 147.228.6.1 1
routed on
options dns.domainname zcu.cz
options dns.enable on
options nis.enable off

Základní postupy

Tato sekce popisuje chování systému při základních situacích jako je výpadek řadiče, výpadek jednotlivého disku, postup pro vypnutí a opětovné nastartování systému apod.

Management pole

Pole lze spravovat několika způsoby

a) Pomocí příkazové řádky – přístup přes SSH

b) Pomocí centralizovaného management rozhraní OnCommand 2.0

Cluster a jeho chování

Oba řadiče jsou samostatné entity, které dohromady tvoří cluster. V případě výpadku jednoho z řadičů bude na přeživším řadiči spuštěna virtuální instance operačního systému pole (Data ONTAP) s parametry vypadlého řadiče.

Z hlediska klientů jsou stále dostupné obě instance (které v tuto chvíli běží na jediném stroji).

Tento proces se nazývá TAKEOVER.

Pozn. Každý disk v poli (platí pro datové, paritní i spare disky) je přiřazen právě jednomu řadiči. V případě výpadku nedochází ke změně vlastnictví disků – disky jsou stále vlastněny stejnou instancí DataONTAP (identifikátor je SystemID) – pouze instance je „stěhovavá“.

V případě nahození vypadlého řadiče dojde k následující situaci.

a. Startující řadič nahraje základní OS

b. V průběhu startu detekuje zámek na vlastních discích – jsou zamknuty virtuální instancí téhož řadiče

c. Systém nastartuje do režimu čekajícího na zpětné překlopení – v logu je periodicky zobrazováná zpráva Waiting for giveback

a. V případě nastavení automatického zpětného překlopení dojde k vrácení funkce na původní řadič

b. V případě nastavení manuálního zpětného překlopení je nutné na přeživším řadiči vyvolat návrat funkce manuálně

Tento postup se nazývá GIVEBACK Pozn. Na polích je zapnuto MANUÁLNÍ vracení funkce.

cf.giveback.auto.enable      off

V případě MetroClusteru NENÍ doporučeno nastavovat automatické vracení funkce.

Kontrola stavu clusteru

fc-p1-a> cf status
Cluster enabled, fc-p1-b is up.

Manuální přepnutí clusteru (spouští se na řadiči, který zůstane funkční)

fc-p1-a> cf takeover
cf: takeover initiated by operator
fc-p1-a>

Řadič v takeover režimu a přepnutí do konzole partnerského řadiče (virtuální instance) a zpět

fc-p1-a (takeover)>
fc-p1-a (takeover)> cf status
fc-p1-a has taken over fc-p1-b.
Takeover due to negotiated failover, reason: operator initiated cf takeover
fc-p1-a (takeover)> partner
Login to partner shell: fc-p1-b
fc-p1-b/ fc-p1-a> Tue Feb  7 15:52:14 CET [fc-p1-a(takeover): cf.partner.login:notice]: Login to partner shell: fc-p1-b
fc-p1-b/ fc-p1-a> partner
Logoff from partner shell: fc-p1-b
fc-p1-a (takeover)> Tue Feb  7 15:52:25 CET [fc-p1-a (takeover): cf.partner.logoff:notice]: Logoff from partner shell: fc-p1-b
fc-p1-a (takeover)>

Kontrola stavu clusteru – partnerský řadič připraven k návratu funkce

fc-p1-a(takeover)> cf status
fc-p1-a has taken over fc-p1-b.
fc-p1-b is ready for giveback.
Takeover due to negotiated failover, reason: operator initiated cf takeover

Provedení zpětného překlopení

fc-p1-a(takeover)> cf giveback
fc-p1-a(takeover)> Tue Feb  7 15:56:17 CET [fc-p1-a(takeover): cf.misc.operatorGiveback:info]: Cluster monitor: giveback initiated by operator
Tue Feb  7 15:56:17 CET [fc-p1-a: cf.fm.givebackStarted:warning]: Cluster monitor: giveback started
...
...
Tue Feb  7 15:57:00 CET [fc-p1-a: monitor.globalStatus.ok:info]: The system's global status is normal.

Scénáře výpadku jednotlivých komponent clusteru

Souhrná dokumentace o možných stavech metroclusteru a jejich řešení je popsána v dokumentaci výrobce:

http://www.redbooks.ibm.com/redpapers/pdfs/redp4259.pdf

http://media.netapp.com/documents/tr-3548.pdf

Výpadek řadiče

V případě výpadku jednoho z řadičů dochází k takeoveru. Přístup k datům je nepřerušen. Všechny diskové boxy jsou připojeny k oběma řadičům, instance Data ONTAP spadlého řadiče je spuštěna na přeživším řadiči a LUNy jsou vždy propagovány všemy porty metroclusteru.

Po opravě/nahození řadiče je potřeba provést cf giveback.

Výpadek diskových boxů

Pokud jde o diskové boxy zrcadleného agregátu, jsou data dostupná a nedochází k takeoveru. Po obnově funkce diskového boxu dochází k automatické resynchronizaci.

Pokud jde o diskové boxy nezrcadleného agregátu, data dostupná nejsou a nedochází k takeoveru.

Výpadek řadiče a jeho lokálních boxů (výpadek napájení v racku) nebo výpadek lokality

V tomto případě NEDOCHÁZÍ k takeoveru a data řadiče NEJSOU dostupná (důvodem je, že nelze rozpoznat tuto situaci od přerušení všech interconnect spojení a hrozí „split brain“). Po zhodnocení situace (potvrzení pádu) je třeba provést cf forcetakeover –d.

POZOR!

Pokud je v tuto chvíli partnerský řadič v běžícím stavu, dojde k poškození dat!

Po provedení tohoto příkazu je NEZBYTNÉ zabránit náhodnému nastartování partnerského řadiče (odpojení od napájení, odpojení cluster interconnectu)

Pokud byl proveden cf forcetakeover –d, dojde k rozdělění zrcadlených aggregátů na dva samostatné aggregáty (podle plexů). Po provedení budou veškeré LUNy ve stavu offline a je nutno je převést do stavu online příkazem lun online <lun_path>

Po zprovoznění řadiče/diskových boxů jsou možné 2 situace.

a) Nebyl proveden cf forcetakeover –d dojde k automatické resynchronizaci diskových boxů po jejím dokončení lze provést cf giveback (pokud nelze čekat na dokončení resynchronizace, použije se cf giveback –f)

b) Byl proveden cf forcetakeover –d nejprve se nastartují diskové boxy po zjištění stavu agregátů se agregáty z boxů padlé lokality převedou do stavu offline aggr offline aggr_disaster provede se ruční obnovení synchronizace aggr mirror aggr -v aggr_disaster po dokončení synchronizace se zapne partnerský řadič a provede se cf giveback

Řízené vypnutí jedné strany

Pokud je nutné vypnout celou stranu, lze postupovat takto:

pole převedeme do takeoveru
vypneme hlavu a police
provedeme upravy
zapneme police a následně hlavu
spustíme cf giveback

Zde se může stát, že bude hlásit zamítnutí provedení akce z důvodu aktivní session, např:

fc-p1-b(takeover)> cf giveback
fc-p1-b(takeover)> Tue Aug 14 17:38:15 CEST [fc-p1-b:cf.misc.operatorGiveback:info]: Failover monitor: giveback initiated by operator  
Tue Aug 14 17:38:15 CEST [fc-p1-b:raid.fm.givebackCancelled:error]: Aggregate partner:aggr_p1a_sata_mirror is being resynced, canceling giveback.  
Tue Aug 14 17:38:15 CEST [fc-p1-b:cf.rsrc.givebackVeto:error]: Failover monitor: raid: giveback cancelled due to active state  
Tue Aug 14 17:38:15 CEST [fc-p1-b:cf.fm.givebackCancelled:warning]: Failover monitor: giveback cancelled

Většinou to znamená, že pole synchronizuje disky, stav zjistíme příkazem aggr status -r:

  Plex /aggr_p1a_sata_mirror/plex1 (online, normal, resyncing 44% completed, pool1) 
    RAID group /aggr_p1a_sata_mirror/plex1/rg0 (level-0 resync in progress, block checksums)
      
      RAID Disk Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
      --------- ------  ------------- ---- ---- ---- ----- --------------    --------------     
      dparity   5a.16   5a    1   0   FC:A   1   ATA  7200 1695466/3472315904 1695702/3472798304
      parity    5a.17   5a    1   1   FC:A   1   ATA  7200 1695466/3472315904 1695702/3472798304 
      data      5a.18   5a    1   2   FC:A   1   ATA  7200 1695466/3472315904 1695702/3472798304 
      data      5a.19   5a    1   3   FC:A   1   ATA  7200 1695466/3472315904 1695702/3472798304

Zde je synchronizace na 44 procentech, je třeba počkat na dokončení. Synchronizace není lineární a může viset na 99% i několikanásobně déle (až dny) než zatím trvala. Kontrolu je potřeba udělat na obou partnerech, mezi nimi lze přepínat příkazem partner.

Pokud nechceme čekat na dosynchronizování, pak můžeme použít cf giveback -f, ale synchronizace se pustí znovu. Pokud se neočekává další výpadek lokality, pak je vhodné přepnout hned. Výpadek stejné lokality způsobí zpátky takeover, po dobu synchronizace není dostupná redundance (shodné se stavem takeover).

Výpadek/výměna disku

V případě výpadku disku dochází k automatické náhradě tohoto disku spare diskem. Veškeré agregáty jsou chráněny duální paritou (až chyba 3. disku současně znamená ztrátu dat), některé z nich jsou navíc zrcadlené, takže ke ztrátě dat dojde nejdříve při „vhodném“ výpadku 6. disku (můžeme přijít o celou jednu polovinu clusteru a maximálně 2 disky na přeživší straně).

Protože disky musí být před použitím přiřazeny danému řadiči (viz sekci 8.2), nestačí disk pouze fyzicky vyměnit. Je nutno jej přiřadit patřičnému řadiči pomocí příkazu „disk assign all“ provedeném na původním vlastníkovi vadného disku.

Výpis vlastníctví jednotlivých disků se provede pomocí:

fc-p1-a> disk show
  DISK       OWNER                  POOL   SERIAL NUMBER
------------ -------------          -----  -------------
6c.16        fc-p1-b   (1574564369)   Pool0  6SL1CR1A0000B147L1MH
6c.64        fc-p1-b   (1574564369)   Pool0  JZX6130M
5c.77        fc-p1-b   (1574564369)   Pool0  JZX5H36M
5c.75        fc-p1-b   (1574564369)   Pool0  JZX5H03M
6c.61        fc-p1-a   (1574594286)   Pool0  6SL1GZH10000B149K4MG
5c.57        fc-p1-a   (1574594286)   Pool0  6SL0X95C0000B147KT7R
5c.50        fc-p1-a   (1574594286)   Pool0  6SL1H0D00000B148H6VW
...

Podrobnější informace o výrobci a typu disků:

fc-p1-a> storage show disk
DISK                  SHELF BAY SERIAL           VENDOR   MODEL      REV
--------------------- --------- ---------------- -------- ---------- ----
5d.16                   1    0  JZXW07DJ         NETAPP   X292_HVIPC NA02
5d.17                   1    1  JZXVZ3AJ         NETAPP   X292_HVIPC NA02
5d.18                   1    2  JZXUGGKJ         NETAPP   X292_HVIPC NA02
5d.19                   1    3  JZXUR30J         NETAPP   X292_HVIPC NA02
6d.20                   1    4  JZXURAYJ         NETAPP   X292_HVIPC NA02
...

Výpis vadných disků:

fc-p1-a> aggr status -f   
Broken disks (empty)

Výpis nepřiřazených disků:

fc-p1-a> disk show -n
   DISK       OWNER                      POOL   SERIAL NUMBER         HOME  
 ------------ -------------              -----  -------------         -------------  
 6c.51        Not Owned                  NONE   6SL70TRH0000B4050B6C

Mezi vadné disky se může disk dostat i po "nevhovné" opraci, např. přidáním do "špatného" aggregátu a následným vyjmutím.

fc-p1-a> aggr status -f
Broken disks
RAID Disk       Device          HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------          ------------- ---- ---- ---- ----- --------------    --------------
admin failed    5c.59           5c    3   11  FC:B   0  FCAL 15000 560000/1146880000 560208/1147307688

Na disk se pak musí provést unfail.

fc-p1-a> priv set advanced
fc-p1-a*> disk unfail 5d.49
disk unfail: unfailing disk 5d.49...

Pak případně, podle potřeby, přidat správnému řadiči a provést zero (viz. níže).

Po výměně disku může být spare "not zeroed", to může prodlužovat rebuild a pod.

Výpis stavu:

vol status -s
aggr status -s

Odstranění:

disk zero spares

Přiřazení disků řadiči:

disk assign all -p <číslo_poolu>
disk assign all -p 0

Disk je třeba přiřadit správnému řadiči a poolu. V případě zrcadleného agregátu vlastní patřičný řadič disky na obou stranách a na obou stranách je take samostatný spare.

fc-p1-a> aggr status -s
Pool1 spare disks
RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block checksum
spare           6d.59   6d    3   11  FC:B   1  FCAL 15000 560000/1146880000 560879/1148681096 
spare           5b.20   5b    1   4   FC:A   1   ATA  7200 1695466/3472315904 1695702/3472798304 
Pool0 spare disks
RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block checksum
spare           5c.59   5c    3   11  FC:B   0  FCAL 15000 560000/1146880000 560208/1147307688 
spare           5a.29   5a    1   13  FC:B   0   ATA  7200 1695466/3472315904 1695702/3472798304

fc-p1-a - FC agregát - 6d.59 je spare na lokalní straně, 5c.59 je spare na vzdálené straně. Obdobně je to pro SATA. Stejná situace je na fc-p1-b, ale tam není zrcadlený SATA agregát, takze SATA spare je jen lokální. Disky 5d/6d jsou FC lokální a 5c/6c jsou FC vzdálené. Disky 5b/6b jsou SATA lokální a 5a/6a jsou SATA vzdálené. Pozor, označení záleží na řadiči, na kterém děláme výpis, disky "d" a "b" jsou vždy lokální. To se možná změní po přepojení.

fc-p1-b> aggr status -s
Pool1 spare disks
RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block checksum
spare           6c.32   6c    2   0   FC:A   1  FCAL 15000 560000/1146880000 560879/1148681096 
Pool0 spare disks
RAID Disk       Device  HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
---------       ------  ------------- ---- ---- ---- ----- --------------    --------------
Spare disks for block checksum
spare           5d.45   5d    2   13  FC:A   0  FCAL 15000 560000/1146880000 560879/1148681096 
spare           5b.45   5b    2   13  FC:A   0   ATA  7200 1695466/3472315904 1695702/3472798304

Zrušení přiřazení disků řadiči

disk assign <označení_disku> -s unowned
disk assign 6d.59 -s unowned

Pokud si agregát vezme "nevhodny" disk - např. máme FC i SAS disky přibližně stejných parametrů. Po výpadku disku se stalo, že si FC agregát vzal náhradní spare SAS. Vlastní funkčnosti to nevadí, ale není to vhodné z důvodu, že je to jiný typ disku a je v jiné polici. Kterého agregátu se to týká je možné zjistit:

aggr status -r
Aggregate aggr_p1a_fc_mirror (online, raid_dp, mirrored) (block checksums)
  Plex /aggr_p1a_fc_mirror/plex2 (online, normal, active, pool0)
    RAID group /aggr_p1a_fc_mirror/plex2/rg0 (normal, block checksums)
     RAID Disk Device          HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
     --------- ------          ------------- ---- ---- ---- ----- --------------    --------------
     dparity   5c.61           5c    3   13  FC:B   0  FCAL 15000 560000/1146880000 560208/1147307688 
     parity    6c.76           6c    4   12  FC:A   0  FCAL 15000 560000/1146880000 560879/1148681096 
     data      4c.125L49       4c    11  22  FC:B   0   SAS 15000 560000/1146880000 560208/1147307688
     data      5c.64           5c    4   0   FC:B   0  FCAL 15000 560000/1146880000 560879/1148681096

Je to disk 4c.125L49

Vyjmutí z agregátu:

disk fail 4c.125L49

Pak dojde k překopírování dat na spare (tentokrát ten spravný, jiný už není). Je třeba počkat,až to doběhle:

aggr status -r
 Plex /aggr_p1a_fc_mirror/plex2 (online, normal, active, pool0)
   RAID group /aggr_p1a_fc_mirror/plex2/rg0 (normal, block checksums)
     RAID Disk Device          HA  SHELF BAY CHAN Pool Type  RPM  Used (MB/blks)    Phys (MB/blks)
     --------- ------          ------------- ---- ---- ---- ----- --------------    --------------
     dparity   5c.61           5c    3   13  FC:B   0  FCAL 15000 560000/1146880000 560208/1147307688 
     parity    6c.76           6c    4   12  FC:A   0  FCAL 15000 560000/1146880000 560879/1148681096 
     data      4c.125L49       4c    11  22  FC:B   0   SAS 15000 560000/1146880000 560208/1147307688 (prefail, copy in progress)
     -> copy   6c.59           6c    3   11  FC:A   0  FCAL 15000 560000/1146880000 560208/1147307688 (copy 7% completed)
     data      5c.64           5c    4   0   FC:B   0  FCAL 15000 560000/1146880000 560879/1148681096

Pak se z disku udělá normální spare, většinou je potřeba unfail, zero ...

Pokud disk nebliká:

priv set advanced
blink_on 6c.51
blink_off 6c.51
priv set admin

Vypnutí systému

Pokud potřebujeme vypnout dané pole, je potřeba provést následující postup

a) Zrušíme režim clusteru

fc-p1-b> cf disable
fc-p1-b> Tue Feb  7 16:24:56 CET last message repeated 4 times
Tue Feb  7 16:27:12 CET [fc-p1-b: cf.misc.operatorDisable:warning]: Cluster monitor: operator initiated disabling of cluster
Tue Feb  7 16:27:12 CET [fc-p1-b: cf.fsm.takeoverOfPartnerDisabled:notice]: Cluster monitor: takeover of fc-p1-a disabled (cluster takeover disabled)
Tue Feb  7 16:27:12 CET [fc-p1-b: cf.fsm.takeoverByPartnerDisabled:notice]: Cluster monitor: takeover of fc-p1-b by fc-p1-a disabled (cluster takeover disabled)
fc-p1-b> cf status
Cluster disabled.
fc-p1-b>

Pokud tento krok vynecháme, může při vypnutí pole v bodě b) dojít k automatickému překlopení funkce řadiče na jeho partnera.

b) Zastavíme funkci obou řadičů – na každém znich spustíme příkaz

halt

V případě, že nechceme/nemůžeme provést bod a), lze řadič zastavit bez vyvolání překlopení na partnerský řadič pomocí:

halt -f

c) Vypneme pole pomocí vypínačů – nejprve vypínáme hlavu řadiče, pak diskové police

Zapnutí systému

Po zapnutí napájení pole oba řadiče automaticky nastartují. V případě, že před vypnutím byla zrušena funkce clusteru, je potřeba ji opět zapnout:

fc-p1-a> cf enable
fc-p1-a> Tue Feb  7 16:33:40 CET [fc-p1-a: cf.misc.operatorEnable:warning]: Cluster monitor: operator initiated enabling of cluster
Tue Feb  7 16:33:40 CET [fc-p1-a: cf.fsm.takeoverOfPartnerDisabled:notice]: Cluster monitor: takeover of fc-p1-b disabled (cluster takeover disabled by partner)
Tue Feb  7 16:33:40 CET [fc-p1-a: cf.fsm.takeoverByPartnerDisabled:notice]: Cluster monitor: takeover of fc-p1-a by fc-p1-b disabled (unsynchronized log)
Tue Feb  7 16:33:41 CET [fc-p1-a: cf.fsm.takeoverOfPartnerEnabled:notice]: Cluster monitor: takeover of fc-p1-b enabled
Tue Feb  7 16:33:41 CET [fc-p1-a: cf.fsm.takeoverByPartnerEnabled:notice]: Cluster monitor: takeover of fc-p1-a by fc-p1-b enabled
fc-p1-a> cf status
Cluster enabled, fc-p1-b is up.
fc-p1-a

Příklady

Zapnutí deduplikace a komprese

Bez deduplikace nelze používat kompresi, uspěšnost lze zobrazit, příkazem:

 df -sh

Výpis nastavení:

sis config 
sis status

Výpis informací o poslední deduplikaci:

sis status -l

Deduplikace

sis on /vol/<vol_name>

Nastavení scheduleru:

sis config -s <dny>@<hodiny> /vol/<vol_name>
sis config -s sun-sat@23 /vol/mail      - každý den v 23
sis config -s sun-sat@0-23/2 /vol/mail  - každé 2 hodiny

Deduplikace se provádí jen na nově zapsaná data, pokud volume obsahuje data je třeba po zapnutí provést

sis start -s /vol/mail_backup

aby se provedla na stavajici data.

Komprese

Zapnutí postprocess komprese s vypnutou inline kompresí, řídí se nastavení scheduleru, viz deduplikace:

sis config -C true -I false /vol/<vol_name>

Nejčastěji používané příkazy

Předpokládá se vytvořený agregát aggr_p1b_sata_singl

Vypis volneho mista:

df -g
df -Ag  # na agregaty

Vypis lunu:

lun show

Vypis namapovanych lunu:

lun show -m

Odpojeni lunu:

lun unmap /vol/test/test.lun cico

Zruseni lunu:

lun offline /vol/test/test.lun
lun destroy /vol/test/test.lun

Vypis volume:

vol status

Zruseni volume:

vol offline test
vol destroy test

Vypis agregatu:

aggr status

Vytvoreni volume:

vol create oracle_backup aggr_p1b_sata_singl 8t
vol options oracle_backup nosnap on       # vypnuti snapshotu
vol options oracle_backup guarantee none  # nezabira cely prostor

Pokud se dělá nový volume na dříve obsazené místo (hned), tak se ten prostor nejeví jako volný a volume to nenechá vytvořit i když prostor vznikne. NetApp ho postupně uvolní. Je možné použít volbu -s. Pozor, dá se vytvořit volume vetší než dostupné místo (i po uvolnění).

vol create oracle_backup -s none aggr_p1b_sata_singl 8t

Uvolnění snap rezervy pro volume nebo agregát. Pro miroor agregáty by měla být rezerva alspoň 5%.

snap reserve oracle_backup 0
snap reserve -A aggr_p1a_sata_mirror 10

Vypis stroju:

igroup show -v

Nastaveni pripojeni stroje:

igroup create -f -t linux tantalos-test
igroup add tantalos-test 21:00:00:e0:8b:92:9c:1a
   # - ID se zjisti na stroji pomoci ql-hba-snapshot -> WWPN, u nových jader, je třeba nastavit verzi jadra na 2.6:
setarch x86_64 --uname-2.6 ql-hba-snapshot

Vytvoreni lun (lun setup to udela najednou, ale musi se to odklepavat a musi existovat igroup, nejde to nechat nepripojene):

lun setup
Do you want to create a LUN? [y]: y
Multiprotocol type of LUN
         (solaris/windows/hpux/aix/linux/netware/vmware/windows_gpt/windows_2008/xen/hyper_v/solaris_efi/vld/openvms)
         [linux]: linux
Enter LUN path: /vol/oracle_backup/oracle_backup.lun
Do you want the LUN to be space reserved? [y]: n
Enter LUN size: 8t
Enter comment string: lun pro zalohovana data oracle
Name of initiator group [tantalos-test]:
LUN ID at which initiator group "tantalos-test" sees "/vol/oracle_backup/oracle_backup.lun" [0]:
Do you want to accept this configuration? [y]: y

Vytvoreni lunu (a pripojeni lunu z radky):

lun create -s 800g -t linux -o noreserve /vol/afs/elektra2_a.lun
lun map /vol/afs/elektra2_a.lun elektra2

Mapovani lunu:

lun map /vol/oracle_backup/oracle_backup.lun atreus # namapuji se vsechny stroje

Změna velikosti volume

vol size test_migrace 2t    - na velikost
vol size test_migrace +500g - zvětšení velikosti

Změna velikosti lunu

lun resize /vol/test_migrace/test_migrace.lun 2t     - na velikost
lun resize /vol/test_migrace/test_migrace.lun +500g  - zvětšení velikosti

Zrušení prostoru

Odstranění lunu:

lun show
lun show -m
lun unmap /vol/orfeus/orfeus.lun cico
lun offline /vol/orfeus/orfeus.lun 
lun destroy /vol/orfeus/orfeus.lun

Odstranění volumu:

vol status
vol offline orfeus
vol destroy orfeus

Přesun volume mezi agregáty

Přesun se spustí

vol move start nazev_volume novy_agregat
vol move start test_migrace aggr_p1a_sas2_mirror

Pozastavení přesunu

vol move pause nazev_volume

Obnovení přesunu

vol move resume nazev_volume

Zrušení přesunu

vol move abort nazev_volume

Výpis stavu

vol move status nazev_volume -v
snapmirror status

Zrušení falešně svítícího vykřičníku

Občas se stane, že se rozsvítí oranžový vykřičník a není k tomu žádný důvod, nepříjde ani mail, nikde žádné hlášení. Existuje oficiální postup (včetně dokumentu), jak opět vykřičník vypnout, bohužel spočívá ve vypnutí dané části metroclusteru, pozor tedy na nemirrorované části a připojení k serverům.

halt -s # druhá strana se dostane do takeover

Na service procesoru (SP) můžeme hlavu vzdáleně zapnout a nastartovat:

system power on
system console
boot_ontap

Po startu na druhé straně (provozní část v takeoveru) aktivujeme přepnutí do mirror stavu:

cf status
cf giveback

Použití FlashCache

FlashCache slouží k akceleraci diskových operací. Je v systému buď vypnutá a zapíná se pro jednotlive volumy nebo zapnutá a vypíná se pro volumy. Teď používáme režim, že cache je zapnutá a vypíná se pro jednotline volumy. Výpis stavu:

options flexscale

Výpis využií cache

stats show -p flexscale-access

O FlashCache se stara priority scheduler. Ten se musí zapnout.

priority on

Výpis stavu

fc-p1-a> priority show
Priority scheduler is running.
Priority scheduler system settings:
       io_concurrency: 8
       enabled_components: cache

Zapnutí přímo cache

priority set enabled_components=cache

Volumy mají v defaultu cachce zapnutou, vypne se:

priority set volume jmeno_volume cache=reuse

Zapne se:

priority set volume jmeno_volume cache=keep

Výpis stavu pro volume:

priority show volume -v jmeno_volume

Stav HW komponent systému

Zjištění stav komponent, např. běží-li zdroje, stav větráků, napětí a pod.

Výpis všeho - velké a nepřehledné:

environment status

Výpis stavu hlavy:

environment chassis

Výpis stavu polic:

environment shelf        - všechny
environment shelf 3d     - kanál
environment shelf 3d.25  - kanál.police

Výpis logu polic - dlouhé:

environment shelf_log

Výpis stavu modulů polic - stav a chyby připojení disků:

environment shelf_stats

Výpis stavu napájení polic a disků:

environment shelf_power_status

Odeslání mailu na Autosupport

Po výměně disku (odstranění problémů) chtěli poslat info o stavu. Odešle to na adresy nastavené v konfiguraci.

options autosupport.doit now

Výstupy je také možné nalézt:

fc-p1-b> priv set advanced
fc-p1-b*> ls /vol/vol0/etc/log/autosupport

Stažení (odeslání) souboru

Stažení souboru z NetAppu (např. když chtění poslat na support)

ssh root@147.228.6.10 "rdfile /etc/messages" > /tmp/messages_netapp

Adresáře se dají listovat v advanced modu příkazem ls, v admin modu nefunguje

fc-p1-b> priv set advanced
fc-p1-b*> ls /etc

Odeslání (zápis) souboru je pomocí wrfile. Někdy je třeba soubor pro úpravu stáhnout na lokální stroj, upravit a zapsat zpět.

Neregistrovaný

Hledat

LPS:Disková pole/MetroCluster old

Shrnutí

Základní informace

Hardware

Informace o řadičích

Kapacita

Rozložení v racku

Zapojení diskových polic do portů řadičů a propojení lokalit

Konfigurace úložiště

Agregát

Volume

Propagované diskové prostory

Konfigurace LUN

Konfigurace iGroup

Síťová konektivita

FrontEnd SAN

Základní informace

Zapojení FC portů polí IBM nSeries

LAN konfigurace FC switchů

Propojení switch – ISL

Konfigurační soubory

Základní postupy

Management pole

Cluster a jeho chování

Kontrola stavu clusteru

Manuální přepnutí clusteru (spouští se na řadiči, který zůstane funkční)

Řadič v takeover režimu a přepnutí do konzole partnerského řadiče (virtuální instance) a zpět

Kontrola stavu clusteru – partnerský řadič připraven k návratu funkce

Provedení zpětného překlopení

Scénáře výpadku jednotlivých komponent clusteru

Výpadek řadiče

Výpadek diskových boxů

Výpadek řadiče a jeho lokálních boxů (výpadek napájení v racku) nebo výpadek lokality

Řízené vypnutí jedné strany

Výpadek/výměna disku

Vypnutí systému

Zapnutí systému

Příklady

Zapnutí deduplikace a komprese

Deduplikace

Komprese

Nejčastěji používané příkazy

Zrušení prostoru

Přesun volume mezi agregáty

Zrušení falešně svítícího vykřičníku

Použití FlashCache

Stav HW komponent systému

Odeslání mailu na Autosupport

Stažení (odeslání) souboru

Navigace

Wiki nástroje

Nástroje ke stránkám