Planowanie zorientowane na sieć
LSF może zaplanować i uruchomić zadania IBM Parallel Environment (PE) zgodnie z wymaganiami zadania, wymaganiami IBM Parallel Environment , dostępnością sieci oraz strategiami planowania LSF.
Kolekcja zasobów sieciowych
Aby zaplanować zadanie PE, LSF musi wiedzieć, jakie zasoby sieciowe są dostępne.
- sieci_sieci
Zasób łańcuchowy oparty na hoście, który zawiera identyfikator sieci i liczbę dostępnych w sieci okien sieciowych.
- pnsd
Ustaw wartość Y , jeśli demon zasobów sieciowych PE pnsd odpowie pomyślnie, lub N , jeśli odpowiedź nie jest dostępna. Zadania PE mogą być uruchamiane tylko na hostach z zainstalowanym i uruchomionym produktem pnsd .
lsload -l
HOST_NAME status r15s r1m r15m ut pg io ls it tmp swp mem pnsd
pe_network
hostA ok 1.0 0.1 0.2 10% 0.0 4 12 1 33G 4041M 2208M Y
ID= 1111111,win=256;ID= 2222222,win=256
hostB ok 1.0 0.1 0.2 10% 0.0 4 12 1 33G 4041M 2208M Y
ID= 1111111,win=256;ID= 2222222,win=256
Określanie wymagań dotyczących zasobów sieciowych
Wymagania dotyczące zasobów sieciowych dla zadań PE są określone w parametrze NETWORK_REQ, który można określić na poziomie kolejki w programie lsb.queues lub w profilu aplikacji w programie lsb.applications, a także w komendzie bsub z opcją -network .
Parametr NETWORK_REQ i -network określa protokoły komunikacji sieciowej, typ urządzenia adaptera, który ma być używany do przekazywania komunikatów, trybu systemu komunikacji sieciowej, charakterystyki użycia sieci oraz liczby okien sieciowych (instancji) wymaganych przez zadanie PE.
Parametr network_res_req ma następującą składnię:
[type=sn_all | sn_single] [:protocol=nazwa_protokołu[(numer_protokołu)] [,nazwa_protokołu[(numer_protokołu)]] [:mode=US | IP] [:usage=shared | dedicated] [:instance=pozyty_liczba_całk]
Wartość LSF_PE_NETWORK_NUM musi być zdefiniowana jako wartość niezerowa w lsf.conf , aby LSF rozpoznał opcję -network . Jeśli wartość LSF_PE_NETWORK_NUM nie jest zdefiniowana lub jest ustawiona na 0, wysłanie zadania zostaje odrzucone z komunikatem ostrzegawczym.
Opcja -network przesłania wartość NETWORK_REQ zdefiniowaną w lsb.applications, która nadpisuje wartość zdefiniowaną w lsb.queues.
- kolekty_grupy
- imm_send_buffers
- rcxtblocks
Szczegółowe informacje na temat obsługiwanych opcji wymagań dotyczących zasobów sieciowych znajdują się w publikacji IBM Spectrum LSF command reference i IBM Spectrum LSF configuration reference(Skorowidz konfiguracji produktu IBM Spectrum LSF).
Rezerwacja okna sieciowego
Na hostach z zainstalowanym produktem IBM PE LSF rezerwuje określoną liczbę okien sieci dla zadań zadań. W przypadku zadania z typem type=sn_singleLSF rezerwuje okna z jednej sieci dla każdego zadania. LSF zapewnia, że zarezerwowane okna na różnych hostach są z tej samej sieci, tak aby:
zarezerwowany_przez_zadanie = liczba_protokołu_użytkownika * instancja_num_instancji
Dla zadań z type=sn_all, LSF rezerwuje okna ze wszystkich sieci dla każdego zadania, tak aby:
liczba_protokołu_komunikatów to liczba protokołów komunikacyjnych określonych przez protokoły bsub –network lub NETWORK_REQ (lsb.queues i lsb.applications).
instancja_num_instance to liczba instancji określonych przez instancje w systemie bsub –network lub NETWORK_REQ (lsb.queues i lsb.applications).
Równoważenie obciążenia sieci
System LSF równoważy obciążenie okna sieciowego. Funkcja LSF nie równoważyć obciążenia sieci dla zadań z type=sn_all , ponieważ te zadania żądają okien sieciowych ze wszystkich sieci. Zadania z type=sn_single żądają systemu Windows z sieci tylko z jednej sieci, dlatego LSF wybiera sieć o najniższym obciążeniu, która jest zwykle siecią z większością łącznych dostępnych okien.
Rozruch danych sieciowych
Jeśli w klastrze skonfigurowanych jest wiele sieci, zadanie PE może zażądać przekreślenie sieci przez ustawienie parametru type=sn_all w opcji bsub -network lub parametru NETWORK_REQ w produkcie lsb.queues lub lsb.applications. Narzędzie LSF obsługuje funkcję IBM LoadLeveller striping with minimum networks, która określa, czy dla zadań sn_all brane są pod uwagę węzły, które mają więcej niż połowę ich sieci w stanie GOTOWE. Powoduje to, że co najmniej jedna sieć jest w stanie UP i w stanie READY między dwoma węzłami przypisanymi do zadania.
Network data striping is enabled in LSF for PE jobs with the STRIPING_WITH_MINUMUM_NETWORK parameter in lsb.params, which tells LSF how to select nodes for sn_all jobs when one or more networks are unavailable. Na przykład, jeśli istnieje 8 sieci połączonych z węzłem i STRIPING_WITH_MINUMUM_NETWORK = n, wszystkie 8 sieci musiałoby być w górę i w stanie gotowości do rozważenia tego węzła dla zadań sn_all. Jeśli parametr STRIPING_WITH_MINUMUM_NETWORK = y, węzły z co najmniej 5 sieciami w górę i w stanie GOTOWY będą brane pod uwagę dla zadań sn_all.
W klastrze z 8 sieciami, ze względu na awarię sprzętu, tylko 3 sieci są w porządkuhostA, a 5 sieci jest ok.hostB. Jeśli parametr STRIPING_WITH_MINUMUM_NETWORK = n, zadanie sn_all nie może być uruchomione na żadnym z tych elementówhostAlubhostB. Jeśli zadanie STRIPING_WITH_MINUMUM_NETWORK = y, to zadanie sn_all może być uruchomionehostB, ale nie można go uruchomićhostA.
Zapoznaj się z podręcznikiem IBM Parallel Environment: Operation and Use (SC23-6781-05) i podręcznikiem LoadLeveler Using and Administrowanie (SC23-6792-04), aby uzyskać więcej informacji na temat usuwania danych z zadań PE.
Opcje sieci LSF, zmienne środowiskowe PE, opcje POE
| Opcja sieciowa LSF | PE, zmienna środowiskowa | POE, opcja |
|---|---|---|
| bsub -n | MP_PROCS | -procs |
| bsub -network "protocol=..." | MP_MSG_API | -msg_api |
| bsub -network "type=..." | MP_EUIDEVICE | -euidevice |
| bsub -network "mode=..." | MP_EUILIB | -euilib |
| bsub -network "instance=..." | MP_INSTANCJA | -instances |
| bsub -network "usage=..." | MP_ADAPTER_USE | -adapter_use |