Planowanie zorientowane na sieć

LSF może zaplanować i uruchomić zadania IBM Parallel Environment (PE) zgodnie z wymaganiami zadania, wymaganiami IBM Parallel Environment , dostępnością sieci oraz strategiami planowania LSF.

Kolekcja zasobów sieciowych

Aby zaplanować zadanie PE, LSF musi wiedzieć, jakie zasoby sieciowe są dostępne.

Wartość LSF_PE_NETWORK_NUM musi być zdefiniowana z wartością niezerową w lsf.conf, LSF gromadzi informacje o sieci dla zadań PE. Jeśli wartość LSF_PE_NETWORK_NUM jest ustawiona na wartość większą od zera, tworzone są dwa zasoby łańcuchowe:
sieci_sieci

Zasób łańcuchowy oparty na hoście, który zawiera identyfikator sieci i liczbę dostępnych w sieci okien sieciowych.

pnsd

Ustaw wartość Y , jeśli demon zasobów sieciowych PE pnsd odpowie pomyślnie, lub N , jeśli odpowiedź nie jest dostępna. Zadania PE mogą być uruchamiane tylko na hostach z zainstalowanym i uruchomionym produktem pnsd .

Aby wyświetlić informacje o sieci dla zadań PE, należy użyć programu lsload -l . Na przykład w następującej komendzie lsload wyświetlane są informacje o sieci dlahostAihostB, z których oba mają dostępne 2 sieci. Każda sieć ma 256 okien, a program pnsd reaguje na oba hosty. W takim przypadku wartość LSF_PE_NETWORK_NUM=2 powinna być ustawiona w lsf.conf:
lsload -l
HOST_NAME   status  r15s   r1m  r15m   ut    pg    io  ls    it   tmp   swp   mem   pnsd
pe_network                                 
hostA               ok   1.0   0.1   0.2  10%   0.0     4  12     1   33G 4041M 2208M  Y
ID= 1111111,win=256;ID= 2222222,win=256
hostB               ok   1.0   0.1   0.2  10%   0.0     4  12     1   33G 4041M 2208M  Y
ID= 1111111,win=256;ID= 2222222,win=256

Określanie wymagań dotyczących zasobów sieciowych

Wymagania dotyczące zasobów sieciowych dla zadań PE są określone w parametrze NETWORK_REQ, który można określić na poziomie kolejki w programie lsb.queues lub w profilu aplikacji w programie lsb.applications, a także w komendzie bsub z opcją -network .

Parametr NETWORK_REQ i -network określa protokoły komunikacji sieciowej, typ urządzenia adaptera, który ma być używany do przekazywania komunikatów, trybu systemu komunikacji sieciowej, charakterystyki użycia sieci oraz liczby okien sieciowych (instancji) wymaganych przez zadanie PE.

Parametr network_res_req ma następującą składnię:

[type=sn_all | sn_single] [:protocol=nazwa_protokołu[(numer_protokołu)] [,nazwa_protokołu[(numer_protokołu)]] [:mode=US | IP] [:usage=shared | dedicated] [:instance=pozyty_liczba_całk]

Wartość LSF_PE_NETWORK_NUM musi być zdefiniowana jako wartość niezerowa w lsf.conf , aby LSF rozpoznał opcję -network . Jeśli wartość LSF_PE_NETWORK_NUM nie jest zdefiniowana lub jest ustawiona na 0, wysłanie zadania zostaje odrzucone z komunikatem ostrzegawczym.

Opcja -network przesłania wartość NETWORK_REQ zdefiniowaną w lsb.applications, która nadpisuje wartość zdefiniowaną w lsb.queues.

Następujące opcje pliku komend zadania IBM LoadLeveller nie są obsługiwane w LSF:
  • kolekty_grupy
  • imm_send_buffers
  • rcxtblocks

Szczegółowe informacje na temat obsługiwanych opcji wymagań dotyczących zasobów sieciowych znajdują się w publikacji IBM Spectrum LSF command reference i IBM Spectrum LSF configuration reference(Skorowidz konfiguracji produktu IBM Spectrum LSF).

Rezerwacja okna sieciowego

Na hostach z zainstalowanym produktem IBM PE LSF rezerwuje określoną liczbę okien sieci dla zadań zadań. W przypadku zadania z typem type=sn_singleLSF rezerwuje okna z jednej sieci dla każdego zadania. LSF zapewnia, że zarezerwowane okna na różnych hostach są z tej samej sieci, tak aby:

zarezerwowany_przez_zadanie = liczba_protokołu_użytkownika * instancja_num_instancji

Dla zadań z type=sn_all, LSF rezerwuje okna ze wszystkich sieci dla każdego zadania, tak aby:

reserved_window_per_task_per_network = liczba_protokołu_protokołów * instancja_num_instancji , gdzie:
  • liczba_protokołu_komunikatów to liczba protokołów komunikacyjnych określonych przez protokoły bsub –network lub NETWORK_REQ (lsb.queues i lsb.applications).

  • instancja_num_instance to liczba instancji określonych przez instancje w systemie bsub –network lub NETWORK_REQ (lsb.queues i lsb.applications).

Równoważenie obciążenia sieci

System LSF równoważy obciążenie okna sieciowego. Funkcja LSF nie równoważyć obciążenia sieci dla zadań z type=sn_all , ponieważ te zadania żądają okien sieciowych ze wszystkich sieci. Zadania z type=sn_single żądają systemu Windows z sieci tylko z jednej sieci, dlatego LSF wybiera sieć o najniższym obciążeniu, która jest zwykle siecią z większością łącznych dostępnych okien.

Rozruch danych sieciowych

Jeśli w klastrze skonfigurowanych jest wiele sieci, zadanie PE może zażądać przekreślenie sieci przez ustawienie parametru type=sn_all w opcji bsub -network lub parametru NETWORK_REQ w produkcie lsb.queues lub lsb.applications. Narzędzie LSF obsługuje funkcję IBM LoadLeveller striping with minimum networks, która określa, czy dla zadań sn_all brane są pod uwagę węzły, które mają więcej niż połowę ich sieci w stanie GOTOWE. Powoduje to, że co najmniej jedna sieć jest w stanie UP i w stanie READY między dwoma węzłami przypisanymi do zadania.

Network data striping is enabled in LSF for PE jobs with the STRIPING_WITH_MINUMUM_NETWORK parameter in lsb.params, which tells LSF how to select nodes for sn_all jobs when one or more networks are unavailable. Na przykład, jeśli istnieje 8 sieci połączonych z węzłem i STRIPING_WITH_MINUMUM_NETWORK = n, wszystkie 8 sieci musiałoby być w górę i w stanie gotowości do rozważenia tego węzła dla zadań sn_all. Jeśli parametr STRIPING_WITH_MINUMUM_NETWORK = y, węzły z co najmniej 5 sieciami w górę i w stanie GOTOWY będą brane pod uwagę dla zadań sn_all.

W klastrze z 8 sieciami, ze względu na awarię sprzętu, tylko 3 sieci są w porządkuhostA, a 5 sieci jest ok.hostB. Jeśli parametr STRIPING_WITH_MINUMUM_NETWORK = n, zadanie sn_all nie może być uruchomione na żadnym z tych elementówhostAlubhostB. Jeśli zadanie STRIPING_WITH_MINUMUM_NETWORK = y, to zadanie sn_all może być uruchomionehostB, ale nie można go uruchomićhostA.

Uwaga: Wartość LSF_PE_NETWORK_NUM musi być zdefiniowana z wartością większą niż 0 dla parametru STRIPING_WITH_MINUMUM_NETWORK w celu jej zastosowania.

Zapoznaj się z podręcznikiem IBM Parallel Environment: Operation and Use (SC23-6781-05) i podręcznikiem LoadLeveler Using and Administrowanie (SC23-6792-04), aby uzyskać więcej informacji na temat usuwania danych z zadań PE.

Opcje sieci LSF, zmienne środowiskowe PE, opcje POE

W poniższej tabeli przedstawiono opcje wymagania zasobu sieciowego LSF i odpowiadające im opcje pliku komendy zadania POE o zmiennej środowiskowej PE:
Opcja sieciowa LSF PE, zmienna środowiskowa POE, opcja
bsub -n MP_PROCS -procs
bsub -network "protocol=..." MP_MSG_API -msg_api
bsub -network "type=..." MP_EUIDEVICE -euidevice
bsub -network "mode=..." MP_EUILIB -euilib
bsub -network "instance=..." MP_INSTANCJA -instances
bsub -network "usage=..." MP_ADAPTER_USE -adapter_use