Klusterien käyttäminen suuren mittakaavan tekniseen laskentaan pilvessä

tämä ratkaisu tarjoaa ohjeita laajamittaisen teknisen laskennan suorittamiseen Google Cloudissa. Monet tekniset laskentasovellukset edellyttävät suuria määriä yksittäisiä laskea solmut, kytketty yhteen klusteriin, ja koordinoi laskenta ja tietojen pääsy solmujen.

klusterilaskennan perustana olevat käsitteet ja teknologiat ovat kehittyneet viime vuosikymmeninä, ja ne ovat nyt kypsiä ja valtavirtaisia. Ohjelmistopaketin siirtäminen Google Cloudiin voi lisätä muutamia ryppyjä, mutta tarjoaa myös useita mahdollisuuksia alentaa kustannuksia ja lievittää nykyisiä pullonkauloja nykypäivän korkean suorituskyvyn laskentaympäristöissä. Tämä opas antaa yleiskatsauksen teknologioista, haasteista ja nykyisistä ratkaisuista, joita Google Cloud-pilvipalvelussa käytetään käynnissä oleviin komputationaalisiin klustereihin.

Cluster computing aggregates and coordinates a collection of machines to workgether to solve a task. Klustereissa on yleensä yksi pään solmu (joskus kutsutaan master solmu), joitakin määrä laskea solmuja, ja possiblya muutamia muita erikoisuus solmut. Pään solmu on aivot järjestelmän ja on vastuussa:

  • rekisteröimällä laskea solmut järjestelmään.
  • solmujen seuranta.
  • työpaikkojen jakaminen tiettyihin solmukohtiin.
klusteri koostuu pään solmu ja joukko laskea solmuja.
Kuva 1. Klusteri koostuu pään solmu ja joukko laskea solmuja. Käyttäjät ovat vuorovaikutuksessa pään solmu, joka sitten koordinaatit toimivat laskea solmut.

käyttäjät lähettävät työtehtäviä, jotka koostuvat monista tehtävistä, joissa tehtävä on työn perusyksikkö. Jotkin sovellukset vaativat kaikkien tehtävien suorittamista samanaikaisesti ja antavat tehtävien kommunikoida rinnakkaisen algoritmin toteuttamiseksi; joissakin työpaikoissa on monimutkainen tehtäväriippuvuuksien joukko niin, että tietyt tehtävät on suoritettava ennen muita; ja jotkut tehtävät saattavat vaatia tiettyjä nodeconfigurations muistin, suorittimien tai muun tietyn laitteiston, jolla suorittaa. Tehtävät ovat suoritettavia tiedostoja, jotka lukevat syötetietoja tallennustilasta, käsittelevät tiedot tuloksen tuottamiseksi ja kirjoittavat lopulliset tulokset takaisin tallennustilaan.

klusterilaskennan työkuormia on kahta päätyyppiä:

  • High-performance computing (HPC) – tietotekniikka, joka käyttää useitatyöntekijä solmuja, tiiviisti kytkettynä, ja suoritetaan samanaikaisesti suorittaa atask. Nämä koneet tarvitsevat tyypillisesti alhaisen verkon latenssin kommunikoidakseen tehokkaasti. Esimerkiksi sovellukset tässä tilassa ovat sää mallinnus, laskennallinen fluid dynamics (CFD), stressi mallinnus engineering, andelectronics design.

  • korkean suoritustehon laskenta (HTC) – tietotekniikka, jossa appshave useita tehtäviä, jotka käsitellään toisistaan riippumatta ilman tarvetta yksittäisten laskea solmut kommunikoida. Joskus näitä työmääriä kutsutaan kiusallisen rinnakkaisiksi tai erätyömääriksi. Typicalexamples ovat media renderöinti, transkoodaus, genomiikka, andparticle-physics-event simulation and processing. Jos haluat käsitellä paljon yksittäisiä tiedostoja, se on luultavasti HTC työmäärä.

Cluster computing software pino

cluster computing software pino koostuu:

  • järjestelmähallintaohjelmisto, joka tarjoaa ja rakentaa klustereita.
  • Aikatauluttajat, jotka järjestävät työn suorittamisen.
  • loppukäyttäjän Sovellukset.

seuraavissa jaksoissa käsitellään järjestelmähallintaohjelmistoja ja aikatauluja.

Järjestelmähallintaohjelmisto

ryhmittelyohjelmistoa voi käyttää joko suoraan paljasmetallilaitteistossa, tiloissa olevien klustereiden kanssa tai virtualisoiduissa ympäristöissä, kuten pilviympäristöissä. Orkestrointi useita solmuja klusterissa käsin on aikapainotteista ja virhealtista. Voit käyttää erikoistunutta klusterinhallintaohjelmaa tarjotaksesi ja määrittääksesi useita solmuja ja resursseja yhdessä, arepeatable and deterministic way.

Zürichin yliopiston open sourceElastiCluster-ohjelmisto tarjoaa pilvipalvelunomaisen lähestymistavan Lusterin hallintaan, tukemalla solmujen varaamista, käyttämällä tietokonemoottoria ja määrittämällä solmut käyttämällä Ansibleplaykirjoja. ElastiCluster-määräykset solmivat ja asentavat perusohjelmiston, mukaan lukien NFS tiedostojen tarjoamiseen, NIS-käyttäjätilien hallintaan ja työaikataulu käyttäjäsovellusten suorittamiseen. ElastiCluster tukee erilaisia ohjelmoijia, ja voit käyttää sitä kättelyssä tai muokata sitä pienten ja keskisuurten joukkueiden tarpeisiin.

jos käytät muita konfiguraationhallintajärjestelmiä HPC-klusteriesi hallintaan, kuten Chef, Puppet tai Terraform, voit hyödyntää näitä investointeja siirtyessäsi Google Cloudiin käytettävissä olevien työkalujen ja liitännäisten avulla.

Google Cloud tarjoaa natiivipalveluita monisolmujärjestelmien tarjoamiseen ja käyttöönottoon. Cloud Deployment Manager voit provisiona joukko pilvi resursseja kuten laskea Moottori, laskea Enginemanaged instance ryhmät, ja pilvi varastointi. TheHTCondor opetusohjelma näyttää, miten voit käyttää Cloud Deployment Manager ja hallittu instanssi ryhmät toprovision ja määrittää klusterin.

työaikataulut

kun klusteri on toiminnassa, ohjelmaa, joka hallinnoi tehtävien suoritusta ja solmujen jakamista, kutsutaan työnaikatauluksi (joskus kutsutaan workloadmanageriksi tai jononhallinnaksi). Usein klusterijohtajan mukana tulee sisäänrakennettu työaikataulu. Työaikataulut tarjoavat erilaisia ominaisuuksia, jotka auttavat hallitsemaan töitä ja tehtäviä, kuten:

  • käyttäjät ja ryhmät tukevat työn painopisteitä, mikä auttaa poliittiseen aikataulutukseen.
  • tuki epäonnistuneille tehtäville jonottamalla ja järjestelemällä tehtäviä uudelleen.
  • tehtävien riippuvuuksien ja resurssitarpeiden huomioon ottaminen tehtävänjaossa.
  • klusterin kokoa skaalataan jonossa olevien työpaikkojen määrän mukaan.

on olemassa erilaisia suosittuja kaupallisia ja avoimen lähdekoodin työmääräjohtajia.Esimerkkejä ovat Wisconsinin yliopiston Slurm,SchedMD: n Slurm,UNIVA Grid Engine ja IBM: n LSF Symphony. Jokaisella on omat vahvuutensa.

HTCondor on rakennettu ei-mitään-periaatteella, ja sitä käytetään yhteisten resurssien kautta ajoittamaan työt opportunistisesti muutoin tyhjäkäyntilähteille. Se tarjoaa oman tiedon liikkeen ja siksi, ei vaadi sharedfile järjestelmiä. Tämän seurauksena HTCondor skaalautuu satoihintuhansiin ytimiin ja voit käyttää sitä useilla alueilla ja alueilla. Htcondoria on käytetty hybridisiin työkuormiin, joissa työ jaetaan tai jaetaan tilojen ja Cloud-pohjaisten järjestelmien kesken. Kuten sen nimestäkin käy ilmi, se keskittyy kuitenkin suuriin suoritustehtäviin, ei tiukasti toisiinsa kytkettyihin rinnakkaisiin työpaikkoihin.

Slurm ja Univa Grid Engine tarjoavat perinteisemmän HPC-klusteriympäristön,joka tukee sekä suuritehoisia että suorituskykyisiä rinnakkaissovelluksia. Ne olettavat jaetun tiedostojärjestelmän solmujen yli, mikä poistaa tarpeen siirtää tietoja. Molemmat tarjoavat kätevän ja tutun käyttöympäristön kehittäville sovelluksille, koska ne ovat usein samoja työkaluja, joita käytetään tiloissa.Nämä perinteiset työn aikataulut ovat riittäviä pienille ja keskisuurille klustereille,mutta klusterin koon kasvaessa tiedostopalvelimen kuormituksesta tulee thebottleneck suorituskykyä varten. Rinnakkaiset ja hajautetut tiedostojärjestelmät (katso seuraava jakso) voivat auttaa tämän ongelman kanssa, kun se on suuressa mittakaavassa. Vaihtoehtoisesti, jos alhainen latenssi fileaccess ei tarvita, voit hyödyntää pilvi varastointi, joka tarjoaaparallel objektin pääsy käyttämällä API tai kautta gcsfuse, joseposix Yhteensopivuus vaaditaan.

lopuksi Google Cloud sisältää yksinkertaisen palvelun aDocker – pohjaisen tehtävän ajoittamiseen suurtehoisille työkuormille tarkoitetulla Laskentamoottorilla: theCloud Life SciencesPipelines API.Tämä palvelu vaatii sinua hajottamaan työn tehtäviksi, hallitsemaan riippuvuuksia eri tehtävien välillä ja hallitsemaan tehtävän elinkaarta. Thedsub open source project tarjoaa komentorivityökalun erätöiden käynnistämiseen ja tukee Cloud Life Sciences Pipelines API: a.

varastointi

useimmat HPC-sovellukset vaativat POSIX API: ta tukevan tallennusratkaisun. Pienemmille klustereille FileStore tarjoaa Googlen hallinnoiman NFS-pohjaisen tiedostojen tallennuspalvelun. Suuremmille klustereille sovellus I / O voi kuitenkin muodostua suorituskyvyn pullonkaulaksi.Scale-out ja rinnakkaiset tiedostojärjestelmät, kuten elastifile (Googlen hankkima),Lustre,orQuobyte,auttavat skaalaamaan suuriin klustereihin (tai jopa I/O-raskaisiin pienempiin klustereihin).

Vaihtoehtoisesti, jos matalan latenssin tiedostoyhteyttä ei tarvita, voit hyödyntää pilvitallennusta, joka tarjoaa rinnakkaisen objektin käytön API: n tai gcsfusen kautta,jossa vaaditaan POSIX-yhteensopivuutta.

mahdollisuudet cluster computing pilvessä

on monia syitä suorittaa Cluster computing pilvessä:

  • ratkaisun aika. Tuotantolaatuisen klusterin käynnistäminen pilvessä kestää vain muutaman minuutin, pienestä 10 solmun klusterista, jossa on satoja saatavilla olevia ytimiä, suuriin klustereihin, joissa on satatuhatta tai morecoresia. Sitä vastoin uusien klustereiden rakentaminen toimitiloihin voi kestää kuukausia. Jopa silloin, kun klustereita on saatavilla paikan päällä, niiden käyttöaste on yleensä korkea ja jonotusajat ovat pitkiä —joskus tunteja tai päiviä — ennen kuin työt on suunniteltu suoritettaviksi. Sen sijaan pilveen voi rakentaa omia klustereita, käyttää niitä työmääriinsä ja lopettaa klusterit, kun analyysi on valmis.

  • pienemmät kokonaiskustannukset omistuksesta. Google Cloud ei ainoastaan vähennä timeto-ratkaisua,vaan se voi myös pienentää käyttökustannuksia hyödyntämällä ennakoitavia VMs-järjestelmiä, pitkäaikaiskäytön alennuksia ja dynaamista skaalausta. Voit lisätä solmuja, kun työpaikkoja on jonossa, ja poistaa ne, kun niitä ei tarvita.

  • tuki yhteistyölle. Monissa tilanteissa laskentaanalyysia kehitetään yhteistyössä eri ihmisten kanssa moniorganisaatioissa. Google Cloud tarjoaa projektitasoisia tunnistettavuus-ja käyttöoikeuksien hallintatyökaluja, jotka mahdollistavat hallitun pääsyn tietoihin ja analyyttisiin työkaluihin. Valtuutetut käyttäjät voivat käyttää samoja sovelluksia, tietoja ja klustereita varmistaakseen, että kaikki ovat samalla sivulla ilman tietojen kopioimista, versioiden hallintaa tai synccluster-kokoonpanoja.

  • tehtävä-räätälöityjä resursseja. Koska työn hinta riippuu vain ydintuntien kokonaistunneista eikä lukumääräilmaisuista, klusterien pyörittäminen pilvessä mahdollistaa jokaiselle ryhmälle tai ryhmälle Oman klusterin. Tämä lähestymistapa voi lievittää toista suurta kipupistettä kehitettäessä politiikkaa usean ryhmän käytön ympärille. Voit sitten muokata kunkin omistettu pilvi klusterin virittää sen kohdesovellus. Paikan päällä toteutettavat klusterit koostuvat yleensä yhden koon resursseista, jotka jaetaan eri ryhmien ja sovellusten kesken. Tällaisessa ympäristössä ryhmien välistä jakamista koskevat käytännöt ovat yleensä monimutkaisia perustaa ja ylläpitää.

  • integraatio. Ennen kuin he voivat suorittaa suuria laskenta työpaikkoja, tutkijat dosignificant työtä valmistella aineistoja. Pilveen siirtymisen jälkeen nämä tutkijat voivat hyödyntää pilvessä olevia big data-työkaluja. Myös laskentajärjestelmien outteet on analysoitava. Asbigery-ja Datab-työkalut voivat tarjota merkittäviä etuja verrattuna toimitiloissa käytettävissä oleviin järjestelmiin.

tyypillisiä paikan päällä olevia klustereita jaetaan käyttäjien ja ryhmien kesken ja ne tukevat monia erilaisia sovellustarpeita.
kuva 2.Tyypillisiä paikan päällä olevia klustereita jaetaan käyttäjien ja ryhmien kesken ja ne tukevat monia erilaisia sovellustarpeita. Sen sijaan Google Cloudiin siirryttäessä käyttäjät voivat muokata klusterin ominaisuuksia vastaamaan sovelluksen tarpeita kustannusten vähentämiseksi ja suorituskyvyn lisäämiseksi.

arkkitehtoniset näkökohdat

vaikka tähän mennessä kuvatut edut ovat vakuuttavia, on kuitenkin olemassa joitakin teknisiä haasteita, jotka usein vaikeuttavat muuttohankkeita.

  • Tiedonsiirto. Klusterin computenodien käsittelemät tietojoukot on tyypillisesti laitettava pilveen ennen töiden suorittamista.Tiedon liikkeen hallinta voi olla monimutkaista riippuen tiedon määrästä ja siitä, miten sitä hallitaan. Asaveren kaltaiset työkalut voivat auttaa tarjoamalla pilvikätköilykerroksen, joka siirtää dataa automaattisesti tarpeen mukaan, mutta monissa sovelluksissa tietokokonaisuudet on järjestettävä manuaalisesti.

  • Pääsy Tietoihin. Monet HPC-sovellukset vaativat jaetun pääsyn tiedostoihin ja hakemistoihin. Se, miten tämä käyttöoikeus tarjotaan, voi vaikuttaa merkittävästi sovelluksen suorituskykyyn. Voit hyödyntää jaettuja tallennettuja tietoja myös tallennettaessa, NFS-palvelimissa, kuten filestoressa, tai käyttämällä rinnakkaisia tiedostojärjestelmiä, kuten storage-osiossa on mainittu.

  • vartijat. Arkaluonteisten tietojen osalta sinun on huolehdittava siitä, että pääsy tietoihin on aina sallittua ja että tiedot salataan asianmukaisesti restissä ja kuljetuksen aikana. Vaikka pilvitallennus salaa tietoja levossa ja kauttakulussa, voit käyttää ylimääräistä hallintakerrosta ja hallita avaimia joko inCloud Key Management Service-palvelussa tai yksin. Avaimet on haettava tai asennettava computenodes ennen käynnissä työ.

  • solmujen välinen latenssi. Tiiviisti kytketyissä HPC-sovelluksissa suoritus voi olla herkkä klusterin solmujen väliselle latenssille.Koska Google Cloud tarjoaa solmuja, joiden koot ovat jopa 64 ydintä, voit käyttää 64-suuntaisia rinnakkaistöitä kulkematta solmujen läpi. Useimmissa tapauksissa noin 1000 ydintä tai pienempää työtä tehdään kohtuullisen hyvin ei-erikoistuneilla verkkolaitteilla.

  • ohjelmistolisenssien hallinta. Monet kaupalliset sovellukset vaativat alicense-palvelimen, jota joskus kutsutaan avainpalvelimeksi. Jotkin sovellukset tulevat sisäänrakennetun tai suositellun lisenssipalvelimen kanssa, ja toiset saattavat olla yhteensopivia olemassa olevien lisenssipalvelintarjousten kanssa. Jotkut työaikataulut voivat auttaa lisensoinnin hallinnoinnissa ja pysäyttää työt, kunnes lisenssi on saatavilla.

suositellut arkkitehtuurit ja parhaat käytännöt

tekninen laskenta tarjoaa monia työkaluja ja lähestymistapoja erilaisiin olosuhteisiin. Niin monia vaihtoehtoja, saatat löytää vaikea päästä alkuun.Riippumatta klusterin hallintaohjelmiston ja aikataulun valinnasta, on olemassa useita parhaita käytäntöjä, joita voit seurata, kun käytät Google Cloudia.

  • vipuvaikutus ennen lunastuskelpoista VMs-järjestelmää aina kun mahdollista. Preemptible VMs ovat aivan likeregular VMs Laskentamoottorissa, mutta hinnoiteltu jopa 80% vähemmän kuin Regular VMs, mutta ne voidaan lunastaa pienellä varoitusajalla.Suuren suoritustehon työkuormissa työaikataulusi havaitsevat solmun menetyksen ja käsittelevät sitä solmun epäonnistumisena ja järjestävät uudelleen kaikki tehtävät, jotka ovat käynnissä kyseisellä solmulla eri resurssissa. Vaikka kaikki työ tehty niille menetetty nodesmight menetetään, todennäköisyys solmun menetys on riittävän alhainen, että lowerhinta on vaivan arvoinen mahdollisuus. Odotettavissa on 5-15 prosentin tappio. PreemptibleVMs on rajoitettu enintään 24 tuntia käyttöä ennen talteenottoa.
  • Hyödynnä pilvitallennuksen kustannukset ja kaistanleveys Oman rinnakkaisen tiedostojärjestelmän käynnistämisen sijaan. Pilvitallennus tarjoaa vahvan johdonmukaisuuden ja skaalautuvan rinnakkaisen suorituskyvyn alhaisilla kokonaiskustannuksilla.Vaikka ensimmäisen tavun latenssi on korkea noin 100 ms, sovellukset, jotka voivat käyttää pilvitallennusta rinnakkaisen tiedostopalvelimen tietokonemoottorin sijaan, ovat kustannustehokkaampia. Käytettävissä olevat kaistanleveydet pilvitallennuksen ja laskusolmujen välillä riittävät monelle sovellukselle, jotkut asiakkaat ovat raportoineet jatkuvasta kokonaiskaistanleveydestä yli 23 GB/s.
  • Rakenna yhden sovelluksen tai yhden ryhmän klusteri. Perinteiset klusterit jakautuvat useisiin käyttäjiin, ryhmiin ja sovelluksiin, mikä voi johtaa pitkiin jonoaikoihin työpaikoille ja sovellusten tehottomaan resurssien käyttöön. Ongoogle Cloud, harkitse useiden klusterien luomista kullekin ryhmälle tai projektille ja käytä klustereita, jotka on optimoitu tietyille sovelluksille, jotka käyttävät niitä. Olitpa ajaa yhden klusterin kaksi tuntia, tai kaksi klustereita onehour kukin, kokonaiskustannukset ovat samat, mutta jälkimmäinen malli voi vähentääequeue-odotusajat, ja parantaa sovelluksen suorituskykyä.

vaikka jokainen täytäntöönpano on yksilöllistä, seuraavissa jaksoissa annetaan joitakin yleisiä suosituksia kolmea yleistä tapausta varten.

Itsenäinen tutkija, joka haluaa käsitellä tietojaan

yksittäiset tutkijat pyrkivät tyypillisesti ajamaan sovelluksensa datansa läpi ja valmistumaan mahdollisimman nopeasti. He voivat olla asiantuntijoita irappissa, mutta he eivät halua olla asiantuntijoita klusterin hallinnossa tai hallinnossa.

jos suoritat suuren suoritustehon työkuormia, voit harkita theCloud Life SciencesPipelines API: n käyttöä.Putkilinjojen API edellyttää, että laitat sovelluksen Docker containeriin ja laitat syötetiedostot Pilvitallennusämpylään. Sen jälkeen isdone, voit käyttää gcloud komentorivi työkalu käynnistää sovelluksen uudelleen steach tiedostot Pilvitallennusämpylän. Voit sijoittaa tulokset toiseen Pilvitallennusämpylään.

tässä on esimerkki komennosta suorittaa tehtävä, jonka avulla amtools luo BAM-indeksitiedoston syötetystä BAM-tiedostosta:

gcloud alpha genomics pipelines run --pipeline_id \--logging gs:///logs \--inputs inputFile=gs://genomics-public-data/gatk-examples/example1/NA12878_chr22.bam \--outputs outputFile=gs:////output/NA12878_chr22.bam.bai

jossa

  • edustaa sovelluksesi tunnusta putkilinjojen API: ssa.
  • edustaa Pilvitallennuskauhasi nimeä.
  • edustaa hakemistosi nimeä.

ei ole klusteria, jota tarjota tai hoitaa. Tehtävät suoritetaan yksinkertaisesti loppuun asti VM: ssä, joka on Provisioitu ja jota hallinnoi putkilinjojen API. Tämä onkustannustehokas, koska laskea Moottorin laskut sekunnissa käytön.

pienet ja keskisuuret klusterit yksittäistä projektia tai tiimiä varten

projektissa tai tiimissä jäsenillä voi olla pääsy klusteriin, jota keskitetty tiimi ylläpitää koko yrityksensä käyttäjille, tai heillä voi olla pääsy suuriin resursseihin muualla kuin toimipaikassa sijaitsevassa HPC-keskuksessa. Molemmissa tilanteissa, theclusters ovat ammattimaisesti hallitaan ja käytetään vakiotyökaluja. Esimerkiksi käyttäjät voivat käyttää ssh: ää yhteyden muodostamiseen päänsolmuun ja käyttää Grid Enginesubmit – skriptejä lähettääkseen työt suoritettaviksi.

tällaisen ryhmän yhtenä lähestymistapana on käyttää Elasticlusteria määrittelemään klusteriympäristö, joka on samanlainen kuin heidän tilajärjestelmänsä. He voivat muokata thecluster valitsemalla Laskentamoottorin konetyypin, joka sopii parhaiten sovellukselleen, ja muokata käynnistyskomentosarjoja asentamaan sovelluksensa softwaredependencies. Syötetietoja voidaan edelleen vaiheistaa tallennustilan lataamiseksi, ja voit asentaagcsfuse laskentasolmuihin syöttötiedon asentamiseksi.

nämä tiedot tallennetaan ElastiCluster-asetustiedostoon, ja kun komputointia tarvitaan, klusteri tuodaan esiin komentorivityökalulla, esim.:

% elasticluster start astrocluster1

klusteri, jonka nimi asetustiedostossa on astrocluster1, on säädetty ja määritetty määritellyllä tavalla. Määritystiedoston määritelmät ovat joustavia ja tukevat erilaisia solmutyyppejä pään ja laskea solmut,laskea Moottorin säilyviä levyjä tyhjästä tilaa, preemptible VMs alentaa kustannuksia highthroughput työkuormat, ja GPU nopeutettua toimintaa. Esimerkki slurm-pohjaisen klusterin peruskonfiguraatiosta, jossa on 10 laskentasolmua ja 1 pään nodeusing 32-ytimiset Centoihin perustuvat virtuaalikoneet näyttäisivät seuraavilta:

 cloud=google login=google setup=ansible-slurm security_group=default image_id=centos-7-v20170327 flavor=n1-standard-32 frontend_nodes=1 compute_nodes=10 ssh_to=frontend boot_disk_size=50 

kun järjestelmässä ei enää ole töitä, klusterin voi pysäyttää:

% elasticluster stop astrocluster1

suuremmille työmäärille voit:

  • pyri muokkaamaan cluster-konetyyppejä kustannusten vähentämiseksi entisestään.
  • lisää ulkoinen rinnakkaistiedosto suorituskyvyn lisäämiseksi mittakaavassa.
  • Lisää automaattinen skaalausominaisuudet lisätäksesi ja poistaaksesi lisää solmuja queue-syvyyden perusteella.

HPC-keskus lisäämällä purskekapasiteettia olemassa oleviin klustereihin

HPC-keskuksilla on valtava laskentakapasiteetti, mutta koska niitä käyttävät monet ryhmät eri puolilla yritystä tai organisaatiota, HPC-keskuksilla on yleensä jatkuvasti korkea käyttöaste ja pitkät jonotusajat. Ne hankitaan yleensä tiettyä tuotantokapasiteettia silmällä pitäen, ja kun valikoimaan tulee ennakoimattomia työmääriä, ne voivat hidastaa kehitystä merkittävästi.

näissä tilanteissa Google Cloud-ympäristöön voi rynnätä laskemalla solmut väliaikaisesti klusteriin. Klusteri tulee hybridi, jossa pään solmu ja jotkut laskea solmut käynnissä tiloissa, ja muut computenodes käynnissä Google Cloud. Kun työjonot on tyhjennetty, voidaan uusia solmuja vapauttaa.

pilveen Purskahtaminen on kätevää paristakin syystä:

  • se ylläpitää yhtenäistä käyttäjäympäristöä työnhakuun ja työnjohtoon. Käyttäjät eivät tiedä tai välitä, jos uusia solmuja lisätään.
  • sen avulla tietohallintojohtajat voivat määritellä toimintalinjat, milloin ne puretaan, kustannusten hallitsemiseksi.

suurin haaste on yhdenmukaisen tietojen ja tiedostojen nimiavaruuden tarjoaminen käyttäjille toimitiloissa ja Google Cloud-solmukohdissa. TheGoogle Cloud-solmuilla ei välttämättä ole pääsyä samoihin sisäisiin tiedostojärjestelmiin kuin paikan päällä olevilla solmuilla. Tässä tilanteessa työpaikat, joissa viitataan näihin tiedostoihin, eivät toimi.

jos Google Cloud-solmut on määritetty sisäisillä tiedostoyhteyksillä, työt suoritetaan, mutta ne eivät välttämättä toimi samalla tavalla ja ne voivat luoda lisää verkkolaajuutta ja uloskäyntimaksuja. Lisäksi rinnakkaistyöt, jotka on jaettu toimitiloihin ja pilvisolmuihin, eivät välttämättä myöskään toimi hyvin, kun sovelluksen eri osien välille on lisätty latenssi.

suuren suoritustehon työpaikoissa Htcondorin avulla purskahdetaan pilviresursseihin ja sivuutetaan monet näistä haasteista. HTCondor tukee dynaamista provisioning usingGlideInWMS.Kun työt lähetetään a-työpaikkajonoon, ne voivat käynnistää klusteriin suunniteltuja ja lisättäviä solmuja. Kun ne lisätään, condor Scheduler siirtää syötetiedostot nimettyyn solmuun ja käyttää näitä ylimääräisiä nodeja tehtävien suorittamiseen ja jonon tyhjentämiseen.

Lue lisää cluster Computingin käyttötapauksista Google Cloudista:

  • Google Cloud, HEPCloud, and probing the nature of nature
  • 220,000 cores and counting: MIT math professor breaks record for largestever Compute Engine job

Lue lisää:

  • tiedostopalvelimet Laskentamoottorilla
  • Cloud Deployment Manager documentation

aloita klusteri:

  • eräkäsittely Laskentamoottorilla Autoscaler
  • htcondor-klusterin luominen Cloud Deployment Manager-malleilla

esimerkkiprojektit GitHubilla:

  • dsub esimerkki: yksinkertaiset erätyöt telakalla
  • ElastiCluster example
  • putkilinjat API examples

  • kokeile muita Google Cloudin ominaisuuksia itse. Vilkaise sanojamme.

Vastaa

Sähköpostiosoitettasi ei julkaista.