Évek óta a történeteadatközpontaz energiafogyasztás kiszámítható ívet követett. A digitalizáció természetesen nőtt, de a jobb szerverek, a virtualizáció és a felhőkonszolidáció eredményeként a teljes villamosenergia-felhasználás meglepően változatlan maradt. Az adatközpontok globális energiaigénye a teljes villamosenergia-fogyasztás 1 százaléka körül mozgott – nagyjából évi 200 terawattóra – egy évtized nagyobb részében.
Ez a korszak véget ér.
A generatív mesterséges intelligencia, a kriptovaluta bányászat, az éles számítástechnika konvergenciája és a csatlakoztatott eszközök exponenciális növekedése megtörte a régi hatékonysági görbét. Iparági becslések szerint az adatközpontok energiaigénye a 2000-es évek eleje óta nem látott éves ütemben nő. Egyes régiókban – Írország, Észak-Virginia, Szingapúr – az adatközpontok már a teljes villamosenergia-fogyasztás 15-25 százalékát adják, így a szabályozó hatóságok moratóriumot szabnak ki az új építkezésekre.
Ebben az összefüggésben az egykor technikai részleteknek tűnő infrastruktúra-választások – hűtési architektúra, áramelosztási topológia, állványsűrűség tervezése – tanácstermi döntésekké váltak. Az energiaköltség már nem egy sor. Ez a növekedés korlátja.
A Power Usage Effectiveness vagy a PUE közel két évtizede az adatközponti iparág standard hatékonysági mutatója. Ez egy egyszerű arány: a létesítmény teljes teljesítménye osztva az informatikai berendezések teljesítményével.
A 2.0-s PUE azt jelenti, hogy a szerverek és a tárolók tápellátását biztosító minden watt után további watt jut hűtésre, világításra, energiaátalakítási veszteségekre és egyéb rezsire. Az 1,2-es PUE azt jelenti, hogy a rezsi csak 0,2 wattot fogyaszt IT wattonként.
Az iparágban széles körben elfogadott szintek vannak a PUE alapján:
| Szint | PUE | DCiE | Mit jelent |
|---|---|---|---|
| Platina | <1.25 | >0,80 | Világszínvonalú hatékonyság, jellemzően szabad hűtést vagy folyadékhűtést igényel |
| Arany | 1,25 – 1,43 | 0,70 – 0,80 | Nagyon hatékony, modern kialakítással mérsékelt éghajlaton is elérhető |
| Ezüst | 1,43 – 1,67 | 0,60 – 0,70 | Elfogadható régebbi létesítményekhez vagy melegebb éghajlathoz |
| Bronz | 1,67 – 2,00 | 0,50 – 0,60 | Jellemző a régebbi adatközpontokra, amelyek nincsenek jelentősebb utólagos átalakítások nélkül |
| Igazságos | 2.00 – 2.50 | 0,40 – 0,50 | Rossz hatásfok, magas üzemeltetési költség |
| Szegény | >2,50 | <0,40 | Kritikus hatástalanság, valószínűleg azonnali beavatkozást igényel |
A probléma az, hogy sok szervezet valójában nem ismeri a PUE-ját. Becslik. Kitalálják. Vagy csak a fő közüzemi mérőnél mérnek, a többit pedig vállalják.
Egy 2023-as iparági felmérés kimutatta, hogy az adatközpontok üzemeltetőinek csaknem 40 százaléka soha nem mért PUE-t rack-szinten. Azok között, akik ezt megtették, a bejelentett és a tényleges PUE közötti különbség átlagosan 0,3 pont volt – ez elég ahhoz, hogy egy létesítményt aranyból ezüstbe költözzön anélkül, hogy bárki észrevenné.
Annak megértése, hogy a PUE miért változik olyan széles körben, először annak megvizsgálásával kezdődik, hogy hol hagyja el az áramellátást az adatközpontban.
Egy tipikus, 1,8 körüli PUE-értékkel rendelkező léghűtéses létesítményben a bontás nagyjából így néz ki:
A hűtési terhelés a legnagyobb változó. Egy mérsékelt éghajlatú létesítmény, amely külső levegőt használ szabad hűtésre, előfordulhat, hogy nem informatikai energiájának csak 15 százalékát fordítja hűtésre. Ugyanaz a létesítmény trópusi éghajlaton, egész évben mechanikus hűtéssel 40 százalékot költhet.
Ez az oka annak, hogy a helymegosztási szolgáltatók a PUE-t a létesítmény szintjén hirdetik, de a PUE-t az ügyfélmérőn szállítják – eltérő számok, eltérő következmények. Az ügyfél fizet mindent.
A hagyományos adatközpont-kezelés viszonylag statikus környezetet feltételez. Az állványokat hónapok vagy évek alatt töltötték meg. A hűtés lassan állítható. Az áramelosztás az első naptól kezdve túlméretezett volt.
A felhőkorszak megváltoztatta a feltételezéseket. Az állványok már napok alatt megtelnek. A munkaterhelések automatikusan áthelyeződnek a szerverek között. A nagy sűrűségű mesterséges intelligencia-fürtök háromszor annyi energiát fogyaszthatnak, mint a szomszédos általános célú számítási rackek.
Ezek a változások az infrastruktúra-gazdálkodás újragondolását kényszerítették. Három trend tűnik ki.
Először is, a sűrűség egyenetlenül növekszik.Egy évtizeddel ezelőtti szabványos szerverállvány 5-8 kilowatttot fogyasztott. Ma az általános célú állványok 10-15 kilowatttot fogyasztanak. A nagy teljesítményű számítástechnikai és mesterséges intelligencia oktató állványok rackenkénti teljesítménye rutinszerűen meghaladja a 30 kilowatttot. Némelyikük meghaladja az 50 kilowatttot.
Ez olyan hőkezelési kihívásokat okoz, amelyeket a léghűtés nehezen tud megoldani. Állványonként 20 kilowattnál a léghűtés hatékony marad megfelelő elszigetelés mellett. 30 kilowattnál marginálissá válik. 40 kilowatt felett a folyadékhűtés opcionálisról szükségesre vált.
Másodszor, a kapacitástervezés előrejelzővé vált.A régi módszer – vásároljon a szükségesnél több kapacitást, és hagyja tétlenül állni – már nem működik nagy méretekben. Az üresjárati kapacitásnak tőkeköltsége és folyamatos karbantartási költsége is van.
A modern infrastruktúra-felügyeleti rendszerek előzményadatokat és munkaterhelés-előrejelzést használnak annak előrejelzésére, hogy mikor fog elfogyni az áramellátás, a hűtés vagy az állványterület. A legjobb rendszerek napokkal vagy hetekkel a korlát kritikussá válása előtt javasolhatják a meglévő kapacitás újrakonfigurálását vagy új hardver rendelését.
Harmadszor, a láthatósági követelmények plpancsolt.Egy hagyományos adatközpont nyomon követheti a teljesítményt PDU szinten. Egy modern létesítménynek láthatóságra van szüksége a rack szintjén, néha a szerver szintjén, és egyre inkább a munkaterhelés szintjén – tudni, hogy melyik virtuális gép vagy konténer milyen áramot vesz fel.
Adatközpont infrastruktúraA menedzsment (DCIM) szoftver több mint egy évtizede létezik, de az elfogadás továbbra is egyenlőtlen. A vállalati adatközpontok kevesebb mint fele telepített teljes DCIM-rendszert. Sokan csak a képességeik töredékét használták ki.
Egy megfelelően megvalósított DCIM rendszer négy dolgot tesz:
Vagyonkezelés.Minden szervert, kapcsolót, PDU-t és hűtőegységet egy konfigurációkezelési adatbázis (CMDB) követ. Hely, teljesítmény, hálózati kapcsolatok, karbantartási előzmények – minden. Ez alapvetően hangzik, de sok szervezet továbbra is táblázatokban követi nyomon az eszközöket, amelyek frissítései között hónapok telnek el.
Valós idejű megfigyelés.Áramfelvétel a PDU vagy rack szintjén, hőmérséklet és páratartalom a betáplálási és visszatérési pontokon, a hűtőrendszer állapota, az UPS akkumulátorának állapota. Riasztások aktiválódnak, ha a paraméterek eltérnek az alapjeltől. A cél a problémák észlelése, mielőtt azok leállást okoznának.
Kapacitás tervezés.A rendszer tudja, hogy mennyi áram- és hűtési kapacitás áll rendelkezésre, mennyi van használatban, és mennyi van lefoglalva a jövőbeni telepítésre. Modellezheti egy új, nagy sűrűségű rack hozzáadásának vagy egy régebbi kiszolgáló visszavonásának hatását.
Megjelenítés.Az adatközpont digitális ikerpárja – állványonként, csempénként – mutatja az aktuális állapotokat, és lehetővé teszi a kezelők számára a változások szimulálását. 10 kilowatt terhelés hozzáadása a harmadik sor negyedik oszlopához: ez meghaladja a hűtőteljesítményt? A rendszer válaszol, mielőtt bárki áthelyezné a berendezést.
Az adatközpontok energiafogyasztásának csökkentése nem rejtélyes. A módszerek jól ismertek. A kihívás a végrehajtási fegyelem.
Emelje meg a befújt levegő hőmérsékletét.A legtöbb adatközpont hidegen működik – 18-20 Celsius-fok a hűtőegység visszatérő oldalán –, mert az üzemeltetők mindig is ezt tették. Az ASHRAE irányelvei most 24-27 fokot ajánlanak. Minden fokos emelés nagyjából 4 százalékkal csökkenti a hűtési energiát. A 20 fok helyett 26 fokos üzemelés 20-25 százalékos hűtőteljesítményt takarít meg.
Szüntesse meg a hideg és meleg levegő keveredését.A melegfolyosós elzárás, a hidegfolyosós elszigetelés vagy a függőleges elszívócsatornák arra kényszerítik a hűtőlevegőt, hogy oda menjen, ahol szükség van rá, ahelyett, hogy a rackek elülső részén átmenne rövid ideig. A visszatartás önmagában jellemzően 15-25 százalékkal csökkenti a hűtési energiát.
Használjon változtatható sebességű meghajtókat.Az állandó fordulatszámú ventilátorok és szivattyúk részterhelésnél energiát pazarolnak. A változtatható fordulatszámú hajtások a légáramlást és a vízáramlást a tényleges igényekhez igazítják. Az utólagos megtérülési idő általában 1-3 év.
Optimalizálja az UPS működését.A legtöbb UPS rendszer folyamatosan kettős átalakítási módban működik – a váltakozó áramot egyenárammá alakítja, majd vissza váltóárammá, még akkor is, ha a hálózati áram tiszta. A modern UPS-rendszerek környezetbarát üzemmódba kapcsolhatnak, ha az áramminőség lehetővé teszi, így 94-96 százalék helyett 99 százalékos hatásfokot érnek el. A kompromisszum egy rövid átviteli idő az akkumulátorra, ha a hálózati tápellátás megszakad. Az ilyen átvitelekre tervezett tápegységekkel rendelkező IT-terhelések esetén a kockázat minimális.
Használjon magasabb feszültségű elosztást.A 208 V helyett 415 V-os áramelosztás körülbelül 25 százalékkal csökkenti az elosztási veszteségeket. Ehhez kompatibilis PDU-k és szerver tápegységek szükségesek, de sok modern eszköz támogatja ezt.
Shangyu CPSY Company, egy csúcstechnológiás vállalat, amely az adatközponti infrastruktúrára összpontosít, és 1,3-as PUE-értéket jelentett moduláris adatközponti megoldásaira. Ezzel a vállalat az arany szintre kerül, és a platina felé halad.
Az állítólagos 25 százalékos energiamegtakarítás a hagyományos kialakításokhoz képest több tényezőből adódik. A rendszerszinten 97,4 százalékos hatékonyságú moduláris UPS rendszerek csökkentik az egyébként 15-20 százalékos elosztási veszteségeket. A változtatható fordulatszámú kompresszorokkal és EC ventilátorokkal felszerelt precíziós klímaberendezések a hűtési teljesítményt a tényleges hőterheléshez igazítják, nem pedig rögzített teljesítményen. A fizikai elrendezés pedig – melegfolyosós elszigetelés, optimális racktávolság, megemelt padló megfelelő méretű perforált csempével – foglalkozik a légáramlás szabályozásával, amely aláássa számos egyébként hatékony létesítményt.
A cég tanúsítási portfóliója magában foglalja az ISO 9001 (minőségirányítás) és az ISO 27001 (információbiztonsági menedzsment) szabványokat. Ügyfelei telepítései közé tartozik a Huawei, a ZTE és az Inspur partnerkapcsolata, valamint az Egyesült Államokban, az Egyesült Királyságban, Németországban, Franciaországban és Ausztráliában található exporttelepítések.
Évekig a folyadékhűtés a szuperszámítógép-központok réstechnológiája volt. Ez gyorsan változik.
Az NVIDIA H100 vagy a közelgő B200 GPU-kat használó mesterséges intelligencia oktatófürtök rackenként 30-50 kilowatttot termelnek tisztán léghűtéses konfigurációkban. Ilyen sűrűség mellett a léghűtés nagy légáramlást igényel – hangos ventilátorokat, mély állványokat és még mindig csekély hőszabályozást.
A közvetlenül chipre történő folyadékhűtés a hő 60-80 százalékát a forrásnál távolítja el. A chipek hűvösebben futnak. A ventilátorok lassabban futnak. A szobaklíma csak a tápegységekből, a memóriából és más alkatrészekből származó maradék hőt kezeli.
A hatékonyságnövekedés jelentős. A közvetlenül chipre történő hűtéssel rendelkező létesítmények 1,1 és 1,2 közötti PUE értékeket jelentenek. A kompromisszum a magasabb tőkeköltség, a bonyolultabb szivárgáskezelés és a létesítmény-minőségű vízkezelés szükségessége.
A teljes merítésű hűtés – a teljes szerverek dielektromos folyadékba merülése – a PUE 1,1 alá szorítja, de továbbra is specializálódott. A legtöbb kereskedelmi adatközpont először a közvetlen chipre történő hűtést alkalmazza, majd a bemerítést bizonyos nagy sűrűségű zónákban.
A SHANGYU adatközpont-platform a levegő- és folyadékhűtési architektúrákra egyaránt tartalmaz rendelkezéseket, felismerve, hogy a jövőbeni nagy sűrűségű telepítések folyadékalapú hőkezelést igényelnek, függetlenül a létesítmény kialakításától.
A legtöbb adatközpont-üzemeltetési csapat továbbra is reaktívan dolgozik. Megszólal egy riasztó. Valaki nyomoz. Egy javítás kerül alkalmazásra. A ciklus megismétlődik.
A prediktív menedzsmentre való átállás három olyan képességet igényel, amelyek sok szervezetből hiányoznak.
Teljes konfigurációs adatok.Az alapja annak ismerete, hogy mi van az adatközpontban – minden szerver, minden kapcsoló, minden PDU, minden hűtőegység. Pontos CMDB adatok nélkül a kapacitástervezés csak találgatás.
Granulált telemetria.A rack szintű teljesítménymérés a minimum. A szerverenkénti teljesítménymérés jobb. A munkaterhelés-szintű teljesítmény-hozzárendelés a legjobb, de a legnehezebb megvalósítani.
Analitika, amely megkülönbözteti a jelet a zajtól.Az egyik rack hőmérséklet-emelkedése ventilátor meghibásodását jelentheti. Az adatközpont felében fellépő hőmérséklet-emelkedés a hűtő meghibásodását jelentheti. A rendszernek különbséget kell tennie, és ennek megfelelően válaszokat kell javasolnia.
A SHANGYU DCIM platformja SNMP és Modbus eszköztámogatást, web-alapú és Windows-alkalmazási felületeket, valamint hálózati kamerákkal való integrációt biztosít az események által kiváltott képalkotáshoz. A kitűzött célok egyértelműek: a költséges állásidő csökkentése, a napi működési költségek csökkentése a teljes körű környezetvédelmi ellenőrzés révén, valamint a menedzsment láthatóságának és nyomon követhetőségének javítása.
Az adatközpontok energiafogyasztása a globális villamosenergia-szükséglet nagyjából 1 százalékát teszi ki. Ez a szám kicsinek hangzik, amíg kontextusba nem helyezzük. Ez nagyjából megegyezik az Egyesült Királyság teljes villamosenergia-fogyasztásával.
Ennél is fontosabb, hogy a növekedés üteme gyorsul. Az iparági előrejelzések szerint az adatközpontok energiaigénye évente 10-15 százalékkal növekszik 2030-ig a mesterséges intelligencia, a felhő bevezetése és a csatlakoztatott eszközök folyamatos bővülése miatt. Ilyen ütemben az adatközpontok az évtized végére a globális villamos energia 3-4 százalékát fogyasztanák el.
Az energiafogyasztást az előző évtizedben változatlan szinten tartó hatékonyságnövekedés a szervervirtualizációból (a fizikai szerverek számának csökkentése), a meghajtó-hatékonyság javításából (a pörgő lemezekről az SSD-kre való átállás) és az ingyenes hűtés széles körű elterjesztéséből adódott (külső levegő használata mechanikus hűtés helyett). Az alacsonyan csüngő gyümölcsöket nagyrészt leszedték.
A hatékonyság következő hullámát a folyadékhűtés, a magasabb feszültségelosztás, a mesterséges intelligencia által optimalizált hűtésvezérlés, valamint – ami talán a legfontosabb – az infrastruktúra kapacitása és a tényleges IT-terhelés közötti jobb összehangolás jelenti majd. Ez az utolsó rész azt a fajta valós idejű láthatóságot és prediktív elemzést kívánja meg, amelyet a DCIM rendszerek biztosítanak, de csak kevés lehetőség használja ki teljesen.
A tényleges PUE-ját ismeri, nem a specifikációs lapon szereplő számot?Ha nem mért az UPS kimenetén és az IT berendezés bemenetén, akkor nem tudja. A különbség a valódi rezsiköltség.
Küzdenek egymással a hűtőrendszerei?Sok adatközpontban a CRAC egységeket átfedő hőmérsékleti és páratartalom-sávokkal állítják be. Az egyik egység párásít, míg a másik párásít. Az egyik hűti, míg a másik újramelegít. Ez nem szokatlan. Nem is hatékony.
Mekkora a szervereinek üresjárati áramfelvétele?Az iparági adatok azt mutatják, hogy a tipikus vállalati szerverek csúcsteljesítményük 30-40 százalékát veszik fel, amikor nem csinálnak semmit. A nem használt kiszolgálók leállítása vagy alvó állapotba helyezése a rendelkezésre álló legmagasabb ROI hatékonysági intézkedés. Ez is a leginkább figyelmen kívül hagyott.
Meg tudná emelni a befújt levegő hőmérsékletét két fokkal anélkül, hogy megsértené a berendezés specifikációit?Valószínűleg igen. A legtöbb berendezés 25-27 fokos beszívási hőmérsékletre van méretezve. A legtöbb adatközpont 20-22 fokos hőmérsékleten működik. Ez a hat fokos különbség évekig tartó szükségtelen hűtési energiát jelent.
Mikor ellenőrizte utoljára UPS-e hatékonyságát?Az adattábla hatékonyságát teljes terhelésen, tökéletes teljesítménytényezővel mérik. A valós hatásfok részterhelésnél valós teljesítménytényezővel 5-10 ponttal alacsonyabb lehet.