Wedge 100: nyitottabb és sokoldalúbb, mint valaha – Facebook Engineering

A Facebook-nál nagy hangsúlyt fektetünk arra, hogy adatközpontjainkat teljesen nyitott és bontott hardverekkel építsük, amelyeket mérnökeink terveztek, és nyílt forrású az Open Compute Project (OCP) segítségével. A verem lebontásával kicserélhetjük a hardvert vagy a szoftvert, amint jobb technológia elérhetővé válik. Ez a megközelítés lenyűgöző teljesítménynövekedést tett lehetővé a számítási, tárolási és hálózati rétegek között.

mivel az adatközpontjainkkal szemben támasztott igények folyamatosan növekednek, folyamatosan törekszünk az adatok hatékonyabb és egyre gyorsabb kezelésére. Stratégiánk az 100g adatközpontok építése, és a wedge 100, a második generációs top-of-rack hálózati kapcsoló, az egyik kulcsfontosságú elem, amely segít elérni ezt a célt.

ma örömmel jelentjük be, hogy a Wedge 100 specifikációt elfogadták az OCP-ben. Az iparág már épített egy robusztus szoftver ökoszisztémát körülötte, és reméljük, hogy a közösség ezen kiegészítése felgyorsítja az innováció ütemét, és lehetővé teszi mások számára, hogy 100g-t hozzanak az adatközpontjaikba is.

ebben a blogbejegyzésben felvázoljuk a jelenlegi hardver és szoftver ökoszisztémát, és megosztjuk néhány tapasztalatunkat a wedge 100 gyártásában.

Wedge 100 a Facebook-on

A Facebook-on a wedge 100-at használjuk termelési környezetünkben, és továbbra is az adatközpontjainkban alkalmazzuk. Ez a 100g adatközpont hálózati stratégiánk egyik eleme, ugyanakkor lehetővé teszi számunkra a visszamenőleges kompatibilitás fenntartását a meglévő 40G eszközökkel. A szoftver oldalon továbbra is az Fboss és az OpenBMC, a saját hálózati verem és alaplap menedzsment implementációinkat használjuk, ami rugalmasságot biztosít számunkra a gyors iterációhoz és új funkciók és innovációk bevezetéséhez a hálózatunkban.

A Wedge 100 létrehozása összetett törekvés volt, de a wedge 40 létrehozása és telepítése során szerzett tapasztalatainknak köszönhetően magabiztosan tudtunk iterálni a hardveren és a szoftveren. Ugyanazokat a hardverelemeket használtuk fel újra, és kulcsfontosságú változtatásokat hajtottunk végre a wedge 40 által érzett fájdalompontok kezelésére. A Wedge 100-on ugyanazt az FBOSS szoftvert futtatjuk, mint a Wedge 40, de kibővítettük az új platform támogatására 100G ASIC chipekkel és optikával.

hardverfrissítések

A Wedge 100-at egy COM-Express Type 6 modullal építettük fel kompakt formában (95 mm x 95 mm) mikroszerverként; ez jó előjel 100G és nagyobb sebességű kapcsolóplatformokhoz. Wedge 100 is támogatja a COM-Express modul form factor (95mm x 125mm), amely lehetővé teszi a rugalmas kialakítás esetén fejlettebb CPU van szükség speciális alkalmazásokhoz.

a használhatóság a Facebook egyik legfontosabb témája. Több ezer Ékkapcsolót telepítettünk, és csak néhány adatközpont-technikus van, ami azt jelenti, hogy gyorsan és könnyedén, szerszámok nélkül kell javítanunk és javítanunk egy kapcsolót. Jelentős fejlesztéseket hajtottunk végre a kapcsoló 100-as ékkel történő szervizelhetőségében. A felső fedél szerszámok nélkül eltávolítható, így adatközpont-technikusaink számára könnyű hozzáférést biztosít a belső váltáshoz. A melegen dugaszolható ventilátortálcák most eltávolíthatók egy klip megnyomásával, szemben a hüvelykujj csavarjának eltávolításával. Ezenkívül az adatközpont technikusai könnyedén megtekinthetik a ventilátor tálca állapotát az egyes ventilátortálcák melletti állapotjelző LED – en keresztül. Ezek kombinációja lehetővé teszi a nagyon gyors hibakeresést és a helyszíni cserét, ha szükséges.

A Wedge 100 feltöltéséhez a Facebook adatközpontjaiban olyan optikát használunk, amelynek kisbetűs hőmérsékleti határértéke 55 C, szemben a szokásos 70 C kereskedelmi hőmérsékleti tartománysal. Sok erőfeszítést tettünk a rendszer termikus kialakításába, beleértve még egy ventilátor tálca hozzáadását, légterelőket a tápegység és a főkapcsoló tábla közötti légutak elválasztására, valamint az előlap nyitási kialakítását a légáramlás maximalizálása érdekében.

A Wedge 100 alvázat egy ipari szabványos 19″ – es állványhoz tervezték, így a hálózati közösség könnyen elfogadhatja. Adatközpontjaink azonban nyitott állványokat használnak, és a wedge 100-at is szeretnénk táplálni a rendkívül hatékony, titán besorolású nyitott Rack V2 tápegységekkel a rack hátulján lévő 12 V-os buszsávon keresztül. Ezért terveztünk egy 21 ” nyitott állvány adapter tálcát, amely segít a wedge 100 felszerelésében egy ilyen állványban. Terveztünk egy PSU pass through modult is, amely összeköti a 12 V-os buszsávot A Wedge 100 főkapcsoló kártya 12 V-os bemenetével. Ez ugyanaz a forma tényező, mint a standard AC / DC PSU, és tartalmaz egy 12V hot swap vezérlő.

A Wedge 100 tervezési specifikációit itt találja.

Wedge100 Open Rack V2 Adapter

szoftverfrissítések

A wedge100 szoftvercsomagunk majdnem megegyezik a Wedge 40 veremével. Ugyanazokat az FBOSS kapcsolási és útválasztási démonokat futtatjuk, és ugyanazokat az eszközöket használjuk a kapcsolók kezelésére a termelésben. Mindig van munka, amit el kell végezni egy új platform támogatása érdekében, de az FBOSS egyik vezérelve a környezetünkhöz szükséges minimális szolgáltatáskészlet felépítése. Ez lehetővé teszi számunkra, hogy a kódunkat vékonyan tartsuk, és könnyen alkalmazkodjunk az új környezetekhez és platformokhoz, ahelyett, hogy a semmiből indulnánk, vagy párhuzamos kódbázisokat kezelnénk. Az általunk támogatott protokollok — NDP, DHCP, ARP, LLDP, ECMP, ICMP — és a működéshez szükséges funkciók megszerzése — a warm boot — a Wedge100-on végzett munka inkább iteratív gyakorlat volt, mivel tapasztalatunk volt a wedge 40 gyártásában. Ez lehetővé tette számunkra, hogy a földre fut a wedge100 projekt, és használja azt a lehetőséget, hogy megszilárdítsa a fboss szoftver stack.

mivel majdnem két éve kezeltük a Wedge 40s-t a termelésben, és az infrastruktúra a helyén volt, szinte azonnal elkezdtük a wedge100 tesztelését termelési környezetben. A termelési forgalmat kiszolgáló kapcsolók futtatása adja a legjobb jelet a szükséges változtatásokhoz. Mint kiderült, a legnagyobb kihívást az operatív oldalon találtuk — különösen a wedge 40 és a Wedge 100 párhuzamos konfigurálása, ellátása és kezelése a hálózatunkban. A Facebook-on az FBOSS csapata mind a csomagátirányítást végző szoftvert, mind a kapcsolók operatív kezeléséhez használt eszközcsomagot írja. Ennek köszönhetően pozitív visszacsatolási hurok alakult ki, és végül a gyártás során levont tanulságok informálták a szoftver — és még a hardver-döntéseket is. Ily módon képesek voltunk összpontosítani a ténylegesen szükséges funkciókra, és nagyon gyorsan megkaptuk a wedge 100 kapcsolókat, amelyek továbbították a termelési forgalmat.

egy másik kihívás, amellyel a Wedge 100 építése során szembesültünk, a szoftverplatformunk rugalmasabbá tétele volt. Amikor telepítettük a Wedge 40-et, hasznunkra vált az a tény, hogy a támogatáshoz szükséges konfigurációk meglehetősen korlátozottak voltak, és könnyen támogathattuk őket. A Wedge 100 esetében ez nem így volt. Azt akartuk, hogy csökken a Wedge 100 bármely helyen a hálózatunkban, hogy volt egy Wedge 40. A lefelé irányuló sebesség és a kábeltípusok változhatnak. A felfelé irányuló kapcsolat sebessége régi és új klaszterek között változhat. A helyes konfiguráció különösen fontos az 100G kapcsolatoknál, mivel sokkal kisebb optikai teljesítménytartományuk van, és több kihívást jelenthet a kapcsolat kialakításában és a teljesítmény optimalizálásában, ami sokkal óvatosabb konfigurációt igényel, mint az 40G. Ezen új környezetek támogatása változtatásokat igényelt a fizikai rétegtől egészen a felügyeleti veremig. Bővítettük az SFF spec támogatását, hogy képesek legyenek a cwdm4 optika különböző sebességgel történő működtetésére a teljesítményosztály, a CDR, a rate-select, a FEC, az előhangolás és mások dinamikus megváltoztatásával, hogy támogassák ezeket a különböző beállításokat. Sok konfigurációs és kiépítési munkafolyamatot is átdolgoztunk, hogy támogatni tudjuk ezeket a lehetőségeket.

végül, birtokló saját szoftver stack teszi a hibák kijavítása, vagy hozzátéve funkciók ezeket az eszközöket sokkal gyorsabb a Facebook. Például megfigyeltük, hogy a 100G optika magasabb üzemi hőmérsékletet ér el, ezért megváltoztattuk a ventilátor vezérlési logikáját az openbmc fedélzeti vezérlőn, hogy jobb hőprofilt érjünk el, amikor ezek a modulok jelen vannak. Máskor kernel pánikokkal találkoztunk a microserveren. Mivel van egy mérnöki csapatunk, amely kezeli a saját kernel kiadásainkat, kihasználhatjuk szakértelmüket a problémák hibakeresésére. A teljes verem birtoklása lehetővé teszi számunkra más érdekes dolgok elvégzését is, például az eszköz karbantartási eljárásainak egyszerűsítését azáltal, hogy módosítjuk az előlapi LED-ek jelentését ezeken a kapcsolókon, az adatközpont műveleti csapatától kapott visszajelzések alapján.

az FBOSS kód nyílt forráskódú és elérhető a Githubon. Tavaly nyílt forráskódú szoftverünket, és azóta folyamatos kiadási ciklusra váltottunk, a belső diff-eket automatikusan a GitHub-ra tolva. Ha többet szeretne megtudni arról, hogy min dolgozunk, kérjük, nézze meg a kódot.

hardver és szoftver ökoszisztéma

A Wedge 100 switch már kereskedelmi termékként elérhető az Edgecore Networks és csatornapartnerei világszerte. Az Edgecore Wedge 100-32x teljes mértékben megfelel a Wedge 100 OCP specifikációnak, és az Edgecore anyavállalata, az Accton Technology gyártja, amely a wedge 100-at is gyártja hálózati telepítésünkhöz. A wedge 100-32x hardverkapcsoló hároméves garanciát tartalmaz, és diagnosztikával, OpenBMC firmware-rel és az Open Network Install Environment universal NOS loaderrel szállítjuk.

láttuk az adó-vevő gyártók erős érdeklődését is, hogy moduljaikat a platformon minősítsék. Ennek az igénynek a kielégítése érdekében együttműködünk a New Hampshire-i Egyetem interoperabilitási laboratóriumával (UNH-IOL), így minden modul professzionálisan tesztelhető a létesítményeikben. Az UNH-IOL továbbra is vezető szerepet tölt be a semleges, széles körű tesztelési és szabványmegfelelési szolgáltatások nyújtásában a hálózati ipar számára.

A szoftver oldalon több vállalat építi megoldásait a Wedge 100 platform tetejére. Az operációs rendszer rétegén nagy Kapcsolóhálózatok és kanonikus; a verem felső részén pedig SnapRoute, FRINX és Apstra található.

  • Big Switch Networks továbbra is vezetni nyílt hálózati Linux (ONL), az első nyílt forráskódú hálózati operációs rendszer támogatja az eredeti Wedge 40, és most Wedge 100; A Facebook FBOSS-ja szintén elérhető az ONL tetején a Wedge 40-en és hamarosan a Wedge 100-on. Az ONL az Open Compute projekt része, és több mint 30 különböző OCP és nem OCP nyílt hálózati kapcsolót támogat. Az ONL-t belsőleg is használják kereskedelmi termékeik, a Big Monitoring Fabric és a Big Cloud Fabric alapjául.
  • a Canonical a wedge 100 platformra hozza az Ubuntu Core-t, az új felhő-és IoT-eszközökre szánt operációs rendszert. Az Ubuntu Core számos különböző hálózati stacket futtathat, mint például az FBOSS vagy a SnapRoute, és lehetővé teszi a csupasz fém kiépítését olyan nagy szoftverekhez, mint az OpenStack, a Hadoop és a Kubernetes az adatközpont számítási rétegén a rack tetején lévő kapcsolóról.
  • a SnapRoute bejelentette a FlexSwitch szoftver elérhetőségét a Wedge 100 platformon. A FlexSwitch egy nyílt forráskódú L2 / L3 hálózati verem, amely több hardverplatformon is futtatható. Célja, hogy megváltoztassa a hálózati működés gazdaságosságát azáltal, hogy teljesen testreszabható és programozható vezérlési síkot biztosít, és átfogó keretet kínál az életciklus automatizálásához és a hálózati elemzéshez. A teljes modularitás fogalmai köré épül, elősegítve azt az elképzelést, hogy csak a hálózat által igényelt funkcionalitást futtassák, szemben a hagyományos one size fits all megközelítéssel.
  • a FRINX az OpenDaylight, egy nyílt forráskódú SDN platform integrálására összpontosít A Wedge 100-ra. Egy támogatott out-of-the-box megoldás létrehozására törekszenek az adatközpontok telepítéséhez, teljes egészében nyílt forráskódú összetevőkön alapulva.
  • az Apstra egy felső rétegben működik az Apstra operációs rendszerrel (aos), egy szállító-agnosztikus elosztott operációs rendszerrel, amely a felhasználói szándékot folyamatosan validált infrastruktúrává tudja lefordítani. Olyan megoldáson dolgoznak, amely képes kezelni az ONL és a Snaproute, valamint más hálózati operációs rendszerek alapú stackeket, amelyek 2017 elején érhetők el.

örülünk, hogy ilyen teljes és változatos technológiákkal rendelkezünk a nyílt hálózati hardverterületen, és folytatjuk a munkát más vállalatokkal A Wedge 100-on. A jövő év elején tervezzük bemutatni ezeket a hálózati szoftvereket és hardver megoldásokat az OCP közösségből, beleértve a Wedge 100-ra épülteket is, és továbbra is megosztjuk tapasztalatainkat a bontott hálózatépítéssel kapcsolatban. Maradjanak velünk!

köszönet minden csapatnak és embernek, akik hozzájárultak ehhez a projekthez.

You might also like

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.