ในสิ้นปี 2025 ข่าวเกี่ยวกับแผนของ ByteDance ที่จะลงทุนมหาศาลในการจัดซื้อชิป AI ระดับสูงของ NVIDIA จำนวนหลายหมื่นชิ้น กลายเป็นหัวข้อสนทนาในวงการเทคโนโลยี มุมมองของสื่อมุ่งเน้นไปที่การต่อสู้ด้านทุนและเรื่องราวทางภูมิรัฐศาสตร์ อย่างไรก็ตาม เบื้องหลังคำสั่งซื้อที่มีมูลค่าหลายแสนล้านนี้ กลับมีความท้าทายด้านวิศวกรรมที่ใหญ่และซับซ้อนมากกว่านั้นอย่างเงียบๆ นั่นคือ การเปลี่ยนชิปเหล่านี้ให้กลายเป็นพลังการคำนวณที่ใช้งานได้ มีประสิทธิภาพ และเสถียร ซึ่งเป็นงานที่ยากกว่าการได้มาซะอีก เมื่อจำนวนชิปจากหลักร้อยในห้องทดลอง เพิ่มขึ้นเป็นหลักหมื่นในระดับอุตสาหกรรม ความซับซ้อนของการออกแบบระบบไม่ได้เพิ่มขึ้นในเชิงเส้น แต่จะเกิดการเปลี่ยนแปลงคุณภาพ ระบบการคำนวณของ GPU เดี่ยวๆ ไม่ใช่ข้อจำกัดอีกต่อไป ความสามารถในการสื่อสารความเร็วสูงระหว่างชิป การให้ข้อมูลฝึกฝนจำนวนมหาศาลในระดับมิลลิวินาที การจัดสรรและระบายความร้อนพลังงานจำนวนมหาศาลอย่างมีประสิทธิภาพ การบริหารจัดการงานคำนวณนับพันนับหมื่นอย่างชาญฉลาด ล้วนเป็นชุดของปัญหาในระดับระบบ ซึ่งก่อให้เกิดความลึกของวิศวกรรมระหว่างฮาร์ดแวร์ดั้งเดิมและความสามารถของ AI ที่เป็นผลผลิต
บทความนี้จะพาเข้าไปในใจกลางของงานวิศวกรรมที่สร้างกลุ่ม GPU ของวานคา โดยไม่สนใจว่าองค์กรจะซื้อชิปชนิดใด แต่สนใจว่า ชิปเหล่านี้จะถูกจัดระเบียบ เชื่อมต่อ และบริหารจัดการอย่างไร เพื่อสร้างเป็นระบบที่เป็นออร์แกนิก จากการเชื่อมต่อฮาร์ดแวร์ภายในตู้เซิร์ฟเวอร์ที่กำหนดขีดจำกัดประสิทธิภาพ ไปจนถึงสมองซอฟต์แวร์ที่ประสานงานทุกอย่างในศูนย์ข้อมูล และสุดท้ายคือ สถาปัตยกรรมที่ออกแบบมาเพื่อรับมือกับความไม่แน่นอนในซัพพลายเชน ซึ่งเผยให้เห็นว่า ในช่วงครึ่งหลังของการแข่งขัน AI จุดสนใจได้เปลี่ยนจากนวัตกรรมอัลกอริทึม ไปสู่การควบคุมพื้นฐานของโครงสร้างพื้นฐานอย่างเต็มที่
เครือข่ายและการจัดเก็บข้อมูล: เพดานความสามารถที่มองไม่เห็น
ในกลุ่มวานคา GPU ค่าประสิทธิภาพสูงสุดของแต่ละ GPU เป็นเพียงค่าทฤษฎี ผลผลิตจริงขึ้นอยู่กับความเร็วในการรับคำสั่งและข้อมูลของมันเท่านั้น ดังนั้น การเชื่อมต่อเครือข่ายและระบบจัดเก็บข้อมูลจึงเป็นเสาหลักที่สำคัญที่สุดของระบบ ในระดับเครือข่าย Ethernet แบบง่ายไม่สามารถตอบสนองความต้องการได้อีกต่อไป จำเป็นต้องใช้ InfiniBand หรือ NVLink เครือข่ายความกว้างแบนด์วิดธ์สูงและดีเลย์ต่ำ ซึ่งเป็นทางเลือกที่ซับซ้อนขึ้น
การตัดสินใจสำคัญแรกของวิศวกรคือ เลือกโครงสร้างเครือข่าย: จะใช้โครงสร้างแบบ Fat Tree แบบดั้งเดิมเพื่อรับประกันแบนด์วิดธ์เท่าเทียมกันระหว่างจุดต่างๆ หรือจะเลือกโครงสร้าง Dragonfly+ ที่มีต้นทุนต่ำกว่าแต่บางครั้งอาจเกิดบล็อกในบางรูปแบบการสื่อสาร การเลือกนี้จะส่งผลโดยตรงต่อประสิทธิภาพของการฝึกฝนแบบกระจายขนาดใหญ่ในเรื่องของการซิงโครไนซ์เกรเดียนต์ ซึ่งเป็นตัวกำหนดความเร็วในการรันรอบของโมเดล
คู่กับเครือข่ายคือความท้าทายด้านการจัดเก็บข้อมูล การฝึกโมเดลภาษาใหญ่ๆ อาจต้องอ่านข้อมูลหลายร้อยเทราไบต์หรือเพอเพิลไบต์ หากความเร็ว I/O ของการจัดเก็บไม่ทันกับการใช้งานของ GPU ส่วนใหญ่ของชิปที่มีราคาแพงจะอยู่ในสภาวะหิวโหยและรอคอย ดังนั้น ระบบจัดเก็บข้อมูลต้องออกแบบเป็นไฟล์ระบบแบบกระจายที่รองรับ SSD แบบเต็มรูปแบบ และใช้เทคโนโลยี RDMA เพื่อให้ GPU ติดต่อกับโหนดจัดเก็บข้อมูลโดยตรง โดยข้าม CPU และระบบปฏิบัติการ เพื่อให้สามารถเข้าถึงข้อมูลโดยตรงจากหน่วยความจำ นอกจากนี้ ควรมีการตั้งค่าหน่วยความจำแคชความเร็วสูงในโหนดคำนวณด้วยอัลกอริทึมการดึงข้อมูลล่วงหน้า เพื่อโหลดข้อมูลที่คาดว่าจะใช้งานล่วงหน้าจากศูนย์กลางไปยัง NVMe ในเครื่อง เพื่อสร้างสายส่งข้อมูลสามชั้น “ศูนย์เก็บข้อมูล-แคชในเครื่อง-หน่วยความจำ GPU” เพื่อให้หน่วยคำนวณทำงานอย่างเต็มประสิทธิภาพ การออกแบบร่วมกันของเครือข่ายและการจัดเก็บข้อมูลนี้มีเป้าหมายเพื่อให้ข้อมูลไหลเวียนราวกับโลหิต ด้วยแรงดันและความเร็วที่เพียงพอ เพื่อหล่อเลี้ยงหน่วยคำนวณแต่ละหน่วยอย่างต่อเนื่อง
การจัดสรรและการจัดการ: สมองซอฟต์แวร์ของกลุ่มคลัสเตอร์
ฮาร์ดแวร์คือร่างกายของกลุ่มคลัสเตอร์ ในขณะที่ระบบการจัดสรรและการจัดการคือจิตวิญญาณและปัญญา ซอฟต์แวร์สมองกลนี้ เมื่อ GPU กว่า 1 หมื่นชิ้นและทรัพยากร CPU, หน่วยความจำที่เกี่ยวข้องถูกรวมเป็นกลุ่มแล้ว การแบ่งงาน AI ที่มีจำนวนมากและมีลำดับความสำคัญแตกต่างกันอย่างมีประสิทธิภาพและเชื่อถือได้ เป็นปัญหาการเพิ่มประสิทธิภาพแบบผสมผสานที่ซับซ้อนมาก Kubernetes ซึ่งเป็นโอเพ่นซอร์สที่มีความสามารถในการจัดการคอนเทนเนอร์อย่างแข็งแกร่ง เป็นรากฐาน แต่การบริหารจัดการแบบละเอียดของพลังการคำนวณที่เป็น heterogeneous เช่น GPU ต้องเสริมด้วยส่วนขยายเช่น NVIDIA DGX Cloud Stack หรือ KubeFlow ซึ่งเป็นส่วนเสริม
อัลกอริทึมหลักของตัวจัดสรรต้องพิจารณาข้อจำกัดหลายมิติ: ไม่ใช่แค่จำนวน GPU แต่รวมถึงขนาดหน่วยความจำ GPU จำนวนคอร์ CPU ความจุของหน่วยความจำระบบ รวมถึงความต้องการแบนด์วิดธ์เครือข่ายหรือความสัมพันธ์กับโครงสร้างเครือข่ายเฉพาะของงาน
ความท้าทายที่ซับซ้อนยิ่งขึ้นคือความสามารถในการรับมือกับความล้มเหลวและการขยายตัวแบบยืดหยุ่น ในระบบที่ประกอบด้วยหลายหมื่นส่วนประกอบ ความล้มเหลวของฮาร์ดแวร์เป็นเรื่องปกติ ไม่ใช่ข้อผิดพลาด ระบบการจัดสรรต้องสามารถตรวจสอบสถานะของโหนดแบบเรียลไทม์ เมื่อพบข้อผิดพลาดของ GPU หรือโหนดล่ม ก็ต้องสามารถย้ายงานที่ได้รับผลกระทบออกจากโหนดล้มเหลว ไปยังโหนดที่ทำงานได้ดี และทำการฝึกซ้ำจากจุดหยุดชะงักโดยไม่ให้ผู้ใช้รับรู้ นอกจากนี้ เมื่อเกิดคลื่นความต้องการใช้งาน inference อย่างฉับพลัน ระบบควรสามารถปรับขนาดอัตโนมัติ โดยการ “แย่งชิง” GPU จากกลุ่มงานฝึก เพื่อขยายบริการ inference อย่างรวดเร็ว และเมื่อคลื่นความต้องการลดลง ก็ปล่อย GPU กลับคืน ระบบสมองซอฟต์แวร์นี้มีระดับความฉลาด ซึ่งเป็นตัวกำหนดอัตราการใช้งานโดยรวมของกลุ่มคลัสเตอร์ ซึ่งเป็นกุญแจสำคัญในการเปลี่ยนการลงทุนมหาศาลให้กลายเป็นผลผลิต AI ที่มีประสิทธิภาพ ค่าที่เทียบเท่ากับประสิทธิภาพของชิปเอง
ความยืดหยุ่นและความสามารถในการดำรงอยู่: สถาปัตยกรรมที่มุ่งเน้นความไม่แน่นอน
ในบริบทของการควบคุมเทคโนโลยีและความผันผวนทางภูมิรัฐศาสตร์ สถาปัตยกรรมของกลุ่มวานคา ต้องมี “ยีนส์” ของความยืดหยุ่นเข้าไปด้วย ซึ่งหมายความว่า โครงสร้างพื้นฐานไม่ควรออกแบบให้พึ่งพาซัพพลายเออร์เดียว พื้นที่เดียว หรือเทคโนโลยีเดียว แต่ควรมีความสามารถในการพัฒนาและรับมือกับความเสี่ยงในสภาพแวดล้อมที่มีข้อจำกัด เริ่มจากการกระจายความหลากหลายของฮาร์ดแวร์ในระดับฮาร์ดแวร์เอง แม้จะมุ่งเน้นไปที่ประสิทธิภาพสูงสุด แต่ก็ต้องคำนึงถึงความสามารถในการรองรับการ์ดคำนวณจากผู้ผลิตหลายราย โดยใช้ชั้นการแสดงผลเพื่อซ่อนความแตกต่าง ทำให้แอปพลิเคชันระดับบนไม่ต้องรับรู้การเปลี่ยนแปลงของฮาร์ดแวร์ ซึ่งต้องการเฟรมเวิร์กและ runtime ที่มีความสามารถในการแสดงผลฮาร์ดแวร์และความสามารถในการพกพา
ต่อมา เป็นการขยายแนวคิดไปยัง multi-cloud และ hybrid cloud สถาปัตยกรรมหลักอาจวางไว้ในศูนย์ข้อมูลของตนเอง แต่การออกแบบต้องรองรับการทำงานของภาระงานที่ไม่ใช่แกนหลักหรือฉุกเฉินในคลาวด์สาธารณะ ด้วยการใช้ภาพคอนเทนเนอร์แบบเดียวกันและนโยบายการจัดสรรที่เป็นกลยุทธ์ สามารถสร้าง “เครือข่ายพลังการคำนวณ” ที่เป็นนโยบายเดียวกันแต่กระจายทางกายภาพ ยิ่งไปกว่านั้น ควรออกแบบซอฟต์แวร์ให้เป็นแบบไม่ผูกมัดกับสถาปัตยกรรมเฉพาะ จากเฟรมเวิร์กไปจนถึงรูปแบบโมเดล ควรปฏิบัติตามมาตรฐานโอเพ่นซอร์สให้มากที่สุด เพื่อหลีกเลี่ยงการผูกขาดกับระบบนิเวศปิด เช่น การสนับสนุน PyTorch และ ONNX ซึ่งเป็นมาตรฐานเปิดของโมเดล เพื่อให้ทรัพย์สินของโมเดลที่ฝึกฝนแล้วสามารถเคลื่อนย้ายและดำเนินการได้อย่างอิสระในสภาพแวดล้อมฮาร์ดแวร์และซอฟต์แวร์ที่แตกต่างกัน สุดท้ายแล้ว แพลตฟอร์มพลังการคำนวณที่มีความยืดหยุ่นเชิงกลยุทธ์นี้ ค่ามาตรฐานไม่ใช่แค่แบนด์วิดธ์สูงสุด แต่เป็นความสามารถในการรักษาความต่อเนื่องของการวิจัยและพัฒนา AI รวมถึงการให้บริการในสภาพแวดล้อมที่เปลี่ยนแปลง ซึ่งความยืดหยุ่นนี้มีมูลค่าระยะยาวมากกว่าความสามารถของชิปเดียวในรุ่นเดียวกัน
จากทรัพยากรพลังการคำนวณสู่ฐานอัจฉริยะ
เส้นทางการสร้างกลุ่ม GPU วานคาแสดงให้เห็นอย่างชัดเจนว่า มิติการแข่งขัน AI ในยุคปัจจุบันลึกซึ้งขึ้น ไม่ใช่แค่การแข่งขันด้านนวัตกรรมอัลกอริทึมหรือขนาดข้อมูล แต่เป็นการแข่งขันในการเปลี่ยนทรัพยากรฮาร์ดแวร์ที่หลากหลายและซับซ้อน ผ่านวิศวกรรมระบบที่ซับซ้อนอย่างมาก ให้กลายเป็นบริการอัจฉริยะที่เสถียร มีประสิทธิภาพ และยืดหยุ่น กระบวนการนี้ผลักดันให้วิศวกรรมฮาร์ดแวร์ วิทยาศาสตร์เครือข่าย ระบบกระจายข้อมูล และวิศวกรรมซอฟต์แวร์ รวมกันเป็นแนวหน้าของนวัตกรรม
ดังนั้น มูลค่าของกลุ่มวานคาไม่ใช่แค่ต้นทุนการจัดซื้อที่น่าทึ่ง แต่เป็นโครงสร้างพื้นฐานอัจฉริยะที่เป็นชีวิตชีวา ซึ่งเป็นทรัพยากรสำคัญของประเทศหรือองค์กรในยุคดิจิทัล โครงสร้างนี้กำหนดความเร็วในการพัฒนานวัตกรรม AI ขนาดของการให้บริการ และความมั่นใจในการรักษาความเป็นผู้นำด้านเทคโนโลยีในสภาพแวดล้อมที่ไม่แน่นอน เมื่อมองการแข่งขันพลังการคำนวณด้วยมุมมองของวิศวกรรมระบบ เราจะเข้าใจว่า ความได้เปรียบเชิงกลยุทธ์ที่แท้จริงไม่ได้มาจากการสะสมชิปในโกดัง แต่เกิดจากการออกแบบและตัดสินใจด้านเทคนิคที่รอบคอบในเรื่องของการเชื่อมต่อ การจัดสรร และความยืดหยุ่น ซึ่งในที่สุดแล้ว การตัดสินใจเหล่านี้จะถักทอคริสตัลซิลิคอนเย็นๆ ให้กลายเป็นฐานที่มั่นคงสำหรับอนาคตอัจฉริยะ
btc.bar.articles
ETH ร่วงลง 0.69% ในรอบ 15 นาที: ปริมาณที่ถูกทำลายลดลงและการเก็งกำไรของเงินทุนระยะสั้นกดดันราคา
ETH 15 นาที pump 0.71%: ปริมาณคำสั่งซื้อแบบสปอตที่เพิ่มขึ้นช่วยขยายสภาพคล่องและผลักดันการเคลื่อนไหวระยะสั้นให้สูงขึ้น
ETH 15 นาที pump 1.31%: เงินทุนไหลเข้าสู่เครือข่ายและแรงซื้อจากวาฬตัวใหญ่สอดประสานกัน ดันราคาให้พุ่งขึ้น
Bitcoin ETF มีเงินไหลออกสุทธิรายวัน 159.62 ล้านดอลลาร์ ในขณะที่ Ethereum และ Solana ETFs ยังคงแนวโน้มเชิงลบ
นักพัฒนา Ethereum Joe Schiarizzi ลงสมัครชิงตำแหน่งสมาชิกสภาคองเกรสของรัฐเวอร์จิเนียในฐานะสมาชิกพรรคเดโมแครต
Grayscale ได้โอน ETH จำนวน 5322 เหรียญ และ BTC จำนวน 155.649 เหรียญ ไปยัง CEX แห่งหนึ่ง โดยมีมูลค่ารวมมากกว่า 22 ล้านดอลลาร์สหรัฐ