Oppo Find Piano
Member
https://viettimes.vn/sieu-may-tinh-...ay-tron-tru-trong-vong-1-ngay-post160994.html
VietTimes – GPU tính toán Instinct MI250X của AMD được cho là nguyên nhân khiến siêu máy tính của Mỹ gặp lỗi
Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày (Ảnh: Tom's Hardware)
Xây dựng siêu máy tính luôn là một thách thức. Việc tạo ra hệ thống cấp độ exascale đầu tiên trong ngành có thể tạo ra những vấn đề lớn đến bất ngờ, đòi hỏi nhiều công việc với phần cứng và phần mềm. Đáng tiếc, điều này lại diễn ra với siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge khi siêu máy tính này liên tục gặp phải lỗi khi hoạt động.
Frontier của ORNL là hệ thống đầu tiên trong ngành được thiết kế để mang đến hiệu năng cao nhất, lên đến 1,685 ExaFLOPS FP64 bằng cách sử dụng bộ xử lý EPYC Trento 64 nhân, các GPU tính toán Instinct MI250X của AMD cũng như liên kết HPE Slingshot với công suất 21MW. HPE đã xây dựng hệ thống này, sử dụng kiến trúc Cray EX được thiết kế cho các ứng dụng mở rộng quy mô, chủ yếu dành cho những siêu máy tính cực nhanh.
Trong khi trên giấy tờ, siêu máy tính Frontier nhưng có vẻ những vấn đề về phần cứng vẫn tiếp tục đeo bám chiếc máy tính máy này. Nó chỉ có thể mang đến hiệu năng khoảng 1 ExaFLOPS FP64 cho các nhà nghiên cứu.
Trong bài phỏng vấn với InsideHPC, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF) cho biết: “Chúng tôi đang giải quyết các vấn đề đối với phần cứng. Bạn sẽ gặp thất bại ở quy mô này. Thời gian trung bình phát sinh sự cố trên hệ thống này là hàng giờ, không phải ngày.”
Tin đồn về các lỗi phần cứng tiềm ẩn của Frontier đã nổi lên trong một thời gian khá dài. Theo thông tin khác từ InsideHPC, một số người tiết lộ, hệ thống đã gặp sự cố với kết nối Slingshot. Ngoài ra, những người khác chỉ ra rằng GPU tính toán Instinct MI250X của AMD không đáng tin cậy như mong đợi. Hãy nhớ rằng phiên bản X, với số lượng bộ xử lý luồng lớn hơn cùng xung nhịp cao hơn, chỉ có sẵn cho một số khách hàng được chọn.
Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày
VietTimes – GPU tính toán Instinct MI250X của AMD được cho là nguyên nhân khiến siêu máy tính của Mỹ gặp lỗi
Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày (Ảnh: Tom's Hardware)
Xây dựng siêu máy tính luôn là một thách thức. Việc tạo ra hệ thống cấp độ exascale đầu tiên trong ngành có thể tạo ra những vấn đề lớn đến bất ngờ, đòi hỏi nhiều công việc với phần cứng và phần mềm. Đáng tiếc, điều này lại diễn ra với siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge khi siêu máy tính này liên tục gặp phải lỗi khi hoạt động.
Frontier của ORNL là hệ thống đầu tiên trong ngành được thiết kế để mang đến hiệu năng cao nhất, lên đến 1,685 ExaFLOPS FP64 bằng cách sử dụng bộ xử lý EPYC Trento 64 nhân, các GPU tính toán Instinct MI250X của AMD cũng như liên kết HPE Slingshot với công suất 21MW. HPE đã xây dựng hệ thống này, sử dụng kiến trúc Cray EX được thiết kế cho các ứng dụng mở rộng quy mô, chủ yếu dành cho những siêu máy tính cực nhanh.
Trong khi trên giấy tờ, siêu máy tính Frontier nhưng có vẻ những vấn đề về phần cứng vẫn tiếp tục đeo bám chiếc máy tính máy này. Nó chỉ có thể mang đến hiệu năng khoảng 1 ExaFLOPS FP64 cho các nhà nghiên cứu.
Trong bài phỏng vấn với InsideHPC, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF) cho biết: “Chúng tôi đang giải quyết các vấn đề đối với phần cứng. Bạn sẽ gặp thất bại ở quy mô này. Thời gian trung bình phát sinh sự cố trên hệ thống này là hàng giờ, không phải ngày.”
Tin đồn về các lỗi phần cứng tiềm ẩn của Frontier đã nổi lên trong một thời gian khá dài. Theo thông tin khác từ InsideHPC, một số người tiết lộ, hệ thống đã gặp sự cố với kết nối Slingshot. Ngoài ra, những người khác chỉ ra rằng GPU tính toán Instinct MI250X của AMD không đáng tin cậy như mong đợi. Hãy nhớ rằng phiên bản X, với số lượng bộ xử lý luồng lớn hơn cùng xung nhịp cao hơn, chỉ có sẵn cho một số khách hàng được chọn.