tin tức Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày

https://viettimes.vn/sieu-may-tinh-...ay-tron-tru-trong-vong-1-ngay-post160994.html

Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày​


VietTimes – GPU tính toán Instinct MI250X của AMD được cho là nguyên nhân khiến siêu máy tính của Mỹ gặp lỗi


Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày (Ảnh: Tom's Hardware)

Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày (Ảnh: Tom's Hardware)

Xây dựng siêu máy tính luôn là một thách thức. Việc tạo ra hệ thống cấp độ exascale đầu tiên trong ngành có thể tạo ra những vấn đề lớn đến bất ngờ, đòi hỏi nhiều công việc với phần cứng và phần mềm. Đáng tiếc, điều này lại diễn ra với siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge khi siêu máy tính này liên tục gặp phải lỗi khi hoạt động.

Frontier của ORNL là hệ thống đầu tiên trong ngành được thiết kế để mang đến hiệu năng cao nhất, lên đến 1,685 ExaFLOPS FP64 bằng cách sử dụng bộ xử lý EPYC Trento 64 nhân, các GPU tính toán Instinct MI250X của AMD cũng như liên kết HPE Slingshot với công suất 21MW. HPE đã xây dựng hệ thống này, sử dụng kiến trúc Cray EX được thiết kế cho các ứng dụng mở rộng quy mô, chủ yếu dành cho những siêu máy tính cực nhanh.

Trong khi trên giấy tờ, siêu máy tính Frontier nhưng có vẻ những vấn đề về phần cứng vẫn tiếp tục đeo bám chiếc máy tính máy này. Nó chỉ có thể mang đến hiệu năng khoảng 1 ExaFLOPS FP64 cho các nhà nghiên cứu.

Trong bài phỏng vấn với InsideHPC, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF) cho biết: “Chúng tôi đang giải quyết các vấn đề đối với phần cứng. Bạn sẽ gặp thất bại ở quy mô này. Thời gian trung bình phát sinh sự cố trên hệ thống này là hàng giờ, không phải ngày.”

Tin đồn về các lỗi phần cứng tiềm ẩn của Frontier đã nổi lên trong một thời gian khá dài. Theo thông tin khác từ InsideHPC, một số người tiết lộ, hệ thống đã gặp sự cố với kết nối Slingshot. Ngoài ra, những người khác chỉ ra rằng GPU tính toán Instinct MI250X của AMD không đáng tin cậy như mong đợi. Hãy nhớ rằng phiên bản X, với số lượng bộ xử lý luồng lớn hơn cùng xung nhịp cao hơn, chỉ có sẵn cho một số khách hàng được chọn.
 
tất cả tại AMD :3
1 con chip sản xuất ra cũng có lỗi nhưng tỉ lệ ko đáng kể nếu sử dụng chỉ mình nó, bác dùng pc cũng bik lâu lâu mấy nó điên khởi động là hết ấy
đằng này cả triệu con chip đấu nối vs nhau thì tỉ lệ nó sẽ tăng thôi, quá đơn giản dễ hiểu
 
GPU của AMD ngu học là đúng rồi, hàng enduser chạy 1 con còn crash lên crash xuống, phài dùng driver cổ mới tạm dùng được :canny:
 
con này không chạy theo mấy cái hệ thống có sẵn mà theo hệ thống mới hoàn toàn và mấy ông làm con này cũng đã nói là xác định build dựa theo hệ thống mã nguồn mới hoàn toàn, không dựa Nvidia
dễ hiểu là dễ lỗi là chuyện bình thường, nhưng AMD sửa xong hết thì không chỉ hệ thống này mà toàn bộ mảng compute khấm khá lên luôn, nhất là việc năm sau ra siêu APU tích hợp CDNA + Genoa nữa
 
Hoá ra không chỉ chạy excel không ổn định mà còn làm siêu máy tính mất ổn định. Thế này thì ai dám xài hàng amd nữa :)))
 
Ủa bữa TháiGiámg có đăng rồi mà?
pc2vIuJ.png
 
Back
Top