tin tức AMD EPYC “Genoa” Zen4 lên đến 96 core, 12-channel DDR5

hiện tại AMD đang nhiều core nhưng nhiều core đó chỉ đáp ứng được mấy ứng dụng ko đặc thù, nếu ko đặc thù thì lợi core, hoặc bên mảng big data, cứ nhiều core thì ngốn được nhiều data. Còn mảng đặt thù tôi ví dụ cần avx2 hay avx 512 thì nhiều core của AMD không nhanh hơn, chạy CPU tăng ksoftirq. Vậy nên nếu con này ra mắt có avx512 thì sẽ bóp được cả lĩnh vực cần nhiều core và cả lĩnh vực cần lệnh đặc thù, đi kèm đó AMD phải tổ chức summer development như intel đang làm. Intel rất hay là khi họ ra tập lệnh nào là họ có show để cho dev xài trong mã nguồn ngay nên hầu như ko có gì vô dụng. AMD không làm thế thì chỉ là con CPU raw performance. Ai lập trình cũng biết rồi, có tập lệnh tối ưu, lập trình ngon thì vẫn cho hiệu năng ngon hơn lập trình ngu, lấy số lượng bù chất lượng.
Nhưng tiếc cho anh là chả ai dùng mấy dòng xeon phi để làm tính toán, cái mà anh bảo là thông minh (có avx-512) cả mà người ta dùng nvidia để làm accelerated computing. Cái mà anh gọi là ngu đang là industry trend đấy. Đây là tôi đang đứng trên góc độ tính toán, có và không có avx-512 (xeon phi vs nvidia tesla)
 
Nhưng tiếc cho anh là chả ai dùng mấy dòng xeon phi để làm tính toán, cái mà anh bảo là thông minh (có avx-512) cả mà người ta dùng nvidia để làm accelerated computing. Cái mà anh gọi là ngu đang là industry trend đấy
Không phải tinh toan cái gì củng mang gpu ra làm được. Và có nhưng cái tính toán là một task trong một chu trình cua phần mềm, ko ai bound qua bound lại cpu gpu được.

via theNEXTvoz for iPhone
 
Last edited:
Nhưng đa phần industry trend là accelerated computing, theo báo cáo của STH
https://www.servethehome.com/top500-november-2020-our-new-systems-analysis/
Tui có edit ơ trên, realtime taskset co liên quan tính toán số học ko chuyển sang vga tính bound qua lại liên tục được. Như vậy sẽ có độ trễ lag cho người dùng cuối. Vi dụ tôi chuyên sang gpu, 1s sau tôi lấy cái đó xử lí tiếp cho chu trình khác, dữ liệu trả ra ko can critical realtime hoặc ko crtitcal inflow latency cho ứng dụng khác thì việc đó chấp nhận được. Nhưng có mấy cái 0,001s thôi là phải có thì làm vậy ko vó ý nghĩa gì cả

via theNEXTvoz for iPhone
 
Tui có edit ơ trên, realtime taskset co liên quan tính toán số học ko chuyển sang vga tính bound qua lại liên tục được. Như vậy sẽ có độ trễ lag cho người dùng cuối. Vi dụ tôi chuyên sang gpu, 1s sau tôi lấy cái đó xử lí tiếp cho chu trình khác, dữ liệu trả ra ko can critical realtime hoặc ko crtitcal inflow latency cho ứng dụng khác thì việc đó chấp nhận được. Nhưng có mấy cái 0,001s thôi là phải có thì làm vậy ko vó ý nghĩa gì cả

via theNEXTvoz for iPhone
Cái này thì tôi không có gì để bàn với anh cả, do tôi chưa bao giờ làm mấy cái critical workflow cả. Và như anh đã trả lời, chắc tầm vài giây thì ng dùng cuối có thể tolerant được nhể
 
Cái này thì tôi không có gì để bàn với anh cả, do tôi chưa bao giờ làm mấy cái critical workflow cả. Và như anh đã trả lời, chắc tầm vài giây thì ng dùng cuối có thể tolerant được nhể
Có thê tuỳ vào loại ứng dụng và loại kh, băng thông pcie hiện tại ko phù hợp cho việc trao đôi dữ liệu qua lai liên tục nếu nó đủ nhanh như tốc dộ nạp vào memory ram từ cpu thì là chuyện khác

via theNEXTvoz for iPhone
 
Có thê tuỳ vào loại ứng dụng và loại kh, băng thông pcie hiện tại ko phù hợp cho việc trao đôi dữ liệu qua lai liên tục nếu nó đủ nhanh như tốc dộ nạp vào memory ram từ cpu thì là chuyện khác

via theNEXTvoz for iPhone
Nếu thế thì dùng nvlink, 50 GT/s cho ampere vs 32GT/s của mấy thằng pcie 5.0 hay 16GT/s của 4.0 đó anh. Nhưng chống chỉ định cho hàng ngoài mấy con nvidia
 
Nếu thế thì dùng nvlink, 50 GT/s cho ampere vs 32GT/s của mấy thằng pcie 5.0 hay 16GT/s của 4.0 đó anh. Nhưng chống chỉ định cho hàng ngoài mấy con nvidia
Còn cả vấn đề tiền đâu nữa. Ví dụ tesla computer cho con xe đó, hàng chuyên dụng chạy ai rất lẹ. Nhưng nó chỉ chuyên 1 việc đó. Còn CPU server nó còn làm mấy cái khác nữa, vấn đề chi phí nữa, 1 card tesla cũng bằng 2 con SH
 
Nếu thế thì dùng nvlink, 50 GT/s cho ampere vs 32GT/s của mấy thằng pcie 5.0 hay 16GT/s của 4.0 đó anh. Nhưng chống chỉ định cho hàng ngoài mấy con nvidia
trời đất những ứng dụng cần phản hồi real time dùng CPU hết, chả ai dùng GPU đâu. Cho dù có cải thiện băng thông độ trễ thế nào đi nữa cũng ko so đc với CPU. 1 thằng độ trễ cơ nano giây thì ngon hơn rất nhiều thằng micro giây.
Cứ nghĩ tăng băng thông là giải quyết đc vấn đề ấy, băng thông on die cao hơn, độ trễ tốt hơn rất nhiều. Nvlink hay IF link thì ko thể so đc, chỉ riêng IO die với CCD die on package trong Ryzen đã cho thấy độ trễ cao vãi rồi nữa là kết nối package to package.
 
Back
Top