tin tức EPYC "Milan" 7003: AMD mang đỉnh cao mới đến thế giới máy chủ

hiepgia

Đã tốn tiền
EPYC "Rome" 7002 là một trong những CPU máy chủ mạnh nhất của hiện tại. Nhưng AMD vẫn tiếp tục không ngừng nghỉ để tiếp tục mang đến những sản phẩm mới. EPYC "Milan" 7003 đã sẵn sàng để ra mắt mang với những cải thiện để tăng sức mạnh cũng như cạnh tranh. AMD đã làm rất tốt với sản phẩm EPYC "Rome" 7002 với thiết kế độc đáo MCM gồm cIO và cCD giúp cải thiện đáng kể hiệu năng bộ nhớ, khả năng xử lý cũng nhu chú trọng vào bảo mật và điện năng tiêu thụ. EPYC "Milan" 7003 tiếp tục kế thừa thiết kế đó nhưng mang lại nhiều cải tiến ở sâu bên trong kiến trúc Zen 3 nâng cấp từ Zen 2.

Zen 2 lên Zen 3 có điểm gì mới?

Hiệu năng thực thi hoàn toàn có thể dự đoán được, nhờ vào những thay đổi sâu bên trong kiến trúc, chúng ta sẽ nói về điều này ở phần sau. Và tiếp tục lời hứa về IPC tăng lên sau mỗi thế hệ, chúng ta đã biết rằng Zen 3 có IPC hơn Zen 2 đến 19% nhờ danh sách dài những những cải thiện bên trong kiến trúc. Nhờ hiệu năng cải thiện với Zen 3, hiện EPYC "Milan" 7003 đã mang lại hiệu năng gấp đôi đối thủ trong các benchmark tiêu chuẩn công nghiệp như SPECjbb 2015, SPECRate 2017 Int và SPECRate 2017 FP. Bảo mật cũng được cải thiện với việc sửa hoàn toàn các lỗi về kiến trúc kèm thêm các tính năng bảo mật mới giúp chúng ta hoàn toàn yên tâm về dữ liệu được lưu trữ hay xử lý.
2021d843be6d-acec-464d-b31d-2b9694fc75a6.png


Kiến trúc Zen 3 là một kiến trúc rất mạnh.

Chúng ta sẽ đi vào chi tiết của kiến trúc này để xem những cải thiện này:

Bộ dự đoán lệnh (Brand Predictor) và Bộ đệm lệnh (OpCache)


Đây là thành phần giúp phân tích, tìm và nạp trước lệnh/dữ liệu vào bộ nhớ đệm trước để giảm độ trễ. AMD hiện sử dụng thiết kế TAGE từ Zen 2 để tăng độ chính xác của dự đoán lệnh/dữ liệu. Nhưng ở Zen 3 chúng ta có bộ đệm dự đoán đích ở cache L1 (Brand Target Buffer - Cache L1 BTB) lớn hơn gấp đôi từ 512 mục lên 1024 mục và cân bằng lại thiết kế bộ đệm dự đoán đích Cache L2 giảm từ 7k mục xuống 6.5 mục. Mảng mục tiêu gián tiếp (Indirect target array - ITA) cũng được tăng từ 1024 mục lên 1536 mục. Nếu dự đoán sai, thiết kế mới cũng giảm đáng kể độ trễ để lấy được đúng luồng dữ liệu. AMD cũng cho biết rằng không có bong bóng trong hầu hết các dự đoán trước nhờ băng thông cao hơn gấp đôi, nhờ thế có thể lấp đầy các bong bóng trước khi chạm đến trong giai đoạn thực thi. Trong trường hợp bong bóng dự đoán lệnh được lấp đầy thì có thể làm trì trệ việc thực thi khiến giảm hiệu năng. Bộ đệm lệnh nhanh hơn: Lấy lệnh và chuyển ống lệnh nhanh hơn so với Zen 2. Ở Zen 2 lấy 8 chỉ lệnh/chu kỳ, với Zen 3 lấy 8 Macro (1 macro = 1 tập chỉ lệnh) hoặc 8 lệnh.

Tóm lại cho các bạn dễ hiểu: Bộ dự đoán lệnh ở Zen 3 hiệu quả hơn giúp lấy lệnh, dữ liệu đưa vào sẵn bộ đệm lệnh -> Nhân xử lý có sẵn dữ liệu để xử lý liên tục, không phải ngồi chờ dữ liệu nhờ đó tăng hiệu năng.

Bộ nhớ đệm cấp 1 (Cache L1) tối ưu hơn

So với Zen 2, bộ nhớ đệm cấp 1 vẫn là 32KB 8-way nhưng AMD đã cải thiện đáng kể việc sử dụng nó bằng cách lấy dữ liệu từ bộ nhớ đệm cấp 2 hiệu quả và liên tục hơn trước khi được sử dụng ở bộ nhớ đệm cấp 1.

Cải thiện ở phần thực thi:

Chúng ta xét đến phần thực thi số nguyên(Integer Execution) Ở phần giải mã (Decode Stage), AMD thiết kế 4-Wide Scheduler thay vì 7-Wide Scheduler, thiết kế rộng hơn có thể khiến độ trễ ống lệnh cao hơn đẩy thời gian thực thi dài hơn. Thiết kế này là khá cân bằng tương tự như Sunny Cove và Willow Cove. Sang đến phần thực thi, AMD duy trì kiến trúc 6-Wide, nhưng nạp/lưu nhanh hơn. (1+ nạp, 1+ lưu). Việc nạp/lưu giờ rất "uyển chuyển" thay vì fix như ở Zen 2. Kiến trúc Zen 3 có 10 bộ xuất lệnh mỗi chu kỳ thay vì 7 ở Zen 2.
Tóm lại cho các bạn dễ hiểu: Thực thi số nguyên ở Zen 3 được AMD tối ưu giúp xử lý uyển chuyển, rộng hơn và nhanh hơn.

Chúng ta xét đến phần thực thi số thực (Floating Point Execution) Ở phần số thực, chúng ta có kiến trúc rộng hơn với 6 Wide nhưng bộ ghi vẫn là 256 bit ứng với AVX2. FMAC (fused multiply–accumulate) được thực thi với độ trễ thấp hơn (-1 chu kỳ). Hỗ trợ tốt hơn cho Machine Learning với khả năng xử lý INT8 nhanh hơn x2 với 2 bộ F2I. Đây là kiến trúc xử lý số thực nhanh nhất của AMD từ trước đến giờ. Theo mình AMD đã làm một kiến trúc cực kì cân bằng từ việc gửi lệnh xuống thực thi (6 Macro Ops / chu kỳ) -> Thực thi đều là 6 Wide cho cả Int/FP giúp tối ưu điện năng tiêu thụ và cả độ trễ.
202185668fdb-4721-4a0e-8da0-38c242f075fb.png
Kiến trúc bộ đệm cũng chứng kiến thay đổi quan trọng ở bộ nhớ đệm cấp 3.

20218f8a9833-eb06-4680-8505-dc3fd94c4fc6.png


Bộ nhớ đệm cấp 3 ở Zen 3 lớn chỉ gồm 1 cụm 32MB giúp các ứng dụng có thể lưu trữ dữ liệu để xử lý nhiều hơn, chia sẻ dữ liệu nhanh hơn giảm độ trễ giữa các nhân trong cùng 1 CCX.

Zen 3 cũng giới thiệu thêm nhiều lệnh mới giúp cải thiện bảo mật, thực thi.

2021a36988f7-bb3e-4a10-98d1-54e8602a1c80.png


Bảo mật chống Spectre từ phần cứng.

2021d2a822c4-c171-4e83-8058-f93e16a924f1.png
 
Last edited:
EPYC "Milan" 7003: Tính năng mới

Sử dụng kiến trúc Zen 3. Cải thiện hiệu năng bộ nhớ. Bộ nhớ đệm lớn nhất từ trước đến giờ trên nên X86 với lên đến 32MB/nhân. Cải thiện các tính năng bảo mật. Hỗ trợ thiết lập bộ nhớ 4 kênh, 6 kênh, 8 kênh. Nâng cấp dễ dàng từ EPYC "Rome" 7002 thông qua nâng cấp BIOS.

2021f6000b9a-0e58-474b-b3d0-05d6cefa11c3.png


EPYC "Milan" 7003: Đỉnh cao của bộ xử lý máy chủ với rất nhiều tính năng tốt nhất cho máy chủ: Khả năng xử lý:Lên đến 64 nhân/128 luồng. Lên đến 32MB bộ đệm L3 / nhân và chia sẻ trong mỗi Chiplet. Việc truy cập bộ nhớ từ các nhân mang lại độ trễ đồng nhất. Độ trễ truy cập khác Chiplet cũng đồng nhất. TDP từ 120W đến 280W.
Hỗ trợ bộ nhớ: 8 kênh DDR4 ECC lên đến 3200Mhz, hỗ trợ thiết lập bộ nhớ 6 kênh. Tối đa lên đến 4TB bộ nhớ/socket. Hỗ trợ nhiều loại bộ nhớ: RDIMM, LRDIMM, 3DS, NVDIMM-N.
Hiệu năng: Hiệu năng máy chủ cao nhất. Hiệu năng đơn nhân cao nhất. Công nghệ Infinity Fabric thế hệ 2.
Tích hợp chipset: hỗ trợ 128 làn PCIe 3/4, lên đến 162 làn với thiết lập 2 socket. Hỗ trợ các kết nối tiêu chuẩn: USB, UART, SPI, LPC, I2C ...
Bảo mật: Tích hợp bảo mật bên trong hỗ trợ Secure Boot, Hardware Root-of-Trust giúp việc boot bảo mật ngay từ khi bấm nút nguồn. Secure Memory Encyption giúp mã hóa bộ nhớ nhằm bảo vệ dữ liệu trong bộ nhớ. SEV-ES bảo mật máy ảo. SNP (Secure Nested Paging) - Bảo mật trang bộ nhớ trong trang bộ nhớ khác giúp bảo mật các ứng dụng sử dụng Nested Virtualization.

2021b4ebd7d9-510d-41c9-8323-fe6d2dbba55b.png
Thay vì phải cắm 8 kênh bộ nhớ ở EPYC 7002, chúng ta có thể lựa chọn việc cắm 4 kênh, 6 kênh hoặc 8 kênh bộ nhớ nhằm tối ưu chi phí cho máy chủ, hoặc khi sử dụng những CPU có ít nhân.

202184a12ec1-ac66-4237-af2f-8c88ded218df.png


AMD cam kết rất mạnh về bảo mật trên các sản phẩm của mình. Và AMD đang cho thấy những cam kết của họ bằng kết quả. Với Zen 3, AMD đã tăng cường bảo mật cho máy ảo và chống tấn công vào kiến trúc.


2021bf7fe18c-47c0-42bc-88ab-18c4cb10bf94.png


Vốn bị chỉ trích với với bị chỉnh sửa bios để tạo backdoor ở thế hệ EPYC 7001. AMD đã mang đến bảo mật cấp cao hơn với tính năng Root-of-Trust, khi các khóa bảo mật được lưu trữ trong ROM được nạp lên và chứng thực trước khi BIOS được nạp và chạy. Nhờ đó bảo mật toàn toàn quá trình boot firmware và hệ điều hành.

2021855b58ed-b9ce-4d59-8ab1-08d45faa04cc.png


AMD với EPYC 7003 đã nâng tầm bảo mật máy ảo lên 1 mức mới. Toàn bộ bộ nhớ máy chủ lẫn máy ảo đều được mã hóa, trạng thái máy ảo cũng được mã hóa, ngay cả các trang nhớ trong trang nhớ cũng đã được bảo mật. Và các tính năng này không yêu cầu phải tạo máy ảo mới.

20210c401dc5-6b62-433d-8a74-c885b74022c2.png
 
EPYC "Milan" 7003: Hiệu năng

AMD tiếp tục đẩy hiệu năng lên 1 tầm cao mới với EPYC 7003 series.

2021bda2d745-ec25-4928-bdd6-464b1aae673f.png


Các mẫu EPYC 7003 mới. Tất cả đều hỗ trợ 8 kênh bộ nhớ DDR4-3200, 4TB RAM tối đa, 128 làn PCIe4, SMT đa luồng và Turbo Boost, 18G AMD Infinity Fabric, mã hóa bộ nhớ, Bảo mật mã hóa ảo hóa, đồng bộ hóa liên kết và bộ nhớ. AMD lần đầu giới thiệu model 56 nhân và 28 nhân. Phiên bản F tối ưu xung nhịp giúp đạt được xung nhịp cao cho các tác vụ đòi hỏi xung nhịp.

2021b8738347-e30d-44bf-bc50-addd10fe88ab.png


Định vị sản phẩm của dòng EPYC 7003 được chia 3 phân khúc: Hiệu năng nhân với mã 7xF3 với 8/16/24 và 32 nhân, xung nhịp base và boost cao để tối ưu hóa hiệu năng ứng dụng. Phân khúc mật độ với mã 77x3 và 76x3 nhân/luồng cao với 48, 56, 64 nhân. Phân khúc cân bằng, tối ưu điện năng tiêu thụ, và cost với mã 75x3, 74x3 và 73x3.

2021f1c13662-14af-4a59-84cb-024b1fea4819.png


Hiệu năng khi so với Xeon, chúng ta có dòng 24/28 nhân dòng cao tương đương hoặc vượt hiệu năng với Intel Xeon Gold 6258R (28 nhân) vốn có hiệu năng gần tương đương Intel Xeon Platium 8280. Các dòng 16 nhân đều cho hiệu năng vượt trội so với Xeon Silver 4216 (16 nhân). Hiệu năng dòng cao cấp 64 nhân gấp đôi Intel Xeon Gold 6258R. Chúng ta thấy EPYC 7003 mang lại một dải sản phẩm rộng với hiệu năng cao ở nhiều mức giá.

2021a8a742fc-0a62-49c9-b295-6473fd947ce4.png


Trên việc Scale máy chủ cho các nhu cầu Cloud Compute thì chip 7763 đem đến hiệu năng siêu cao. Nhanh hơn 106% so với đối thủ.

20218491bbdc-d135-4e18-b0ae-362bd17bb24b.png



Với các ứng dụng doanh nghiệp lớn thì việc sử dụng 7763 giúp hiệu năng cao hơn 117%, đem đến độ trễ thấp hơn đáng kể.

202156179b91-1538-45e0-a0f3-e657f478d7a1.png


Hiệu năng tính toán FP trên 2 socket của 32 nhân F series so với Intel nhanh hơn 70%.

2021a796dc03-fbae-49b1-b003-3d9664996b9d.png


Tổng kết: Hiệu năng của EPYC 7003 là rất tuyệt vời nhưng cần những benchmark với những phần mềm thực tế. Chúng ta chắc sẽ sớm thấy những bài review về dòng mới này sớm

Khi so sánh hiệu năng 4 racks với 63 máy chủ Intel Xeon Gold 6258R thì với AMD EPYC 7763 số máy chủ ít hơn 49%, ít chỗ hơn 25%, điện năng giảm 35%, TCO 4 năm giảm 35%.

2021f0266286-4e80-4f9a-a35a-338fe0aedbf1.png


Sau 4 năm, hệ sinh thái EPYC đã phát triển rất mạnh mẽ, và chắc chắn rằng sau khi EPYC 7003 ra mắt thì hệ sinh thái càng mở rộng hơn nữa.

202112c6201c-a2be-4bd5-a625-cfce6bfe4d2b.png


Giá cả và thông số chi tiết các bạn tham khảo bên dưới nhé.

20218e352cee-f805-4730-8175-4c6d77090937.png


PS: Model 7443P, 7453 rất phù hợp cho mấy bác nào xây máy chủ bán máy ảo. Số nhân cao, hiệu năng cao. Chắc với 2 em này thì số lượng cloud provider dùng EPYC tăng đây.
 
Chắc phải tầm vài năm nữa khi các hệ thống máy chủ cũ của Intel gần hết date thì các hãng cũng dần kéo sang đội AMD hết. :smile:
 
Đúng là hơi thất vọng khoản này của Zen3, đúng ra IPC cao hơn 19%, xung boost SingleT/nT cũng cao hơn mà hiệu năng chỉ vượt trội ở SingleT. Scale multicores của Zen3 so với Zen2 đúng chán luôn.
TDP tăng một chút nữa chứ ko giảm
 
Đúng là hơi thất vọng khoản này của Zen3, đúng ra IPC cao hơn 19%, xung boost SingleT/nT cũng cao hơn mà hiệu năng chỉ vượt trội ở SingleT. Scale multicores của Zen3 so với Zen2 đúng chán luôn.
cải thiện thi hành thế nào đi nữa cũng chỉ có thể giải mã 4 lệnh trên 1 xung nhịp. SMT của AMD vốn đã quá tốt rồi, đa nhân khó có thể cải nhiện nếu ko tăng số lệnh giải mã hơn.
 
Back
Top