Morgan le Fay
Senior Member
Ngày ra mắt thế hệ đồ hoạ tiếp theo của AMD đang đến rất gần. Kiến trúc dòng sản phẩm RDNA3 ngày càng được hé lộ. Theo đó, vào ngày hôm nay, AMD đã bổ sung một tệp lệnh mới trong trình biên dịch LLVM với tên gọi là Wave Matrix Multiply-Accumulate (WMMA). Được biết, tệp lệnh này được tối ưu dành cho GFX11, chính là mã dòng kiến trúc GPU RDNA3 của AMD. Với tệp lệnh WMMA này, AMD sẽ cung cấp hỗ trợ cho việc xử lý ở kích thước 16x16x16 theo đơn vị tensor ở định dạng FP16 và BF16. Tức là, AMD đã đưa vào một tập lệnh tính toán tối ưu mới dành cho các phép tính toán ma trận đa chiều, tức tương đương với những gì Nvidia đã làm với kiến trúc Tensor core.
Bản cập nhật API AMD ROCm 5.2 liệt kê hướng dẫn cho tệp lệnh này:
rocWMMA cung cấp API C ++ để có thể phân tích các ma trận đa chiều thành các mảnh nhỏ và sử dụng chúng trong các hoạt động xử lý song song trên GPU. API này được tích hợp trực tiếp vào hệ thống mã nguồn của GPU, tức nó có thể biên dịch các trình tăng tốc xử lý ma trận trực tiếp từ kernel. Việc tối ưu này có thể có ích từ việc tối ưu trình biên dịch trong quá trình khởi tạo kernel và không bị giảm hiệu suất khi liên kết các thư viện bên ngoài hay phải khởi chạy các kernel riêng biệt. RocWMMA được ra mắt dưới dạng thư viện tiêu đồ (header-library) và bao gồm các mẫu thử để xác thực và minh hoạ cách sử dụng API C++. Phép nhân ma trận GEMM được sử dụng để làm xác thực chính cho thư viện này. Danh mục xác thực sẽ được tăng lên trong tương lai.
Source: TPU
Last edited: