kiến thức Làm rõ chất lượng âm thanh của Youtube (app&web) và so sánh với chất lượng Spotify

Spotify bản desktop bitrate 320kbps vorbis nếu mình nhớ ko nhầm, decrypt được file sẽ có đuôi .ogg. Bản web thì AAC 256kbps.

YouTube nhấn chuột phải chọn Stats for nerd sẽ thấy định dạng video/audio đang được chơi, trong phần ngoặc đơn sẽ thấy ID của nó. Các tool như youtube-dl/yt-dlp khi phân tích đường link YouTube sẽ thấy các ID đó, thường YouTube sẽ chạy ID 251 cho audio, chính là codec opus, loanh quanh mức 128kbps 48khz, tải về nó sẽ nằm trong container dạng .webm
 
tôi thấy anh lẫn lộn rồi sao ấy...

bitdepth thì đo bằng bit thể hiện dynamic range 48kHz ở đây là sample rate và không liên quan gì tới tần số âm thanh cả, làm gì có chuyện sample rate 48kHz thì giới hạn tần số âm thanh 24kHz? bitdepth 16bit cũng không giới hạn sample rate 48kHz...

sao lại có những sự liên quan vô lý thế?

Có mấy cái anh chưa hiểu, hoặc hiểu chưa đúng. Tôi chỉ ra giúp anh:

-bitdepth nó quyết định sự tồn tại của bao nhiêu mẫu giá trị đo được của tín hiệu và càng nhiều thì sự thể hiện càng chính xác. Cái này là tôi dẫn giải ra cho rõ.
-dynamic range trong âm thanh không được dùng để nói về tần số. Dynamic range trong âm thanh sẽ nói về SPL.
-bitdepth thực tế không quyết định Sample rate, nhưng vì người ta chỉ thấy tồn tại 16bit 44kHz với CD và 16bit48kHz với định dạng video, mà không có hơn, nên mới nói 16bit chỉ tối có tần số lấy mẫu tối đa 48kHz. Vấn đề là có ai từng có file nhạc nào 16bit mà sample rate cao hơn hay chưa?
-Còn việc tại sao sample rate lại khiến cho giới hạn âm thanh ở tần số bằng nửa sample rate thì anh nên tìm hiểu thêm. Tìm hiểu từ cái cách mà PCM nó làm việc. Đặc biệt là tự mở các file có sample rate khác nhau với phần mềm check phổ âm spek để hiểu rõ hơn. Hoặc là anh hỏi những người khác có khi cũng sẽ rõ hơn tại sao lại như vậy. Từ cái định nghĩa của nó là ta đã hiểu được nó rồi. Tần số lấy mẫu tức là cứ 1 giây nó lấy mẫu giá trị tín hiệu bao nhiêu lần. Trong khi sóng âm cũng là câu chuyện của việc dao động bao nhiêu lần trong 1 giây. Hiển nhiên nó quy định và giới hạn lẫn nhau mà về logic cần ÍT NHẤT 2 giá trị để thể hiện 1 sóng do vậy cái tần số thể hiện được tối đa luôn bằng 1/2 sample rate - thực ra nó rất dễ hiểu như vậy.
 
Spotify bản desktop bitrate 320kbps vorbis nếu mình nhớ ko nhầm, decrypt được file sẽ có đuôi .ogg. Bản web thì AAC 256kbps.

YouTube nhấn chuột phải chọn Stats for nerd sẽ thấy định dạng video/audio đang được chơi, trong phần ngoặc đơn sẽ thấy ID của nó. Các tool như youtube-dl/yt-dlp khi phân tích đường link YouTube sẽ thấy các ID đó, thường YouTube sẽ chạy ID 251 cho audio, chính là codec opus, loanh quanh mức 128kbps 48khz, tải về nó sẽ nằm trong container dạng .webm
Mình để ý thấy khi mở Youtube thì card âm thanh của mình tự động chuyển qua 48kHz còn khi nghe Spotify thì nó chuyển lại thành 44.1kHz. Có lẽ nhạc của Spotify được rip từ CD
 
  • 48kHz là sample rate của nguồn nhạc DVD, được youtube cài đặt làm mặc định. Trong khi 44.1kHz là sample rate của nguồn nhạc CD.
  • 16bit là bit depth của hầu hết các nguồn nhạc CD, DVD và các định dạng lossless hiện nay.
  • Theo như lý thuyết lấy mẫu thì tín hiệu lấy mẫu có thể được phục hồi nếu nó nhỏ hơn 1/2 sample rate. Thực tế cho thấy các tín hiệu phải nhỏ hơn 1/2 sample rate khá nhiều mới đảm bảo không bị méo (distortion). Các tín hiệu có tần số gần 1/2 sample rate luôn có âm thanh "lạ" đi kèm, chất âm của nó rất khác.
  • Theo những gì tui cảm nhận thì sample rate 44.1kHz chỉ có thể tái hiện tốt với âm thanh đến 10kHz. Âm thanh trên 10kHz sau khi tái hiện thì nó không đồng đều về mặt độ lớn dẫn đến âm thanh nghe rất kỳ cục.
  • Về cơ bản thì bit depth và sample rate cao hơn thì chất lượng tốt hơn.
  • Đối với các hệ thống lấy mẫu có feedback (giống như sigma delta) thì sample rate có thể bù trừ cho bit depth do nguyên tắc trung bình giữa các sample. Tức là tín hiệu mặc dù được lấy mẫu với bit depth nhỏ hơn (4 bit chẳng hạn, hoặc 1 bit đối với DSD của SACD), nhưng tần số lấy mẫu cao hơn thì chất âm vẫn tương đương.


Đồng ý với bác như vậy rồi, nhưng câu chuyện 48kHz với 44kHz nó chỉ biểu hiện ra tốt nhất khi so sánh 2 cái WAV. Còn youtube vốn là nhạc nén, khi nén lại thì nó cũng mất sạch tín hiểu ở vùng supertreble rồi, ít nhất là sẽ mất ở vùng trên 20kHz còn thực tế làm thí nghiệm xong sẽ biết là có mất sâu hơn nữa hay không?

Còn việc đọc thì đa số các giải mã hiện nay đều upsampling được, ngay kể cả giải mã onboard của windows, ở trong phần Sound, bác sẽ thấy có thể upsampling từ 16bit 44kHz lên thành 16bit 48kHz. Nếu DAC có khả năng giải mã cao hơn thì còn có thể up lên nữa.



///////////////////

Phần nội dung của thread chiều nay mình mới tiến hành thu âm các bác ạ. Khổ quá chưa tìm được file WAV của 1 số bài muốn thu nên chưa tiến hành sớm được.
 
Last edited:
Đồng ý với bác như vậy rồi, nhưng câu chuyện 48kHz với 44kHz nó chỉ biểu hiện ra tốt nhất khi so sánh 2 cái WAV. Còn youtube vốn là nhạc nén, khi nén lại thì nó cũng mất sạch tín hiểu ở vùng supertreble rồi, ít nhất là sẽ mất ở vùng trên 20kHz còn thực tế làm thí nghiệm xong sẽ biết là có mất sâu hơn nữa hay không?

Còn việc đọc thì đa số các giải mã hiện nay đều upsampling được, ngay kể cả giải mã onboard của windows, ở trong phần Sound, bác sẽ thấy có thể upsampling từ 16bit 44kHz lên thành 16bit 48kHz. Nếu DAC có khả năng giải mã cao hơn thì còn có thể up lên nữa.
Mình đang nói về cái WAV, còn chuyện nén nhạc thì chắc chắn sẽ mất dữ liệu rồi, nên sau khi giải nén thì có upsampling cũng không làm cho chất âm tốt lên được.
 
Mình đang nói về cái WAV, còn chuyện nén nhạc thì chắc chắn sẽ mất dữ liệu rồi, nên sau khi giải nén thì có upsampling cũng không làm cho chất âm tốt lên được.

Thì bởi vậy, mình mới trả lời bác cái đó là quote cái comment bác nói về youtube là 48kHz còn CD thường chỉ là 44kHz đó. Mình làm rõ ra không anh em nào không thạo nghe bác nói vậy lại tưởng youtube còn trội hơn cả CD.
 
Thì bởi vậy, mình mới trả lời bác cái đó là quote cái comment bác nói về youtube là 48kHz còn CD thường chỉ là 44kHz đó. Mình làm rõ ra không anh em nào không thạo nghe bác nói vậy lại tưởng youtube còn trội hơn cả CD.
Đồng ý với bác. Chất lượng âm thanh phụ thuộc vào nhiều yếu tố. Nhưng youtube xài 48kHz cho thấy họ đang hướng đến âm thanh chất lượng cao. Mặc dù có nhiều âm thanh là từ 44.1kHz up lên 48kHz. Nhưng nếu nguồn nhạc là 48kHz thì khi lên Youtube sẽ không cần phải up hay down sampling nữa, do đó chất âm được đảm bảo hơn. Thêm nữa là youtube dùng chuẩn nén opus nên chất lượng cao hơn so với mp3 truyền thống, nhưng nếu họ dùng lossless thì ngon :p
 
Có mấy cái anh chưa hiểu, hoặc hiểu chưa đúng. Tôi chỉ ra giúp anh:

-bitdepth nó quyết định sự tồn tại của bao nhiêu mẫu giá trị đo được của tín hiệu và càng nhiều thì sự thể hiện càng chính xác. Cái này là tôi dẫn giải ra cho rõ.
-dynamic range trong âm thanh không được dùng để nói về tần số. Dynamic range trong âm thanh sẽ nói về SPL.
-bitdepth thực tế không quyết định Sample rate, nhưng vì người ta chỉ thấy tồn tại 16bit 44kHz với CD và 16bit48kHz với định dạng video, mà không có hơn, nên mới nói 16bit chỉ tối có tần số lấy mẫu tối đa 48kHz. Vấn đề là có ai từng có file nhạc nào 16bit mà sample rate cao hơn hay chưa?
-Còn việc tại sao sample rate lại khiến cho giới hạn âm thanh ở tần số bằng nửa sample rate thì anh nên tìm hiểu thêm. Tìm hiểu từ cái cách mà PCM nó làm việc. Đặc biệt là tự mở các file có sample rate khác nhau với phần mềm check phổ âm spek để hiểu rõ hơn. Hoặc là anh hỏi những người khác có khi cũng sẽ rõ hơn tại sao lại như vậy. Từ cái định nghĩa của nó là ta đã hiểu được nó rồi. Tần số lấy mẫu tức là cứ 1 giây nó lấy mẫu giá trị tín hiệu bao nhiêu lần. Trong khi sóng âm cũng là câu chuyện của việc dao động bao nhiêu lần trong 1 giây. Hiển nhiên nó quy định và giới hạn lẫn nhau mà về logic cần ÍT NHẤT 2 giá trị để thể hiện 1 sóng do vậy cái tần số thể hiện được tối đa luôn bằng 1/2 sample rate - thực ra nó rất dễ hiểu như vậy.
tôi làm mấy dự án DSP rồi, mấy cái này quá cơ bản anh không cần phải giải thích đâu, nhất là lại không nên giải thích sai :)

tôi gõ điện thoại thiếu mất dấu phẩy ở trước cái 48kHz, anh đọc thế nào lại ra thành tôi bảo dynamic range 48kHz thế??? mà nếu tôi dùng cái 48kHz để thể hiện dynamic range thì phần text đằng sau cái 48kHz ấy nó vô nghĩa à?

- bitdepth chính là để thể hiện dynamic range, dynamic range dùng để thể hiện biên độ giao động, tất nhiên nó không dùng để thể hiện tần số giao động... lưu ý dynamic range ở đây là dynamic range của tín hiệu đã số hóa, nó thể hiện độ "nhuyễn" của tín hiệu, anh không được đánh đồng với dynamic range của tín hiệu chưa số hóa (đọc thêm bên dưới)

- SPL nó là khái niệm hoàn toàn không liên quan tới vấn đề đang bàn cãi, không hiểu anh lôi vào đây làm gì? dynamic range khi nói tới bitdepth là thước đo độ động tương đối của tín hiệu đã số hóa, SPL là thước đo tuyệt đối của "độ to" của âm thanh, thế quái nào lại lôi vào nói chuyện cùng lúc được?

- bitdepth với sample rate hoàn toàn không liên quan tới nhau, chẳng qua vì một số định dạng âm thanh phổ biến nó thường dùng là 16bit 48kHz, không có nghĩa là nó liên quan với nhau... tôi hoàn toàn có thể tạo ra một định dạng lưu trữ âm thanh số hóa mới với 16bit 192kHz, nhưng có mỗi mình tôi dùng thì nó không thể trở nên phổ biến - nhưng không thể vì thế mà cứ nói 16bit thì sẽ bị giới hạn bởi 48kHz được, như thế là sai về bản chất... không khác nào bảo xe hơi thì bị giới hạn bởi 4 bánh? thế là sai...

- tần số âm thanh tương tự tối đa có thể số hóa được khi sample rate gấp đôi, cái này đúng về mặt lý thuyết, nhưng trong thực tế hoàn toàn có thể dùng nội suy, tất nhiên nội suy thì sẽ giảm độ chính xác... nhưng bản chất của quá trình số hóa luôn là làm giảm độ chính xác (từ độ phân giải vô tận của tín hiệu tương tự thành độ phân giải có giới hạn của tín hiệu số) - vậy thì chả có lý do gì mà không được phép dùng nội suy để sample tín hiệu có tần số lớn hơn 1/2 tần số lấy mẫu...

- tất nhiên việc cố gắng sample tần số âm thanh lớn hơn 1/2 tần số lấy mẫu hiện giờ không có bất kỳ codec nào làm bởi vì nó không có ý nghĩa thực tế, phần âm thanh trên 20kHz không có ý nghĩa đối với mục đích sử dụng của các codec này nên không việc gì phải ghi nhận hết... thuật toán có đầy, mature luôn, thích ứng dụng là được, nhưng nó vô nghĩa, giống như lắp động cơ phản lực lên xe hơi đã từng làm rồi, để lấy kỷ lục thế giới đó... nhưng chả ai lắp lên xe dân dụng cả...
 
với lại tôi góp ý luôn là phương án test của anh rất sai, nó hoàn toàn phụ thuộc vào hệ thống thu phát, lỡ cái dàn loa của anh response frequency nó không đủ rộng thì sao (tôi khá chắc tất cả cặp loa nào dưới 2 tỉ sẽ không đủ rộng) - lỡ phòng nghe của anh setup không tốt, cộng hưởng hay triệt tiêu làm sai lệch biên độ của một vài khoảng tần số thì sao? lỡ mic thu của anh chưa được calibrate đúng thì sao?

cách đơn giản nhất để thấy sự khác biệt của các nền tảng khác nhau là lấy một file lossless rồi upload cả lên youtube lẫn spotify, sau đó download bản đã được xử lý của hai thằng này về, rồi so sánh với nhau (và với bản gốc)

đơn giản, foolproof thế sao anh không làm? đưa quá nhiều biến số vào thế này kết quả tôi không thấy có ý nghĩa lắm...
 
loa cùi nên như nhau.
có cả Spotify Pre mà Youtube Pre.
Spotify chủ yếu nghe nhạc và podcast.
Youtube xem clip và mấy bài nhạc ko có trên spotify
 
Vì không muốn OT nên xin phép bỏ qua ông kacee. Hiếm thread nào có mặt ổng mà không bị ổng làm hỏng.

Giờ lại đòi tần số lấy mẫu 48khz phải thể hiện được sóng âm tần số hơn 24kHz. Vẽ cái giản đồ đơn giản pure wave 24kHz ra là hiểu tslm tối thiểu 48kHz mới thể hiện được rồi và ai cũng hiểu chẳng cần tí kthuc điện tử nào.


Còn vụ ghi âm để so sánh thì đó là cách đơn giản tôi nghĩ ra được thôi. Nếu có cách down file stream của Spotify và Youtube về thì ngon nhưng tôi lại không biết cách. Anh nào biết cách làm cái này thì làm giúp đăng lên thread này thì sẽ là cách ngắn gọn trực quan nhất, tôi đỡ phải làm thu âm và check phổ.


Còn nếu không có ai làm được thì tôi vẫn phải thu âm vì đó là cách duy nhất. Có lo ngại về sai khác phổ âm nhưng không sao vì sai thì cả 2 cùng sai, cốt xem ai ngon hơn chứ không phải xem ai đúng. Ngon hơn thì dựa vào dữ liệu cắt tần. Lo ngại về frequency range của hệ thống của tôi không lên đến 22kHz thì cũng khỏi lo vì tôi đã từng thu rồi và phổ của nó reach quá 22kHz nên anh khỏi lo vấn đề này. Vụ anh bảo dàn 2 tỉ mới làm được thì thôi tôi không có ý kiến.
 
với lại tôi góp ý luôn là phương án test của anh rất sai, nó hoàn toàn phụ thuộc vào hệ thống thu phát, lỡ cái dàn loa của anh response frequency nó không đủ rộng thì sao (tôi khá chắc tất cả cặp loa nào dưới 2 tỉ sẽ không đủ rộng) - lỡ phòng nghe của anh setup không tốt, cộng hưởng hay triệt tiêu làm sai lệch biên độ của một vài khoảng tần số thì sao? lỡ mic thu của anh chưa được calibrate đúng thì sao?

cách đơn giản nhất để thấy sự khác biệt của các nền tảng khác nhau là lấy một file lossless rồi upload cả lên youtube lẫn spotify, sau đó download bản đã được xử lý của hai thằng này về, rồi so sánh với nhau (và với bản gốc)

đơn giản, foolproof thế sao anh không làm? đưa quá nhiều biến số vào thế này kết quả tôi không thấy có ý nghĩa lắm...
Chuẩn nè. Mình đang ngạc nhiên chỗ chủ thớt thu âm lại để so sánh. Việc thu âm nó ít nhiều phụ thuộc môi trường thu, thiết bị thu (cái mà các hãng âm thanh cũng nhức đầu khi thu để tái tạo lại các buổi biểu diễn cho chuẩn nhất có thể).
Đang test về mặt digital thì thuần digital luôn, tự nhiên lạc bước analog vào giữa đường.
Test thêm một số tool down nhạc để so sánh xem tool nào bảo toàn chất lượng tốt nhất.
 
Chuẩn nè. Mình đang ngạc nhiên chỗ chủ thớt thu âm lại để so sánh. Việc thu âm nó ít nhiều phụ thuộc môi trường thu, thiết bị thu (cái mà các hãng âm thanh cũng nhức đầu khi thu để tái tạo lại các buổi biểu diễn cho chuẩn nhất có thể).
Đang test về mặt digital thì thuần digital luôn, tự nhiên lạc bước analog vào giữa đường.
Test thêm một số tool down nhạc để so sánh xem tool nào bảo toàn chất lượng tốt nhất.
Với youtube thì recommend tool này:
https://github.com/yt-dlp/yt-dlp

Spotify cho phép download nhạc chính mình up lên ko nhỉ 🤔
 
Chuẩn nè. Mình đang ngạc nhiên chỗ chủ thớt thu âm lại để so sánh. Việc thu âm nó ít nhiều phụ thuộc môi trường thu, thiết bị thu (cái mà các hãng âm thanh cũng nhức đầu khi thu để tái tạo lại các buổi biểu diễn cho chuẩn nhất có thể).
Đang test về mặt digital thì thuần digital luôn, tự nhiên lạc bước analog vào giữa đường.
Test thêm một số tool down nhạc để so sánh xem tool nào bảo toàn chất lượng tốt nhất.


Cái đó ai mà không biết hả bác. Nhưng việc mình muốn làm ở đây không phải là so sánh cái file ghi âm nó có giống file digital gốc hay không. Mà là so sánh rằng nhạc nén được chơi bởi nền tảng này ví dụ Youtube, so với nhạc nén chơi bởi nền tảng kia, là Spotify thì xem xem khi thu lại thì phổ âm của nó thể hiện được tối đa đến đâu. Nó phản ánh cái chất lượng nén của nhạc nén.

Còn nếu mà bằng cách nào down được Opus của youtube về và down được AAC 256kbps hoặc OGG 320kbps của Spotify về để check phổ thì quá tốt và là best, nhưng mình không biết cái này, bác nào biết thì làm giúp.
 
Thử ví dụ luôn nhé các bác, Bác nào rành về Tool lấy được nhạc Opus từ Youtube thì thử track sau. Vì mình có theo dõi 1 thread trên facebook thì có 1 bác chia sẻ check phổ track Red trong album Red (Deluxe) của Taylor Swift cho phổ âm nằm rất đáng kể ở dải từ 20~22kHz, cho nên khi so sánh nó với nhạc nén và các loại nhạc nén với nhau cũng dễ nhận biết được sự khác biệt so với nhạc gốc.

 
Cái đó ai mà không biết hả bác. Nhưng việc mình muốn làm ở đây không phải là so sánh cái file ghi âm nó có giống file digital gốc hay không. Mà là so sánh rằng nhạc nén được chơi bởi nền tảng này ví dụ Youtube, so với nhạc nén chơi bởi nền tảng kia, là Spotify thì xem xem khi thu lại thì phổ âm của nó thể hiện được tối đa đến đâu. Nó phản ánh cái chất lượng nén của nhạc nén.

Còn nếu mà bằng cách nào down được Opus của youtube về và down được AAC 256kbps hoặc OGG 320kbps của Spotify về để check phổ thì quá tốt và là best, nhưng mình không biết cái này, bác nào biết thì làm giúp.
Bác cứ đưa link youtube và spotify, mình sẽ down được
 
Còn đây là 1 track mình từng thu test với con Zoom H6, chọn chế độ thu 24bit 48kHz để phổ nó được rộng hơn cho dễ so sánh, thu lại 1 bản lossless và có thể thấy hệ thống của mình vẫn thu tốt phần phổ âm > 20kHZ đến 22kHz.

1632655311266.png




Còn dưới đây là 1 phổ của file thu âm cũng với hệ thống đó nhưng thay bằng track khác mp3 320kbps và thậm chí để tslm lên 96kHz thì có thể thấy là nó vẫn không vượt qua được 20kHz. Cho nên đây vẫn là 1 cách khả tín để đánh giá chất lượng file nhạc. Chỉ cần vào máy thu âm và check ra phổ âm luôn dưới 20kHz thì có thể khẳng định nó là nhạc nén rồi. Còn tùy cắt tần ở đâu cũng như định dạng là gì để thì còn có thể đánh giá bitrate của nó. Ví dụ nếu biết rằng nó là mp3 và thấy phổ bị cắt tần ở 17kHz thì có thể nói luôn chất lượng của nó chỉ cỡ 128kbps mà thôi chẳng hạn.
1632655850058.png
 
Last edited:
Bác cứ đưa link youtube và spotify, mình sẽ down được


Vậy bác thử giúp mình nhé:

Youtube:
Spotify:

Bác setting giúp Youtube lên phân giải cao nhất nhé, và setting spotify cá nhân của bác phần streaming quality lên veryhigh để đảm bảo lấy được những file số tốt nhất của cả 2 bên.

Ngoài ra bác nếu có tidal Hi-fi thử lấy luôn cả file lossless từ tidal xem sao, check phổ luôn cho trực quan.
 
Vậy bác thử giúp mình nhé:

Youtube:
Spotify:

Bác setting giúp Youtube lên phân giải cao nhất nhé, và setting spotify cá nhân của bác phần streaming quality lên veryhigh để đảm bảo lấy được những file số tốt nhất của cả 2 bên.

Ngoài ra bác nếu có tidal Hi-fi thử lấy luôn cả file lossless từ tidal xem sao, check phổ luôn cho trực quan.
Ok, vậy bác chờ mình 1 chút, mình sẽ lấy bản youtube với spotify trước. Tidal thì mình phải setup hơi lâu chút mới down được
 
Back
Top