Nguỵ biện bằng con số trung bình
Sở Môi Trường Hà Nội cho rằng lấy chỉ số ô nhiễm không khí (chỉ số AQI hay air quality index) từ Đại sứ quán Mĩ là “không đại diện cho cả thành phố và cũng không chính xác” (1). Thật ra, chẳng có chính xác hay đại diện gì cả. Tôi thấy phát biểu này có gì đó … sai sai. Cái sai lầm của phát biểu này thực ra là một nghịch lí rất nổi tiếng trong khoa học thống kê có tên là “fallacy of average” (nghịch lí giá trị trung bình). Nhưng khi dùng nó (số trung bình) để biện minh cho một sai lầm thì nó trở thành một nguỵ biện.
Nghịch lí này có thể giải thích một cách vui vui và thực tế như sau. Nếu tôi nói với bạn, một người không biết bơi, rằng con sông này có chiều sâu trung bình là 1 mét; bạn có lẽ cảm thấy an toàn và sẵn sàng nhảy xuống sông để tắm. Nhưng bạn kém may mắn vì bạn nhảy xuống đoạn sông có chiều sâu 3 mét, và bạn có thể chết đuối! Bạn trách tôi cung cấp thông tin không chính xác, nhưng thật ra tôi cung cấp số liệu chính xác. Tôi chỉ nói số trung bình, chứ không nói rằng con sông đó có những đoạn với chiều sâu 4, 3, 2, 1, 0.6 mét. Bạn không may mắn gặp đoạn sông 3 mét và gặp hiểm nguy. Bài học ở đây là: không thể lấy con số trung bình (tính toán từ một nhóm hay một quần thể) để áp dụng cho một cá thể.
Một bài học khác về áp dụng con số quần thể cho cá nhân trong y khoa còn thê thảm hơn. Louis Washkansky là bệnh nhân đầu tiên trên thế giới được thay tim, và câu chuyện của ông cho chúng ta cái nhìn về con số trung bình cẩn thận hơn. Chuyện kể rằng năm 1967 (bên Nam Phi), khi bệnh nhân Washkansky được đưa vào phòng mổ, bác sĩ Christiaan Barnard tự giới thiệu và giải thích rằng ông sẽ thay trái tim của Washkansky bằng một trái tim mới tốt hơn. Barnard thêm rằng Washkansky sẽ có cơ may bình phục sau phẫu thuật. Trên giường bệnh, Washkansky không bình luận gì cả, mà chỉ bình thản ... đọc tiểu thuyết. Mà, loại tiểu thuyết 3 xu! Barnard cảm thấy lo lắng cho thái độ của bệnh nhân, vì hình như bệnh nhân không cảm nhận được đây là một ca mổ mang tính lịch sử y học. Tuy nhiên, vợ Washkansky có hỏi bác sĩ Barnard rằng "What chance do you give him" (cơ may sống sót là bao nhiêu). Barnard nói "An 80% chance". Tuy nhiên, 18 ngày sau cuộc giải phẫu lịch sử, Washkansky chết.
Câu chuyện trên nói lên sự bất định hàng ngày mà chúng ta phải đối phó. Bác sĩ Barnard nói cơ may 80% sống sót là dựa vào quần thể (hay là cảm nhận cá nhân của ông ấy), nhưng trong trường hợp này con số đó khi áp dụng cho một cá nhân thì sai. Cũng giống như bác sĩ nói với bệnh nhân ung thư rằng anh có cơ may sống 5 năm, nhưng đó là con số trung bình quần thể, còn bệnh nhân có khi sống đến 20 năm!
Lấy giá trị trung bình để áp dụng cho một cá thể là một nghịch lí thống kê. Nghịch lí đó có tên là Bất đẳng thức Jensen (hay Jensen’s inequality, lấy tên nhà toán học Đan Mạch Johan Jensen). Bất đẳng thức Jensen phát biểu rằng giá trị trung bình của hàm số f(x) không bằng giá trị của hàm số trung bình f(x trung bình) nếu hàm số đó không phải tuyến tính. Để hiểu phát biểu này, có thể bắt đầu bằng 2 ví dụ đơn giản như sau:
Ví dụ như tôi có hàm số tuyến tính f(x) = 2.5x, và giả dụ rằng x = [1, 5], tức trung bình x = (1 + 5)/2 = 3. Trong trường hợp này, trung bình của f(x) sẽ là (2.5*1 + 5*2.5)/2 = 7.5; và f(trung bình x) = f(3) = 2.5*3 = 7.5. Không có vấn đề gì!
Nhưng nếu hàm số là phi tuyến tính như f(x) = 2.5^x, thì vấn đề sẽ xảy ra: trung bình f(x) = (2.5^1 + 2.5^5) / 2 = 50.08, nhưng f(trung bình x) = 2.5^3 = 15.6.
Quay trở lại phát biểu của Sở Môi Trường Hà Nội cho rằng phải lấy số liệu ở nhiều địa điểm trong thành phố thì mới “chính xác” và mang tính “đại diện”. Không thể nào chính xác được vì chỉ số AQI được đo từ 5 yếu tố ô nhiễm, và mỗi yếu tố đều có sai số đo lường. Cũng không bao giờ hiện hữu cái gọi là 'tính đại diện', bởi con số trung bình chẳng đại diện cho địa lí nào cả. Đại diện cho cái gì? Đại diện cho thời gian, cho địa lí? Chẳng hạn như nếu đo AQI ở hai nơi ở hai thời điểm khác nhau với kết quả là 60 và 200, thì giá trị trung bình là 130. Con số trung bình 130 đại diện cho cái gì? Chẳng đại diện cho cái gì cả, và người dân cũng chẳng dùng được! Lí do là phân bố của chỉ số AQI không đồng đều giữa các địa điểm (tức f(x) không tuyến tính).
Cách thực tế nhứt là cung cấp con số tối thiểu (min) và tối đa (max). Chẳng hạn như đài quan trắc của Đại sứ quán Mĩ cung cấp chỉ số PM2.5 (tức AQI) từ 166 đến 256 là hoàn toàn hợp lí. Không cần số trung bình. Dĩ nhiên, cái khoảng 166 đến 256 là lấy từ một địa điểm, chứ không bao trùm cả thành phố, nhưng sự thật đó cũng đã đủ để quan ngại, bởi vì nó ảnh hưởng đến sức khoẻ của hàng trăm ngàn người, chứ không nên bác bỏ là không mang 'tính đại diện'. Cũng không nên dùng con số AQI trung bình để nói rằng tình hình ô nhiễm không khí của Hà Nội là chưa đáng báo động, vì con số trung bình là một nguỵ biện và nó chẳng đại diện cho địa phương nào cả.
( TRÍCH)