Cẩn thận với con số phần trăm!

(minh họa: Khều)
LTS: Tiếp nối đề tài thống kê và báo chí, TBKTSG giới thiệu bài viết của GS. Nguyễn Văn Tuấn (Viện Nghiên cứu y khoa Garvan, Úc) về một sai lầm thông thường trong cách sử dụng và hiểu con số phần trăm, khá phổ biến trong truyền thông.


Từ thấp lên 100
Trong bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân, Thứ trưởng Bộ Giáo dục và Đào tạo, PGS.TS. Trần Quang Quý có ý chứng minh rằng kỷ cương giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân đã cải tiến tốt hơn bằng cách trình bày con số giám thị phòng thi bị đình chỉ công tác năm 2007 là 32 người, đến năm 2010 con số này là 1, và ông kết luận “giảm gần 97% so với năm 2007”.
Một bài báo trên Sài Gòn Tiếp Thị cho biết trong số 12 bệnh nhân được đặt tinh hoàn nhân tạo (testicular implant), “[…] Tỷ lệ hài lòng là 91,7%”, mà không cho biết bao nhiêu bệnh nhân hài lòng. Một bạn đọc viết thư cho người viết bài này cho rằng bạn thấy ngờ ngợ về con số này, nhưng không lý giải được tại sao mình có cảm giác “ngờ ngợ”! Xin nói rằng ở đây bạn đọc chỉ lấn cấn về con số, chứ không chất vấn về phẫu thuật vốn có ích này. Thật ra, bạn đọc đó lấn cấn về con số cũng có lý do, bởi vì con số phần trăm ở đây đã được sử dụng không mấy hợp lý.

Cả hai cách trình bày trên đều không hợp lý về mặt logic. Trong hai trường hợp, người viết đã phạm phải một lỗi lầm phổ biến trong thống kê: khái quát hóa ra ngoài phạm vi số liệu cho phép (tiếng Anh là over-generalization).
Khi nói “97,1% hài lòng”, chúng ta hiểu rằng trong số 100 bệnh nhân được đặt tinh hoàn nhân tạo, có 97 người hài lòng với kết quả của phẫu thuật. Hay, trong trường hợp kỷ cương giáo dục, con số “giảm 97%” hàm ý nói rằng cứ 100 người bị đình chỉ công tác năm 2007, thì năm 2010 chỉ còn 3 người bị đình chỉ công tác. Vấn đề ở đây là quần thể chỉ có 12 bệnh nhân (hay 32 giám thị), nhưng người viết “chuyển hóa” cho quần thể đó thành 100 đối tượng!
Trong thực tế, chúng ta không biết nếu có 100 bệnh nhân đã qua phẫu thuật, kết quả có thật sự là 97 người hài lòng. Chúng ta không/chưa biết. Do đó, nói “97,1% hài lòng” là nói đến một sự kiện chưa xảy ra, và vì thế, phát biểu trên được xem là … một ngụy biện thống kê!
Nhưng tôi cho rằng khả năng rất cao là sai lầm đó không phải do người viết cố ý, mà rất có thể chỉ do tính toán theo quán tính. Giới phóng viên (và ngay cả các nhà nghiên cứu xã hội kinh tế học) hay có thói quen mô tả mối liên hệ giữa hai đại lượng bằng con số phần trăm, mà không để ý đến giả định đằng sau của con số này. Chính vì không chú ý đến giả định và ý nghĩa của con số phần trăm, nên trong thực tế đã xảy ra nhiều chuyện dở khóc dở cười trong thế giới truyền thông.

Từ cao xuống 100
Con số phần trăm có “chức năng” chính là so sánh và mô tả tính quy mô của một vấn đề. Một con số riêng lẻ chẳng có ý nghĩa gì, nhưng khi con số đó được so sánh với một con số khác thì ý nghĩa có khi rõ ràng hơn và dễ cảm nhận hơn.
Chẳng hạn như nếu nói “có 188 người mắc bệnh tiểu đường” thì có lẽ chẳng ai biết con số này có ý nghĩa gì, nhưng nếu 188 người đó được phát hiện trong một quần thể 1.609 người thì nó có thể cho chúng ta một cảm nhận về qui mô của vấn đề. Nhưng vì hai con số 188 và 1.609 khó cảm nhận và khó hình dung, cho nên các nhà nghiên cứu thường đơn giản hóa bằng cách tính số bệnh nhân tiểu đường trên quần thể tượng trưng 100 người. Kết quả 188 ca bệnh tiểu đường trong số 1609 cũng có thể phát biểu rằng tỷ lệ bệnh tiểu đường là 13%. Nói cách khác, cứ 100 phụ nữ trên 30 tuổi, có 13 người mắc bệnh tiểu đường. Con số 13% là đáng chú ý, vì đó là một quy mô lớn có ảnh hưởng đến sức khỏe và kinh tế của một quần thể.
Trong ví dụ trên, người ta giảm quần thể 1.609 xuống còn 100, và tử số 188 người cũng giảm theo cùng tỷ lệ. Lý do giảm mẫu số xuống một quần thể tượng trưng 100 là để đơn giản hóa con số, làm cho vấn đề dễ cảm nhận hơn, gần gũi hơn với người đọc. Thật vậy, một nghịch lý chung của con người là chúng ta tuy rất ấn tượng với những con số lớn, nhưng lại cảm nhận dễ dàng hơn với những con số nhỏ.
Con số phần trăm còn hàm ý một giả định về mối liên hệ giữa mẫu và quần thể. Câu phát biểu “có 13% người mắc bệnh tiểu đường” còn hàm ý nói rằng trong quần thể (1.609 người), nếu chọn ngẫu nhiên 100 người thì số người mắc bệnh tiểu đường sẽ dao động chung quanh con số 13 người.
Hai trường hợp trên cho chúng ta thấy một quy ước chung khi sử dụng con số phần trăm: khi mẫu số chỉ vài chục thì cách tốt nhất là không sử dụng phần trăm, nhưng khi mẫu số gần 100 hay cao hơn 100, có thể sử dụng phần trăm. Trong trường hợp phẫu thuật đặt tinh hoàn, có lẽ cách tốt nhất là phát biểu “11 trong số 12 bệnh nhân hài lòng với kết quả của phẫu thuật”, chứ không cần nói đến con số 97%, và càng không cần nói đến con số 97,1% (chính xác đến 1 số lẻ!)

Nghịch lý tăng trưởng
Quay lại bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân của Thứ trưởng Trần Quang Quý, bài viết còn cho biết tỷ lệ tốt nghiệp trung học phổ thông (THPT) tăng. Ông biết tỷ lệ học sinh tốt nghiệp THPT năm 2009 là 84%, và tiên đoán rằng năm 2010 sẽ là “khoảng 90%”. Nhưng cách diễn giải này rất nguy hiểm, vì con số phần trăm trong một quần thể có thể cho chúng ta một bức tranh rất sai lệch. Để minh họa rằng khả năng sai lệch trong kết luận dựa vào con số tỷ lệ tốt nghiệp toàn quốc, tôi mời các bạn xem một minh họa đơn giản sau đây:
Trường
Năm 2009
Năm 2010
-
Số học sinh
Số tốt nghiệp
Tỷ lệ tốt nghiệp (%)
Số học sinh
Số tốt nghiệp
Tỷ lệ tốt nghiệp (%)
A
497
435
88
694
577
83
B
221
209
95
4.840
4.425
91
C
212
192
91
383
318
83
D
503
401
80
320
191
60
E
1841
1536
83
201
140
70
Tổng số
3.274
2.773
85
6.438
5.651
88
Trong bảng số liệu (tôi mô phỏng) trên, chúng ta có năm trường (A, B, C, D, và E). Năm 2009, tổng số học sinh dự thi là 3.274 và 2.773 tốt nghiệp (tức tỷ lệ tốt nghiệp là 85%). Năm 2010, số học sinh thi tăng lên 6.438 và tỷ lệ tốt nghiệp là 88%. Như vậy, chúng ta có thể kết luận rằng tỷ lệ tốt nghiệp đã tăng trong thời gian 2010 và 2009? Câu trả lời đơn giản là: không.
Nếu nhìn vào tỷ lệ tốt nghiệp của từng trường, chúng ta thấy tỷ lệ tốt nghiệp năm 2010 đều thấp hơn năm 2009. Chẳng hạn như trường A, tỷ lệ tốt nghiệp năm 2007 là 88% và giảm xuống còn 83% trong năm 2009. Xu hướng giảm đều được ghi nhận cho tất cả năm trường. Do đó, kết luận đúng là tỷ lệ tốt nghiệp đã giảm, chứ không tăng.
Hiện tượng phần trăm tăng trưởng của một quần thể đi ngược lại phần trăm của từng cá thể còn được đề cập đến như là một nghịch lý Simpson. Nghịch lý này do nhà toán học Edward Simpson phát hiện vào năm 1951 (dù trong thực tế người phát hiện ra hiện tượng này là hai nhà thống kê học Karl Pearson và Udny Yule vào đầu thế kỷ 20). Theo đó, những thay đổi về cấu trúc số liệu có thể dẫn đến kết luận sai cho một quần thể. Minh họa trên cho thấy nếu không có số liệu cho từng trường cho thấy xu hướng biến chuyển ra sao trong thời gian 2009 và 2010, thì khó mà kết luận gì về tình hình chung liên quan đến tỷ lệ tốt nghiệp trung học phổ thông.
Cựu thủ tướng Anh Benjamin Disraeli từng nói “There are three kinds of lies: lies, damned lies, and statistics” (tạm dịch: có ba loại nói láo: láo, láo đáng nguyền rủa, và thống kê). Câu nói này không có ý nói con số thống kê là láo, mà muốn nói rằng người ta sử dụng con số thống kê để nói láo, và nói láo bằng thống kê còn có tội nặng hơn là láo đáng nguyền rủa. Con số phần trăm là một chỉ số được sử dụng để thuyết phục công chúng về nhiều vấn đề, nhưng nếu không cẩn thận, rất dễ sa đà vào sai lầm mà Disraeli đã cảnh báo từ 100 năm về trước.
Nguyễn Văn Tuấn
***** ***** *****
Một ví dụ về phần trăm có thể dẫn đến kết quả sai:
Business Snapshot 13.1: Mutual fund Returns Can Be Misleading
The difference between μ and μ - σ² /2 is closely related to an issue in the reporting of mutual fund returns. Suppose that the following is a sequence of returns per annum reported by a mutual fund manager over the last five years (measured using annual compounding):



15%, 20%, 30%, -20%, 25%









The arithmetic mean of the returns, calculated by taking the sum of the returns and dividing by 5, is 14%. However, an investor would actually earn less than 14% per annum by leaving the money invested in the fund for 5 years. The dollar value of $100 at the end of the 5 years would be




100 x 1.15 x 1.20 x 1.30 x 0.80 x 1.25 = $ 179.40


By contrast, a 14% return with annual compounding would give

100 x
1.145



= $192.54







The return that gives $179.40 at the end of five years is 12.4%. This is because




100 x (
1.124)5



= 179.40







What average return should the fund manager report? It is tempting for the manager to make a statement such as: " The average of the returns per year that we have realized in the past 5 years is 14%." Although true, this is misleading. It is much less misleading to say: "The average return realized by someone who invested with us for the last 5 years is 12.4% per year." In some jurisdictions, regulations require fund managers to report returns the second way.








This phenomenon is an example of a result that is well known by mathematicians. The geometric mean of a set of numbers (not all the same) is always less than the arithmetic mean. In our example, the return multipliers each year are 1.15, 1.20, 1.30, 0.80, and 1.25. The arithmetic mean of these numbers is 1.140, but the geometric mean is only 1.124.

Hull, J. C.(2006): Option, Futures and other Derivates, 6th Edition

0 nhận xét:

Đăng nhận xét

Website counter