Cẩn thận với con số phần trăm!

(minh họa: Khều)
LTS: Tiếp nối đề tài thống kê và báo chí, TBKTSG giới thiệu bài viết của GS. Nguyễn Văn Tuấn (Viện Nghiên cứu y khoa Garvan, Úc) về một sai lầm thông thường trong cách sử dụng và hiểu con số phần trăm, khá phổ biến trong truyền thông.


Từ thấp lên 100
Trong bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân, Thứ trưởng Bộ Giáo dục và Đào tạo, PGS.TS. Trần Quang Quý có ý chứng minh rằng kỷ cương giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân đã cải tiến tốt hơn bằng cách trình bày con số giám thị phòng thi bị đình chỉ công tác năm 2007 là 32 người, đến năm 2010 con số này là 1, và ông kết luận “giảm gần 97% so với năm 2007”.
Một bài báo trên Sài Gòn Tiếp Thị cho biết trong số 12 bệnh nhân được đặt tinh hoàn nhân tạo (testicular implant), “[…] Tỷ lệ hài lòng là 91,7%”, mà không cho biết bao nhiêu bệnh nhân hài lòng. Một bạn đọc viết thư cho người viết bài này cho rằng bạn thấy ngờ ngợ về con số này, nhưng không lý giải được tại sao mình có cảm giác “ngờ ngợ”! Xin nói rằng ở đây bạn đọc chỉ lấn cấn về con số, chứ không chất vấn về phẫu thuật vốn có ích này. Thật ra, bạn đọc đó lấn cấn về con số cũng có lý do, bởi vì con số phần trăm ở đây đã được sử dụng không mấy hợp lý.

Cả hai cách trình bày trên đều không hợp lý về mặt logic. Trong hai trường hợp, người viết đã phạm phải một lỗi lầm phổ biến trong thống kê: khái quát hóa ra ngoài phạm vi số liệu cho phép (tiếng Anh là over-generalization).
Khi nói “97,1% hài lòng”, chúng ta hiểu rằng trong số 100 bệnh nhân được đặt tinh hoàn nhân tạo, có 97 người hài lòng với kết quả của phẫu thuật. Hay, trong trường hợp kỷ cương giáo dục, con số “giảm 97%” hàm ý nói rằng cứ 100 người bị đình chỉ công tác năm 2007, thì năm 2010 chỉ còn 3 người bị đình chỉ công tác. Vấn đề ở đây là quần thể chỉ có 12 bệnh nhân (hay 32 giám thị), nhưng người viết “chuyển hóa” cho quần thể đó thành 100 đối tượng!
Trong thực tế, chúng ta không biết nếu có 100 bệnh nhân đã qua phẫu thuật, kết quả có thật sự là 97 người hài lòng. Chúng ta không/chưa biết. Do đó, nói “97,1% hài lòng” là nói đến một sự kiện chưa xảy ra, và vì thế, phát biểu trên được xem là … một ngụy biện thống kê!
Nhưng tôi cho rằng khả năng rất cao là sai lầm đó không phải do người viết cố ý, mà rất có thể chỉ do tính toán theo quán tính. Giới phóng viên (và ngay cả các nhà nghiên cứu xã hội kinh tế học) hay có thói quen mô tả mối liên hệ giữa hai đại lượng bằng con số phần trăm, mà không để ý đến giả định đằng sau của con số này. Chính vì không chú ý đến giả định và ý nghĩa của con số phần trăm, nên trong thực tế đã xảy ra nhiều chuyện dở khóc dở cười trong thế giới truyền thông.

Từ cao xuống 100
Con số phần trăm có “chức năng” chính là so sánh và mô tả tính quy mô của một vấn đề. Một con số riêng lẻ chẳng có ý nghĩa gì, nhưng khi con số đó được so sánh với một con số khác thì ý nghĩa có khi rõ ràng hơn và dễ cảm nhận hơn.
Chẳng hạn như nếu nói “có 188 người mắc bệnh tiểu đường” thì có lẽ chẳng ai biết con số này có ý nghĩa gì, nhưng nếu 188 người đó được phát hiện trong một quần thể 1.609 người thì nó có thể cho chúng ta một cảm nhận về qui mô của vấn đề. Nhưng vì hai con số 188 và 1.609 khó cảm nhận và khó hình dung, cho nên các nhà nghiên cứu thường đơn giản hóa bằng cách tính số bệnh nhân tiểu đường trên quần thể tượng trưng 100 người. Kết quả 188 ca bệnh tiểu đường trong số 1609 cũng có thể phát biểu rằng tỷ lệ bệnh tiểu đường là 13%. Nói cách khác, cứ 100 phụ nữ trên 30 tuổi, có 13 người mắc bệnh tiểu đường. Con số 13% là đáng chú ý, vì đó là một quy mô lớn có ảnh hưởng đến sức khỏe và kinh tế của một quần thể.
Trong ví dụ trên, người ta giảm quần thể 1.609 xuống còn 100, và tử số 188 người cũng giảm theo cùng tỷ lệ. Lý do giảm mẫu số xuống một quần thể tượng trưng 100 là để đơn giản hóa con số, làm cho vấn đề dễ cảm nhận hơn, gần gũi hơn với người đọc. Thật vậy, một nghịch lý chung của con người là chúng ta tuy rất ấn tượng với những con số lớn, nhưng lại cảm nhận dễ dàng hơn với những con số nhỏ.
Con số phần trăm còn hàm ý một giả định về mối liên hệ giữa mẫu và quần thể. Câu phát biểu “có 13% người mắc bệnh tiểu đường” còn hàm ý nói rằng trong quần thể (1.609 người), nếu chọn ngẫu nhiên 100 người thì số người mắc bệnh tiểu đường sẽ dao động chung quanh con số 13 người.
Hai trường hợp trên cho chúng ta thấy một quy ước chung khi sử dụng con số phần trăm: khi mẫu số chỉ vài chục thì cách tốt nhất là không sử dụng phần trăm, nhưng khi mẫu số gần 100 hay cao hơn 100, có thể sử dụng phần trăm. Trong trường hợp phẫu thuật đặt tinh hoàn, có lẽ cách tốt nhất là phát biểu “11 trong số 12 bệnh nhân hài lòng với kết quả của phẫu thuật”, chứ không cần nói đến con số 97%, và càng không cần nói đến con số 97,1% (chính xác đến 1 số lẻ!)

Nghịch lý tăng trưởng
Quay lại bài viết Những con số giáo dục dưới thời Bộ trưởng Nguyễn Thiện Nhân của Thứ trưởng Trần Quang Quý, bài viết còn cho biết tỷ lệ tốt nghiệp trung học phổ thông (THPT) tăng. Ông biết tỷ lệ học sinh tốt nghiệp THPT năm 2009 là 84%, và tiên đoán rằng năm 2010 sẽ là “khoảng 90%”. Nhưng cách diễn giải này rất nguy hiểm, vì con số phần trăm trong một quần thể có thể cho chúng ta một bức tranh rất sai lệch. Để minh họa rằng khả năng sai lệch trong kết luận dựa vào con số tỷ lệ tốt nghiệp toàn quốc, tôi mời các bạn xem một minh họa đơn giản sau đây:
Trường
Năm 2009
Năm 2010
-
Số học sinh
Số tốt nghiệp
Tỷ lệ tốt nghiệp (%)
Số học sinh
Số tốt nghiệp
Tỷ lệ tốt nghiệp (%)
A
497
435
88
694
577
83
B
221
209
95
4.840
4.425
91
C
212
192
91
383
318
83
D
503
401
80
320
191
60
E
1841
1536
83
201
140
70
Tổng số
3.274
2.773
85
6.438
5.651
88
Trong bảng số liệu (tôi mô phỏng) trên, chúng ta có năm trường (A, B, C, D, và E). Năm 2009, tổng số học sinh dự thi là 3.274 và 2.773 tốt nghiệp (tức tỷ lệ tốt nghiệp là 85%). Năm 2010, số học sinh thi tăng lên 6.438 và tỷ lệ tốt nghiệp là 88%. Như vậy, chúng ta có thể kết luận rằng tỷ lệ tốt nghiệp đã tăng trong thời gian 2010 và 2009? Câu trả lời đơn giản là: không.
Nếu nhìn vào tỷ lệ tốt nghiệp của từng trường, chúng ta thấy tỷ lệ tốt nghiệp năm 2010 đều thấp hơn năm 2009. Chẳng hạn như trường A, tỷ lệ tốt nghiệp năm 2007 là 88% và giảm xuống còn 83% trong năm 2009. Xu hướng giảm đều được ghi nhận cho tất cả năm trường. Do đó, kết luận đúng là tỷ lệ tốt nghiệp đã giảm, chứ không tăng.
Hiện tượng phần trăm tăng trưởng của một quần thể đi ngược lại phần trăm của từng cá thể còn được đề cập đến như là một nghịch lý Simpson. Nghịch lý này do nhà toán học Edward Simpson phát hiện vào năm 1951 (dù trong thực tế người phát hiện ra hiện tượng này là hai nhà thống kê học Karl Pearson và Udny Yule vào đầu thế kỷ 20). Theo đó, những thay đổi về cấu trúc số liệu có thể dẫn đến kết luận sai cho một quần thể. Minh họa trên cho thấy nếu không có số liệu cho từng trường cho thấy xu hướng biến chuyển ra sao trong thời gian 2009 và 2010, thì khó mà kết luận gì về tình hình chung liên quan đến tỷ lệ tốt nghiệp trung học phổ thông.
Cựu thủ tướng Anh Benjamin Disraeli từng nói “There are three kinds of lies: lies, damned lies, and statistics” (tạm dịch: có ba loại nói láo: láo, láo đáng nguyền rủa, và thống kê). Câu nói này không có ý nói con số thống kê là láo, mà muốn nói rằng người ta sử dụng con số thống kê để nói láo, và nói láo bằng thống kê còn có tội nặng hơn là láo đáng nguyền rủa. Con số phần trăm là một chỉ số được sử dụng để thuyết phục công chúng về nhiều vấn đề, nhưng nếu không cẩn thận, rất dễ sa đà vào sai lầm mà Disraeli đã cảnh báo từ 100 năm về trước.
Nguyễn Văn Tuấn
***** ***** *****
Một ví dụ về phần trăm có thể dẫn đến kết quả sai:
Business Snapshot 13.1: Mutual fund Returns Can Be Misleading
The difference between μ and μ - σ² /2 is closely related to an issue in the reporting of mutual fund returns. Suppose that the following is a sequence of returns per annum reported by a mutual fund manager over the last five years (measured using annual compounding):



15%, 20%, 30%, -20%, 25%









The arithmetic mean of the returns, calculated by taking the sum of the returns and dividing by 5, is 14%. However, an investor would actually earn less than 14% per annum by leaving the money invested in the fund for 5 years. The dollar value of $100 at the end of the 5 years would be




100 x 1.15 x 1.20 x 1.30 x 0.80 x 1.25 = $ 179.40


By contrast, a 14% return with annual compounding would give

100 x
1.145



= $192.54







The return that gives $179.40 at the end of five years is 12.4%. This is because




100 x (
1.124)5



= 179.40







What average return should the fund manager report? It is tempting for the manager to make a statement such as: " The average of the returns per year that we have realized in the past 5 years is 14%." Although true, this is misleading. It is much less misleading to say: "The average return realized by someone who invested with us for the last 5 years is 12.4% per year." In some jurisdictions, regulations require fund managers to report returns the second way.








This phenomenon is an example of a result that is well known by mathematicians. The geometric mean of a set of numbers (not all the same) is always less than the arithmetic mean. In our example, the return multipliers each year are 1.15, 1.20, 1.30, 0.80, and 1.25. The arithmetic mean of these numbers is 1.140, but the geometric mean is only 1.124.

Hull, J. C.(2006): Option, Futures and other Derivates, 6th Edition

Read more ...

Thống kê và báo chí

(minh hoạ: Khều)
LTS: TBKTSG giới thiệu bài viết của GS. Nguyễn Văn Tuấn (Viện Nghiên cứu y khoa Garvan, Úc) như một lời cảnh báo phải thận trọng với các con số thống kê, kể cả với những con số thống kê kinh tế mà chúng tôi cũng sử dụng khá thường xuyên.

Giới báo chí Việt Nam có lẽ là một trong những nhóm thích dùng thống kê trong các bản tin nhất thế giới. Mở đầu cho bài viết “Tham nhũng học thuật”, phóng viên viết “Chỉ riêng vụ ‘luộc’ hai cuốn sách Nguyên lý bảo hiểm và Tài chính quốc tế của trường Đại học Kinh tế TPHCM, đã có tới 7 giảng viên của khoa Tài chính Ngân hàng trường Đại học Công nghiệp TPHCM can dự (chiếm 32% tổng số 22 giảng viên của khoa)”.
Mới đây, trong loạt bài phản ảnh về những trăn trở và khó khăn của du học sinh khi về làm việc ở Việt Nam, phóng viên cho biết: “83% du học sinh về nước không hài lòng với lương, thưởng”. Viết về nguyên nhân tử vong ở trẻ em, báo khẳng định: “50% trẻ em tử vong do đuối nước”. Có phóng viên còn chạy một cái tít chính xác đến 2 số thập phân như “31,48% sinh viên chưa nắm được thế nào là nghiên cứu khoa học”. Ít thấy báo chí nào trên thế giới chịu khó trình bày nhiều số phần trăm, mà có chính xác đến số lẻ, như báo chí ở nước ta.
Những con số thống kê thường được sử dụng để tạo sự quan tâm của công chúng về những vấn đề xã hội. Những con số thống kê vừa liệt kê trên được thu thập và tính toán với mục đích nói cho chúng ta biết rằng tình trạng “đạo sách” lan tràn trong giới khoa bảng, nhiều sinh viên chẳng biết nghiên cứu khoa học là gì, đa số du học sinh không hài lòng với lương bổng ở trong nước, và quan trọng hơn là đuối nước là nguyên nhân gây nên 50% tử vong ở trẻ em.
Những vấn đề mà phóng viên dùng số thống kê để nêu đúng là rất quan trọng, và công chúng khó có thể bỏ qua được. Nhìn như thế, chúng ta thấy con số thống kê quả là đóng vai trò quan trọng trong việc thuyết phục công chúng về các vấn đề xã hội.
Nhưng trước khi bị thuyết phục bởi những con số thống kê, chúng ta cần phải tìm hiểu bối cảnh ra đời của chúng, nói nhại theo một nhà xã hội học Mỹ, tôi nghĩ con số thống kê như là một cái áo dài của người phụ nữ, những gì nó tiết lộ thì thú vị đấy, nhưng những gì nó giấu giếm mới là quan trọng. Con số thống kê cũng vậy, nó là sản phẩm của xã hội, của con người, cho nên nó cũng chịu sự chi phối bởi tình cảm và chủ quan của tác giả tạo ra nó. Người đọc, do đó, cần phải tìm hiểu kỹ những bối cảnh này trước khi chấp nhận ý nghĩa của con số thống kê. Những khía cạnh cần tìm hiểu là vấn đề con số phản ảnh, phương pháp đo lường, nguồn gốc của dữ liệu, và cách diễn giải dữ liệu thống kê.

Con số phản ánh gì?
Trước hết là vấn đề mà con số thống kê phản ảnh. Chúng ta thử quay lại cái tít “31,48% sinh viên chưa nắm được thế nào là nghiên cứu khoa học”. Bản tin cho biết con số này xuất phát từ một cuộc phỏng vấn trên 1.000 sinh viên năm thứ ba thuộc Đại học Cần Thơ vào năm 2009. Nhưng vấn đề đặt ra là định nghĩa của “nghiên cứu khoa học” và thế nào là “hiểu chính xác”. Nghiên cứu khoa học là một quy trình, và quy trình này có thể thay đổi tùy theo lĩnh vực khoa học.
Vì thế làm thế nào mà hiểu chính xác được quy trình? Ở đây, chỉ có hiểu đúng và hiểu sai mà thôi, chứ tôi nghĩ không có hiểu chính xác được. Chú ý rằng tuy nghiên cứu được thực hiện ở Cần Thơ, nhưng cái tít thì lại hàm ý khái quát cho sinh viên của cả nước, thậm chí cả thế giới! Nếu mục tiêu là thu hút chú ý của bạn đọc thì cái tít đã thành công một mức độ nào đó, nhưng nếu mục tiêu là cung cấp thông tin chính xác cho người đọc, thì tôi e rằng bài báo chưa đạt được mục tiêu.

Đo lường ra sao?
Thứ hai là vấn đề đo lường. Một con số thống kê chỉ đáng tin cậy nếu phương pháp đo lường chính xác và có độ tin cậy cao. Chẳng hạn như trong trường hợp “50% trẻ em tử vong do đuối nước”, câu hỏi lặp tức đặt ra là định nghĩa thế nào là “đuối nước” và đo lường ra sao, ai là người báo cáo tử vong (chắc chắn trẻ em đã chết không báo cáo được!), và nếu thân nhân báo cáo thì độ tin cậy cỡ nào.
Trước đây, báo chí Mỹ rầm rộ đưa tin về một nghiên cứu cho thấy 80% con cái của những cặp cha mẹ ly dị không có vấn đề gì khi trưởng thành và thích nghi tốt với xã hội, nhưng khi được hỏi “thích nghi với xã hội,” hay “trưởng thành,” có nghĩa là gì thì giới báo chí không trả lời được. Tình trạng ly dị thì dễ trả lời và không thành vấn đề, bởi vì nó là một hồ sơ hay tình trạng mà phần lớn ai cũng có thể xác nhận khá chính xác. Nhưng làm sao để xác định và định nghĩa thế nào là thích nghi với xã hội mới là một vấn đề quan trọng trong chương trình nghiên cứu.
Đây là một phạm vi mang tính định tính (qualitative) mà nhà nghiên cứu khó có thể đo lường một cách chính xác và khách quan như trong trường hợp của huyết áp, chiều cao cơ thể, hay màu da, sắc áo. Người ta chắc sẽ không ngạc nhiên nếu một nghiên cứu phát hiện rằng một người nào đó hoàn toàn hài lòng với cuộc sống và thích nghi với xã hội, mặc dù anh ta đang nghiện rượu, hay đã trải qua nhiều lần ly dị trong đời, trong khi một nghiên cứu khác có thể phát hiện rằng một người nào đó hoàn toàn có một cuộc sống gương mẫu nhưng lại không hài lòng với cuộc sống hiện tại!

Dữ liệu từ đâu?
Thứ ba là vấn đề nguồn gốc dữ liệu. Quay trở lại bài báo “50% trẻ em tử vong do đuối nước” chúng ta chỉ biết “Đây là thông tin từ báo cáo tổng hợp về phòng chống tai nạn thương tích trẻ em tại Việt Nam do Bộ Lao động - Thương binh và Xã hội phối hợp với Quỹ Nhi đồng Liên hợp quốc” công bố. Nhưng chúng ta cần phải biết bối cảnh ra đời của con số này là gì. Một loạt câu hỏi đặt ra: đối tượng nghiên cứu là ai, ở đâu, vào thời gian nào?… Nhưng rất tiếc là bản tin hoàn toàn không cung cấp thêm thông tin nào về báo cáo này.
Cũng là vấn đề nguồn gốc, trong bài báo “83% du học sinh về nước không hài lòng với lương, thưởng”, phóng viên cho biết, “đối tượng khảo sát gồm các nhóm chính: du học sinh đã tốt nghiệp, đã và sẽ về nước làm việc; du học sinh đã tốt nghiệp, đã và sẽ ở lại làm việc tại nước sở tại và du học sinh chưa tốt nghiệp có nguyện vọng thực tập”. Chúng ta thấy rõ ràng có sự mâu thuẫn. Trong khi cái tít của bài báo đề cập đến du học sinh về nước, thì đối tượng nghiên cứu lại gồm du học sinh sắp về nước và sắp tốt nghiệp!
Thật ra, đọc kỹ bài báo thì thấy thông tin phức tạp hơn, và có thể tóm lược như sau: trong số 350 du học sinh được phỏng vấn, có một số đã tốt nghiệp và một số chưa tốt nghiệp, nhưng chúng ta không biết con số này. Trong số đã tốt nghiệp, 64% quyết định ở lại nước sở tại, và 36% về Việt Nam. Trong số đã tốt nghiệp và về Việt Nam, “83% chưa hài lòng về chuyện lương, thưởng”. (Phóng viên lấy con số này làm tiêu đề, nhưng chú ý trong tiêu đề thì viết là “không hài lòng” còn bài viết là “chưa hài lòng”!)
Giả dụ như có 50% sinh viên đã tốt nghiệp, thì con số đã về Việt Nam là 375*0.5*0.36 = 63 người. Trong số 63 người này, có 52 người (63*0.83) chưa hài lòng với lương bổng ở Việt Nam. Nếu 52 người mà phóng đại lên 83% thì tôi e rằng phạm vào lỗi khái quát hóa.

Diễn giải có đúng?
Thứ tư là vấn đề diễn giải dữ liệu. Quay trở lại tiêu đề “50% trẻ em tử vong do đuối nước” chúng ta có thể hiều rằng trong tổng số trẻ em tử vong, phân nửa là do đuối nước. Có thể nào tin rằng đuối nước gây ra phân nửa tử vong ở trẻ em ở Việt Nam? Thật ra, chưa có bất cứ một nghiên cứu nào nói như thế. Tôi có thể khẳng định rằng con số này chắc chắn đã được trình bày sai, hoặc trình bày đúng nhưng nghiên cứu sai, hoặc diễn giải sai số liệu.
Một trong những sai lầm phổ biến trong diễn giải dữ liệu là vượt ra ngoài dữ liệu quan sát. Chẳng hạn như nếu một phân tích về mối tương quan giữa tiểu đường và bệnh nhân có trọng lượng dưới 50 ki lô gam, thì kết quả không thể phát biểu cho người có trọng lượng trên 50 ki lô gam.
Con số phần trăm thường hay bị diễn giải sai. Con số phần trăm là kết quả của tử số chia cho mẫu số và nhân cho 100. Một trong những cái sai tiêu biểu và rất phổ biến là tính phần trăm cho mẫu số thấp hơn 100. Chẳng hạn như bài báo cho biết trong số 22 giảng viên của khoa Tài chính Ngân hàng trường Đại học Công nghiệp TPHCM, có 7 người can dự vào việc “luộc sách”, và phóng viên cho rằng 32% giảng viên luộc sách (tức lấy 7 chia cho 22 và nhân cho 100).
Vấn đề ở đây là chỉ số 22 giảng viên, nhưng nhà báo nhân lên thành 100 để cho có con số phần trăm, và đây là lỗi lầm về khái quát hóa ngoài dữ liệu cho phép. Đáng lẽ chỉ cần nói chính xác rằng 7 trong số 22 người bị nghi ngờ luộc sách là đủ, đâu cần gì phải nói đến con số 32%.
Một vấn đề khác là suy luận về bằng chứng, nguyên nhân và hậu quả. Ngay cả khi các dữ kiện được thu thập trong hai nhóm có đặc tính giống nhau hay tương đương nhau, nhà nghiên cứu vẫn chưa có thể phát biểu về mối liên hệ giữa nguyên nhân và hậu quả (cause and effect).
Thực ra, nhà nghiên cứu chỉ có thể phát biểu rằng dữ kiện [mà họ thu thập được] nhất quán (consistent) với giả thuyết. Nhưng kết quả của họ cũng có thể nhất quán với các giả thuyết khác nữa. Chẳng hạn như con số 50% trẻ em tử vong do đuối nước cũng có thể nhất quán với giả thuyết thuyền bè thiếu an toàn, và nếu không có dữ liệu về an toàn rất khó nói cái nào là nguyên nhân và cái nào là hệ quả.
Cần nhấn mạnh rằng những con số thống kê không chứng minh bất cứ một điều gì cả. Khoa học thống kê là một môn học bị lạm dụng quá nhiều nên môn học này có khi bị mang tiếng xấu, nhất là người ta hay gắn liền thống kê với câu nói của Benjamin Disrael. Tức là, người ta tin rằng thống kê có thể dùng để chứng minh bất cứ điều gì, kể cả nói láo.
Nhưng đó là một cách ngụy biện, chứ trong khoa học thì thống kê phải được dùng một cách thận trọng. Dù những con số thống kê có thể được trình bày và diễn dịch nhiều cách khác nhau, chúng không thể chứng minh bất cứ một điều gì cả. Điều mà thống kê có thể “chứng minh” được là bác bỏ những gì không chắc chắn, không có thực.
Nhà văn H. G. Wells từng nói rằng trong một xã hội hiện đại công dân cần thành thạo ba kỹ năng: đọc, viết, và thống kê. Giới báo chí, hơn ai hết, cần phải trang bị những kỹ năng về diễn giải và suy luận thống kê để tránh những hiểu lầm đáng tiếc có thể xảy ra trong tương lai.
Nguyễn Văn Tuấn
~~~~~~~*~~~~~~~

Đoàn Tiểu Long
GS Nguyễn Văn Tuấn đưa ra ý kiến xác đáng. Cách đây khá lâu tôi cũng đã từng có ý kiến về việc sử dụng số liệu thống kê khá tùy tiện để rút ra các kết luận mang tính nhân quả.

Ví dụ, để tuyên truyền cho chủ trương xe máy phải có kính chiếu hậu, người ta đưa ra con số thống kê là trong 100 vụ tai nạn giao thông có xe máy tham gia, tỷ lệ người bị nạn đi xe máy có gắn kính chiếu hậu thấp hơn hẳn số không có, và khuyến cáo dân chúng nên lắp kính chiếu hậu gấp! Nếu như toàn dân nghe theo lời khuyên đó, thì một thời gian sau ta sẽ nhận được con số thống kê: 100% số vụ tai nạn giao thông là (do) xe gắn kính chiếu hậu!

Sai lầm căn bản ở đây là người ta đã lấy số liệu thống kê tại một nơi, vào một thời điểm mà số xe máy gắn kính chiếu hậu chỉ chiếm vài ba phần trăm trong tổng số xe máy, do đó tỷ lệ xe máy gắn kính chiếu hậu gặp tai nạn hiển nhiên phải thấp hơn nhiều lần so với số xe máy không gắn kính chiếu hậu. Đúng ra, người ta phải so sánh tỷ lệ tai nạn trong số 100 xe máy không gắn kính chiếu hậu và 100 xe máy có gắn kính chiếu hậu, để từ đó rút ra kết luận nào đó về vai trò của chiếc kính chiếu hậu trong việc phòng ngừa (hay gây ra) tai nạn giao thông.

Một ví dụ khác, báo chí đưa tin rằng “điều tra cho thấy hơn 90% số thanh niên phạm tội hiếp dâm trước đó đã từng xem phim ảnh đồi trụy, cho thấy mức độ nguy hại của loại văn hóa phẩm này”. Đây cũng là sai lầm điển hình trong việc xử lý số liệu thống kê, vì người ta hoàn toàn có thể nói rằng “thống kê cho thấy, 100% số thanh niên phạm tội hiếp dâm trước đó đã từng có đi học, và đã từng ăn cơm ngày ba bữa, cho thấy…”.

Đúng ra phải thống kê xem trong số người đã từng xem phim ảnh bậy bạ, bao nhiêu phần trăm sau đó đã phạm tội hiếp dâm. Nếu con số phần trăm này cao một cách bất thường so với tỷ lệ tương ứng trong nhóm người không xem phim bậy bạ thì may ra mới có thể rút ra kết luận nào đó về mối liên hệ có thể, có thể thôi chứ chưa phải chắc chắn, giữa việc xem phim bậy bạ và tội hiếp dâm. Vì rất có thể là người ta tuy có xem phim bậy bạ thật, nhưng không phải vì xem phim mà phạm tội, mà thực tế phạm tội sau một lần nhậu say, và chính việc nhậu này mới là nguyên nhân khiến người ta mất tự chủ, dẫn đến phạm tội.

Trong trường hợp này cần phải thống kê xem, trong số 100 người xem phim bậy bạ nhưng không nhậu, 100 người nhậu nhưng không xem phim bậy, 100 người vừa xem phim bậy vừa nhậu, và 100 người chẳng nhậu lẫn xem phim bậy bạ, thì tỷ lệ phạm tội hiếp dâm của từng nhóm là bao nhiêu.

Cái lỗi suy luận sai lầm này – “A xảy ra trước B, nên A là nguyên nhân của B”, thì ai có biết chút ít về phép logic và ngụy biện logic đều rõ cả.

Read more ...

Website counter