Cố vấn Adam Russell, một nhà nhân loại học và quản lý chương trình tại Bộ phận nghiên cứu kỳ quái của Bộ Quốc phòng Hoa Kỳ - Darpa, cười khi nghe đề xuất rằng anh ta đang cố gắng xây dựng một máy phát hiện tin đồn thực sự, sống động. Nhưng anh ấy dường như không nghĩ đó là điều hài hước. Lời đề nghị rất nghiêm túc mà Russell vừa gửi đi trên giấy thư Darpa yêu cầu mọi người - bất kỳ ai! Ngay cả bạn! - cung cấp cách để xác định những phát hiện từ các ngành khoa học xã hội và hành vi thực sự, bạn biết đấy, đáng tin cậy. Hoặc theo cách anh ấy xây dựng: “đáng tin cậy.”
Ngay cả với Darpa, đó là một yêu cầu lớn. Bộ Quốc phòng có nhiều lý do tốt để muốn biết khoa học xã hội nào đáng tin cậy. Nhưng nhiều hơn nữa đang đặt ra ở đây. Darpa đang yêu cầu một hệ thống có thể giải quyết một trong những vấn đề triết học cấp bách nhất của thời đại chúng ta: Làm thế nào để bạn biết điều gì là đúng khi khoa học, tin tức và truyền thông xã hội đều đối mặt với những sai sót, quảng cáo, tuyên truyền và lừa dối?
Lấy một tuyên bố khoa học. Thực hiện một loại hoạt động nào đó trên đó. Xác định xem tuyên bố đó có đúng đắn đủ để hành động hay không. Vì vậy... máy phát hiện tin đồn à?
“Tôi không muốn mô tả nó như vậy, và tôi nghĩ rằng đó là quan trọng,” Russell nói. Anh ấy không muốn đóng góp vào sự hoài nghi khiến người ta nghĩ rằng nếu các nhà khoa học thừa nhận sự không chắc chắn, điều đó có nghĩa là họ không thể tin cậy. “Tôi tin sâu rằng có khoa học thực sự. Đó không phải là chúng ta không biết gì về thế giới.” Khoa học vẫn là cách tốt nhất để biết được điều gì đó. Darpa chỉ muốn biết điều khoa học thực sự chắc chắn về điều gì và làm thế nào nó biết. Và làm thế nào nó biết nó biết nó.
Bạn có thể tưởng tượng tại sao Darpa và Bộ Quốc phòng muốn củng cố khoa học xã hội. Họ muốn hiểu cách bản thân tập thể hoạt động, hoặc tại sao một số nhóm (và quốc gia) ổn định và một số lại sụp đổ. Quân đội muốn nắm vững hơn về cách con người hợp tác với máy trước khi máy trí tuệ nhân tạo trở nên thông minh hơn và được triển khai nhiều hơn. Quá trình quốc gia hóa diễn ra như thế nào, đặc biệt là trực tuyến? Tại sao mọi người hợp tác đôi khi và cạnh tranh ở những thời điểm khác nhau? Tất cả những câu hỏi này có hai điều chung: chúng cực kỳ quan trọng đối với an ninh quốc gia và không ai biết câu trả lời.
Những người được giao nhiệm vụ giải quyết những vấn đề khó khăn đó đều có những vấn đề riêng. Bạn có thể đã nghe về “khủng hoảng tái tạo,” mối lo ngại rằng nhiều phát hiện khoa học, đặc biệt là trong tâm lý học và xã hội học, không vượt qua được bài kiểm tra cơ bản về tính hợp lý - nghĩa là các nhà nghiên cứu tiếp theo có thể thực hiện cùng một thí nghiệm và đạt được kết quả giống như những người đầu tiên. Hoặc bạn có thể quen thuộc với “P-hack” và các cách mà một số nhà nghiên cứu, dưới áp lực xuất bản và nhận kinh phí, chọn lựa kết quả thí nghiệm của họ để đảm bảo sự xuất hiện của ý nghĩa thống kê.
Những vấn đề này nảy sinh trong lời kêu gọi đề xuất của Darpa, nhưng các nhà nghiên cứu thừa nhận rằng những lo ngại không chỉ dừng lại ở đó. “Nếu bạn hỏi một nhóm nhà khoa học xã hội về cách tổ chức hoạt động, bạn không chỉ nhận được 20 câu trả lời khác nhau. Bạn sẽ nhận được các câu trả lời mà thậm chí không thể so sánh được với nhau,” Duncan Watts, một nhà xã hội học tại Microsoft Research, người đã viết một bài phê phán cay độc về vấn đề không nhất quán của các ngành khoa học xã hội (như anh gọi) trong số tháng 1 năm 2017 của Nature Human Behavior. “Bạn đọc một bài báo rồi lại đọc một bài báo khác, và chúng có cùng những từ trong tiêu đề nhưng đơn vị phân tích khác nhau, các khung xây dựng lý thuyết khác nhau, khái niệm về nguyên nhân hậu quả hoàn toàn khác nhau. Đến khi bạn hoàn thành một đánh giá văn học, bạn hoàn toàn bối rối về điều gì trên trái đất bạn đang nghĩ. Điều này không phải là về việc liệu bất kỳ khẳng định cụ thể nào có thể được sao chép lại hay không, phải không? Mà là tổng thể các khẳng định không có ý nghĩa,”
Nhưng... Darpa, phải không? Những vấn đề không thể giải quyết! Đây là internet mà chúng tôi tạo ra cho bạn! Darpa! Cơ quan này có một chương trình toàn diện mang tên Khoa Học Xã Hội Thế Hệ Tiếp Theo, được thành lập vào năm 2016 để sử dụng kinh tế học, xã hội học, nhân loại học và vân vân để hiểu rõ hơn về mọi thứ từ khủng bố đến sự lan truyền của tuyên truyền trực tuyến. Và, đúng, đó là một vấn đề không thể giải quyết. “Trong các lĩnh vực mới nổi, bạn bắt đầu nhìn thấy sự phát triển của các tiêu chuẩn như một tín hiệu tốt cho việc có điều gì đó đang xảy ra,” Russell nói. “Chắc chắn chúng ta chưa có những tiêu chuẩn đó trong khoa học xã hội.”
Vì vậy, Darpa muốn xây dựng chúng. “Cấp độ Tin Cậy cho Khoa Học Xã Hội và Hành Vi” là tựa đề chính của “yêu cầu thông tin” của cơ quan, cách nói b bureaucrat cho “chúng tôi có một số tiền kinh phí để trao giải; hãy gửi cho chúng tôi đề xuất của bạn.” Nhưng RFI này rộng lớn trong tham vọng của mình, vượt xa khỏi khả năng sao chép lại. Nó đề cập đến những động cơ kiểm chứng khoa học khác nhau - xem xét đồng nghiệp, phân tích tổng hợp, kỹ thuật thống kê và thậm chí cả các phương pháp hiện đại hơn như yếu tố ảnh hưởng, mạng lưới trích dẫn và thị trường dự đoán của chuyên gia. Nhưng chỉ để nói, tích hợp chúng và vượt qua chúng. Công việc tuyệt vời, mọi người, thực sự là công việc tuyệt vời. Còn cái gì để đề xuất nữa không?
Từ tài liệu: “Có thể có cách mới để tạo ra khả năng tự động hoặc bán tự động để nhanh chóng, chính xác và động địa gánh Cấp Độ Tin Cậy cho các kết quả hoặc tuyên bố cụ thể trong lĩnh vực Khoa Học Xã Hội và Hành Vi.” (“SBS” = “khoa học xã hội và hành vi”) Giúp các chuyên gia và người không chuyên phân biệt lúa khoa học và phách lối sai lầm bằng cách sử dụng “đọc máy, xử lý ngôn ngữ tự nhiên, phương pháp tự động tổng hợp, thuật toán kiểm tra thống kê, phân tích cảm xúc, công cụ crowdsourcing, nền tảng chia sẻ và lưu trữ dữ liệu, phân tích mạng lưới, v.v.”
Rõ ràng điều chúng ta cần ở đây là một loại máy móc với, kiểu như, một khe để đưa vào các bài báo chuyên ngành. Và hai đèn trước: một đèn đỏ và một đèn xanh. Ping hoặc bzzzt.
Vâng, nhưng không. “Tôi nghĩ chúng ta còn nhiều năm nữa mới đạt được điều đó,” nói Matthew Salganik, một nhà xã hội học tại Princeton, người không có kế hoạch gửi ý tưởng đến Darpa nhưng đang làm việc về các vấn đề kiểm chứng liên quan. Mặc dù anh ấy sẽ cho phép: “Một điều có thể khả thi hơn là đèn cảnh báo cho các bài báo từ một số lượng tương đối nhỏ các tạp chí.” Có lẽ chỉ hạn chế nguyên văn bản cho Ba Tòa Án - Science, Nature và Proceedings of the National Academy of Sciences.
Thực sự, tuy nhiên, không ai biết câu trả lời sẽ như thế nào. Trên thực tế, một trong những người đầu tiên gửi phản hồi cho Darpa RFI đang xin tiền để vẽ ra một cái. “Thách thức chính của việc là không có tiêu chuẩn vàng cho độ tin cậy. Chúng ta không có một mức chuẩn,” nói Brian Nosek, nhà tâm lý học của Đại học Virginia, giám đốc Trung tâm Khoa học Mở và một trong những người chủ chốt trong cuộc chiến cho khả năng sao chép lại. Nhiều người nói họ có cách để xác minh kết quả khoa học, Nosek nói. “Vì vậy, bạn phải so sánh chúng với nhau. Chúng tôi nghĩ rằng tất cả những ý tưởng này đều nói lên điều gì đó về độ tin cậy, vì vậy hãy bắt đầu so sánh chúng.”
Đề xuất của Nosek mang tựa đề “Hướng đến Việc Đánh Giá Cấp Độ Tin Cậy Theo Cách Lặp Đi Lặp Lại,” hoặc, một cách đáng yêu, “Dưa Chua.” Nó đề xuất rằng Darpa thiết lập, theo kiểu cổ điển, một cuộc thi: Để mọi người với mô hình đánh giá độ tin cậy kiểm tra chúng trên các tập văn bản cụ thể, như các nghiên cứu được sao chép. Sau đó, anh ta sẽ xây dựng điều gì được gọi là mạng lý luận, đưa ý tưởng đối đầu với nhau. “Cách duy nhất để phát triển niềm tin vào bằng chứng là nhìn vào vấn đề theo nhiều cách khác nhau và xem bạn bắt đầu đạt được sự hội tụ ở đâu,” Nosek nói. Nói cách khác, xây dựng một khuôn khổ để xác định sự tin cậy của việc xác định sự tin cậy. “Nó rất meta,” anh ấy nói.
Các lĩnh vực khoa học khác cũng gặp vấn đề với khả năng sao chép và đáng tin cậy của chúng. (Những người nghiên cứu ung thư đang làm mưa làm gió.) Nhưng các ngành khoa học xã hội lại có vấn đề triết học hiểu biết riêng của mình. Rắc rối lớn của Darpa ở đây có thể không phải là câu trả lời từ khoa học xã hội mà là từ những câu hỏi khoa học xã hội. “Các nhà khoa học máy tính thường quen với việc đặt câu hỏi mà họ có thể dễ dàng xác minh câu trả lời,” Salganik nói. Bộ lọc thư rác nào lọc thư rác tốt nhất? Đây là 900,000 email được đánh dấu là “thư rác” và “không phải thư rác.” Bây giờ, đây là 100,000 email khác. Hãy để 10 hệ thống đánh dấu chúng, và chúng ta sẽ xem hệ thống nào đánh đúng nhất. Kết quả: bộ lọc thư rác. “Mục tiêu là rõ ràng về dự đoán, và vấn đề dự đoán dễ biểu thị có số liệu cụ thể,” Salganik nói. “Nhưng nhiều câu hỏi khoa học xã hội lại khác. Chúng hơn là về việc hỏi tại sao điều gì đó đang xảy ra.”
Câu hỏi mô tả cơ bản có thể hữu ích cho Darpa và các khách hàng quân sự của họ. Nhưng chúng khó đo lường. “Điều này thực sự đi xa hơn chỉ về ý nghĩa thống kê,” Salganik nói. Ngay cả khi bạn điều chỉnh giá trị P chấp nhận được, một kiểm tra về ý nghĩa thống kê, từ 0.05 xuống 0.005 - càng thấp, dữ liệu của bạn càng quan trọng - điều đó sẽ không giải quyết được, chẳng hạn như độ chệch do nguồn tài trợ từ doanh nghiệp. (Nhà vật lý hạt cần một giá trị P dưới 0.0000003! Và bạn phải giảm xuống dưới 0.00000005 cho một nghiên cứu liên quan đến toàn bộ gen.)
Vậy câu trả lời là gì? Một phương pháp có thể là vượt xa khỏi số liệu thống kê và khả năng sao chép để thêm các công cụ tin cậy mới vào bộ công cụ. Trung tâm Khoa học Mở của Nosek trao “huy hiệu” cho các bài báo về những điều như đăng ký trước kế hoạch nghiên cứu (để phòng ngừa cáo buộc P hacking) và cung cấp bộ dữ liệu đầy đủ và mã nguồn sử dụng để phân tích nó. Đó giống như chứng chỉ LEED cho các tòa nhà thiết kế theo hướng môi trường.
Mạng xã hội cũng có thể đóng một vai trò tích cực—các số liệu không chỉ cho thấy có bao nhiêu người trích dẫn hoặc liên kết đến một nghiên cứu mà còn cách họ nói về nó. Bài đăng blog và tweet về một phát hiện mới trong, chẳng hạn, thiên văn học, có thể hầu như tạo thành một loại kiểm định từ cộng đồng sau khi công bố mà cả một cộng đồng khoa học đào sâu vào một bài báo. Nói cách khác, bạn biết ai sẽ cứu khoa học không? Những người chơi Troll.
Russell có vẻ như anh ấy sẽ hoàn toàn mở cửa cho điều đó. Anh ấy không biết có bao nhiêu ý tưởng mà anh ấy sẽ tài trợ—RFI mở cho đến giữa tháng Tám—và anh ấy không biết anh ấy sẽ có bao nhiêu tiền để phân phối. “Điều tuyệt vời về Darpa là, nếu bạn có nhiều ý tưởng tuyệt vời và cần ngân sách để thực hiện, bạn có thể đưa ra lập luận đó,” Russell nói. “Trong dài hạn, chúng ta đều đồng lòng trong điều này. Khoa học của chúng ta càng tốt, chúng ta có thể đưa ra các quyết định tốt hơn.”
Đó là một vấn đề triết học khoa học phức tạp, với một câu trả lời triết học khoa học khó khăn. “Ở một số cách nào đó, điều này hơi gây sốc khi chúng ta thậm chí đang có cuộc trò chuyện này bây giờ, khi có nhiều người chúng ta đang thức dậy và nhận ra rằng chúng ta không tự tin vào phương pháp của mình như chúng ta nghĩ,” Watts nói. “Điều quan trọng là một sự nỗ lực toàn cầu lớn để chỉ cần cải thiện khả năng của chúng ta nói rằng chúng ta thực sự tin tưởng vào kết quả này so với chúng ta chưa nên tin.” Bạn phải tin rằng khoa học có thể sửa chữa khoa học—với một chút sự giúp đỡ từ Darpa.
0 Thích