Đúng vậy, các trang web theo dõi hành vi của bạn trực tuyến. Nhưng một số trang web đi xa hơn so với những gì bạn có thể hợp lý mong đợi, sử dụng các phiên phát lại để tạo ra một bản nhật ký chi tiết về mọi thứ bạn làm và gõ trên một trang web. Và nghiên cứu mới cho thấy rằng trong một số trường hợp, những bản ghi giống như phim này thậm chí còn lưu trữ mật khẩu của bạn.
Thu thập dữ liệu hàng loạt luôn là một tín hiệu đỏ về quyền riêng tư. Nhưng nhóm nghiên cứu của Đại học Princeton đã công bố các kết quả về các kịch bản phiên phát lại phiền toái, đã phát hiện ra một loạt tình huống đáng lo ngại nơi các biện pháp bảo vệ có vẻ như có ý tốt nhưng lại thất bại, dẫn đến một mức độ tiếp cận không chấp nhận được.
Cuộc điều tra bắt đầu với Mixpanel, một công ty phân tích sản phẩm cung cấp dịch vụ thu thập dữ liệu người dùng toàn diện được biết đến với tên gọi là Autotrack. Công ty đã thừa nhận trong một email gửi đến khách hàng vào đầu tháng Hai rằng tính năng này đã vô tình thu thập dữ liệu mật khẩu, mặc dù Autotrack đã bao gồm các heuristics để ngăn chặn vấn đề đó. Autotrack không phải là một kịch bản phiên phát lại, nhưng nó thu thập dữ liệu tương tác người dùng toàn bộ để các khách hàng của Mixpanel có thể truy vấn sau này bất kỳ thông tin nào về người dùng của họ. Mixpanel đã sửa lỗi mật khẩu và phát hành bản cập nhật SDK, nhưng các nhà nghiên cứu của Đại học Princeton—Steven Englehardt, Gunes Acar và Arvind Narayanan—nói rằng họ nhận ra rằng những lỗi che mật khẩu này có thể là một vấn đề lớn hơn.
"Nó đã bắt đầu trở nên phức tạp và tôi nghĩ rằng có khả năng có các mẫu thiết kế khác mà cũng bị suy yếu," nói Englehardt, một ứng cử viên tiến sĩ về quyền riêng tư trực tuyến. "Chúng tôi đã nêu bật một số điểm, nhưng chúng tôi có thể tiếp tục đi sâu vào vấn đề này và tìm thấy những vấn đề khác lần nữa chỉ vì cách mà những kịch bản này được thiết kế."
Ngay cả sau khi Mixpanel đã phát hành các sửa lỗi cho vấn đề lưu trữ mật khẩu, các nhà nghiên cứu của Đại học Princeton vẫn phát hiện ra tình huống mà Autotrack ghi lại mật khẩu. Tính năng này cố gắng tránh việc lưu trữ mật khẩu bằng cách tự động che mờ các trường nhập có tên hoặc ID chứa cụm từ "pass." Các hạn chế rất rõ ràng: Một trường mật khẩu có thể, ví dụ, được đặt tên là "pwd," hoặc một trang web có thể sử dụng một ngôn ngữ khác ngoài tiếng Anh.
Một ví dụ phổ biến mà nhóm nghiên cứu phát hiện liên quan đến tính năng "Hiển Thị Mật Khẩu"—công cụ được cung cấp bởi nhiều trang web và tiện ích mở rộng trình duyệt cho phép người dùng xem mật khẩu mà họ đang nhập dưới dạng văn bản thô để họ có thể phát hiện lỗi gõ. Các nhà nghiên cứu phát hiện rằng trên một số trang web của khách hàng Mixpanel, như testbook.com, tính năng này làm nhầm lẫn các biện pháp bảo vệ che mật khẩu. Nếu người dùng nhấp vào Hiển Thị Mật Khẩu và sau đó thực hiện bất kỳ hành động nào khác, như làm mờ lại mật khẩu hoặc chỉnh sửa nó trong trường văn bản, Autotrack đã ghi lại mật khẩu, ngay cả khi người dùng quyết định không đăng nhập và không gửi nó đi. Điều này xảy ra khi tính năng Hiển Thị Mật Khẩu lưu trữ mật khẩu trong một trường không nhìn thấy thứ hai, vì vậy Autotrack đang thu thập từ trường thứ hai đó, mà nó không biết phân loại là thông tin nhạy cảm. Các nhà nghiên cứu phát hiện ra rằng vấn đề này cũng xuất hiện khi người dùng thêm các tiện ích mở rộng Hiển Thị Mật Khẩu vào, làm thay đổi hành vi của trang web theo cách mà cả trang web và dịch vụ bên thứ ba không kiểm soát.
"Cấu trúc của trang web được hiển thị đang được sửa đổi, thay đổi loại trường nhập từ một trường mật khẩu thành một trường văn bản thông thường. Khi điều này xảy ra, Autotrack mất khả năng nhận biết xem một trường có đang được sử dụng để nhập mật khẩu hay không," Mixpanel nói trong một tuyên bố. "Theo tài liệu của chúng tôi, nếu khách hàng đang thu thập thông tin nhạy cảm trong các trường không phải là mật khẩu, họ nên rõ ràng đưa nó vào danh sách cấm thu thập."
Mixpanel cũng đã đưa toàn bộ tính năng Autotrack "tạm ngừng" trong vài tuần gần đây, khiến công cụ trở nên không thể tiếp cận với người dùng mới trong khi công ty "đánh giá xem làm thế nào để cung cấp việc tích hợp Mixpanel một cách liền mạch, dễ dàng mà minh bạch và dự đoán được với khách hàng của chúng tôi." Người phát ngôn cho biết công ty nhận ra rằng một số khách hàng của họ không hiểu được tổng số dữ liệu mà Autotrack thu thập, và muốn có nhiều kiểm soát hơn đối với thông tin công cụ giữ lại. Mixpanel cũng nói rằng họ đang phát triển các cơ chế để giúp khách hàng dễ dàng xem lại tổng thể dữ liệu mà tính năng thu thập, để họ có thể nhanh chóng phát hiện ra những điều không phù hợp.
Các nhà nghiên cứu đã thu thập dữ liệu công khai cho 50,000 trang web hàng đầu của Alexa, xem xét các mẫu của hàng nghìn trang web ở các cấp độ khác nhau về sự phổ biến, và phát hiện ra ví dụ về các kịch bản phiên phát lại không hoạt động đúng ở mọi cấp độ. Không phải mọi trang web sử dụng phiên phát lại sẽ giữ lại dữ liệu nhạy cảm—họ có thể không quét các trang mà người dùng nhập dữ liệu cá nhân hoặc có thể triển khai các danh sách cấm bảo vệ đúng đắn—nhưng việc dễ dàng tìm thấy ví dụ cho thấy rằng vấn đề này phổ biến.
Các nhà nghiên cứu không tin rằng bất kỳ công ty phân tích nào mà họ đã nghiên cứu có ý định thu thập dữ liệu nhạy cảm, hoặc làm điều đó với ý đồ xấu — không giống như một số hacker. Và việc làm việc với các công ty và các trang web bị ảnh hưởng đã thúc đẩy một số cải tiến. Nhưng họ lưu ý rằng các vấn đề về quyền riêng tư rất đa dạng và tồn tại trên quy mô càng ngày càng lớn. "Chúng tôi đã nhận được phản hồi từ các nhà cung cấp, họ hứa hẹn sẽ làm nhiều hơn trong việc phát hiện các rò rỉ loại này," Günes Acar, một nghiên cứu sinh sau đại học tại Princeton nghiên cứu về theo dõi trực tuyến cho biết. "Nhưng những rò rỉ này sẽ xảy ra dù có điều gì, trừ khi họ ngừng thu thập tất cả đầu vào từ các trường. Tôi không thực sự rất lạc quan."
Ngoài Mixpanel, các nhà nghiên cứu đã xem xét ví dụ về việc thu thập mật khẩu tình cờ liên quan đến ba công ty khác cung cấp dịch vụ phiên phát lại phiên—UserReplay, FullStory và SessionCam. Các nhà nghiên cứu tiếp tục xem xét tính năng Hiển Thị Mật Khẩu và tiện ích mở rộng trình duyệt và phát hiện một số tình huống mà các biện pháp bảo vệ quyền riêng tư phá vỡ.
Thường xuyên xảy ra điều này ngay cả khi người dùng thực sự không sử dụng tính năng Hiển Thị Mật Khẩu, chỉ đơn giản là vì nhập mật khẩu tạo ra trường không nhìn thấy bổ sung đó giữ mật khẩu dưới dạng văn bản thô trong trường hợp người dùng muốn Hiển Thị Mật Khẩu. Nhiều kịch bản phiên phát lại phiên không loại trừ được trường mật khẩu thứ hai này, như đã xảy ra với FullStory và một dịch vụ gọi là PropellerAds.
"Phiên phát lại phiên là một công nghệ độc đáo và hiệu quả giúp các doanh nghiệp sửa lỗi, cung cấp hỗ trợ tốt và làm cho trang web của họ dễ sử dụng hơn," một người phát ngôn của FullStory nói với blog.mytour.vn. "Chúng tôi tin rằng có cơ hội để đảm bảo rằng việc phiên phát lại phiên và các vấn đề quyền riêng tư không xung đột, và chúng tôi có một nhóm nội bộ dành riêng cho nỗ lực này. Công việc mà Gunes [Acar] và Steve [Englehardt] đang thực hiện tại Princeton chỉ có thể giúp chúng tôi trở nên tốt hơn."
Một ví dụ đặc biệt lạ mắt mà các nhà nghiên cứu phát hiện đến từ trang đăng nhập vào Capella University, tạo ra một vụ rò rỉ mật khẩu thông qua sự tương tác của hai công cụ bên thứ ba. Khi người dùng nhập mật khẩu vào trường mật khẩu, một kịch bản Adobe Analytics ActivityMap lưu trữ mật khẩu trong một cookie. Đồng thời, dịch vụ phiên phát lại phiên UserReplay được thiết lập trên trang để ghi lại tất cả các cookie được tạo ra. Kết quả là, UserReplay đã vô tình thu thập mật khẩu.
"Với sự thận trọng cực độ, chúng tôi đang gỡ bỏ mã Adobe Analytics thiết lập cookie và chúng tôi đang tạm ngừng sử dụng UserReplay," Phó chủ tịch công việc công cộng của Capella, Mike Buttry, cho biết với blog.mytour.vn. "Chúng tôi rất nghiêm túc trong việc bảo vệ dữ liệu của sinh viên." UserReplay vẫn chưa đưa ra phản hồi, nhưng các nhà nghiên cứu nói rằng tình huống này rất không bình thường. Thay vì phản ánh một vấn đề phổ biến, nó cho thấy sự không dự đoán được của tương tác của bên thứ ba trên các trang web, cho dù chúng đến từ các công cụ phân tích hoặc các dịch vụ hoàn toàn bất ngờ như các tiện ích mở rộng Hiển Thị Mật Khẩu.
Các vụ rò rỉ mật khẩu mà các nhà nghiên cứu phát hiện không phải là các rò rỉ trực tiếp, vì chúng rỉ từ một dịch vụ sang dịch vụ khác thay vì ra ngoài cộng đồng. Nhưng việc rò rỉ dữ liệu không cố ý tăng nguy cơ tổng thể rằng dữ liệu sẽ một ngày nào đó rò rỉ hoặc bị xâm nhập công khai. Càng nhiều bản sao của thông tin nhạy cảm tồn tại, bề mặt tấn công càng rộng, và khi dữ liệu bị thu thập tình cờ, nó có thể không được lưu trữ đúng cách hoặc có các biện pháp bảo vệ tiêu chuẩn.
"Đối với tôi, tình huống tồi tệ nhất là không có gì xảy ra, không có gì thay đổi và điều này chỉ trở thành bình thường mới," Englehardt nói. "Khi chúng ta đầu tiên bắt đầu nói về phiên phát lại phiên, mọi người đã ngạc nhiên, nhưng sau thời gian, sự ngạc nhiên đó hoàn toàn biến mất và điều này trở thành một rủi ro chấp nhận được. Tôi hy vọng rằng các phát hiện của chúng tôi sẽ khuyến khích các công ty thay đổi thực hành của họ, không chỉ là vá các vấn đề cụ thể mà chúng tôi chỉ ra, mà thực sự thay đổi thiết kế của sản phẩm."
Miễn là dữ liệu phân tích hàng loạt và phiên phát lại phiên giúp các công ty cải thiện trải nghiệm người dùng, tối ưu hóa sản phẩm của họ và làm marketing tốt hơn, việc thay đổi cách dịch vụ này hoạt động sẽ khó khăn.
Cập nhật 26/2/2018 2:45pm EST để bao gồm phản hồi từ Trường Đại học Capella.
0 Thích