Dạo bước qua các hội chợ bảo mật RSA gần đây tại San Francisco, bạn có thể dễ dàng có cảm giác rằng phòng thủ số đã là vấn đề được giải quyết. Giữa những chiếc áo thun và bình nước thương hiệu, mỗi gian hàng quảng cáo phần mềm và phần cứng hứa hẹn những phòng thủ không thể xâm phạm và sự yên tâm. Sự đột phá đằng sau những phương thuốc pháp mới này? Trí tuệ nhân tạo, theo giới thiệu bán hàng, có thể ngay lập tức phát hiện bất kỳ phần mềm độc hại nào trên mạng, hướng dẫn phản ứng sự cố và phát hiện xâm nhập trước khi chúng bắt đầu.
Tầm nhìn lạc quan về những gì trí tuệ nhân tạo có thể mang lại không hẳn là sai. Nhưng những gì mà các kỹ thuật thế hệ tiếp theo thực sự làm là phức tạp và tiến triển hơn nhiều so với những gì các nhà tiếp thị muốn thừa nhận. May mắn thay, các nhà nghiên cứu phát triển các phòng thủ mới tại các công ty và trong giới học thuật đều đồng thuận về cả lợi ích và thách thức tiềm ẩn. Và nó bắt đầu từ việc làm rõ một số thuật ngữ.
"Thực sự tôi nghĩ không nhiều công ty đang sử dụng trí tuệ nhân tạo. Đó thực sự là việc huấn luyện máy học," nói Marcin Kleczynski, CEO của công ty phòng thủ an ninh mạng Malwarebytes, người quảng cáo phần mềm phát hiện mối đe dọa máy học của riêng mình tại RSA. "Gọi nó là trí tuệ nhân tạo là một cách làm đánh lừa ở một số điểm, và nó làm rối tung khách hàng thật sự."
Các thuật toán máy học mà các công ty an ninh triển khai thường được đào tạo trên các bộ dữ liệu lớn để "học" những điều cần chú ý trên các mạng và cách phản ứng đối với các tình huống khác nhau. Không giống như một hệ thống trí tuệ nhân tạo, hầu hết các ứng dụng an ninh hiện tại không thể suy luận ra những kết luận mới mà không có dữ liệu đào tạo mới.
Máy học có sức mạnh riêng của nó, và phương pháp này là sự kết hợp tự nhiên cho phòng thủ chống virus và quét malware. Trong nhiều thập kỷ, AV đã dựa trên chữ ký, có nghĩa là các công ty an ninh xác định các chương trình độc hại cụ thể, trích xuất một loại vân tay duy nhất cho mỗi chúng, và sau đó theo dõi các thiết bị của khách hàng để đảm bảo rằng không có chữ ký nào xuất hiện.
Quét malware dựa trên máy học hoạt động một cách tương tự—các thuật toán được đào tạo trên các danh mục lớn của các chương trình độc hại để học cách nhận biết. Nhưng phương pháp máy học có lợi thế bổ sung của sự linh hoạt, bởi vì công cụ quét đã học cách nhìn nhận đặc điểm của malware thay vì chữ ký cụ thể. Trong khi kẻ tấn công có thể làm chậm lại AV truyền thống bằng cách thay đổi nhỏ chỉ để làm mất dấu vết chữ ký, các công cụ quét dựa trên máy học, được cung cấp bởi hầu hết tên tuổi lớn trong lĩnh vực an ninh ở thời điểm này, linh hoạt hơn. Chúng vẫn cần được cập nhật đều đặn với dữ liệu đào tạo mới, nhưng quan điểm tổng thể hơn làm cho công việc của hacker khó khăn hơn.
"Bản chất của malware liên tục tiến triển, nên những người viết chữ ký cho các họ gia đình malware cụ thể đều đối mặt với một thách thức lớn," nói Phil Roth, một nhà khoa học dữ liệu tại công ty an ninh máy học Endgame, có trình quét malware chạy bằng máy học cho hệ thống Windows của riêng mình. Với phương pháp dựa trên máy học, "mô hình bạn đào tạo nhất định cần phản ánh những thứ mới nhất có sẵn, nhưng chúng ta có thể chậm lại một chút. Kẻ tấn công thường xây dựng trên các kết cấu cũ hoặc sử dụng mã nguồn đã tồn tại, bởi vì nếu bạn viết malware từ đầu, đó là rất nhiều công sức cho một cuộc tấn công có thể không có lợi nhuận lớn. Vì vậy, bạn có thể học từ tất cả các kỹ thuật tồn tại trong bộ dữ liệu đào tạo của mình, và sau đó nhận ra mô hình khi kẻ tấn công xuất hiện với điều gì đó chỉ mới một chút."
Tương tự, máy học đã trở thành không thể thiếu trong cuộc chiến chống lại thư rác và lừa đảo. Elie Bursztein, người dẫn đầu nhóm nghiên cứu chống lạm dụng tại Google, lưu ý rằng Gmail đã sử dụng các kỹ thuật máy học để lọc email từ khi ra mắt 18 năm trước. Nhưng khi chiến lược tấn công tiến triển và những kế hoạch lừa đảo trở nên nguy hiểm hơn, Gmail và các dịch vụ khác của Google đã cần phải thích ứng với những hacker đặc biệt biết cách lợi dụng họ. Cho dù kẻ tấn công đang thiết lập liên kết Google Docs giả mạo (nhưng có vẻ thuyết phục) hoặc làm ô nhiễm ý tưởng của bộ lọc thư rác về những thông điệp độc hại, Google và các nhà cung cấp dịch vụ lớn khác ngày càng cần phải dựa vào tự động hóa và máy học để theo kịp.
Do đó, Google đã tìm thấy ứng dụng cho máy học trong hầu hết tất cả các dịch vụ của mình, đặc biệt là thông qua một kỹ thuật máy học được biết đến là học sâu, cho phép thuật toán thực hiện các điều chỉnh và tự điều chỉnh nhiều hơn khi chúng được đào tạo và phát triển. "Trước đây chúng ta ở trong một thế giới nơi càng nhiều dữ liệu bạn có, càng nhiều vấn đề bạn phải giải quyết," Bursztein nói. "Bây giờ với học sâu, càng nhiều dữ liệu càng tốt. Chúng tôi đang ngăn chặn hình ảnh bạo lực, quét bình luận, phát hiện lừa đảo và malware trong Play Store. Chúng tôi sử dụng nó để phát hiện thanh toán giả mạo, chúng tôi sử dụng nó để bảo vệ đám mây của chúng tôi, và phát hiện máy tính bị nhiễm độc hại. Nó đang ở mọi nơi."
Ở cơ bản, sức mạnh lớn nhất của máy học trong lĩnh vực an ninh là đào tạo để hiểu được điều gì là "cơ bản" hoặc "bình thường" cho một hệ thống, sau đó đánh dấu bất kỳ điều gì không bình thường để được xem xét bởi con người. Khái niệm này áp dụng cho mọi hình thức phát hiện mối đe dọa hỗ trợ bởi máy học, nhưng các nhà nghiên cứu nói rằng sự tương tác giữa máy học và con người là sức mạnh quan trọng của các kỹ thuật này. Trong năm 2016, IBM ước tính rằng một tổ chức trung bình phải xử lý hơn 200,000 sự kiện bảo mật mỗi ngày.
Vai trò phổ biến nhất của máy học, sau đó, là bổ sung. Nó hoạt động như một người gác, thay vì một phương pháp chữa trị toàn diện.
"Như có một trợ lý máy học đã từng thấy điều này ngồi cùng với nhà phân tích," nói Koos Lodewijkx, phó chủ tịch và giám đốc công nghệ của trung tâm hoạt động và phản ứng an ninh tại IBM Security. Đội ngũ tại IBM ngày càng dựa vào nền tảng tính toán Watson của mình cho các nhiệm vụ "tổng hợp kiến thức" này và các lĩnh vực phát hiện mối đe dọa khác. "Rất nhiều công việc đang diễn ra trong một trung tâm hoạt động an ninh hiện nay là công việc hàng ngày hoặc lặp lại, vì vậy chúng ta có thể tự động hóa một số trong đó bằng cách sử dụng máy học hoặc chỉ làm cho nó dễ dàng hơn cho nhà phân tích?" Lodewijkx nói.
0 Thích