Mỗi tuần, một nghiên cứu trí tuệ nhân tạo đột phá được Google công bố—lần này với kết quả nhắc nhở về một động lực kinh doanh quan trọng của sự bùng nổ trí tuệ nhân tạo hiện nay. Hệ sinh thái của các công ty công nghệ mà người tiêu dùng và nền kinh tế ngày càng phụ thuộc vào thường được cho là được duy trì sự đổi mới và không tập trung bằng sự đảo lộn, quá trình mà các công ty nhỏ lật đổ những công ty lớn. Nhưng khi sự cạnh tranh trong công nghệ phụ thuộc vào các hệ thống học máy được nạp bởi những kho dữ liệu khổng lồ, việc đánh bại một ông lớn công nghệ có lẽ khó khăn hơn bao giờ hết.
Bài báo mới của Google, được công bố làm bản trước vào thứ Hai, mô tả một sự hợp tác đắt đỏ với Đại học Carnegie Mellon. Những thử nghiệm của họ về nhận dạng hình ảnh đã ràng buộc 50 bộ xử lý đồ họa mạnh mẽ trong hai tháng liền, và sử dụng một bộ sưu tập khổng lồ chưa từng có với 300 triệu hình ảnh được gắn nhãn (nhiều công việc trong nhận dạng hình ảnh chỉ sử dụng một bộ sưu tập tiêu chuẩn với chỉ 1 triệu hình ảnh). Dự án được thiết kế để kiểm tra xem có thể có thêm tính chính xác trong việc nhận dạng hình ảnh không bằng cách chỉnh sửa thiết kế của các thuật toán hiện tại mà chỉ là bằng cách cung cấp cho chúng nhiều dữ liệu hơn.
Câu trả lời là có. Sau khi các nhà nghiên cứu của Google và CMU huấn luyện một hệ thống xử lý hình ảnh tiêu chuẩn trên bộ dữ liệu mới to lớn của họ, họ nói rằng nó đã tạo ra kết quả mới đạt đến trạng thái của nghệ thuật trên một số thử nghiệm tiêu chuẩn về khả năng phần mềm hiểu hình ảnh, như phát hiện đối tượng trong ảnh. Có một mối quan hệ rõ ràng giữa lượng dữ liệu họ đưa vào và độ chính xác của các thuật toán nhận dạng hình ảnh mà họ đưa ra. Các kết quả giúp giải đáp một câu hỏi đang lan truyền trong thế giới nghiên cứu trí tuệ nhân tạo về việc liệu có thể làm được nhiều hơn từ các thuật toán hiện tại chỉ bằng cách cung cấp cho chúng nhiều dữ liệu hơn để xử lý hay không.
Chứng minh rằng việc có nhiều dữ liệu có thể mang lại hiệu suất cao hơn ngay cả ở quy mô lớn, cho thấy có thể có những lợi ích lớn hơn khi là một ông lớn công nghệ giàu dữ liệu như Google, Facebook hoặc Microsoft mà trước đây chưa được nhận ra. Xử lý bộ dữ liệu khổng lồ của Google với 300 triệu hình ảnh không tạo ra lợi ích lớn—nhảy từ 1 triệu lên 300 triệu hình ảnh chỉ tăng điểm nhận dạng đối tượng lên 3 điểm phần trăm—nhưng các tác giả của bài báo nói rằng họ nghĩ có thể mở rộng lợi thế đó bằng cách điều chỉnh phần mềm của họ để phù hợp tốt hơn với các bộ dữ liệu siêu lớn. Ngay cả khi điều này không phải là trường hợp, trong ngành công nghiệp công nghệ, những lợi thế nhỏ có thể quan trọng. Mọi sự tiến bộ nhỏ về độ chính xác của hệ thống thị giác tự lái sẽ quan trọng, ví dụ, và sự tăng cường hiệu suất nhỏ cho một sản phẩm mang về tỷ đô doanh thu nhanh chóng tích tụ.
Lưu trữ dữ liệu đã trở nên phổ biến như một chiến lược phòng thủ giữa các công ty tập trung vào trí tuệ nhân tạo. Google, Microsoft và những người khác đã công bố nhiều phần mềm nguồn mở, thậm chí là thiết kế phần cứng, nhưng họ ít tự do với loại dữ liệu làm cho những công cụ này trở nên hữu ích. Các công ty công nghệ thường công bố dữ liệu: Năm ngoái, Google công bố một bộ dữ liệu lớn được rút từ hơn 7 triệu video trên YouTube, và Salesforce mở một bộ dữ liệu được rút từ Wikipedia để giúp các thuật toán làm việc với ngôn ngữ. Nhưng Luke de Oliveira, đối tác tại phòng thí nghiệm phát triển trí tuệ nhân tạo Manifold và một nghiên cứu viên tại Lawrence Berkeley National Lab, nói rằng (như bạn có thể mong đợi) những bộ dữ liệu như vậy thường ít cung cấp giá trị cho các đối thủ tiềm năng. “Đây không bao giờ là những bộ dữ liệu quan trọng thực sự cho vị trí thị trường liên tục của một sản phẩm,” ông nói.
Những nhà nghiên cứu của Google và CMU thì nói họ muốn nghiên cứu mới nhất của mình về giá trị của những gì họ gọi là 'dữ liệu khổng lồ' để kích thích việc tạo ra các bộ dữ liệu hình ảnh mở rộng hơn, có quy mô như của Google. “Hy vọng chân thành của chúng tôi là điều này sẽ truyền cảm hứng cho cộng đồng tìm hiểu thị giác để không đánh giá thấp dữ liệu và phát triển nỗ lực tập trung vào việc xây dựng các bộ dữ liệu lớn hơn,” họ viết. Abhinav Gupta của CMU, người đã làm việc trên nghiên cứu, nói một lựa chọn có thể làm việc với Common Visual Data Foundation, một tổ chức phi lợi nhuận được tài trợ bởi Facebook và Microsoft đã công bố các bộ dữ liệu hình ảnh mở rộng.
Trong khi đó, các công ty thiếu dữ liệu muốn sống sót trong một thế giới nơi người giàu dữ liệu có thể mong đợi thuật toán của họ sẽ thông minh hơn phải sáng tạo. Jeremy Achin, CEO của DataRobot, đoán rằng một mô hình như trong bảo hiểm, nơi các công ty nhỏ (cẩn thận) tụ tập dữ liệu để làm cho dự đoán rủi ro của họ cạnh tranh với các đối thủ lớn có thể phổ biến hơn khi học máy trở nên quan trọng đối với nhiều công ty và ngành công nghiệp.
Tiến triển trong việc làm cho máy học ít yêu cầu dữ liệu có thể làm đảo ngược kinh tế dữ liệu của trí tuệ nhân tạo; Uber đã mua một công ty làm việc về điều đó năm ngoái. Nhưng ngay bây giờ, cũng có khả năng để thử và tránh qua lợi thế dữ liệu thông thường của những người dẫn đầu trong trí tuệ nhân tạo. Rachel Thomas, đồng sáng lập Fast.ai, một tổ chức làm việc để làm cho máy học trở nên dễ tiếp cận hơn, nói rằng các start-up có thể tìm ra những nơi để làm giàu áp dụng máy học ngoài phạm vi thông thường của các ông lớn internet, chẳng hạn như nông nghiệp. “Tôi không chắc rằng những công ty lớn này nhất thiết có lợi thế lớn ở mọi nơi, trong nhiều lĩnh vực cụ thể này, dữ liệu không được thu thập bởi bất kỳ ai cả,” cô nói. Ngay cả những khổng lồ trí tuệ nhân tạo cũng có những điểm mù.
0 Thích