Mytour blogimg_logo
27/12/202390

Trí tuệ nhân tạo Có Thể Nhận Diện Hình Ảnh, Nhưng Vấn Đề Nảy Ra Khi Xử Lý Văn Bản—Đến Thời Điểm Này | blog.mytour.vn năm 2025

Dan Klein, một giáo sư khoa học máy tính tại Đại học California, Berkeley, đã là một trong những người sử dụng sớm. Anh và một sinh viên đang làm việc trên một bộ phân tích đối tượng, một công cụ cơ bản liên quan đến ánh xạ cấu trúc ngữ pháp của một câu. Bằng cách thêm ELMo, Klein đột nhiên có hệ thống tốt nhất trên thế giới, chính xác nhất một cách đáng kinh ngạc. “Nếu bạn đã hỏi tôi vài năm trước liệu có thể đạt được một mức độ cao như vậy không, tôi đã không chắc chắn,” ông nói.

Các mô hình như ELMo giải quyết một vấn đề cốt lõi đối với những người nắm giữ AI: thiếu dữ liệu được đánh nhãn. Để đào tạo một mạng nơ-ron để đưa ra quyết định, nhiều vấn đề ngôn ngữ yêu cầu dữ liệu đã được đánh nhãn một cách tỉ mỉ bằng tay. Nhưng việc sản xuất dữ liệu đó mất thời gian và tiền bạc, và ngay cả rất nhiều cũng không thể bắt kịp cách chúng ta nói và viết một cách không dự đoán được. Đối với các ngôn ngữ khác ngoài tiếng Anh, nghiên cứu viên thường không có đủ dữ liệu được đánh nhãn để thực hiện các nhiệm vụ cơ bản.

“Chúng ta sẽ không bao giờ có đủ dữ liệu được đánh nhãn,” Matthew Peters, một nhà nghiên cứu tại Viện Allen dẫn đầu đội ngũ ELMo, nói. “Chúng ta thực sự cần phát triển các mô hình có thể lấy dữ liệu không được đánh nhãn và học nhiều nhất có thể từ nó.”

May mắn thay, nhờ internet, các nghiên cứu viên có đủ dữ liệu không được đánh nhãn từ các nguồn như Wikipedia, sách và truyền thông xã hội. Chiến lược là đưa những từ đó vào một mạng nơ-ron và cho phép nó nhận biết các mô hình tự nhiên, một phương pháp tự giác. Hi vọng là những mô hình sẽ nắm bắt một số khía cạnh chung của ngôn ngữ---một cảm giác về những từ là gì, có thể, hoặc đường nét cơ bản của ngữ pháp. Như một mô hình được đào tạo bằng cách sử dụng ImageNet, một mô hình ngôn ngữ như vậy sau đó có thể được điều chỉnh để thống nhất các nhiệm vụ cụ thể hơn---như tóm tắt một bài báo khoa học, phân loại một email làm rác, hoặc thậm chí tạo ra một kết thúc hài lòng cho một câu chuyện ngắn.

Khám phá bản năng cơ bản đó không mới. Trong những năm gần đây, các nhà nghiên cứu đã đào sâu vào dữ liệu không có nhãn bằng một kỹ thuật gọi là nhúng từ, nó ánh xạ cách từ liên quan đến nhau dựa trên cách chúng xuất hiện trong lượng lớn văn bản. Các mô hình mới nhắm đến điều sâu sắc hơn, nắm bắt thông tin mở rộng từ từ lên đến các khái niệm cấp cao hơn của ngôn ngữ. Ruder, người đã viết về tiềm năng của những mô hình sâu sắc hơn đó có thể hữu ích cho nhiều vấn đề ngôn ngữ khác nhau, hy vọng chúng sẽ trở thành một sự thay thế đơn giản cho việc nhúng từ.

ELMo, ví dụ, cải thiện nhúng từ bằng cách tích hợp thêm ngữ cảnh, nhìn vào ngôn ngữ ở quy mô câu chứ không phải từ. Ngữ cảnh bổ sung đó làm cho mô hình giỏi trong việc phân tích sự khác biệt giữa, ví dụ, “Tháng Năm” và động từ “có thể”, nhưng cũng có nghĩa là nó học về cú pháp. ELMo nhận thêm động lực bằng cách hiểu về các đơn vị con của từ, như tiền tố và hậu tố. Cho mạng nơ-ron ăn một tỷ từ, như đội của Peters đã làm, và phương pháp này trở nên khá hiệu quả.

Vẫn chưa rõ mô hình thực sự học được gì trong quá trình phân tích tất cả những từ đó. Bởi vì cách mà các mạng nơ-ron sâu hoạt động một cách không minh bạch, đó là một câu hỏi khó khăn để trả lời. Các nhà nghiên cứu vẫn chỉ có một hiểu biết mơ hồ về lý do tại sao hệ thống nhận diện hình ảnh hoạt động tốt đến vậy. Trong một bài báo mới sẽ xuất hiện tại một hội nghị vào tháng 10, Peters tiếp cận theo một cách kinh nghiệm, thử nghiệm với ELMo trong các thiết kế phần mềm khác nhau và trên các nhiệm vụ ngôn ngữ khác nhau. “Chúng tôi phát hiện rằng những mô hình này học được những tính chất cơ bản của ngôn ngữ,” Peters nói. Nhưng anh cảnh báo rằng các nhà nghiên cứu khác sẽ cần thử nghiệm ELMo để xác định mô hình có đủ mạnh mẽ trên các nhiệm vụ khác nhau, và cũng những điều bất ngờ ẩn sau đó.

Một rủi ro: mã hóa các đặc điểm thiên vị từ dữ liệu được sử dụng để huấn luyện chúng, vì vậy bác sĩ được gán nhãn là nam và y tá là nữ, ví dụ như nhúng từ đã từng làm. Và trong khi kết quả ban đầu được tạo ra bằng cách sử dụng ELMo và các mô hình khác là hứng thú, theo Klein, vẫn chưa rõ kết quả có thể đạt được đến đâu, có thể bằng cách sử dụng thêm dữ liệu để đào tạo các mô hình, hoặc bằng cách thêm ràng buộc để buộc mạng nơ-ron học hiệu quả hơn. Trong tương lai, trí tuệ nhân tạo đọc và nói một cách lưu loát như chúng ta có thể đòi hỏi một phương pháp mới hoàn toàn.


Những Điều Tuyệt Vời Hơn từ blog.mytour.vn

  • Bể sóng nhân tạo của Kelly Slater đang tạo sóng thực sự
  • Chiếc Bugatti này chạy 18 mph (và được làm từ Lego)
  • Cách sử dụng Twitter: những mẹo quan trọng dành cho người dùng mới
  • ESSAY ẢNH: Một thế giới không có điện
  • Mọi thứ bạn muốn biết về máy tính lượng tử
  • Đói cho những cuộc đàm phán sâu sắc hơn về chủ đề yêu thích tiếp theo của bạn? Đăng ký nhận bản tin Backchannel
Trần Minh Hoạt

0 Thích

Đánh giá : 4.2 /540