Nghiên cứu mới cảnh báo: Trợ lý AI lập trình thất bại đến 25% trong các tác vụ cấu trúc

Một nghiên cứu học thuật mới đây đã làm dấy lên những hoài nghi đáng kể về độ tin cậy của các trợ lý lập trình AI. Công cụ được kỳ vọng sẽ cách mạng hóa ngành phát triển phần mềm này đang cho thấy tỷ lệ thất bại cao hơn nhiều so với tưởng tượng trong việc tạo ra các đầu ra có cấu trúc chặt chẽ.

Nghiên cứu từ Đại học Waterloo, Canada, phát hiện rằng ngay cả những mô hình AI tiên tiến nhất hiện nay cũng thất bại trong khoảng một phần tư (25%) các nhiệm vụ yêu cầu đầu ra có cấu trúc. Điều này đặt một dấu hỏi lớn về hiệu quả thực tế của những trợ lý mã hóa đang được quảng bá rộng rãi.

Khoảng cách đáng lo ngại giữa hứa hẹn và thực tế

Nhóm nghiên cứu đã tiến hành đánh giá 11 mô hình ngôn ngữ lớn (LLM) khác nhau, thử nghiệm chúng trên 18 định dạng cấu trúc và 44 tác vụ đa dạng. Mục tiêu là kiểm tra khả năng tuân thủ các quy tắc định trước của AI, từ việc tạo mã JSON, XML đến Markdown. Kết quả cho thấy một sự chênh lệch rõ rệt.

Trong khi các tác vụ liên quan đến văn bản thuần túy được xử lý ở mức độ chấp nhận được, thì những yêu cầu phức tạp hơn như tạo hình ảnh, video hoặc website lại khiến AI gặp khó khăn nghiêm trọng. Độ chính xác trong các lĩnh vực này giảm mạnh, làm dấy lên lo ngại về tính khả thi khi tích hợp những công cụ này vào quy trình làm việc chuyên nghiệp.

Dongfu Jiang, nghiên cứu sinh Tiến sĩ và đồng tác giả chính của nghiên cứu, giải thích: “Với loại nghiên cứu này, chúng tôi muốn đo lường không chỉ cú pháp của mã - tức là liệu nó có tuân theo các quy tắc đặt ra hay không - mà còn cả việc liệu đầu ra được tạo ra cho các tác vụ khác nhau có chính xác hay không”.

Độ chính xác còn thấp, dù đã có cải tiến

Các hãng công nghệ lớn như OpenAI, Google và Anthropic đã giới thiệu tính năng “đầu ra có cấu trúc” với mục đích buộc phản hồi của AI vào các định dạng có thể dự đoán được, nhằm tăng độ tin cậy cho nhà phát triển. Tuy nhiên, nghiên cứu của Waterloo chỉ ra rằng cách tiếp cận này vẫn chưa mang lại mức độ ổn định mà các lập trình viên cần.

Báo cáo cho thấy ngay cả những mô hình độc quyền tiên tiến nhất cũng chỉ đạt độ chính xác khoảng 75%. Các mô hình mã nguồn mở có hiệu suất còn thấp hơn, trung bình chỉ ở mức 65%. Những con số này hàm ý rằng, bất chấp những cải tiến, hệ thống AI vẫn mắc những lỗi đáng kể không thể bỏ qua trong môi trường phát triển chuyên nghiệp.

Báo cáo nhấn mạnh sự cần thiết của việc giám sát bởi con người, đồng thời lưu ý: “Các nhà phát triển có thể có những tác nhân AI này làm việc cho họ, nhưng họ vẫn cần sự giám sát đáng kể từ con người”. Công nghệ này vẫn chưa đủ mạnh mẽ để hoạt động độc lập trong các kịch bản phát triển phức tạp.

Tương lai của trợ lý AI: Công cụ hỗ trợ thử nghiệm, chưa phải đồng nghiệp tự chủ

Phát hiện này khiến người ta đặt câu hỏi hợp lý rằng liệu sự nhiệt tình của ngành công nghiệp với AI và các trợ lý lập trình có đang vượt xa khả năng thực tế của công nghệ cơ bản hay không. Tỷ lệ thất bại đáng kể của các mô hình tiên tiến nhất trong các tác vụ có cấu trúc đã cho thấy một khoảng cách rộng giữa những tuyên bố tiếp thị và hiệu suất thực tế.

Mặc dù đầu ra có cấu trúc là một bước tiến so với các phản hồi ngôn ngữ tự nhiên tự do, lỗi vẫn còn phổ biến. Do đó, ít nhất là trong thời điểm hiện tại, các nhà phát triển nên coi những công cụ này như những trợ thủ thử nghiệm hơn là những đồng nghiệp tự chủ. Sự kết hợp giữa trí tuệ nhân tạo và trí tuệ con người vẫn là chìa khóa then chốt cho sự thành công trong các dự án phần mềm phức tạp.

Ngay cả những mô hình AI tiên tiến nhất cũng gặp lỗi thường xuyên hơn bạn nghĩ về kết quả đầu ra có cấu trúc – làm dấy lên nghi ngờ về tính hiệu quả của trợ lý mã hóa

Nghiên cứu mới cảnh báo: Trợ lý AI lập trình thất bại đến 25% trong các tác vụ cấu trúc

Khoảng cách đáng lo ngại giữa hứa hẹn và thực tế

Độ chính xác còn thấp, dù đã có cải tiến

Tương lai của trợ lý AI: Công cụ hỗ trợ thử nghiệm, chưa phải đồng nghiệp tự chủ

Helpful insights?