Trí tuệ nhân tạo

So sánh hiệu suất của ChatGPT-5, Gemini 3, Copilot, Perplexity và sinh viên y khoa trong việc trả lời các câu hỏi về thần kinh: một nghiên cứu cắt ngang

calendar_today4/4/2026
personIEP Editorial Team

Trí Tuệ Nhân Tạo Vượt Trội Sinh Viên Y Khoa Trong Lĩnh Vực Thần Kinh Học

Một nghiên cứu mới đây tại Iran đã đưa ra kết quả đáng chúú ý: các chatbot dựa trên mô hình ngôn ngữ lớn (LLM) có khả năng trả lời câu hỏi chuyên ngành thần kinh học chính xác hơn đáng kể so với sinh viên y khoa. Nghiên cứu so sánh trực tiếp hiệu suất của ChatGPT-5, Gemini 3, Copilot 2025, Perplexity với 20 sinh viên y khoa, mở ra những tranh luận mới về vai trò của trí tuệ nhân tạo trong hỗ trợ chẩn đoán và đào tạo y tế.

Cuộc Đối Đầu Giữa AI Và Con Người Trong Lĩnh Vực Chuyên Sâu

Nghiên cứu được thực hiện vào tháng 12 năm 2025 bởi nhóm tác giả từ Đại học Khoa học Y tế Birjand, Iran. Các đối tượng tham gia bao gồm bốn chatbot AI hàng đầu và 20 sinh viên y khoa đã cùng trả lời một bộ câu hỏi chuyên ngành thần kinh học. Phương pháp ma trận nhầm lẫn được sử dụng để phân tích dữ liệu, với các chỉ số đánh giá toàn diện: độ nhạy, độ đặc hiệu, giá trị dự đoán dương tính, giá trị dự đoán âm tính và độ chính xác tổng thể.

Kết quả phân tích cho thấy sự vượt trội rõ rệt của các chatbot AI. Với giá trị p nhỏ hơn 0.001, hiệu suất tổng thể của nhóm AI được đánh giá là cao hơn có ý nghĩa thống kê so với nhóm sinh viên y khoa. Trong số các chatbot, Copilot 2025 dẫn đầu với độ chính xác 0.88, tiếp theo là ChatGPT-5 với 0.86. Kết quả này củng cố cho xu hướng ứng dụng ngày càng rộng rãi của LLM trong lĩnh vực chăm sóc sức khỏe, từ hỗ trợ ra quyết định lâm sàng đến giáo dục y khoa.

Điểm Mạnh Và Hạn Chế Của AI Trong Chuyên Ngành Y

Mặc dù thể hiện ưu thế tổng thể, nghiên cứu cũng chỉ ra một điểm yếu đáng chú ý của các mô hình AI. Hiệu suất của chatbot bị giảm đáng kể khi đối mặt với các câu hỏi định lượng, với hệ số tương quan r = 0.470 và p = 0.001. Điều này cho thấy AI vẫn có thể gặp khó khăn với các bài toán tính toán hoặc yêu cầu xử lý số liệu phức tạp, một lĩnh vực đòi hỏi tư duy logic và khả năng suy luận đặc thù.

Ngoài định lượng, nghiên cứu còn phân tích mối tương quan giữa hiệu suất chatbot với các đặc điểm câu hỏi như độ dài, ngữ cảnh, định dạng, loại câu hỏi và ngôn ngữ. Phát hiện này cung cấp manh mối quan trọng cho các nhà phát triển trong việc cải thiện khả năng xử lý đa dạng tình huống lâm sàng của AI, đặc biệt trong chuyên ngành thần kinh vốn nhiều phức tạp.

Tương Lai Của Hỗ Trợ AI Trong Thực Hành Lâm Sàng

Kết quả nghiên cứu mang lại những hiểu biết giá trị, đặc biệt trong lĩnh vực thần kinh học, nơi chatbot có thể đóng vai trò như một công cụ bổ trợ đắc lực cho các bác sĩ. Việc tích hợp AI có khả năng nâng cao độ chính xác chẩn đoán và hỗ trợ ra quyết định lâm sàng, đồng thời tuân thủ các tiêu chuẩn đạo đức y tế đã được thiết lập. Nhiều nghiên cứu trước đây cũng ủng hộ tiềm năng này của LLM trong các kỳ thi chuyên khoa và hỗ trợ điều trị.

Tuy nhiên, nhóm tác giả cũng nhấn mạnh rằng cần có thêm nhiều nghiên cứu sâu hơn để có cái nhìn chính xác và toàn diện, đặc biệt với cỡ mẫu người tham gia lớn hơn. Các yếu tố như bối cảnh lâm sàng thực tế, tương tác đa phương thức và đạo đức trong sử dụng AI vẫn là những lĩnh vực cần được khám phá. Dữ liệu nghiên cứu đã được công bố và có thể được truy cập thông qua liên hệ với tác giả chính của bài báo.

Nghiên cứu này không chỉ là một thước đo năng lực mà còn là một bản đồ chỉ dẫn cho tương lai của y học kỹ thuật số. Sự kết hợp giữa trí tuệ chuyên môn của con người và khả năng xử lý thông tin siêu việt của AI hứa hẹn sẽ tạo nên những bước tiến đột phá trong chẩn đoán, điều trị và đào tạo y khoa, đặc biệt tại các chuyên ngành phức tạp như thần kinh học.

Helpful insights?

Share this article with your network.