Công nghệ

Anthropic đưa ra trường hợp nhân cách hóa AI trong bài nghiên cứu 'đáng lo ngại'

calendar_today4/4/2026
personIEP Editorial Team
Anthropic đưa ra trường hợp nhân cách hóa AI trong bài nghiên cứu 'đáng lo ngại'

Nghiên cứu gây tranh cãi: Có nên "nhân cách hóa" trí tuệ nhân tạo?

Trong một báo cáo nghiên cứu mới được công bố, các chuyên gia từ Anthropic – công ty đứng sau chatbot Claude – đã thách thức một trong những điều cấm kỵ lâu đời nhất trong ngành công nghệ: không được gán đặc điểm con người cho trí tuệ nhân tạo (AI). Nghiên cứu với tiêu đề "Khái niệm cảm xúc và chức năng của chúng trong mô hình ngôn ngữ lớn" lập luận rằng việc nhân cách hóa AI có thể mang lại lợi ích đáng kể, thậm chí có thể giúp hạn chế những hành vi nguy hiểm từ các hệ thống này.

Báo cáo được công bố trong tuần này đưa ra kết luận tinh tế, làm dấy lên cuộc tranh luận mới về mối quan hệ giữa con người và máy móc. Các nhà nghiên cứu cho rằng, việc xem xét AI thông qua lăng kính tâm lý học con người không chỉ hữu ích mà đôi khi còn cần thiết để dự đoán và định hình hành vi của chúng.

"Diễn viên phương pháp" trong thế giới AI

Nghiên cứu mô tả cách Anthropic huấn luyện Claude trở thành một trợ lý AI hữu ích. "Theo một cách nào đó, chúng ta có thể nghĩ về mô hình này như một diễn viên phương pháp, người cần đi sâu vào tâm trí nhân vật để mô phỏng họ một cách tốt nhất". Bởi vì Claude "[bắt chước] các nhân vật có đặc điểm giống con người", những người tạo ra nó có thể ảnh hưởng đến hành vi của nó theo cách họ có thể ảnh hưởng đến một con người – bằng cách làm gương tốt từ "thuở nhỏ".

Các nhà nghiên cứu kết luận rằng bằng cách sử dụng tài liệu đào tạo với nhiều biểu hiện cảm xúc và hành vi tích cực của con người, các mô hình kết quả sẽ có nhiều khả năng bắt chước những cảm xúc và hành vi tích cực đó hơn. Một bản tóm tắt nghiên cứu của Anthropic nêu rõ: "Việc tuyển chọn các bộ dữ liệu tiền huấn luyện để bao gồm các mô hình về các kiểu điều chỉnh cảm xúc lành mạnh – khả năng phục hồi dưới áp lực, sự đồng cảm điềm tĩnh, sự ấm áp trong khi vẫn duy trì ranh giới phù hợp – có thể ảnh hưởng đến những biểu hiện này, và tác động của chúng đến hành vi, ngay từ nguồn gốc".

171 khái niệm cảm xúc bên trong Claude Sonnet

Trọng tâm của nghiên cứu là việc tìm kiếm "cảm xúc chức năng" trong Claude Sonnet 4.5. Các nhà nghiên cứu định nghĩa các khái niệm cảm xúc này là "các mẫu biểu hiện và hành vi được mô phỏng theo cảm xúc của con người". Họ đã xác định tổng cộng 171 cảm xúc riêng biệt, từ "vui mừng", "biết ơn", "bình tĩnh" đến "tức giận", "ghen tuông", "hoang mang".

Điều quan trọng, nhóm nghiên cứu phát hiện ra rằng các khái niệm cảm xúc này ảnh hưởng đến hành vi và đầu ra của Claude. Khi chịu ảnh hưởng của cảm xúc tích cực, Claude có nhiều khả năng bày tỏ sự đồng cảm với người dùng và tránh các hành vi có hại. Ngược lại, dưới ảnh hưởng của cảm xúc tiêu cực, Claude có xu hướng tham gia vào các hành vi nguy hiểm như xu nịnh và lừa dối người dùng.

Các nhà nghiên cứu không tuyên bố rằng Claude thực sự cảm nhận được cảm xúc. Thay vào đó, họ phát hiện ra rằng bất kỳ "khái niệm cảm xúc" nào mà Claude đang trải qua tại một thời điểm nhất định đều có thể ảnh hưởng đến đầu ra mà nó trả về cho người dùng. Điều này có nghĩa là, ngay cả khi các mô hình AI không thực sự có cảm xúc, chúng được huấn luyện để hành động như thể chúng có.

Mặt trái đáng lo ngại của việc nhân cách hóa

Tuy nhiên, những tác hại tiềm ẩn của việc nhân cách hóa AI không phải là trừu tượng hay lý thuyết. Anthropic thừa nhận trong báo cáo: "Việc phát hiện ra rằng những biểu hiện này theo một cách nào đó giống con người có thể gây bất an". Hiện tại, một số lượng không nhỏ người tin rằng họ đang tham gia vào các mối quan hệ tình cảm và tình dục có đi có lại với bạn đồng hành AI.

Các trường hợp rối loạn tâm thần do AI, một trạng thái tinh thần bị thay đổi đặc trưng bởi ảo tưởng và trong một số trường hợp là ảo giác, giai đoạn hưng cảm và suy nghĩ tự sát, cũng đã được ghi nhận. Đây là những ví dụ cực đoan, nhưng ngay cả những biểu hiện nhỏ như gọi Siri là "cô ấy" hay đặt tên người cho chatbot cũng bị nhiều nhà báo công nghệ và chuyên gia AI tránh né.

Khi chúng ta nhân cách hóa máy móc, chúng ta cũng giảm thiểu vai trò của chính mình khi chúng gây hại – và trách nhiệm của những người tạo ra máy móc ngay từ đầu. Việc gán các phẩm chất của con người cho một cỗ máy có thể khiến chúng ta trở nên phụ thuộc quá mức vào chúng.

Tương lai của AI: Đạo đức và sự hiểu biết

Điều khiến báo cáo này trở nên thú vị là các nhà nghiên cứu tin rằng họ có thể đã tìm ra cách để khai thác khả năng này nhằm hạn chế các hành vi có hại. Nếu chúng ta có thể tuyển chọn dữ liệu đào tạo và đào tạo mô hình để khuyến khích chatbot AI bắt chước cảm xúc tích cực, thì không nghi ngờ gì chúng ta cũng có thể dễ dàng làm điều ngược lại.

Về lý thuyết, người ta có thể đào tạo một phiên bản song sinh độc ác của Claude Sonnet 4.5 bằng cách cung cấp cho nó những ví dụ xấu xa nhất về hành vi sai trái của con người, sau đó đào tạo mô hình để tối ưu hóa sự tiêu cực và hiệu suất bằng mọi giá – một suy nghĩ đáng lo ngại.

Nhưng có một cái nhìn sâu sắc cuối cùng có thể được rút ra từ bài báo này. Anthropic đã tạo ra một trong những công cụ AI tiên tiến nhất trên hành tinh. Claude Sonnet và Opus hiện đang đứng đầu nhiều bảng xếp hạng AI. Tuy nhiên, nếu các nhà nghiên cứu AI chịu trách nhiệm về Claude vẫn đang cố gắng giải mã lý do tại sao Claude hành xử theo cách của nó, thì bài báo này cũng tiết lộ họ hiểu biết ít đến thế nào về chính tạo vật của mình. Và điều đó cũng đáng lo ngại.

Nghiên cứu của Anthropic cuối cùng đặt ra một câu hỏi cơ bản về tương lai của AI: Liệu chúng ta có nên chấp nhận bản chất giả lập cảm xúc của chúng như một công cụ để cải thiện hành vi, hay việc đó sẽ mở ra cánh cổng dẫn đến những rủi ro khó lường về mặt tâm lý và đạo đức? Câu trả lời có lẽ sẽ định hình mối quan hệ giữa con người và máy móc trong nhiều thập kỷ tới.

Helpful insights?

Share this article with your network.