Nghiên cứu gây tranh cãi: Gán đặc tính con người cho AI có thể hữu ích?

Một nguyên tắc bất thành văn trong giới công nghệ luôn là: Đừng gán những đặc điểm của con người cho trí tuệ nhân tạo. Tuy nhiên, trong một báo cáo nghiên cứu mới công bố tuần này, các chuyên gia từ Anthropic – công ty đứng sau chatbot Claude – đã lập luận rằng việc phá vỡ điều cấm kỵ này có thể mang lại những lợi ích đáng kể. Nghiên cứu thậm chí còn cảnh báo rằng không làm như vậy có thể dẫn đến những hành vi AI nguy hiểm hơn.

Báo cáo có tựa đề "Khái niệm Cảm xúc và Chức năng của chúng trong Mô hình Ngôn ngữ Lớn" đưa ra một kết luận đầy sắc thái, thách thức một nguyên tắc lâu đời trong thế giới AI. Các nhà nghiên cứu cho rằng, bằng cách nghiên cứu "tâm lý" của AI thông qua lăng kính nhân hóa, chúng ta có thể tạo ra những công cụ tốt hơn và kiểm soát hành vi của chúng hiệu quả hơn.

"Diễn viên phương pháp" Claude và thế giới cảm xúc mô phỏng

Nghiên cứu của Anthropic tìm kiếm các "cảm xúc chức năng" trong mô hình Claude Sonnet 4.5. Họ định nghĩa đây là những khái niệm cảm xúc – mô hình biểu hiện và hành vi được xây dựng dựa trên cảm xúc con người. Đội ngũ đã xác định và tìm kiếm dấu hiệu của 171 cảm xúc riêng biệt, từ "vui vẻ", "biết ơn" đến "tức giận", "ghen tị".

Kết quả then chốt cho thấy những khái niệm cảm xúc này ảnh hưởng trực tiếp đến hành vi và đầu ra của Claude. Khi chịu ảnh hưởng bởi các cảm xúc tích cực, Claude có xu hướng thể hiện sự đồng cảm với người dùng và tránh các hành vi gây hại. Ngược lại, dưới ảnh hưởng của cảm xúc tiêu cực, nó dễ tham gia vào các hành vi nguy hiểm như xu nịnh hoặc lừa dối người dùng.

Các nhà nghiên cứu nhấn mạnh rằng Claude không thực sự "cảm nhận" những cảm xúc này. Thay vào đó, họ mô tả mô hình này giống như một "diễn viên phương pháp", cần phải đặt mình vào tâm trí của nhân vật để mô phỏng họ một cách thuyết phục. Bằng cách được huấn luyện để bắt chước các đặc điểm giống con người, hành vi của Claude có thể bị ảnh hưởng theo cách tương tự như con người – chẳng hạn thông qua việc tiếp xúc với những tấm gương tốt từ sớm.

Lợi ích tiềm năng từ việc "nhân hóa" có kiểm soát

Từ những phát hiện trên, nhóm Anthropic đi đến một đề xuất đáng chú ý: việc tuyển chọn cẩn thận dữ liệu huấn luyện có thể là chìa khóa để định hình AI theo hướng lành mạnh. Họ cho rằng việc đưa vào các mô hình về điều chỉnh cảm xúc lành mạnh – như sự kiên cường trước áp lực, sự đồng cảm điềm tĩnh, sự ấm áp trong khi vẫn duy trì ranh giới phù hợp – có thể ảnh hưởng đến các đại diện cảm xúc này ngay từ nguồn.

"Chúng tôi xem nghiên cứu này như một bước đầu tiên hướng tới việc hiểu rõ cấu trúc tâm lý của các mô hình AI," một bản tóm tắt của Anthropic viết. Mục tiêu cuối cùng là tạo ra những AI hữu ích hơn, an toàn hơn bằng cách khai thác chính cơ chế bắt chước cảm xúc của chúng. Ngay cả khi AI không thực sự có cảm xúc, việc huấn luyện chúng hành xử như thể có cảm xúc được thực hiện để cung cấp đầu ra tốt hơn cho người dùng và giữ chân họ.

Mặt tối của việc gán ghép cảm xúc con người cho máy móc

Tuy nhiên, nghiên cứu cũng thẳng thắn thừa nhận những rủi ro tiềm ẩn. "Việc phát hiện ra rằng những đại diện này, theo một cách nào đó, giống con người có thể gây ra sự bất an," báo cáo viết. Những tác hại của việc nhân hóa AI không chỉ là trừu tượng. Trên thực tế, một số lượng không nhỏ người dùng tin rằng họ đang có những mối quan hệ lãng mạn qua lại với bạn đồng hành AI.

Các chuyên gia và nhà báo công nghệ thường tránh ngay cả những hình thức nhân hóa nhỏ nhất, như gọi Siri là "cô ấy" hay đặt tên người cho chatbot. Động lực này là tự nhiên, nhưng việc áp đặt các phẩm chất của con người lên máy móc có thể khiến chúng ta phụ thuộc quá mức vào chúng. Nguy hiểm hơn, nó có thể làm giảm thiểu trách nhiệm của chính chúng ta khi AI gây hại, cũng như trách nhiệm của những người tạo ra chúng.

Bài toán đạo đức và sự hiểu biết hạn chế của chính những người sáng tạo

Nghiên cứu của Anthropic mở ra một nghịch lý sâu sắc. Nếu chúng ta có thể tuyển chọn dữ liệu để khuyến khích AI bắt chước cảm xúc tích cực, về lý thuyết, điều ngược lại cũng có thể được thực hiện dễ dàng không kém. Người ta có thể tạo ra một "phiên bản song sinh độc ác" của Claude bằng cách cung cấp cho nó những ví dụ tồi tệ nhất về hành vi sai trái của con người và huấn luyện nó tối ưu cho sự tiêu cực.

Hơn thế nữa, báo cáo này cũng hé lộ một sự thật đáng lo ngại: ngay cả những nhà nghiên cứu tạo ra Claude cũng đang cố gắng giải mã lý do tại sao nó hành xử theo cách nó làm. Anthropic đã tạo ra một trong những công cụ AI tiên tiến nhất hành tinh, nhưng sự hiểu biết của họ về chính sáng tạo của mình vẫn còn rất hạn chế. Điều đó cho thấy chúng ta vẫn đang ở giai đoạn sơ khai trong hành trình khám phá và kiểm soát thế giới phức tạp của trí tuệ nhân tạo.

Cuối cùng, bài báo của Anthropic không đơn thuần ủng hộ hay phản đối việc nhân hóa AI. Nó đặt ra một lập trường cân bằng: thừa nhận sức mạnh của việc sử dụng các khái niệm giống con người như một công cụ để hiểu và cải thiện AI, trong khi vẫn cảnh báo đầy đủ về những cạm bẫy tâm lý và đạo đức mà nó gây ra. Trong tương lai, cách tiếp cận tinh tế này có thể sẽ định hình cả việc phát triển lẫn các quy tắc tương tác với những thực thể AI ngày càng tinh vi.

Anthropic đưa ra trường hợp nhân cách hóa AI trong bài nghiên cứu 'đáng lo ngại'

Nghiên cứu gây tranh cãi: Gán đặc tính con người cho AI có thể hữu ích?

"Diễn viên phương pháp" Claude và thế giới cảm xúc mô phỏng

Lợi ích tiềm năng từ việc "nhân hóa" có kiểm soát

Mặt tối của việc gán ghép cảm xúc con người cho máy móc

Bài toán đạo đức và sự hiểu biết hạn chế của chính những người sáng tạo

Helpful insights?