Các anagram hình ảnh do AI tạo cho thấy cách não bộ xử lý kích thước, cảm xúc và tính sinh động bằng việc dùng hình ảnh xoay để loại bỏ biến số phụ. Phát hiện này mang lại công cụ nghiên cứu nhận thức và thần kinh học với độ chính xác vượt trội, mở ra ứng dụng cho nhiều thí nghiệm tâm lý và máy tính thị giác.

Điểm nổi bật:

  • Anagram hình ảnh AI hiển thị hai vật thể khác nhau khi xoay cùng một hình ảnh.
  • Kỹ thuật này cho phép nghiên cứu tách biệt các thuộc tính thị giác như kích thước, cảm xúc và tính sinh động.
  • Thí nghiệm ban đầu xác nhận ưa thích kích thước phù hợp với thực tế, ngay cả với cùng một bộ pixel.

Hình ảnh này cho thấy một con bướm do AI tạo

Các hình ảnh mới được trí tuệ nhân tạo tạo ra, khi nhìn ở một hướng giống một thứ, nhưng khi xoay lại lại thành một thứ hoàn toàn khác, đang giúp các nhà khoa học kiểm tra tâm trí con người.

Nhóm nghiên cứu của Đại học Johns Hopkins (JHU), chuyên về nhận thức thị giác, đã giải quyết nhu cầu lâu dài về các kích thích đồng nhất để nghiên cứu một cách nghiêm ngặt cách con người xử lý thông tin thị giác.

“Những hình ảnh này rất quan trọng bởi chúng cho phép chúng tôi nghiên cứu mọi hiệu ứng mà trước đây các nhà khoa học nghĩ gần như không thể tách riêng—từ kích thước, tính sinh động đến cảm xúc,” Tal Boger, nghiên cứu sinh Tiến sĩ chuyên ngành nhận thức thị giác, cho biết.

“Và không thể không nhắc đến việc chúng rất thú vị khi nhìn,” Chaz Firestone, trưởng Phòng thí nghiệm Perception & Mind của trường, bổ sung.

Nhóm đã áp dụng một công cụ AI mới để tạo ra “anagram hình ảnh” (visual anagrams). Anagram ngôn từ là từ có thể đánh vần thành từ khác khi hoán đổi chữ cái. Anagram hình ảnh là hình ảnh trông giống một vật thể ở một hướng và hoàn toàn khác khi xoay.

Các anagram hình ảnh do nhóm tạo bao gồm một hình duy nhất vừa là gấu vừa là bướm, một hình vừa là voi vừa là thỏ, và hình thứ ba vừa là vịt vừa là ngựa.

“Đây là một loại hình ảnh mới quan trọng cho lĩnh vực của chúng tôi,” Firestone nói. “Nếu một hình ảnh trông giống bướm ở một hướng và giống gấu ở hướng kia—nhưng cả hai chỉ là cùng một tập pixel—thì chúng ta có thể nghiên cứu cách mọi người nhận thức thuộc tính của hình ảnh theo cách chưa từng có.”

Nghiên cứu được công bố hôm nay trên tạp chí Current Biology.

Nhóm đã tiến hành các thí nghiệm ban đầu khám phá cách mọi người nhận thức kích thước thực tế của vật thể. Kích thước thực tế đã đặt ra câu đố lâu dài cho các nhà khoa học nhận thức, bởi không thể chắc chắn liệu người xem phản ứng với kích thước hay một đặc tính thị giác tinh vi khác như hình dạng, màu sắc hay độ mềm mại.

“Giả sử chúng ta muốn biết não phản ứng như thế nào với kích thước. Các nghiên cứu trước cho thấy vật lớn và nhỏ được xử lý ở các vùng não khác nhau. Nhưng nếu chúng ta hiển thị hai vật có kích thước khác nhau—ví dụ bướm và gấu—thì hai vật này cũng sẽ khác về hình dáng, kết cấu, độ sáng hoặc màu sắc,” Firestone giải thích.

“Điều đó khiến khó xác định nguyên nhân thực sự kích hoạt phản ứng trong não. Người ta phản ứng vì bướm nhỏ, gấu lớn, hay vì gấu tròn hơn, lông xù hơn? Lĩnh vực này đã đấu tranh để giải quyết vấn đề đó.”

Với anagram hình ảnh, nhóm đã tìm thấy bằng chứng về nhiều hiệu ứng kích thước thực tế kinh điển, ngay cả khi các vật lớn và nhỏ trong nghiên cứu chỉ là các phiên bản xoay của cùng một hình ảnh.

Ví dụ, nghiên cứu trước cho thấy mọi người thích hình ảnh trông phù hợp với kích thước thực tế—thích bức ảnh gấu lớn hơn bức ảnh bướm.

Boger và Firestone nhận thấy điều này cũng xảy ra với anagram hình ảnh: Khi người tham gia điều chỉnh hình gấu đến kích thước lý tưởng, họ phóng to hơn so với khi điều chỉnh hình bướm—mặc dù cả hai đều là cùng một hình ảnh ở hai hướng khác nhau.

Nhóm hy vọng sử dụng anagram hình ảnh để nghiên cứu phản ứng của con người với vật sống và không sống, và dự đoán kỹ thuật này sẽ có nhiều ứng dụng trong thí nghiệm tâm lý và thần kinh.

“Chúng tôi dùng anagram để nghiên cứu kích thước, nhưng có thể dùng cho hầu hết mọi thứ,” Firestone nói.

“Vật sống và không sống cũng được xử lý ở các vùng não khác nhau, vì vậy bạn có thể tạo anagram hình xe tải ở một hướng và chó ở hướng kia. Phương pháp này rất tổng quát, và chúng tôi dự đoán các nhà nghiên cứu sẽ dùng cho nhiều mục đích khác nhau.”

Những câu hỏi chính được giải đáp:

Q: Anagram hình ảnh do AI tạo là gì?
A: Là hình ảnh trông giống một vật trong một hướng và hoàn toàn khác khi xoay, được tạo bằng trí tuệ nhân tạo.

Q: Tại sao anagram hình ảnh quan trọng cho nghiên cứu nhận thức?
A: Chúng cho phép các nhà khoa học tách biệt và nghiên cứu cách con người diễn giải các đặc tính thị giác chính mà không bị biến số phụ như màu sắc hay kết cấu gây nhiễu.

Q: Các thí nghiệm đầu tiên tiết lộ điều gì về nhận thức thị giác?
A: Người tham gia thích kích thước hình ảnh phù hợp với kỳ vọng trong thực tế — ngay cả khi xem cùng một pixel xoay thành các vật khác nhau.

Trừu tượng

Visual anagrams reveal high-level effects with ‘identical’ stimuli

Một câu hỏi cơ bản trong tâm lý học và thần kinh học là tâm trí đại diện không chỉ các đặc điểm cơ bản như độ sáng, độ tương phản hay tần số không gian, mà còn các thuộc tính cao cấp hơn như tính sinh động, cảm xúc hay kích thước thực tế.

Nhiều nghiên cứu chỉ ra rằng các thuộc tính cao cấp tự động được mã hóa, thu hút chú ý thị giác và tổ chức phản ứng thần kinh. Tuy nhiên, một thách thức quan trọng nảy sinh khi giải thích các phát hiện này: Các hạng mục cao cấp hệ thống hóa với đặc điểm cơ bản, nên hiệu ứng được cho là do đặc tính cao cấp có thể do biến số phụ.

Liệu có thể vượt qua thách thức này? Ở đây, chúng tôi giới thiệu phương pháp mới sử dụng ‘anagram hình ảnh’ — kỹ thuật dựa trên khuếch tán để tạo hình ảnh có cách diễn giải thay đổi mạnh mẽ với hướng, như bò khi thẳng và chuột khi ngược.

Sử dụng kích thước thực tế làm nghiên cứu tình huống, chúng tôi tạo anagram mô tả vật lớn ở một hướng và vật nhỏ ở hướng khác, và đặt trong các thí nghiệm kinh điển. Năm thí nghiệm cho thấy nhiều (nhưng không phải tất cả) hiệu ứng kích thước thực tế vẫn tiếp diễn.

Tổng hợp lại, phát hiện giải quyết thách thức lâu dài trong nghiên cứu nhận thức và thiết lập công cụ áp dụng rộng cho tâm lý học và thần kinh học.

Định hướng tác động và tiềm năng ứng dụng

Phương pháp anagram hình ảnh mở ra cánh cửa cho các nghiên cứu nhận thức tại Việt Nam.

  • Đa dạng hoá kích thích thí nghiệm: Có thể tạo các cặp hình ảnh phản ánh đặc điểm văn hoá Việt, giúp nghiên cứu gần gũi và thực tế hơn.
  • Phát triển công cụ đào tạo AI: Thích hợp cho các nhóm nghiên cứu tập trung vào thị giác máy tính và trí tuệ nhân tạo.
  • Ứng dụng trong giáo dục: Hỗ trợ giảng dạy tâm lý nhận thức bằng mô hình trực quan sinh động, thu hút sinh viên.
  • Hội nhập quốc tế: Mở rộng khả năng hợp tác với các phòng thí nghiệm quốc tế thông qua công nghệ mới, tăng cường vị thế nghiên cứu của Việt Nam.
  • Chăm sóc sức khỏe: Tiềm năng ứng dụng trong đánh giá rối loạn nhận thức và phục hồi chức năng cho bệnh nhân thông qua kích thích thị giác đặc hiệu.