$
 12004.41
-20.92
 14129.19
-33.04
 153.59
-1.66
weather
+26
Вечером   +14°

Искусственный интеллект пока не может сравниться с человеком в этом вопросе…

Искусственный интеллект успешно справляется с распознаванием лиц, различением объектов или созданием текстов. Однако когда речь заходит о понимании тонких жестов, скрытых смыслов и намерений между людьми, он всё ещё значительно уступает человеческому мышлению. Новые научные исследования в очередной раз подтвердили: в интерпретации насыщенных движением социальных сцен люди опережают современные модели ИИ.

Эксперименты в Университете Джонса Хопкинса

Исследование, проведённое учёными Университета Джонса Хопкинса, показало, что современные системы ИИ не способны полноценно понимать социальные взаимодействия между людьми. Модель не может точно определить, кто к кому обращается, с каким намерением совершается действие или какой скрытый смысл присутствует в ситуации.

Это является серьёзным недостатком для технологий, которым предстоит работать рядом с людьми — например, для беспилотных автомобилей или вспомогательных роботов.

«Проблема не в данных, а в способе мышления»

Один из руководителей исследования, доцент когнитивных наук Лейла Исик, подчёркивает: вопрос не в количестве данных, которыми снабжают ИИ, а в том, как он «рассуждает».

По её словам:

«Автопилот должен заранее понимать намерение пешехода: собирается ли он перейти дорогу или просто разговаривает с кем-то. Любой ИИ, которому предстоит взаимодействовать с человеком, прежде всего должен правильно интерпретировать человеческие действия. Современные модели пока до этого не доросли».

Ход эксперимента: трёхсекундные видеоролики

Учёные показывали участникам-людям видеоролики длительностью по три секунды. В них люди:

 • взаимодействовали друг с другом,

 • двигались рядом,

 • либо действовали полностью независимо.

Участников просили оценить уровень социального взаимодействия в сцене по шкале от 1 до 5.

Затем та же задача была поставлена более чем 350 различным моделям ИИ — языковым, видео- и визуальным.

Люди снова оказались впереди

Люди-участники в своих оценках чаще всего приходили к схожим выводам. У моделей ИИ такого единства не наблюдалось. Модели, анализирующие видео, не смогли корректно интерпретировать происходящее, а визуальные модели по одному кадру не могли уверенно определить, общаются ли люди между собой.

Интересно, что языковые модели показали лучшие результаты в прогнозировании человеческого поведения, чем видеомодели, тогда как видеомодели оказались сильнее в предсказании нейронной активности мозга. Однако общий вывод остаётся неизменным: ИИ не способен «чувствовать» социальную динамику.

Интеллект, построенный на статичных образах

По мнению исследователей, этот недостаток связан с самой архитектурой ИИ. Современные нейронные сети в основном имитируют области человеческого мозга, отвечающие за обработку статичных изображений. Но понимание социальных ситуаций требует работы с движением, контекстом и временной динамикой.

Одна из участниц исследования, Кэти Гарсия, отмечает:

«Распознавание объектов или лиц — это лишь начальный этап. Жизнь постоянно находится в движении. Нам нужен ИИ, который сможет понимать взаимоотношения между людьми. Исследование показало, что именно в этом направлении у современных систем существует серьёзный пробел».

Человек по-прежнему лучший интерпретатор социальных сигналов

Современный ИИ многое «видит», но далеко не всё понимает. Человек же способен извлекать смысл из тонких жестов, языка тела и даже молчания.

Поэтому в умении «читать» социальные сцены человеческое мышление пока остаётся вне конкуренции. А искусственный интеллект в этом направлении всё ещё находится на этапе обучения.