Tadqiqotchilar 1907 nafar koʻngillining maʼlumotlarini tahlil qildilar, ular aqlning standart nazariyasi testlarini oʻtkazdilar va ularning natijalarini “Llama 2-70b” va “GPT-4” kabi yirik lingvistik modellar natijalari bilan taqqosladilar.
Ikkala guruh ham beshta turdagi savollarga javob berishdi, ularning har biri tasodifiy xatolar, kinoya yoki bayonotning toʻgʻriligini baholash uchun moʻljallangan. Shuningdek, ulardan “yolgʻon eʼtiqodlar haqidagi savollarga javob berish soʻralgan.”
Katta lingvistik modellar odatda odamlardek, baʼzan yaxshiroq boʻlgan savollarga javob berishdi. “GPT-4” barcha turdagi savollar boʻyicha eng yaxshi natijalarni koʻrsatdi.