Тадқиқотчилар 1907 нафар кўнгиллининг маълумотларини таҳлил қилдилар, улар ақлнинг стандарт назарияси тестларини ўтказдилар ва уларнинг натижаларини "Llama 2-70b" ва "GPT-4" каби йирик лингвистик моделлар натижалари билан таққосладилар.
Иккала гуруҳ ҳам бешта турдаги саволларга жавоб беришди, уларнинг ҳар бири тасодифий хатолар, киноя ёки баёнотнинг тўғрилигини баҳолаш учун мўлжалланган. Шунингдек, улардан "ёлғон эътиқодлар ҳақидаги саволларга жавоб бериш сўралган."
Катта лингвистик моделлар одатда одамлардек, баъзан яхшироқ бўлган саволларга жавоб беришди. "GPT-4" барча турдаги саволлар бўйича энг яхши натижаларни кўрсатди.