
Megjelent Rakovics Zsófia „Nagy nyelvmodellek által generált adatok társadalomtudományi használatának kritikai elemzése” című tanulmánya a Statisztikai Szemle folyóiratban.
Absztrakt:
A nagy nyelvmodellek (Large Language Models, LLM) megjelenése új lehetőséget teremt a társadalomkutatás módszerei szempontjából. Minden olyan kutatás esetében, ahol a nyelv közvetíti az empíriát, reális lehetőséggé válik valós személyek helyett vagy mellett LLM-ek által szimulált virtuális válaszadók bevonása adatközlőként. A mesterséges intelligencia által generált adatokban rejlő potenciál olyan mértékű, hogy annak módszertani és kritikai vizsgálata kiemelt jelentőségű. Pozitivista szemléletben, ha a virtuális adatfelvétel módszertana kidolgozható, azáltal drasztikusan csökkenthető a valós adatgyűjtéshez szükséges idő és az erőforrások mértéke, ami a társadalomkutatás demokratizálódását és decentralizálódását jelentheti. Ezen gondolat szerint az eljárás a surveyadatok csökkenő validitásának problémájára is megoldást kínálhat. Azonban be kell azt is látni, hogy ez a probléma ennél összetettebb, a kritikai szemlélet elengedhetetlen ahhoz, hogy az LLM-ek ismert torzításainak hatásai ne maradjanak feltáratlanul, és még inkább ahhoz, hogy tudatosan figyelembe vegyük az internet nyelvi terében nem reprezentált társadalmi valóságot.
A tanulmány a GPT (Generative Pre-training Transformer, az OpenAI által fejlesztett nagy nyelvmodell) által generált virtuális válaszadók és a European Social Survey adatfelvétel valós válaszadóinak válaszait hasonlítja össze statisztikai módszerekkel, a különböző promptolási technikák (a nyelvmodellnek megadott bemenetek meghatározása), valamint a modelleknek beadott változatos típusú és gazdagságú kontextuális információk hatását vizsgálva. Az eredmények azt mutatják, hogy a GPT élethű válaszokat generálhat, és előhívhatja a társadalmi mintákat a neki megadott korlátozott kontextuális információból, amennyiben megfelelő példákat adunk számára, azonban ezek nélkül nem teljesít elfogadhatóan. Mindezek alapján kétségek merülhetnek fel bennünk a GPT – mint virtuális válaszadó – sikeres szereplésével kapcsolatosan és minden olyan kutatással szemben, amely a GPT általános társadalomtudományi használatának sikerességéről számol be.
A cikk elérhető az alábbi linken:
Rakovics, Zsófia. Nagy nyelvmodellek által generált adatok társadalomtudományi használatának kritikai elemzése. STATISZTIKAI SZEMLE 103 : 3 pp. 259-280. , 22 p. (2025) https://doi.org/10.20311/stat2025.03.hu0259