Donáció alapú digitális adatgyűjtés

Finanszírozó: HUN-REN

Projekt kezdés: 2021.11.01.

Projekt időtartam: 24 hónap

 

Kutatás háttere és célja

A kérdőíves survey kutatások uralták a kvantitatív társadalomtudományi kutatások elmúlt 50-70 évét. A kutatók mindig is ismerték ennek a módszernek a gyengeségeit, de mint a rendelkezésre álló legjobb technikát, semmi sem törte meg a hegemóniáját. A közelmúltbeli változások azonban megkérdőjelezték a survey kutatások vezető szerepét. E változások egyik része az egyre nehezebbé váló terepmunka, valamint a csökkenő válaszadási arány; a változások másik motorja pedig új típusú digitális adatforrások megjelenése. A digitális adatok egy része a felhasználók által megosztott tartalmak, például tweetek vagy bejegyzések az általuk kedvelt helyekről, vagy más, közösségi médiában megjelenő reakciók, interakciók.  A digitális adatok részét képezik azok a nem szándékolt adatok is amit a különböző általunk használt eszközök felvesznek rólunk, vagy lakásunkról (pl: mobiltelefonos adatok helylokációja). A digitális adatok sok területen már ma is képesek helyettesíteni a klasszikus survey adatokat. Nem nyilvánvaló azonban, hogy ennek teljes paradigmaváltást kell jelentenie a társadalomtudományi kutatás adatgyűjtésében, mivel a survey módszernek vannak olyan előnyei, amelyeket nem lehet kiváltani, de amelyek felülmúlhatatlanul értékes adatgyűjtési módszerré teszik. A két adatfelvételi mód kombinációja azonban képes lehet kiküszöbölni az egyes módszerek gyengeségeit, sőt a survey és a digitális adatok megfelelő kombinációja olyan új tudáselemeket eredményezhet, amely nem csupán a részek összessége. A kutatásunk fő célja egy olyan módszertani keret létrehozása és tesztelése, amely lehetővé teszi a vegyes (mixed) kutatások effektív lebonyolítását a változó digitális adathozzáférési környezetben.

 

A digitális adatokhoz való hozzáférés standard módja az API-k voltak, de a nagy közösségi oldalak, például a Facebook vagy az Instagram gyakorlatilag letiltotta ezeket a csatornákat. el. Ezek a változások új digitális adathozzáférési modellek kidolgozását implikálták.  Az egyik legígéretesebb új megközelítést adat adományozásnak (data donation) hívják. A GDPR-kötelezettségek miatt a nagy platform szolgáltatóknak „adatletöltési csomagok” (DDP) révén hozzáférést kell biztosítaniuk a felhasználóknak a saját adataikhoz. A „data donation” modellben a kutatók felkérik a felhasználókat, hogy osszák meg a platform által tárolt digitális adataikat. A vállalatok helyett a felhasználókkal való partnerség legfontosabb előnye, hogy átláthatóbbá válik az adatgyűjtési folyamat az adatközlők számára. Mivel ez a kutatási megközelítés a résztvevőkkel való aktív együttműködésre épül, nagyon egyszerű ezt az adatgyűjtést összekapcsolni survey kutatással. A két adattípus ötvözése ideális módja annak, hogy kihasználják egyedi erősségeiket és átlépjünk korlátaikon.

Kutatásunk célja egy multi-platform adatgyűjtés volt, magyar internetezők reprezentatív mintáján. A multi-platform itt nem csak azt jelenti, hogy digitális adatokat és survey adatokat kombinálunk, hanem azt is, hogy különféle forrásokból - Facebook, Instagram, TikTok, Twitter és Google -származó digitális adatokat is gyűjtünk. Ez az adatgyűjtési design teljesen egyedülálló és újszerű, nemzetközi szinten sincs olyan projekt, amely párhuzamosan gyűjt reprezentatív mintán multiplatform megközelítéssel közösségi adatokat.

 

Adatfelvételek és adatfeldolgozás

A kutatás első lépésében 2022 tavaszán egy survey kísérletet végeztünk, 1000 fős mintán, amiben azt vizsgáltuk, mik azok a tényezők, amik befolyásolják az adatmegosztási attitűdöket.

Az előkutatás eredményeire építve 2023 februárjában indítottuk el az adatdonációs felvételt. A kutatást a Társadalomtudományi Kutatóintézet Kutatásetikai Bizottsága 1-FOIG/130-37/2022 számon engedélyezte. A TK CSS-Recens csoportja által vezetett kutatásnak az adatgyűjtési munkáját az NRC végezte. A kutatás részvevőitől azt kértük, hogy osszák meg a kutatási leírásban specifikált Facebook és Google (YouTube, keresési előzmények, geolokáció) adataikat. Ezen felül a résztvevők megoszthatták Instagram, TikTok és Twitter adataikat is. Az adataikat sikeresen megosztó résztvevők a kutatás végén egy 40 perces kérdőívet is kitöltöttek. Az adatfelvétel 2024 júniusában zárult le. Összesen 758 résztvevőtől gyűjtöttünk adatokat. Facebook és valamilyen Google adat minden résztvevőtől érkezett, Instagram és TikTok adatokból alacsonyabb lett a megvalósulás, de ezeknek a platformoknak a penetrációja is alacsonyabb. A kutatás technikai leírása angol nyelven elérhető a következő linken: /uploads/files/Data_Collection_Process_20231004.pdf

A 2024 nyarán befejeződött adatfelvétel után kezdődött el a komplex adatfeldolgozási munka. A nyers json fájlokból egy standardizált és anonimizált SQL adatbázist alakítottunk ki, ami képes kiszolgálni a különböző kutatási igényeket. Ezt az adathalmazt folyamatosan egészítjük ki további külső adatokkal (pl: YouTube videókhoz metaadatok rendelése).

 

A projekt jelene

Bár a kutatás finanszírozása 2023 novemberében befejeződött, de a projekt ezzel nem zárult le. A kutatás által létrejött adatbázis nemzetközi szinten is egyedülálló mélységű és nagyságú. A kutatás adatainak disszeminációja folyamatosan halad különböző témákban. A projektre adatait használja többek között Koltai Júlia Lendület kutatócsoportja és Kmetty Zoltán Digitális Politikai Lábnyomok NKFIH-K kutatása (link).

A kutatás disszeminációjának fontos része az anonimizált adatok repozitálása. Az elkészült adatbázisok elérhetővé tesszük a KDK adatbankjában.

 

Kutatók

Publikációk