Projektjeink - sajtó társadalomtörténeti elemzése

Az 1945 és 1989 közötti sajtó társadalomtörténeti elemzése a természetesnyelv-feldolgozás (NLP) módszereivel

(A kutatást 2019 és 2022 között a Nemzeti Fejlesztési, Kutatási és Innovációs Hivatal támogatja. A projekt címe: „Az 1945 és 1989 közötti sajtó társadalomtörténeti elemzése a természetesnyelv-feldolgozás (NLP) módszereivel.” Száma: NKFI-FK- 131826)

 

Kutatásunk során az 1945 és 1989 között keletkezett Pártélet és Szabad Nép/Népszabadság sajtóanyagaiból digitalizált korpuszokat hozunk létre, majd azokat az automatizált szövegelemzés, különös tekintettel a természetes nyelvfeldolgozás (natural language processing - NLP) különböző módszereivel elemezzük. Mivel a számítógépes nyelvészeti elemző eszközök alapvetően más jellegű korpuszokra lettek kidolgozva, a történeti szövegek ilyen típusú feldolgozása új terület, amely megkívánja a teljes módszertan kifejlesztését, valamint a feldolgozáshoz és elemzéshez szükséges eszközök létrehozását és tesztelését.

A vizsgált korszak dokumentumainak jelentősége, hogy egy, a magyar történelem szempontjából meghatározó korszak sajtóban megjelenő politikai diskurzusait reprezentálja. Ezen nagy korpuszok automatizált szöveg- és tartalomelemzésén keresztül a kutatás a korszak társadalomtörténeti feldolgozáshoz is jelentős mértékben hozzátesz. A munka tehát új utakat nyithat a történeti nagy szövegkorpuszok vizsgálatainak terén, a várható eredmények pedig társadalomtörténeti szempontból hasznosíthatók.

A projekt azt is vizsgálja, hogy a számítógépes társadalomtudományi eszközökkel történő kutatás, a nagy mennyiségű adat automatizált feldolgozása mennyiben egészítheti ki, pontosíthatja, illetve bővítheti a hagyományos történeti diskurzuselemzést.

A módszertan kidolgozása mellett a projekt célja a létrehozandó teljes szövegkorpuszt nyilvánossá tétele a kutatói közösség számára, és olyan eszközöket fejlesztése, melyek lehetővé teszik ezek elemzését anélkül, hogy a kutatók mélyebb ismeretekkel rendelkeznének az automatizált szövegelemzés módszertanáról.

 

A projekt célkitűzései:

1.  Digitalizált – NLP módszerekkel elemezhető – szövegkorpuszok építése „Szabad Nép/Népszabadság” napilap 1945 és 1989 közötti lapszámai, illetve a „Pártélet” folyóirat 1956-tól 1989 közötti lapszámaiból. Ezen újságok oldalai jelenleg képformátumban vannak tárolva, így az újságok szöveges adatbázisának létrehozása sok kihívást tartogat. Elsőként a hasábokat, képeket és címeket kell detektálnunk a képként kezelt oldalon belül, majd meg kell határoznunk ezen hasábok cikkhez tartozását sorrendjét, hogy a teljes cikkek előálljanak, végül optikai karakterfelismerés segítségével szöveggé kell alakítanunk a címből és hasáb-részletekből álló cikkek képeit. Célunk, hogy az általunk kifejlesztett megoldások más kutatók számára is elérhetőek legyenek, így segítve azokat, akik hasonlóan strukturált újságokkal és folyóiratokkal foglalkoznak.

2.  A létrehozott szövegkorpuszok elemzése: az általunk épített korpuszok abban az értelemben egyedülállók lesznek, hogy ilyen hosszan longitudinális, digitalizált és automatizált szövegelemzéshez előkészített történelmi szöveg magyar nyelven jelenleg még nem létezik. E korpuszok elemzésével olyan újfajta, longitudinális jellegű társadalomtörténeti kutatási kérdéseket tudunk megválaszolni, melyekre korábban, az ehhez szükséges szöveges adatok volumenéből adódóan nem volt lehetőség. Jelen korpusszal és módszerekkel elemezhetővé válnak társadalmi folyamatok és ideológiák longitudinális változásai a korabeli szövegekbe; a különböző társadalmi csoportokról szóló diskurzusok változásai; kulcsszavak, kifejezések jelentésének változásai; de akár a diskurzusok fő tematikáinak változásai is. Elemzésünk során külön figyelmet fordítanunk a politika diskurzusokra gyakorolt hatására. A politikai klíma változását a nyelvhasználat longitudinális elemzésével elemezzük.

3.  A diskurzuselemzésen túl hálózatkutatási elemzéseket készítünk a főbb szereplőkről és különböző politikai ügyekről. A kutatási projekt azt is vizsgálja, hogy a számításalapú társadalomtudományi kutatási eszközök és a nagy mennyiségű szöveges adat automatizált feldolgozása milyen mértékben egészítheti ki, finomíthatja vagy bővítheti a hagyományos történelmi diskurzuselemzést.