Wikidata és ITIdata: Adatbázisok a magyar irodalomtudomány szolgálatában

A Wikidata mindenki számára nyitott tudástár, mely az adatokat strukturáltan rögzíti, és emberi, illetve számítógépes olvasásra, szerkesztésre egyaránt alkalmas. A Wikibase a Wikidata számára létrehozott, forráskódjában is nyílt, szabadon felhasználható adatbázisrendszer. A rendszer az ún. szemantikus webes technológiákat támogatja, ennek köszönhető, hogy a benne tárolt adatok strukturáltan és számítógépek számára „értelmezhető” módon érhetők el a weben.

A Wikibase további nagy előnye, hogy nemcsak grafikus lekérdező felület tartozik hozzá, hanem SPARQL végpont is, mely által egy szabványos számítógépes nyelven kérdezhetjük le az adatbázis tartalmát, sokkal rugalmasabb, összetettebb lekérdezésekre adva lehetőséget.

A Wikibase rendszer egyik legismertebb kutatói célra újrafelhasznált verziója a FactGrid, mely elsősorban a történeti kutatások közös adatbázisának teremtett felületet. Az adatbázis a teljes nyitottság, közösségi szerkesztés és a teljes zártság között képez átmenetet, hiszen a szerkesztők alapvetően kutatók, de bárki csatlakozhat a közösséghez regisztráció útján. Az adatokat több körben ellenőrzi a szerkesztői közösség.

Az ITIdata: Irodalomtudományi Adatbázis a Wikibase Alapján

A jelen posztunkban a BTK Irodalomtudományi Intézete által létrehozott ITIdata adatbázist szeretnénk bemutatni. Az ITIdata-projekt célja egy olyan irodalomtudományos adatbázis kialakítása, mely hálózatos formában képes különböző kutatások adatait tárolni, megjeleníteni és rendszerezni. Az adatbázis Wikibase szoftverrel működik, a Wikidata struktúráját veszi alapul, ugyanakkor független tőle.

Az adatbázis tartalmát az Intézet kutatói hozzák létre, zömét jelenleg a Bibliográfiai Osztály által digitalizált A magyar irodalomtörténet bibliográfiája, és ennek 2013-tól strukturált adatbázisban folytatott kurrens gyűjtése adja. A folyóiratokra vonatkozó adatok pedig részint a Bibliográfiai Osztály munkatársainak, részint Wirágh András századfordulós sajtóbibliográfiai kutatásai révén kerültek az ITIdatába.

A nagyszabású vállalkozás még a kezdeteknél tart, így lekérdezéseink eredményességét, adatgazdagságát nem mérhetjük a világ felé nyitott, közösségi szerkesztésű Wikidata adatbázisához. Az adatbázis szerkesztőfelülete zárt, nem lehet hozzá csatlakozni, ahogy a Wikidatán vagy a FactGriden láttuk. Ennek ugyan vannak hátrányai (kevés és hiányos adat, relatíve lassú bővülés), de előnyei is, hiszen megvan a lehetősége, hogy egyből megbízhatóbb adatok kerülnek az adatbázisba.

Adatvizualizációk és Kutatási Eredmények

Posztunk készítése során többféle SPARQL lekérdezéssel kísérleteztünk mind a Wikidata, mind pedig az ITIdata erre kialakított oldalán. Szerettünk volna informatív vizualizációkat készíteni a lekérhető adatokból, így aránylag nagyobb számú és egységes adatsorokat igyekeztünk kinyerni.

Érdekes tapasztalat volt, hogy a Wikidatán csak elvétve szerepelnek magyar nyelvű és vonatkozású folyóiratok, míg az ITIdatán jelentős már most a folyóiratok száma. Az ITIdatában viszont a személyekhez tartozó adatok száma kevés jelen pillanatban (a személyi névtér építése még folyamatban van), így ebben az esetben érdemesebb volt a Wikidatára támaszkodnunk.

Wikidata magyar írók, költők születési helyei

Az alábbi térképes vizualizáción a Wikidatán található magyar nemzetiségű írók, költők, szerkesztők, fordítók és irodalomtörténészek szerepelnek születésük helye szerint. A jelölt településekre kattintva megjelenik az ott született személyek listája.

ITIdata folyóiratok megjelenési helyei és alapítási éve

Mint említettük, az ITIdatában jóval több magyar nyelvű és vonatkozású folyóirat található, mint a Wikidatában. A térképes ábrázolás a folyóiratokat megjelenési helyük, székhelyük szerint mutatja meg. A lekérdezés során a következő típusokat gyűjtöttük egybe: folyóirat, irodalmi lap, tudományos folyóirat.

A térkép alatti idővonalon a folyóiratok az alapítás éve szerint lettek csoportosítva. Minél feljebb helyezkedik el a megjelent lapok számát jelző kör, annál több folyóirat, irodalmi lap, vagy tudományos folyóirat jelent meg az adott évben. Fontos kiemelnünk, hogy a periodikumok ezen osztályozása az ITIdata szerkezeti adottsága, így ezt a besorolást a vizualizáción is megtartottuk. Nem vontuk tehát össze a különféle folyóirattípusokat, megmaradt az általánosabb folyóirat, és a specifikusabb irodalmi lap és tudományos folyóirat besorolás. A halmazok elemei nem fedik egymást, azaz nincsenek emiatt duplumok az adatsorban. Az általunk lekérdezett adatokban csak azon periodikumok találhatók meg, melyek ITIdata adatlapján szerepelt a székhely és az alapítás / létrehozás ideje.

A Wikibase Működési Elvei és az Adatstruktúra

A Wikibase lényege, hogy az információkat tripletekben, hármas egységekben tárolja: az adott entitásról (pl. személyről, folyóiratról) tesz állításokat tulajdonság-érték (property-value) párokban kifejezve. Az Irodalomtörténet egy példánya az irodalmi lapoknak.

Önálló Wikibase alapú adatbázis kialakítása azt is magával vonja, hogy bennük egyedi adatszerkezet, adatelemek, tulajdonságok hozhatók létre. Így az ITIdata adatbázisában a fenti állítás már másképp hangzik a számítógép nyelvén, hiszen mások az azonosító számok. Az állítások és lekérdezések szintaxisa azonban megegyezik. Az Irodalomtörténet egy példánya a tudományos folyóiratoknak.

Az adatvizualizációk a Tableau szoftver segítségével készültek. A Wikidata adatait CSV formátumban töltöttük le, az így kapott adatfájlt használtuk forrásként. Az adatokon további átalakítást nem végeztünk, mert a Wikidatából kinyert adatok megfelelően strukturáltak és azonnal felhasználhatók - ezért is nagyszerű vele dolgozni.

Kapcsolódó Projektek és További Kutatási Lehetőségek

Posztunkban a Wikidata és Wikibase adatbázisokra fókuszáltunk, de fontos megemlíteni, hogy más, a Bölcsészettudományi Kutatóközponthoz kapcsolódó projektek is foglalkoznak a magyar értelmiség életrajzi adataival és kapcsolati hálójával. Olvasóink figyelmébe ajánljuk ezért a BTK Filozófiai Intézetében készülő Magyar Filozófusok Életrajzi Adatbázisát, mely az Életrajzi Lexikon strukturált adatbázisba szervezését, valamint az adatok elemzését és vizualizációját tűzte ki célul.

Forrás lekérdezések:

  • Írók, költők, szerkesztők, fordítók és irodalomtörténészek, akikhez születési és halálozási dátum, nem, születési hely és ország (koordinátákkal) adatok is rendelkezésre állnak, és opcionálisan tartozik hozzá WIkipédia oldal is. (Lekérdezés: 2023.)
  • Folyóiratok, irodalmi lapok és tudományos folyóiratok, melyek rendelkeznek székhellyel és alapítási/létrehozási dátummal. (Össz. 294 találat. Lekérdezés: 2023.)

tags: #agnes #gondor #balatonszemes