普通视图

Received before yesterday

Stanovisko České asociace pro digitální humanitní vědy k hodnocení a uznávání výzkumných výsledků

2023年5月15日 23:53

Nevyužitý potenciál humanitních a společenských věd

Díky technologickému rozvoji se v humanitním a sociálněvědním výzkumu stále výrazněji prosazuje vytváření, zpracování, analýza, uchování a sdílení oborových dat v digitální podobě. Typologická škála těchto dat sahá od geolokačních údajů a laserových měření krajiny přes rozsáhlé anotované lingvistické korpusy či digitální knihovny až po metadaty obohacené obrazové záznamy archivních a muzejních materiálů. Jejich společnou charakteristikou je to, že poskytují badatelům nové možnosti, jak ověřovat hypotézy, provádět výzkum řízený daty nebo zpřístupňovat vědecké poznatky odborné i laické veřejnosti.

Propojení digitálních metod s humanitním a společenskovědním bádáním nabízí příležitost, jak zvýšit úroveň české vědy a výrazně posílit inovativní ekonomiku založenou na znalostech, v níž se mohou uplatnit absolventi početně majoritních oborů s unikátním profilem kombinujícím kulturní, kreativní a digitální kompetence. Této příležitosti stojí v cestě řada překážek. K těm nejpalčivějším patří zaostávání způsobu hodnocení vědy za jejím vývojem a administrativní i kapacitní potíže, které z toho pro vědecké týmy plynou. Současný systém uznávání, klasifikace a hodnocení výsledků vědecké práce nedokáže postihnout aktuální standardy digitálně založeného bádání. Místo toho, aby je podporoval, přispívá k jejich marginalizaci. Příčinou neustále klesající konkurenceschopnosti humanitních a společenských věd ve srovnání s dalšími obory i s mezinárodním prostředím je fakt, že poskytovatelé a hodnotitelé projektových žádostí a výstupů neberou při jejich posuzování v potaz náročnost jejich infrastrukturního, datového a personálního zajištění. Nenaplněn zůstává také potenciál užívání výpočetních metod jako prostředku interdisciplinárního výzkumu a sbližování s přírodovědnými a technickými obory. Česká asociace pro digitální humanitní vědy (CzADH) proto vydává stanovisko, jehož cílem je blíže pojmenovat uvedené problémy a upozornit na nedostatky užívané metodiky hodnocení vědeckých výsledků.

Problematické hodnocení digitálních výsledků

Přestože aktuálně platná Metodika hodnocení výzkumných organizací a programů účelové podpory výzkumu, vývoje a inovací z roku 2017 (tzv. M17+) svého času napravila nejviditelnější excesy v hodnocení vědy, zkušenost s bádáním založeným na výpočetních metodách v sociálních a humanitních vědách ukazuje, že nedokáže reagovat na proměny vědecké práce v éře digitalizace. Nad rámec běžných akademických (tištěných) publikací jsou pro tyto obory charakteristické zejména následující výstupy:

  • datové sady a databáze
  • obecné a speciální jazykové korpusy
  • modely strojového učení
  • webové a desktopové aplikace
  • programovací knihovny a skripty
  • digitální vědecké edice
  • elektronické slovníky
  • geografické informační systémy a digitální mapy
  • vědecké vizualizace
  • standardy, ontologie a tezaury
  • tréninkové materiály, tutoriály
  • preprinty, white papers, šedá literatura

Tyto výstupy však nelze uplatnit jako specifické typy výzkumných výsledků v hodnocení vědecké práce a při účasti ve veřejných soutěžích ve výzkumu a vývoji a v návaznosti na to s nimi nepočítají ani zadávací dokumentace grantových soutěží (s výjimkou některých programů Technologické agentury ČR nebo programu NAKI). V důsledku tak neexistuje ani systematická podpora, která by umožnila financovat jejich vytváření a udržování, např. podle principů FAIR dat (nalezitelnost, přístupnost, interoperabilita a znovupoužitelnost).

Podle definic v Metodice M17+ mají shora uvedené výsledky nejblíže ke kategorii „S‟ (specializovaná veřejná databáze), „R‟ (software) a částečně se promítají též do typu „N‟ (např. „Nimap‟, interaktivní specializovaná mapa s odborným obsahem). Podrobnější analýza definic však ukazuje, že tyto kategorie byly nastaveny nesystematicky, pro výstupy digitálních humanitních a společenských věd se nehodí a navíc mají nejasné, zastaralé definice bez návodu, jak rozlišovat kvalitu takových výstupů (konkrétní příklady jsou uvedeny v Dodatku tohoto stanoviska). Specificky ve vztahu k výsledkům a výstupům výzkumu přetrvávají v Metodice M17+ zásadní nedostatky ve třech oblastech: 1) nedostatečná flexibilita při uznávání výsledků a výstupů, 2) implicitní upřednostnění kvantity před kvalitou, 3) umělé rozlišování na výstupy základního a aplikovaného výzkumu.

Metodika M17+ sice upravila způsoby hodnocení výsledků, včetně posílení prvků kvalitativního hodnocení, ale nijak zásadně nezměnila způsob chápání objektů hodnocení, tj. výsledků a výstupů. „Definice druhů výsledků‟, které jsou součástí Metodiky M17+, již od roku 2008 pouze plynule navazují na předchozí verze Metodiky, tedy na předchozí bodovací „kafemlejnkové‟ schéma. Vymezení uznatelných výsledků se následně promítá do parametrů veřejných soutěží ve výzkumu a vývoji, které poskytovatelé přizpůsobují akcentům Metodiky a v některých případech jej dokonce zužují nad její rámec dodatečnými podmínkami (viz např. Příkaz ministra kultury č. 5/2023). Digitální výstupy jsou upozaděny ve prospěch publikačních výsledků a kvůli dostupným definicím jsou těžko zachytitelné a vykazatelné. Výsledkem je stav, kdy se tyto výstupy stávají buď „zbytkovými‟ (dostávají se do kategorie „O‟), nebo naopak nejsou využívány v případech, kdy by mohly být skutečně relevantní. V oponentních řízeních pak je zcela dílem náhody, zda oponenti disponují nezbytnou odborností k posouzení takových výstupů, neboť metodika samotná žádná návodná kritéria neposkytuje.

Kategorizace výsledků má smysl pro jejich evidenci a vyhledávání, ale tato kategorizace nevypovídá nic o jejich vědeckém přínosu a oborové relevanci. Důraz na kategorizaci udržuje v systému hodnocení sklon upřednostňovat kvantitu výsledků před kvalitou a uměle vymezovat jejich různé typy. Pokud je ústřední otázkou hodnocení fakt, zda daný výsledek splňuje podmínky pro zařazení do vymezené kategorie, dalším logickým krokem je pouhé sčítání kusů v rámci kategorií. Soustředíme-li se na definiční kritéria, odkláníme se tak od kvalitativních kritérií, která by popisovala rozmanitost a tíhla by k rozlišování kvality uvnitř jednotlivých kategorií. Metodika M17+ sice vede výzkumníky k tomu, aby produkovali formálně lepší výsledky, ale nijak nekultivuje vědeckou kulturu, aby usilovala o špičkový charakter každého jednotlivého výstupu a rozvíjela podstatné aspekty vědecké práce, jako jsou inovativnost a originalita, přínos pro obor nebo reprodukovatelnost a dopad výzkumu, a to bez ohledu na typologické zařazení výsledku.

Jedním ze smutných důsledků této praxe je fakt, že v éře bezprecedentního úspěchu umělé inteligence založené na velkých jazykových modelech a hlubokých neuronových sítích jsou takovéto typy digitálních výstupů v českém systému hodnocení zcela neuplatnitelné. Modely natrénované metodami strojového učení podobně jako další typy digitálních výsledků nesplňují platné podmínky pro výstupy typu software („R“) ani specializovaná veřejná databáze („S“): využívají již dříve známe postupy a techniky, nejsou zveřejňovány v „dedikovaném prostředí“ a schází jim schválení „kompetenčně příslušného orgánu“. Přesto nemůže být sporu o přínosu, které tyto typy výsledků mají nejen pro vědu, ale pro celou společnost. Tyto výstupy také v praxi stírají hranici mezi základním a aplikovaným výzkumem, kterou Metodika M17+ a česká výzkumná legislativa i organizace účelového financování přísně střeží. Tato administrativní bariéra mezi základním a aplikovaným výzkumem negativně ovlivňuje rychlost, kvalitu i dopad výsledků vědecké práce, stejně jako flexibilitu celého systému. Ve skutečnosti se však i základní výzkum posouvá dopředu mj. díky řadě menších i větších inovací technického rázu; aplikovaný výzkum pak těží z poznatků výzkumu základního a základní výzkum v digitální sféře často navazuje na výsledky, které jsou v současnosti definovány jako aplikované (databáze, software). Tyto principy vědecké praxe se dvojnásob uplatňují při realizaci tzv. orientovaného výzkumu, tedy základního výzkumu zaměřeného na konkrétní společensky pojmenované výzvy a problémy.

Zvláštní problém představuje Metodika M17+ pro vydávání nových verzí (verzování) digitálních výsledků. Verzování patří k charakteristickým atributům digitálních výstupů a za normálních podmínek by mělo být považováno za jejich přednost, neboť umožňuje kontinuálně zlepšovat a zpřesňovat výsledky a soustředit kolem nich komunity tvůrců i uživatelů. Nové verze mohou obsahovat jak bagatelní opravy, tak rozsáhlá rozšíření, takže bez bližšího seznámení s provedenými změnami nelze přínos různých verzí odpovědně hodnotit. Pro Metodiku M17+, založenou na definičních atributech a unikátnosti výsledků, představuje verzování slepou skvrnu. Z toho pak plyne i nemožnost vykazovat postupný a dlouhodobý rozvoj softwarových řešení a dalších digitálních výstupů, které jsou postupně obohacovány o nové funkce a moduly. Obdobný problém se týká i digitálních datasetů, které tvoří druhý pilíř moderního výzkumu. Z uživatelského hlediska je mnohem přínosnější jedno integrované řešení oproti většímu množství samostatných nástrojů a databází. Takové uživatelsky přívětivé budování datových sad je však z hlediska dnešních definic výstupů nefinancovatelné, zejména pokud se odehrává v rámci běžného výzkumu bez zázemí velkých infrastruktur. Pokud ale předpokládáme, že cílem výzkumu a vývoje je kvalitativní posun současné praxe, nelze požadovat, aby byl každý výstup budován na „zelené louce“: takové řešení je neefektivní z pohledu výzkumníků/tvůrců i výzkumníků/uživatelů a potažmo i nehospodárné pro poskytovatele podpory.

Potřeba reálných změn v hodnocení výsledků

Česká republika formálně podporuje evropské a mezinárodní iniciativy v oblasti vědy a výzkumu, ale často bez systematického přístupu a koherentní implementace. I v rámci jednoho ústředního orgánu, jakým je vládní Rada pro výzkum, vývoj a inovace (RVVI), vznikají nekonzistentní předpisy. Například Národní strategie otevřeného přístupu ČR k vědeckým informacím sice prosazuje otevřený přístup k výstupům vědy a výzkumu, ale Metodika M17+, která je také v gesci RVVI, tuto strategii nereflektuje tím, že by otevřenost výstupů bonifikovala. V únoru 2023 schválila RVVI přistoupení k Dohodě o reformě hodnocení výzkumu (ARRA). Tato dohoda mj. doporučuje „brát v úvahu plný rozsah výstupů výzkumu, jako jsou vědecké publikace, data, software, modely, metody, teorie, algoritmy, protokoly, pracovní postupy, výstavy, strategie, příspěvky k politikám, atd.“ a zdůrazňuje kvalitativní kritéria výstupů (např. otevřenost a reprodukovatelnost) na úkor jejich definic. I přes tyto zjevné rozpory mezi principy ARRA a Metodikou M17+ představitelé Úřadu vlády o Metodice M17+ tvrdí, že odpovídá principům ARRA, aniž by RVVI a další resorty plánovaly komplexní přenastavení hodnotících mechanizmů. Podobná disonance panuje i ve veřejných soutěžích Ministerstva školství, mládeže a tělovýchovy. Operační program Jan Amos Komenský (OP JAK) aplikuje požadavky na FAIR data, ale tento druh výstupu nijak neoceňuje a uznává pouze publikační výsledky. Kvůli těmto rozporům vidíme v aktuálním systému hodnocení nesourodé až protichůdné signály.

Krokem, který lze k nápravě problematického stavu realizovat bezprostředně, je úprava klasifikace v Metodice M17+ tak, aby byla schopna pojmout širší spektrum výstupů. Tyto úpravy lze uskutečnit např. zavedením hierarchické klasifikace, která na nejvyšším stupni bude představovat zjednodušení (např. publikační výstupy, uspořádání akcí a jiné výstupy) na druhém stupni může zachovat kontinuitu s dosavadní klasifikací a na nejnižší úrovni zásadně rozšíří spektrum definic a (pod)druhů hodnocených výstupů, a to indikativně, nikoli taxativně. Žádný typ výsledku by neměl být à priori vyloučen z veřejných soutěží ve výzkumu a vývoji. Žádoucí je rovněž kompenzovat nedostatečné odborné zázemí resortů, které výsledky schvalují, pomocí úpravy kritérií a rozšíření spektra kvalifikovaných subjektů pro schvalovací, certifikační a akreditační procedury vyžadované u některých typů výsledků. V této souvislosti se nabízí např. možnost efektivněji využívat existující zdroje výzkumných infrastruktur, které na rozdíl od „kompetenčně příslušných orgánů“ často disponují expertízou pro odborné posouzení digitálních výstupů, nebo ex ante posouzení na základě recenzního řízení v případě výsledků specifikovaných v projektových žádostech.

Ve střednědobém horizontu je však třeba realizovat ambicióznější úpravy systému hodnocení takovým způsobem, aby byla zajištěna koherence mezi strategickými dokumenty a dílčími předpisy aplikovanými při hodnocení výstupů napříč resorty a poskytovateli podpory. Dále bude vhodné posilovat prvky kvalitativního hodnocení výstupů a přesunout důraz od klasifikace (definice) výstupů na kritéria excelentní a společensky přínosné vědecké práce. Inspiraci lze hledat v zahraničí, např. u francouzské Vysoké rady pro hodnocení výzkumu a vysokého školství (Hcéres), která vydává hodnotitelské příručky specifické pro různé oborové skupiny. Tyto příručky neslouží k tomu, aby předkládaly taxativní kategorizaci uznatelných výsledků nebo vymezovaly, zda je daný produkt vědeckým výstupem. Jejich smyslem je formulovat kritéria, podle nichž lze v daném oboru hodnotit kvalitu výstupů. Žádoucí by bylo i citlivější a kvalitativní rozlišování mezi základním a aplikovaným výzkumem, které by respektovalo přirozenou kontinuitu mezi oběma typy vědecké práce. Především by se takové rozlišení nemělo mechanicky odvíjet od kategorizace výstupů, jichž jednotlivci, týmy a výzkumné organizace dosahují při řešení projektů i svých dlouhodobých misí – aplikovatelnost je potenciálem libovolného typu výstupu.

Závěr

Zavedení Metodiky M17+ v české vědě vyvolalo oprávněný optimizmus ohledně dalšího směřování hodnocení vědy: lepší rozpoznání kvality vědecké práce, výsledků a výzkumných organizací. Přestože je patrný pozitivní trend, dopady této změny se projevují jen pomalu a s obtížemi. Některé instituce či jejich organizační složky se stále drží dříve zavedených postupů, které upřednostňují kvantitu nad kvalitou, případně pozměnily indikátory, ale nikoliv celkový přístup. Neochota vyměnit snadné trojčlenky za náročnější postupy hodnocení přetrvává i u většiny poskytovatelů, kteří preferují administrativně zvladatelné indikátory před odborným posouzením. Za příklad může sloužit i nastavení programu OP JAK, který tímto způsobem bude významně formovat české vědecké prostředí v nadcházejících letech, nebo Grantová agentura České republiky, která neuznává výstupy na základě přínosu k poznání, ale podle jejich kategorizace při vykazování do Rejstříku informací o výsledcích. Domníváme se, že je zapotřebí v diskuzi o hodnocení vědy výrazněji pokročit a snažit se důsledně implementovat dohodu ARRA do všech aspektů hodnocení. Hodnocení výstupů podle Metodiky M17+, kdy hodnotitel místo kvality a relevance výstupů posuzuje přináležitost výstupů do jedné z dostupných definic, představuje přežitek, který brání rozvoji nových metod vědecké práce. Jedná se o problém, který paralyzuje rozvoj bádání nejen v digitálních humanitních a sociálních vědách.

O České asociaci pro digitální humanitní vědy

Česká asociace pro digitální humanitní vědy, z. s., (CzADH) byla založena v červnu 2017, aby poskytla společnou reprezentativní a komunikační platformu pro české vědce a vědkyně uplatňující digitální přístupy v humanitních oborech. V současné době zastupuje více než tři desítky badatelů a knihovníků z celé řady českých univerzit, knihoven a výzkumných ústavů. Digitální humanitní vědy jsou v rámci asociace chápány v širokém smyslu a jsou charakteristické svou interdisciplinaritou. CzADH je členskou organizací Evropské asociace pro digitální humanitní vědy (EADH).

Kontakt: board@czadh.cz

Shrnutí

Stanovisko České asociace pro digitální humanitní vědy k hodnocení a uznávání výzkumných výsledků pojednává o výzvách, které představuje aktuální systém klasifikace, uznávání a hodnocení výsledků výzkumu a vývoje v českém vědeckém prostředí. Metodika M17+ se opírá o úzké a zastaralé definice vědeckých výstupů, jejichž taxonomie nedostatečně reflektuje široké spektrum výsledků výzkumu, zejména v oblasti digitálních a sociálních humanitních věd. V těchto oborech vznikají důležité výsledky, které nelze vměstnat do stávajících kategorií a uplatnit je v odpovídající míře v grantových soutěžích a při hodnocení vědy.

Stanovisko identifikuje především následující problémové oblasti:

  • Nedostatečná flexibilita Metodiky M17+ neumožňuje vykazovat řadu důležitých digitálních výsledků, jako jsou např. databáze, datové sady, digitální mapy, softwarové knihovny, jazykové modely atp., a systematicky je rozvíjet vydáváním nových verzí.
  • Závislost Metodiky M17+ na definičních kritériích odvádí pozornost od kritérií kvalitní vědecké práce a implicitně vede k upřednostnění kvantity před kvalitou, resp. formálních aspektů před reálnými potřebami výzkumu.
  • Administrativní rozlišování základního a aplikovaného výzkumu podle typu dosažených výsledků nerespektuje kontinuitu mezi oběma typy vědecké práce, čímž snižuje jejich potenciální rozvoj a dopad.
  • Klíčové strategické dokumenty české vědní politiky nejsou konzistentní a nedůsledně uplatňují vlastní deklarovaná východiska ve vztahu k uznávání a hodnocení výsledků vědecké práce. Pravidla se navíc liší mezi různými poskytovateli a institucemi, což náležité hodnocení výstupů dále komplikuje.

Stanovisko navrhuje několik možných řešení těchto problémů, včetně úpravy klasifikace v Metodice M17+, zavedení hierarchické taxonomie výsledů, rozšíření spektra hodnoticích mechanizmů jako kompenzace nedostatečného odborného zázemí resortů a posílení prvků kvalitativního hodnocení. Dále doporučuje inspirovat se zahraničními příklady dobré praxe. I přes pozitivní trend vývoje hodnocení vědecké práce v České republice je stále zapotřebí další práce na vývoji a přizpůsobení systému hodnocení tak, aby lépe odpovídal moderním trendům a potřebám vědecké komunity.

Dodatek ke stanovisku CzADH k hodnocení a uznávání výzkumných výsledků

2023年5月15日 23:53

Problematika hodnocení v konkrétních příkladech digitálních výsledků (viz Stanovisko)

Digitální edice

Digitální edice historického pramene je nepochybně cenným akademickým počinem a ústředním výstupem mnoha DH projektů u nás i v zahraničí. Kvalitně připravená digitální vědecká edice (např. podle TEI-XML standardů) umožňuje další práci s pramenem, která předtím nebyla možná: uvažme třeba, že edice literárního díla, v níž jsou veškeré výskyty místních názvů opatřeny odkazy do geografického informačního systému, umožňuje přímočaré přenesení prostorové informace na mapu. Výstup tohoto typu však Metodika nedokáže řádně kategorizovat. Podle definice užívané v M17+ pro specializovanou veřejnou databází není „databáze obsahující známé nebo již veřejně přístupné údaje“ a její požadovanou vlastností je strukturovanost. Tato definice byla zjevně napsána tak, aby odpovídala zveřejnění tabulkových dat, která jsou výstupem měřicích přístrojů. Pojem „specializovaná veřejná databáze“ také automaticky předpokládá zpřístupnění datové sady v dedikovaném prostředí, což nemusí být vždy potřebné ani žádoucí, protože na zpracování datových sad existují specializovaná aplikační řešení a datová sada má tak hodnotu sama o sobě, bez ohledu na aplikační rozhraní, ve kterém je zveřejněna. Přestože je pro humanitní badatele odborný přínos digitální edice zřejmý (propojení geolokačních a textových dat, zpravidla vytvořený unikátním propojením existujících databází pomocí skriptů, programovacích knihoven a algoritmů natrénovaných na jazykových korpusech), úřední praxe zpochybňuje, že digitální edice již dříve známého literárního díla splňuje podmínky pro uznání výstupu jako specializované veřejné databáze. Pro nedostatečně proškolené hodnotitele, poskytovatele a představitele „kompetečně příslušných orgánů“, jejichž schválení Metodika při uznání výsledků tohoto typu vyžaduje, je obtížné rozpoznat, že textový soubor v TEI-XML formátu představuje standardizovanou datovou strukturu a je založen na netriviálním odborném vkladu autorů.

Programovací knihovny

Badatelé v oblasti DH se často podílejí na vývoji rozšiřujících knihoven (neboli balíčků či modulů) pro programovací jazyky (zejména Python či R), které mají za cíl usnadnit práci se specifickým typem dat nebo zjednodušit určitý typ analýz. Tyto nástroje rozšiřují know-how pro řešení dílčích problémů, šetří čas dalších badatelů, umožňují verifikovat dosažené výsledky výzkumu a jsou zcela klíčové pro snižování prahu obtížnosti práce s programovacími jazyky pro potřeby humanitních a sociálních věd. Podle definice výstupu „R“ (software) v rámci M17+ však softwarem není „přidání uživatelských funkcí do stávajících aplikačních programů (včetně funkčnosti základních vstupních dat)“ ani „přizpůsobení výrobku pro konkrétní použití, nejsou-li v průběhu tohoto procesu přidány poznatky, které výrazně vylepšují základní program“. To jsou charakteristiky a funkcionality, kterými se výše zmíněné knihovny zpravidla vyznačují. Tento problém postihuje i nemožnost vykazovat postupný a dlouhodobý rozvoj softwarových řešení, která jsou postupně obohacována o nové funkce a moduly. Z uživatelského hlediska je mnohem přínosnější jedno integrované řešení oproti většímu množství samostatných nástrojů. Takový postup je však z hlediska dnešních definic výstupů nepřípustný. Pokud je cílem výzkumu a vývoje kvalitativní posun stávající praxe, nelze požadovat, aby každý výstup byl budován na „zelené louce“, neboť jde o neefektivní řešení z pohledu výzkumníků/tvůrců i výzkumníků/uživatelů (problém naposledy postihl např. řadu návrhů projektů ve výzvě NAKI III MK ČR a způsobil jejich vyřazení ze soutěže i přes jinak vysoké hodnocení, což jde proti smyslu veřejné soutěže).

Speciální literární mapy

Digitální literární kartografie zažívá v posledních letech zejména v zahraničním výzkumu výrazný rozvoj. Ačkoli mezi často využívané způsoby pro tvorbu literárních digitálních map náleží různé geografické informační systémy (GIS), jejich potenciál je v literárněvědném kontextu uplatnitelný pouze pro vizuální reprezentaci např. propojenosti konkrétních geolokací s bio- či bibliografickými informacemi nebo vizualizace realizované pomocí mapových podkladů čtenářské zkušenosti (tzv. deep maps). V případě mapování fikčních topografií jakožto nedílných součástí fikčních světů literárních děl jsou GIS přístupy mnohdy zcela nevhodné, což vyplývá především z nezbytnosti definování přesných koordinátů. Fikční topografie však disponují různou mírou „nedourčenosti lokací“, nepřesnou či nejednoznačnou identifikovatelností míst či cest fikčních postav, a tedy pro ně neplatí stejné principy jako pro reálné, resp. fyzikálně možné topografie. Za účelem systematického zkoumání literárně fikčních topografií je tedy nezbytné vyvinout takové metody a způsoby mapové reprezentace, jež tyto zásadní aspekty fikčních topografií dokážou náležitě reflektovat. Speciálně vyvinuté literární kartografické modely však nenaplňují současnou definici výstupu typu Nimap, přestože se jedná o specializované mapy s odborným obsahem, kterými jsou realizovány původní výsledky výzkumu a vývoje a které umožňují v rámci specializovaných webových rozhraní zobrazovat jednotlivé překryvné topografické vrstvy. Definice Nimap je primárně formulována s ohledem na památkové, archeologické, klimatické, dopravní, biologické, stavebně-historické aj. postupy a výsledky odborné práce využívající mapových vrstev, a tudíž GIS. V případě odborných literárněvědných map, respektive digitálně přístupných mapových kolekcí ve formě databází, jež primárně nevyužívají GIS z důvodů výše uvedených, současný způsob hodnocení výsledků nenabízí adekvátní zařazení takových speciálních mapových kolekcí (databáze) pod konkrétní typ vědecky uznatelného výstupu.

Evaluační a trénovací data pro automatické nástroje zpracování textu, řeči a obrazu

Nástroje na automatickou analýzu textu a mluvené řeči fungují na základě strojového učení. Tyto systémy jsou natrénovány na datech, která obsahují správná řešení daného problému (např. rozpoznání ručně psaného textu, přepis mluvené řeči, automatický překlad, větný rozbor). Trénovací data často pocházejí z elektronicky snadno dostupných domén (např. zpravodajské weby, Wikipedie, sociální sítě). Mimo tyto tématické a stylové domény úspěšnost jazykových nástrojů dramaticky klesá – což je zásadní překážka pro použití pokročilých technik dolování textu v DH, kde se běžně zkoumají historické texty, případně drama či poezie. K podstatnému zvýšení úspěšnosti analýzy přitom často stačí vydat v oborovém repozitáři poměrně malý adaptační korpus o větších jednotkách tisíc slov, který může být hotov v řádu měsíců i při dodržení správných postupů managementu kvality, jako je částečná vícenásobná anotace s průběžným měřením shody mezi anotátory. Tvorba takových korpusů již dávno není publikačně vděčná, přesto však jde o výstup vědecky přínosný, protože následně umožní celé výzkumné komunitě dolování textu na dalších textových doménách. Pokud by tedy byl evaluační/trénovací anotovaný korpus speciální domény adekvátně ohodnocen v systému VaVaI, můžou čeští badatelé významně přispět k rozvoji celosvětové DH komunity.

❌