普通视图

Received before yesterday

OCR-Sprechstunde meets Law: Love Data Week Special am 13. Februar 2025

2025年1月27日 17:09

Im Rahmen der Love Data Week 2025 lädt Sie das Kompetenzzentrum OCR der Universitätsbibliotheken Tübingen und Mannheim zu einer speziellen Veranstaltung unserer OCR-Sprechstunde ein! Am Donnerstag, den 13. Februar 2025 stehen wir Ihnen diesmal etwas länger von 15:00 bis 16:30 Uhr über Zoom zur Verfügung.

Neben Ihren Fragen zur automatischen Texterkennung von Handschriften und Druckschriften werden Ihnen spannende Einblicke und Hinweise zu rechtlichen Aspekten von der Digitalisierung über die Volltexterkennung bis hin zur Bereitstellung und Nachnutzung der Volltexte durch die Juristin Vasilka Stoilova (UB Mannheim & BERD@NFDI) geboten. Nutzen Sie die Gelegenheit, Ihre rechtlichen Fragen zum Thema OCR an eine Expertin zu richten.

Seien Sie dabei und nehmen Sie ohne Anmeldung über folgenden Link teil:
🔗https://ocr-bw.bib.uni-mannheim.de/sprechstunde
(Meeting-ID: 682 8185 1819, Kenncode: 443071)

Haben Sie Fragen? Kontaktieren Sie gerne Larissa Will unter:
📧 larissa.will(at)uni-mannheim.de

Wir sind gespannt, welche Fragen und Themen uns dieses Mal erwarten!

Zum 20. Jubiläum: Romane des Deutschen Buchpreises jetzt für die Sprachforschung nutzbar

2024年10月13日 20:41

Die Deutsche Nationalbibliothek (DNB) und das Leibniz-Institut für Deutsche Sprache (IDS) bieten der Forschung Zugang zu einer besonderen Sammlung zeitgenössischer deutschsprachiger Literatur. Anlässlich des 20-jährigen Jubiläums des Deutschen Buchpreises sind nun alle digital verfügbaren 362 Longlist-Titel zu wissenschaftlichen Zwecken online im Volltext nach sprachlichen Mustern und Strukturen durchsuchbar.

Dank der Korpus-Analyseplattform KorAP, bereitgestellt vom Leibniz-Institut für Deutsche Sprache (IDS) und installiert auf der Infrastruktur der DNB, können Forschende in die Welt ausgezeichneter Literatur eintauchen. Die Texte sind automatisch mit detaillierten Annotationen versehen, die Informationen zu Grundform (Lemma) und Wortart (Part of Speech) jedes Wortes enthalten, was komplexe wissenschaftliche Suchanfragen ermöglicht. Forschende aus Linguistik und Germanistik haben damit die Möglichkeit, diese wertvolle Sammlung von Literatur digital zu erkunden und neue Erkenntnisse zu gewinnen.

Zur vollständigen Pressenachricht der DNB hier lang.

Zum Angebot: https://korap.dnb.de/deutscherbuchpreis

Virtuelles DH-Kolloquium an der BBAW, 11.12.2023: Ausweitung der Korpuszone: Neue Daten für die empirische Lexikographie

2023年12月4日 19:32

Im Rahmen des DH-Kolloquiums an der BBAW laden wir Sie herzlich zum nächsten Termin am Montag, den 11. Dezember 2023, 16 Uhr c.t., ein (virtueller Raum: https://meet.gwdg.de/b/lou-eyn-nm6-t6b):

Roman Schneider (Leibniz-Institut für Deutsche Sprache, Mannheim)
Adrien Barbaresi (Berlin-Brandenburgische Akademie der Wissenschaften)

Ausweitung der Korpuszone: Neue Daten für die empirische Lexikographie

***

Roman Schneider (IDS Mannheim): Songtexte als lexikografische Datenbasis

Mit dem Songkorpus (Schneider 2022) liegt erstmalig eine nachhaltig nutzbare wissenschaftliche Ressource für empirische Songtextanalysen vor. Sie enthält zum einen fortlaufend die erfolgreichsten deutschsprachigen Titel der ost-, west- und gesamtdeutschen Hitparaden seit 1970; Chartplatzierungen dienen dabei analog zu Auflagenzahlen bei Zeitungen oder Bestsellerlisten in der Belletristik als Kriterium der Wirkmächtigkeit. Weiterhin dazu gehören thematisch stratifizierte Archive, beispielsweise für Subgenres wie Hiphop oder Neue Deutsche Welle. Und schließlich umfasst das Korpus umfangreich annotierte Künstlerarchive mit den kompletten Werken ausgewählter Sänger und Bands. Insgesamt deckt die kontinuierlich anwachsende Datenbasis mit derzeit ca. 9.000 Songtexten bzw. 2 Millionen Wortformen mehr als ein halbes Jahrhundert populäre Musik(texte) ab und unterstützt damit gleichermaßen synchrone und diachrone Perspektiven.

Ein besonderer Wert der Sammlung liegt in der Dokumentation standardnaher und -ferner Phänomene. Der Vortrag greift ausgewählte lexikalische und morphosyntaktische Eigenheiten auf. Sprachlicher Avantgardismus etwa zeigt sich beim lexikalischen Inventar; mit empirischen Methoden lassen sich dabei Okkasionalismen von echten Neologismen trennen. Weiterhin vorgestellt werden unkonventionelle grammatische Konstruktionen sowie Belege einer sprachökonomisch angepassten Morphosyntax.


Adrien Barbaresi (BBAW): Webkorpora groß und klein

In der modernen Lexikografie stützen sich Aussagen zu sprachlichen Eigenschaften der beschriebenen Wörter und zu Besonderheiten ihrer Verwendung auf umfassende Korpusevidenz. In diesem Rahmen bietet die DWDS-Plattform eine Vielzahl von allgemeinen und spezialisierten Websammlungen. Zwei Korpora verdeutlichen diesen Prozess. Die Basis des Breitband-Webkorpus besteht aus  hunderttausenden Webseiten, aus denen Milliarden von Tokens samt Metadaten erfasst werden. Im Webmonitor werden prominente Quellen aus Deutschland, Österreich, der Schweiz, Südtirol, Luxemburg, Liechtenstein und Ostbelgien fokussiert gesammelt und täglich aktualisiert. Im Vortrag soll gezeigt werden, nach welchen Konzepten die Korpora zusammengestellt werden und wie diese Arbeit mit Werkzeugen unter Open-Source-Lizenz reproduziert werden kann.

Dieses Kolloquium ist der 3. Teil der vierteiligen Workshop-Reihe „Korpora für die Lexikographie – Erfahrungen und Zukunftsperspektiven“, die im Herbst und Winter 2023/24 im Rahmen des DH-Kolloquiums stattfindet.

Weiterer Termin der Reihe:

26.02.2024 Korpora, literarischer Wortgebrauch und Lexikographie

***

Die Veranstaltung findet virtuell statt; eine Anmeldung ist nicht notwendig. Zum Termin ist der virtuelle Konferenzrraum über den Link https://meet.gwdg.de/b/lou-eyn-nm6-t6b erreichbar. Wir möchten Sie bitten, bei Eintritt in den Raum Mikrofon und Kamera zu deaktivieren. Nach Beginn der Diskussion können Wortmeldungen durch das Aktivieren der Kamera signalisiert werden.

Der Fokus der Veranstaltung liegt sowohl auf praxisnahen Themen und konkreten Anwendungsbeispielen als auch auf der kritischen Reflexion digitaler geisteswissenschaftlicher Forschung. Weitere Informationen finden Sie auf der Website der BBAW.

Virtuelles DH-Kolloquium an der BBAW, 27.11.2023: Neues aus dem Maschinenraum der Korpus-Annotation

2023年11月20日 18:38

Im Rahmen des DH-Kolloquiums an der BBAW laden wir Sie herzlich zum nächsten Termin am Montag, den 27. November 2023, 16 Uhr c.t., ein (virtueller Raum: https://meet.gwdg.de/b/lou-eyn-nm6-t6b):

Nils Diewald und Marc Kupietz (Leibniz-Institut für Deutsche Sprache, Mannheim)
Gregor Middell und Andreas Nolda (Berlin-Brandenburgische Akademie der Wissenschaften)

Neues aus dem Maschinenraum der Korpus-Annotation

Gegenstand dieses Kolloquiums sind neue Entwicklungen aus dem Maschinenraum der Korpus-Annotation am Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim sowie am Zentrum für digitale Lexikographie der deutschen Sprache (ZDL) an der BBAW. Dabei werden zunächst zwei Tools vorgestellt, die an jeweils einer der beiden Institutionen entwickelt werden und an der anderen Institution nachgenutzt werden sollen: der KorAP-Tokenizer von Marc Kupietz und Nils Diewald und das morphologische Analysetool DWDSmor von Andreas Nolda. Darauf aufbauend stellt Gregor Middell eine experimentelle Korpus-Annotationspipeline für die Korpora am ZDL vor, die diese beiden Tools und weitere frei verfügbare Tools kombiniert.

Dieses Kolloquium ist der 2. Teil der vierteiligen Workshop-Reihe „Korpora für die Lexikographie – Erfahrungen und Zukunftsperspektiven“, die im Herbst und Winter 2023/24 im Rahmen des DH-Kolloquiums stattfindet.

Weitere Termine der Reihe:

11.12.2023 Ausweitung der Korpuszone: Neue Daten für die empirische Lexikographie
26.02.2024 Korpora, literarischer Wortgebrauch und Lexikographie

***

Die Veranstaltung findet virtuell statt; eine Anmeldung ist nicht notwendig. Zum Termin ist der virtuelle Konferenzrraum über den Link https://meet.gwdg.de/b/lou-eyn-nm6-t6b erreichbar. Wir möchten Sie bitten, bei Eintritt in den Raum Mikrofon und Kamera zu deaktivieren. Nach Beginn der Diskussion können Wortmeldungen durch das Aktivieren der Kamera signalisiert werden.

Der Fokus der Veranstaltung liegt sowohl auf praxisnahen Themen und konkreten Anwendungsbeispielen als auch auf der kritischen Reflexion digitaler geisteswissenschaftlicher Forschung. Weitere Informationen finden Sie auf der Website der BBAW.

Nächste offene OCR-Sprechstunde am 12. Oktober 2023 von 15 bis 16 Uhr

2023年10月10日 22:18

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 12. Oktober 2023 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.de/sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071).

Sollten Sie technische Probleme oder Fragen haben, wenden Sie sich an Larissa Will (larissa.will(at)uni-mannheim.de).

Weitere Informationen zum Thema OCR finden Sie unter: https://ocr-bw.bib.uni-mannheim.de/.

Wenn Sie über unsere Angebote zum Thema automatische Texterkennung auf dem Laufenden bleiben möchten, tragen Sie sich in unsere Mailingliste ein: https://listserv.uni-tuebingen.de/mailman/listinfo/ocr_htr_ub.

Wir freuen uns auf Ihre Teilnahme!

Zurück aus der Sommerpause: offene OCR-Sprechstunde am 14. September 2023

2023年8月29日 22:07

Das Kompetenzzentrum OCR, bestehend aus der UB Tübingen und der UB Mannheim, unterstützt und berät seit drei Jahren bei der Anwendung aktueller Programme zur Texterkennung.

Für einen unkomplizierten Einstieg in das Thema bieten wir für alle Interessierten jeden zweiten Donnerstag im Monat von 15 bis 16 Uhr eine offene OCR-Sprechstunde via Zoom an, in der Sie Ihre Fragen rund um das Thema automatisierte Texterkennung stellen können.

Die nächste Sprechstunde findet am Donnerstag, dem 14. September 2023 statt.

Sie können dem Meeting ohne vorherige Anmeldung unter folgendem Link beitreten: https://ocr-bw.bib.uni-mannheim.de/sprechstunde (Meeting-ID: 682 8185 1819, Kenncode: 443071).

Sollten Sie technische Probleme oder Fragen haben, wenden Sie sich an Jan Kamlah (jan.kamlah(at)uni-mannheim.de).

Weitere Informationen zum Thema OCR finden Sie unter: https://ocr-bw.bib.uni-mannheim.de/.

Wenn Sie über unsere Angebote zum Thema automatische Texterkennung auf dem Laufenden bleiben möchten, tragen Sie sich in unsere Mailingliste ein: https://listserv.uni-tuebingen.de/mailman/listinfo/ocr_htr_ub.

Wir freuen uns auf Ihre Teilnahme!

❌