Oberseminar CL
Oberseminar Computerlinguistik
Das Oberseminar Computerlinguistik findet ca. 14-täglich mittwochs von 16:15-17:45 Uhr in hybrider Form statt, d.h. es werden Vorträge vor Ort im CIP-Pool, Webinar-Vorträge oder alternative Vortragsformen angeboten. Alle Vorträge werden im Kalender der Korpus- und Computerlinguistik sowie über den Mailverteiler des Lehrstuhls angekündigt.
Wenn Sie das Oberseminar als Lehrveranstaltung belegen wollen, melden Sie sich bitte für den zugehörigen StudOn-Kurs über Campo an.
Programm im SS 2024
Mittwoch, d. 24.04.2024, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“From Grammar models to Large Language Models: Where do we go now?”
In this talk the presenter will try to trace the path that computational language modeling has taken over the past 3 to 4 decades, what we’ve learned along the way and how this learning can help in fast tracking the computational processing of the rest of the large number of human languages currently left behind. While the temptation is to take such languages through the arduous path through which many of the European languages have trod, the presenter will argue that there are other ways of employing the learnings of processing such languages to help the rest of the languages, which usually have very low digital resources, to help fast track their journey into computational linguistics.
Programm im WS 2023/24
Mittwoch, d. 07.02.2024, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“Some Challenges in Corpus Linguistics and IDS Mannheim approaches to tackle them”
Mittwoch, d. 31.01.2024, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“Von Killergenen und Königstherapien: Methodische Untersuchungen zur Analyse semantischer Muster in der korpusbasierten Diskursanalyse”
Gleichzeitig bezieht sich das hauptsächliche Erkenntnisinteresse der Analyse oft auf abstraktere semantische Ebenen, die über häufige Einzelwörter hinausgehen – zum Beispiel auf ganze Wortfelder, Themenstränge, oder Metapherndomänen. Die Fokussierung auf häufige Wörter versperrt dann vor allem den Blick auf Aspekte des Diskurses, die lexikalisch besonders vielfältig sind, während die einzelnen Lexeme eher selten auftreten (z.B. produktiv genutzte Metapherndomänen).
In diesem Vortrag werden zwei Fallstudien vorgestellt, die sich mit methodologischen Facetten dieses Problems beschäftigen. Beide Analysen nutzen ein Korpus automatischer YouTube-Transkripte des englischsprachigen Kanals von Russia Today, das auf Sendungen eingeschränkt wurde, die sich mit Krebserkrankungen befassen. Das Thema Krebs ist in anderen Textsorten in seiner sprachlichen Ausgestaltung gut untersucht und hat wegen seiner gesellschaftlichen Relevanz viele Anknüpfungspunkte für Diskursanalysen.
Die erste Analyse vergleicht die manuelle Kategorisierung von Keywords mit automatisch durch den USAS-Tagger zugewiesenen Key Semantic Domains und untersucht Gemeinsamkeiten und Unterschiede des thematischen Gesamteindrucks, der sich jeweils vom Korpus ergibt.
In der zweiten Fallstudie werden drei Ansätze zur Aufdeckung von Metaphern verglichen. Ausgangspunkt ist ein manuell annotiertes Sample des Korpus, auf dessen Grundlage 1) semantisches Tagging, 2) Word Embeddings und 3) Wörterbücher genutzt werden, um weitere Metaphern aus dem gleichen Spenderbereich im Gesamtkorpus zu finden.
Mittwoch, d. 20.12.2023, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“Human vs. machine: a methodological triangulation”
Exploring discourse (and discursive topics) through linguistic analysis has not only been of interest to linguists, but also to researchers working across the social sciences. Traditionally, this has been conducted based on small-scale interpretive analyses of discourse, involving some form of close reading. Naturally, however, that close reading is only possible when the dataset is small, and it leaves the analyst open to accusations of bias, cherry-picking and a lack of representativeness. Other methods have emerged which each have a some form of quantitative component, designed to avoid these issues, and involving larger datasets. Within linguistics, this has typically been through the use of corpus-assisted methods, whilst outside of linguistics, topic modelling is one of the most widely-used methods. How corpus linguistics and topic modelling differ, though, is in the degree of contextualisation available to the researcher. Topic modelling algorithms reduce texts to a simple bag-of-words and completely strip texts of their linguistic structure and context, presenting only a list of co-occurring words to the researcher for analysis. On the other hand, corpus-assisted methods, like concordance analysis, allow the user to see words within their co-text (typically a few words on either side). Corpus-assisted methods, then, are somewhere in between the completely decontextualised topic modelling, and the completely contextualised close reading.
This talk reports on a study assessing the effect that analytical method has on the interpretation of texts, specifically in relation to the identification of the main topics. Using a corpus of corporate sustainability reports, totalling 98,277 words, we asked 6 different researchers to interrogate the corpus and decide on its main ‘topics’ via three different methods. In Method A, two researchers were asked to view a topic model output and assign topic labels based purely on eyeballing the co-occurring words. In Method B, two researchers were asked to assign topic labels based on a concordance analysis of 100 randomised lines of each co-occurring word. In Method C, two researchers were asked to reverse-engineer a topic model output by creating topic labels based on a close reading. The talk explores how the identified topics differed both between researchers in the same condition, and between researchers in different conditions. We conclude with a series of tentative observations regarding the benefits and limitations of each method and recommendations for researchers in choosing which analytical technique to choose.
Mittwoch, d. 13.12.2023, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“Building and using the ACoLi Dictionary Graph”
We report the release of the ACoLi Dictionary Graph, a large-scale collection of multilingual open source dictionaries available in two machine-readable formats, a graph representation in RDF, using the OntoLex-Lemon vocabulary, and a simple tabular data format to facilitate their use in NLP tasks, such as translation inference across dictionaries. We describe the mapping and harmonization of the underlying data structures into a unified representation, its serialization in RDF and TSV, and the release of a massive and coherent amount of lexical data under open licenses.
Mittwoch, d. 29.11.2023, 16:15-17:45 Uhr, Bismarckstr. 12, Raum 0.320
“Building a Tamil Dependency Treebank”
Tamil, a Dravidian language, has a history extending back over two millennia and is recognised as one of the world’s oldest living languages. It is spoken by over 80 million people globally and holds official status in Sri Lanka, Singapore, and Tamil Nadu, India. Despite its rich history and cultural significance, Tamil remains computationally a low-resource language. It is deficient in adequate annotated data, benchmark datasets, and linguistic tools. Moreover, its evolution over time in forms and scripts, alongside its status as a diglossic language with complex morphosyntactic features and a free-word order nature, further complicates machine processing. The talk will concentrate on creating a dependency treebank for the Tamil language using the Universal Dependencies framework. Additionally, it will address the various challenges faced during the collection, processing, and annotation of Tamil language data.
Programm im SS 2023
Mittwoch, d. 28.06.2023, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / auch via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Manipulative tactics are the norm in political emails: Evidence from 300K emails from the 2020 US election cycle”
We collect and analyze a corpus of more than 300,000 political emails sent during the 2020 US election cycle. These emails were sent by over 3000 political campaigns and organizations including federal and state level candidates as well as Political Action Committees. We find that in this corpus, manipulative tactics—techniques using some level of deception or clickbait—are the norm, not the exception. We measure six specific tactics senders use to nudge recipients to open emails. Three of these tactics—“dark patterns”—actively deceive recipients through the email user interface, for example, by formatting “from:” fields so that they create the false impression the message is a continuation of an ongoing conversation. The median active sender uses such tactics 5% of the time. The other three tactics, like sensationalistic clickbait—used by the median active sender 37% of the time—are not directly deceptive, but instead, exploit recipients’ curiosity gap and impose pressure to open emails. This can further expose recipients to deception in the email body, such as misleading claims of matching donations. Furthermore, by collecting emails from different locations in the US, we show that senders refine these tactics through A/B testing. Finally, we document disclosures of email addresses between senders in violation of privacy policies and recipients’ expectations. Cumulatively, these tactics undermine voters’ autonomy and welfare, exacting a particularly acute cost for those with low digital literacy. We offer the complete corpus of emails at https://electionemails2020.org for journalists and academics, which we hope will support future work.
Mittwoch, d. 07.06.2023, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / auch via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“RC21 – Towards computer-assisted concordance reading””
As one of the most fundamental and central techniques of corpus linguistics, concordance analysis supports the identification of recurrent patterns across the occurrences of a search term, phrase or construction (the ‘node’). This is achieved by organising concordance lines according to similarities that become visible through the ‘kwic’ (keyword in context) display format. The key challenge is that the underlying notion of ‘similarity’ is often not clearly defined, and different research questions and applications demand a focus on different aspects of similarity. Typically, choices for the organisation of concordances are determined by the intuition of experienced analysts, but also strongly driven by the options offered by specific concordance software tools – in particular sorting the right or left context of the node alphabetically. An early approach towards a systematic account of ‘reading concordances’ was proposed by John Sinclair, but these ideas have only selectively been taken forward and concordance reading is still not being taught methodically in the corpus linguistics curriculum.
In this talk we want to look at opportunities for enhancing concordance analysis with suitable computational algorithms. Based on examples of existing corpus tools and case studies, we will review current practice in corpus linguistics to arrive at an understanding of how the affordances of current tools work together with qualitative interpretation. We will outline what we see as the fundamental tool-independent principles of ‘selecting’, ‘ranking’, ‘clustering’ and ‘sorting’, and demonstrate what we consider to be useful applications of these principles. Our talk will be illustrated with textual examples from corpora of fiction from both English and German authors. Functionalities we will specifically discuss in this case study build on our previous work on CLiC and IMS Corpus Workbench.
Mittwoch, d. 31.5.2023, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / auch via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Linking lexicographic data on the Web”
Electronic language resources can be found over the Web in a variety of formats, representation mechanisms, and access means. Electronic dictionaries are not an exception. Such heterogeneity hinders interoperability among such resources. In this talk, we will review the principles of linked data and their application into linguistic data, as a technological solution to make data coming from different sources more interoperable. We will focus on the Ontolex lemon model to represent ontology lexica, as well as into its lexicography module (Lexicog), and will review some of its applications.
Mittwoch, d. 10.05.2023, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / auch via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Was ein poetisches Korpus über die Sprache verraten kann: Zur Geschichte der russischen Wortbetonung”
Russisch ist eine der wenigen Sprachen, für die es ein umfassendes allgemein zugängliches Textkorpus mit poetischen Texten gibt. In diesem Vortrag soll das Poetische Korpus, das ein Teil des Russischen Nationalkorpus ist, vorgestellt werden. Eine naheliegende Frage, die sich bei der Betrachtung von einem poetischen Korpus ergibt, besteh darin, ob solch ein Korpus nur für die Erforschung dieser Textsorte nützlich sein kann oder ob es ermöglicht, Schlussfolgerungen über allgemeinere Phänomene in der Sprache zu ziehen. Das Poetische Korpus des Russischen ist eine wertvolle Ressource für das Studium der diachronen und synchronen Variation von Wortbetonung. Nach einem kurzen Überblick über das russische Betonungssystem wird der Vortrag eine quantitative Analyse der Betonungsvariation im Russischen präsentieren.
Programm im WS 2022/23
Mittwoch, d. 01.02.2022, 16:15-17:45 Uhr, Bismarckstr. 1a, Großer Hörsaal (00.014) / hybrid via Zoom on request
“Interpreting, Aesthetically”
This talk considers the interpretation of literary texts. Semantic work on literature has concentrated on how text-internal mechanisms work to construct fictional worlds, an application of tools used for truth-conducive communication more generally. But little attention has been given to the effects and aims of literary texts: the way in which they affect readers and how this interfaces with literary interpretation. I propose a framework which understands such texts in terms of the responses they produce and the kinds of symbolic structures that can be derived from them, then turning to questions of trust and sincerity in literary production and interpretation.
Elin McCready is Professor in the Department of English at Aoyama Gakuin University in Tokyo. Her research focuses on semantics and pragmatics and she has published several books and many articles on topics including pragmatic reliability, evidentiality, honorification, expressive content, discourse particles, perspectival predicates, modals, demonstratives, and dogwhistles. She is currently working on topics such as aesthetic interpretation, nonanthropomorphic perspectives in narrative, derogatory speech and misgendering, and experimental literature, as well as working to complete a book about dogwhistles with Robert Henderson.
She works at the Leibniz-Centre for General Linguistics (ZAS Berlin) with a Friedrich Wilhelm Bessel Research Award from the Alexander von Humboldt Foundation.
Mittwoch, d. 18.01.2022, 16:15-17:45 Uhr / hybrid via Zoom on request
“Providing access to a sign language corpus through a web-based query tool”
The DGS Corpus contains 560 hours of German Sign Language (DGS) video dialogues, recorded between 2010 and 2012 and extensively annotated since then. A subset of the data, the Public DGS Corpus, consists of 50 hours of annotated and translated dialogues and is available online through three interfaces, the first two available since 2018 and the third since 2022. The first is designed for the deaf community with videos and optional subtitles. The second is aimed at the research community with videos, translations and annotations available for viewing or download plus a type index of sign glosses. The third allows the corpus to be viewed and searched in a web browser using the ANNIS query and visualisation software.
In this talk, after introducing the corpus and its annotations, I will summarise some previous research carried out using it. I will then describe the process of converting the Public DGS Corpus data for use in ANNIS and the challenges I encountered. I will conclude with examples of how data and metadata searches can be combined in our ANNIS instance for future research purposes.
Mittwoch, d. 18.01.2022, 16:15-17:45 Uhr
“Einsprachige Korpora in der kontrastiven Linguistik. Funktionale Äquivalenz und Kookkurrenzanalyse am Beispiel Deutsch-Polnisch”
In der kontrastiven Linguistik spielt die Äquivalenz und ihre Bestimmung im Vergleich der Sprachen eine zentrale Rolle. Die funktionalen Äquivalente (im Sinne von D. Dobrovolskij) erfüllen semantische, syntaktische und pragmatische Bedingungen, und sie können mithilfe der Kookkurrenzanalyse und der syntagmatischen Umgebung ermittelt werden. Im Vortrag werden Einzelstudien zur Bestimmung der Äquivalenz im deutsch-polnischen Vergleich am Beispiel der (a) phraseologischen Einheiten, (b) verbo-nominalen Verbindungen, (c) nominalen Einheiten dargestellt. Die Analysen erfolgen mit den sprachlichen Daten aus einsprachigen Korpora des Deutschen (DeReKo, deTenTen) und des Polnischen (NKJP, plTenTen).
Mittwoch, d. 02.11.2022, 16:15-17:45 Uhr
“Ein semantischer Tagger für das Deutsche”
Ziel des semantischen Taggings ist es, die lexikalische Bedeutung der Wörter in einem Text mit Hilfe eines semantischen Tagsets zu beschreiben. Abhängig vom gewählten Tagset können einem Wort dazu auch mehrere semantische Tags zugewiesen werden. Im Vortrag werden erste Schritte in Richtung eines semantischen Taggers für das Deutsche auf Basis des UCREL Semantic Analysis System (USAS) vorgestellt.
Programm im SS 2022
Christof Schöch, Keli Du, Julia Dudar (Universität Trier)
Mittwoch, d. 13.7.2022, 16:15-17:45 Uhr nur via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Zeta and Company: Investigating Measures of Distinctiveness for Computational Literary Studies”
This talk will present ongoing work investigating the statistical properties and conditions of use of a wide range of measures of distinctiveness (or keyness) in the context of Computational Literary Studies. This work is being conducted by the team of the “Zeta and company” project. It has up to now been focused on implementing and evaluating nine different such measures, for example through a downstream text classification task. After an introduction to the topic, we will report on the results of comparing two particular measures taking dispersion of words into account as well as on results from evaluating a set of nine measures of distinctiveness. Future work we hope to conduct will attempt to go beyond single words as the targets of the distinctiveness analysis, and focus instead on multi-word expressions and semantically-defined groups of words. For more, see: https://zeta-project.eu/en/.
Helmut Schmid (Ludwig-Maximilians-Universität München)
Mittwoch, d. 6.7.2022, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Wortart-Annotation und Lemmatisierung des Mittelhochdeutschen”
Mittelhochdeutsche Texte und andere historische Texte weisen noch keine standardisierte Schreibweise auf. Die resultierende Variation bei der Rechtschreibung der Wörter erschwert die Annotierung solcher Texte mit Wortart- und Lemma-Information. Der Vortrag präsentiert Verfahren auf Basis von Deep Learning, welche auf solchen Texten dennoch gute Ergebnisse erzielen. Der Tagger verwendet Buchstaben-basierte Wortrepräsentationen, welche regelmäßige Schreibvariationen lernen können. Der Lemmatisierer basiert auf einer einfachen Encoder-Decoder-Architektur.
Andrea Nini (University of Manchester)
Mittwoch, d. 15.6.2022, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“A Theory of Linguistic Individuality”
Although linguists from different traditions have expressed their belief that each and every person is unique in the version of the language they know and use, a concept often called idiolect, this area of investigation remains seriously underdeveloped in linguistics. Apart from the academic interest in this topic, this kind of knowledge is needed because of one of the forensic applications of linguistics: authorship identification. In these cases, forensic linguists tend to devise and adopt ad hoc methodologies that vary depending on the case and that tend to be often purely qualitative. A better understanding of linguistic individuality would be useful to move the field towards a more scientific approach to this problem.
In this talk the author will firstly introduce the audience to forensic linguistics and authorship identification and then review the direct and indirect evidence in favour of a theory of language that should account for a large amount of individuality and uniqueness. He will then present a few elements of a novel formal theory of linguistic individuality, at least for what concerns the lexicogrammar of a language, and then finally detail some of its predictions for future research.
Elen Le Foll (Universität Osnabrück)
Mittwoch, d. 18.05.2022, 16:15-17:45 Uhr in Präsenz, Bismarckstr. 12, R.0.320 / via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Schulenglisch und das Original – zwei Welten treffen aufeinander…” – Identifying the defining characteristics of the language of secondary school EFL textbooks
English as it is represented in secondary school English as a Foreign Language (EFL) textbooks is often perceived to be somehow different from “natural”, “authentic” English.
Schulenglisch und das Original – zwei Welten treffen aufeinander…
[School English and the original – two worlds collide…]
<deTenTen18: realschule-wedemark.de>
Previous corpus studies have indeed confirmed that individual lexico-grammatical features are often misrepresented in school EFL textbooks. This is potentially highly problematic given that, in secondary instructional contexts, textbooks constitute a major and highly influential vector of foreign language input. It is therefore worth asking: Is Textbook English a special variety of English? If so, in what ways does it differ from naturally occurring, extra-curricular English?
This study sets out to answer these questions using multi-feature/multi-dimensional analysis (MDA; Biber 1988; Berber Sardinha & Biber 2014; Berber Sardinha & Veirano Pinto 2019) to compare the language of nine series of EFL textbooks used at lower secondary school level in Germany, France and Spain to three target language reference corpora. To this end, it proposes a revised MDA framework that relies on Principal Component Analysis (PCA) and extensive visualisations (inspired by Diwersy, Evert & Neumann 2014 and Neumann & Evert 2021). The defining linguistic characteristics of “Textbook English” are explored along four dimensions of linguistic variation.
The results suggest that Textbook English can indeed be considered a distinct variety of English. However, it is not homogenous: mixed-effects linear models predicting the dimension scores of each of the 4,980 texts under study reveal that internal variation is mediated by different factors on the four dimensions examined, including text register, the textbooks’ targeted proficiency level, and interactions between these two variables. The textbooks’ instructions and explanations, in particular, are shown to have very specific linguistic characteristics that set these texts apart from other textbook registers. The contrastive textbook vs. extra-curricular English analysis also points to a disconcerting gap between Textbook Conversation and naturally occurring conversation across all textbook proficiency levels.
Programm im WS 2021/2022
Prof. Dr. Fotis Jannidis, Leonard Konle (Julius-Maximilians-Universität Würzburg)
Mittwoch, den 16.02.2022, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Disruptionen der Literaturwissenschaft am Beispiel der DVjs”
Der Vortrag beschäftigt sich mit dem Einsatz von Distanzmaßen zur Detektion disruptiver Phasen der Literaturwissenschaft anhand der Zeitschrift DVjs. In diesem Zusammenhang wird die Unmöglichkeit einer methodischen Validierung durch annotierte Daten problematisiert und ein alternativer Weg der Evaluation durch Simulation vorgeschlagen. Weitergehend wird die innere Struktur der DVjs durch den Einsatz von Topic Modeling aufgedeckt und Konsequenzen für Distanzmessung und Simulation beleuchtet.
Mirko Lenz & Lorik Dumani (Universität Trier)
Mittwoch, den 26.01.2022, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Das ReCAP-Projekt’”
Argumentation wird von Menschen seit jeher benutzt, um andere Menschen zu bestimmten Standpunkten zu überzeugen. In der computergestützten Argumentation (engl. computational argumentation) befasst man sich mit der Verarbeitung von Argumenten in natürlichsprachigen Texten.
Der Vortrag stellt das von der DFG geförderte Projekt ReCAP vor, dessen Ziel es ist eine vollständige Argumentationsmaschine zu entwickeln. Dabei sollen Argumente in unstrukturierten Texten extrahiert und als Graphen in Argumentbasen gespeichert werden. Für Anfragen sollen dann zum einen die besten Argumente dieser Basis in einem Ranking aufgelistet werden. Zum anderen sollen neue Argumente generiert werden, indem existierende Argumente zur Anfrage generalisiert werden.
Prof. Dr. Günther Görz (Friedrich-Alexander-Universität Erlangen-Nürnberg)
Mittwoch, den 12.1.2022, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Historische Räume in Texten und Karten – Eine kognitiv-semantische Analyse von Flavio Biondos ‘Italia illustrata’”
Abstract:
Ziel des Projekts “Historische Räume in Texten und Karten” der Bibliotheca Hertziana ist eine kognitiv-semantische Analyse von Flavio Biondos “Italia Illustrata” in Verbindung mit zeitgenössischen Karten. Im Mittelpunkt stehen die Beziehungen zwischen historischen Karten und Texten, die darauf abzielen, die historische Wahrnehmung des geographischen Raums zu erforschen. Wir kombinieren kognitiv-semantische Parameter wie z.B. Toponyme, Landmarken, räumliche Bezugsrahmen, geometrische Beziehungen, Gestaltungsprinzipien und verschiedene Perspektiven mit der computergestützten kognitiv-linguistischen Analyse unter Verwendung verschiedener Werkzeuge wie z.B. Recogito für die Annotation von Ortsnamen einschließlich geographischer Verifikation in Texten und Karten, brat für die kognitiv-linguistische Annotation und UDpipe für die grammatische Analyse räumlicher Beziehungen. Um eine generische semantische Ebene für alle Annotationen zu erreichen, vollziehen wir den Übergang zu einer ontologiebasierten Darstellung. Zur Repräsentation historischer geographischer Texte und Karten und deren Inhalt auf der epistemischen Ebene verwenden wir WissKI als semantische Plattform und zusätzlich seine Drupal-Umgebung als ein versioniertes Repositorium für alle primären Forschungsdaten. Die Anwendung des Conceptual Reference Model (CRM) von CIDOC eröffnet ein breites Spektrum an Interoperabilität und Flexibilität und ermöglicht eine semantische Interpretation von Annotationen, so dass wir instanziierte CRM-Beschreibungen im RDF/OWL-Tripelformat generieren, und damit einen Wissensgraphen erstellen, der als Linked Open Data veröffentlicht werden kann. Diese Daten bilden die Grundlage für die historische und linguistische Interpretation.
Annette Malapally (FAU)
Mittwoch, den 15.12.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Der Vorteil der einen oder der Nachteil der anderen? Nutzung von und Reaktionen auf (Dis)Advantage Framing von Ungleichheit auf Twitter”
Über soziale Ungleichheit wird häufig in Form von Vergleichen gesprochen. Solche Vergleiche können entweder mit einem Fokus auf dem Nachteil der einen Gruppe (Disadvantage Framing) oder dem Vorteil der anderen Gruppe (Advantage Framing) formuliert werden. Zum Beispiel kann der Gender Gap beim Einkommen als Nachteil von Frauen formuliert werden („Frauen verdienen weniger als Männer“) oder als Vorteil von Männern („Männer verdienen mehr als Frauen“). Dadurch verändert sich der logische Inhalt des Vergleichs nicht. Trotzdem können solche Variationen im Vergleichsframing beispielsweise beeinflussen, wie Menschen emotional auf Ungleichheit reagieren, oder ob und wie sie etwas an ihr verändern möchten. In der geplanten Studienreihe soll untersucht werden, welche Frames in den sozialen Medien, speziell auf Twitter, zur Beschreibung von Ungleichheit genutzt werden und wie User*innen darauf reagieren. Die Kommunikation auf sozialen Netzwerken wie Twitter ist Teil des öffentlichen, politischen Diskurses und hat Auswirkungen in der analogen Welt (z.B. „Me-Too-Bewegung“). Für die geplanten Studien sollen deshalb Tweets gesammelt werden, in denen die Ungleichheit zwischen zwei sozialen Gruppen durch einen Vergleich beschrieben wird. Ein Algorithmus soll klassifizieren, ob es sich dabei um einen Advantage oder einen Disadvantage Frame handelt. In einem nächsten Schritt soll analysiert werden, ob unterschiedliche Frames häufiger geteilt (quote, retweet), mit einem like markiert oder auf sie geantwortet wird (reply). In meinem Vortrag werde ich verschiedene Ansätze zur automatischen Klassifikation der Tweets, deren mögliche Fehlerquellen, sowie erste Ergebnisse der Analyse vorstellen und diskutieren. Außerdem sollen weitere Forschungsperspektiven aufgezeigt werden – zum Beispiel, ob die Eigenschaften der User*innen (Gruppenzugehörigkeit, politische Einstellungen usw.) beeinflussen, welches Framing sozialer Ungleichheit sie wählen.
Programm im SS 2021
Dr. Bodo Winter (University of Birmingham)
Mittwoch, den 07.07.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Statistics in linguistics: Thoughts on recurrent issues and pedagogy”
It is safe to say that linguistics is undergoing a quantitative revolution. Thanks to widely available open-source programming languages such as R and Python, analyses in our field are becoming increasingly more sophisticated. However, certain age-old issues persist despite these developments. In this talk, I want to openly reflect on what I personally see as the most pressing issues of statistical methodology in our field, based on my experience of teaching statistics workshops and consulting on projects in various subfields, from corpus linguistics over phonetics to typology. I will highlight that despite the increasing use of linear mixed effects models, violations of the independence assumption are still a persistent issue, in particular in corpus linguistics. I will review how linear mixed effects models are used across different subfields of linguistics, and discuss the fact that there are currently no standards whatsoever about what random effects structures are appropriate for corpus linguistics. Towards the end of my talk, I will argue that most issues we face in linguistics are ultimately rooted in a statistical pedagogy that is quite far removed from the complexities of linguistic datasets, and that still teaches classical significance tests even though these are rendered obsolete by the linear model framework. Instead of focusing on prefab procedures such as t-tests and ANOVAs, we should be teaching students how to reason about and build explicitly generative statistical models. Towards the end of my talk I will discuss some of the pedagogical advantages of moving teaching in linguistics towards a framework that endorses Bayesian multilevel modeling facilitated by the easy-to-use R package “brms”.
Dr. Katrin Götz-Votteler (FAU) & Dr. Simone Hespers (FAU)
Mittwoch, den 30.06.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Alternative Wirklichkeiten”
Fake News und Verschwörungstheorien haben Hochkonjunktur: Lügen werden als Informationen getarnt und fadenscheinige Theorien ziehen bisher anerkannte Wahrheiten in Zweifel. Und spätestens wenn mit dem Begriff »alternative Fakten« Wahlmöglichkeiten auf dem Feld der Tatsachen suggeriert werden, kommt die Frage nach der willkürlichen Manipulation der Wirklichkeit auf.
Doch was sind Fake News eigentlich? Wie funktionieren Verschwörungstheorien? Und warum sind wir dafür offensichtlich so anfällig? Katrin Götz-Votteler und Simone Hespers gehen den Gründen für den gegenwärtigen Erfolg dieser Phänomene nach und zeigen, wie kommunikative Mechanismen und Prozesse unbewusst auf unsere Meinungsbildung wirken. Der Sprache als wesentliches Kommunikationsmittel kommt hier eine ebenso große Bedeutung zu wie visuellen Codes und Bildern, die vor allem in Form von Fotografien ein »Fenster zur Welt« auch außerhalb der eigenen Erfahrungsmöglichkeiten öffnen.
Prof. Dr. Dagmar Gromann, Zentrum für Translationswissenschaft, Universität Wien
Mittwoch, den 26.05.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
“Learning Terminological Concept Systems from Multilingual Texts”
Terminological inconsistency represents one major source of misunderstanding in specialized communication. One vital measure to counteract such inconsistency is the creation of a terminological concept system (TCS) that represents concepts, their terms and interrelations. A multilingual TCS can ensure that different parties in a communication, such as medical, political, and news teams in times of crisis, consistently refer to phenomena by utilizing the same words. For instance, “COVID-19 isSpread airborne” represents a highly informative relation, especially when equipped with terms in several languages. Several approaches to extrat terms from text have been proposed, however, few also consider representing interrelations between concepts and terms. In this talk, I will present ongoing research within the project Extracting Terminological Concept Systems from Natural Language Text (Text2TCS) to improve multilingual term and relation extraction in domain-specific contexts. To this end, we currently rely on pre-trained language models, in particular XLM-R, as well as innovative uses of Neural Machine Translation (NMT) models, which I will present alongside additional experiments we have conducted. Resulting solutions of the project will be integrated into the European Language Grid (ELG) until summer this year.
Project website: https://text2tcs.univie.ac.at/
Programm im WS 2020/21
Philipp Heinrich & Stefan Evert (CCL, FAU Erlangen-Nürnberg)
News from the Corpus Workbench (CWB): Embedding CWB in a CL Workflow | Finite State Queries
verlegt auf Mittwoch 17.02.2021, 16:15–17:45, via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
Many powerful corpus query engines – notably the IMS Open Corpus Workbench (CWB), the (No)Sketch Engine, and several other tools inspired by them – offer a query language based on generalised regular expressions (formulated over complex token descriptions rather than individual characters). This enables researchers to locate lexico-grammatical patterns of interest and collect corpus instances in a concordance. Many applications of corpus linguistics – notably corpus-based discourse analysis and computational lexicography – are furthermore in need of collocations or word sketches, as well as dispersion and keyword analyses (based on metadata annotation included in the corpus).
The first part of the talk gives a practical introduction to cwb-ccc, an open-source Python package that translates CWB query results into pandas dataframes and then performs collocation analyses for different contexts. It also offers keyword analysis for subcorpora defined by metadata constraints.
The second part of the talk gives the first publicly available introduction to the CWB implementation of corpus queries by non-deterministic simulation of finite-state automata. It also addresses pitfalls and limitations of finite-state queries, in particular certain corner cases that may not be evaluated correctly.
Minhaeng Lee (Yonsei University, Seoul)
Ein Drei-Ebenen-Modell der Stimmungsanalyse – mit Exkurs zu einigen speziellen Korpora
Mittwoch 03.02.2021, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
Der Vortrag kann als Screencast zusammen mit dem Handout auf der persönlichen Webseite von Prof. Lee heruntergeladen werden.
In dem Vortrag wird ein Drei-Ebenen-Modell der Stimmungsanalyse („Sentiment Analysis“) vorgestellt und exemplarisch gezeigt, wie das Modell funktioniert. Dabei werden deutsche Texte als Untersuchungsgegenstand benutzt, um Stimmungswerte („Sentiment-scores“) zu ermitteln. Die Ergebnisse dieser Analyse werden im Folgenden erläutert. Für die Stimmungsanalyse wurden 22 Einzeltexte aus verschiedenen Korpora zur Analyse herangezogen: 1. ein Gutenberg-Korpus, 2. ein Literatur-Korpus und 3. ein Werbeslogan-Korpus. Das Literaturkorpus umfasst ausgewählte Texte der Gattungen (i) Liebesroman, (ii) biografischer Roman, (iii) Kriminalroman, (iv) Theaterstück, (v) Autobiografie, (vi) historische Texte und (vii) schöne Literatur. Zur Gattung ‘schöne Literatur’ gehören Werke deutscher Autoren wie Goethe, Kafka, Hesse, Thomas Mann, Heinrich Mann und Werke von Leo Tolstoi und Jane Austen. Die Korpora sind nicht-ausgewogen und können lediglich als Korpora mit speziellen Zwecken klassifiziert werden. Sie wurden vom Autor dieses Beitrags mit Hilfe von einem CWB-Werkzeug erstellt. Für die Analyse der Gattung ‘biografischer Roman’ wurde „Das schönste der Welt“ gewählt, das das Leben des italienischen Impressionisten Segantini dargestellt hat. Die Gattung ‘Kriminalroman’ umfasst Conan Doyles „Sherlock Holmes“ und Neuhausens „Wer Wind sät“. Als ‘Autobiografie’ wurden die Autobiografien von Hillary Clinton und Michelle Obama analysiert. Neben Shakespeares „Romeo und Julia“ wurde Lessings „Emilia Galotti“ für die Gattung ‘Theaterstück’ verwendet. Als ‘Historische Texte’ wurden Yuval Noah Hararis „Eine kurze Geschichte der Menschheit (Sapiens)“ und Charles Van Dorens „Geschichte des Wissens“ für die Stimmungsanalyse ausgewählt. Insbesondere wurden Korpora einbezogen, um die Gattungen ‘Werbeslogan’ und ‘Liebesroman’ zu analysieren. Das Korpus der Werbeslogans beträgt die Größe 90.567 Wörter (15.757 Slogans). Andererseits beträgt das Korpus des Liebesromans die Größe 906.249 Wörter. Was weitere spezielle Korpora betrifft, werden das Korpus der Werbeslogans und das Gesicht-Korpus mit Daten über Polysemie vorgestellt und es wird gezeigt, wie sie für linguistische Untersuchungen nutzbar gemacht werden.
Jan Oliver Rüdiger (Leibniz-Institut für Deutsche Sprache, Mannheim)
Einführung in den CorpusExplorer
Mittwoch 16.12.2020, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
Der CorpusExplorer ist eine OpenSource Software für Korpuslinguist*innen und Text-/Data-Mining-Interessierte. Der CorpusExplorer vereint über 50 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dieser Vortrag führt zuerst in die Grundlagen ein, zeigt dann aber auch, wie die Shell/Konsole verwendet werden kann, um z. B. den CorpusExplorer aus R/Python heraus zu nutzen.
Jun.-Prof. Dr. Stefan Hartmann (Heinrich-Heine-Universität Düsseldorf)
Collostructional analysis: A short primer
Mittwoch 09.12.2020, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)
In this talk, I give a brief overview over collostructional analysis, a family of methods measuring associations and dissociations proposed by Stefanowitsch & Gries (2003, 2005) and Gries & Stefanowitsch (2004). The first part of the talk introduces the theoretical foundations of the method as well as its operationalization. In addition, its relation to other methods such as Schmid’s (2000) “attraction” and “reliance” is discussed, and some frequent criticisms that the method has attracted are addressed (Bybee 2010, Gries 2012, Schmid & Küchenhoff 2013, Gries 2015, Küchenhoff & Schmid 2015). The second, more practically-oriented part offers a hands-on tutorial using Flach’s (2017) R package collostructions.
References
Bybee, Joan L. 2010. Language, Usage and Cognition. Cambridge: Cambridge University Press.
Flach, Susanne. 2017. collostructions: An R Implementation for the Family of Collostructional Methods.
Gries, Stefan Th. 2012. Frequencies, probabilities, and association measures in usage-/examplar-based linguistics. Some necessary clarifications. Studies in Language 11(3). 477–510.
Gries, Stefan Th. 2015. More (old and new) misunderstandings of collostructional analysis: On Schmid and Küchenhoff (2013). Cognitive Linguistics 26(3). 505–536.
Gries, Stefan Th. & Anatol Stefanowitsch. 2004. Extending Collostructional Analysis: A Corpus-Based Perspective on “Alternations.” International Journal of Corpus Linguistics 9(1). 97–129.
Schmid, Hans-Jörg. 2000. English Abstract Nouns as Conceptual Shells: From Corpus to Cognition. . Vol. 34. Berlin, New York: De Gruyter.
Stefanowitsch, Anatol & Stefan Th. Gries. 2003. Collostructions: Investigating the Interaction of Words and Constructions. International Journal of Corpus Linguistics 8(2). 209–243.
Stefanowitsch, Anatol & Stefan Th Gries. 2005. Covarying Collexemes. Corpus Linguistics and Linguistic Theory 1(1). 1–43.
Küchenhoff, Helmut & Hans-Jörg Schmid. 2015. Reply to “More (old and new) misunderstandings of collostructional analysis: On Schmid & Küchenhoff” by Stefan Th. Gries. Cognitive Linguistics 26(3). 537–547.
Schmid, Hans-Jörg & Helmut Küchenhoff. 2013. Collostructional Analysis and other Ways of Measuring Lexicogrammatical Attraction: Theoretical Premises, Practical Problems and Cognitive Underpinnings. Cognitive Linguistics 24(3). 531–577.
Programm im WS 2019/20
Andreas Blombach (FAU)
Wie verständlich sind linguistische Fachtexte?
Mittwoch 29.01.2020, 16:15–17:45, Bismarckstr. 12, Raum 0.320
Wer einen Text liest, den er nicht oder nur schwer versteht, hält sich womöglich für zu dumm dafür. Wieder andere unterstellen dagegen vielleicht dem Verfasser, sein Thema nicht wirklich durchdrungen zu haben – andernfalls könnte er es ja einfacher darstellen. In jedem Falle ist etwas schiefgelaufen.
Der Vortrag beschäftigt sich u.a. mit folgenden Fragen: Was ist Verständlichkeit eigentlich? Wie lässt sich das messen? Welche Eigenschaften von Texten wirken sich darauf aus? Und welche Rolle spielt der Leser dabei?
Dazu sollen zunächst in groben Zügen die Geschichte und Erkenntnisse der Verständlichkeitsforschung nachgezeichnet werden, ehe Zwischenergebnisse einer eigenen Untersuchung zur (Un-)Verständlichkeit linguistischer Fachtexte vorgestellt werden.
Prof. Dr. Susanne Liebmann-Wurmer (Erlangen) & Prof. Dr. Stefan Evert (Erlangen)
Kunstpädagogin trifft auf Computerlinguist: Wie tickt eigentlich ein/e …?
Mittwoch 06.11.2019, 18:15–20:00, Bismarckstr. 1a, Kleiner Hörsaal
Treffen sich eine Kunstpädagogin und ein Computerlinguist … Was wie der Beginn eines Witzes anmutet, ist Programm bei der Veranstaltungsreihe „Wie tickt eigentlich ein/e …?“ des Zentralinstituts für Wissenschaftsreflexion und Schlüsselqualifikationen (ZiWiS) der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU): Prof. Dr. Susanne Liebmann-Wurmer und Prof. Dr. Stefan Evert, werden am Mittwoch, 6. November, um 18.15 Uhr, im Kleinen Hörsaal, Bismarckstraße 1a, in kurzen Impulsvorträgen erläutern und diskutieren, wie ihr jeweiliges Fach „tickt“.
Was sind die grundlegenden Methoden des Fachs und wie sieht der Forschungsalltag aus? Was sind zentrale Begriffe und Fragestellungen? Wo bestehen Schnittstellen zu anderen Fächern? Nach kurzen Impulsen werden diese und andere Fragen gemeinsam mit dem Publikum diskutiert.
Das Format gibt Einblicke in die Arbeitsweise anderer, auch – vermeintlich – fachlich weit entfernter Disziplinen. Dadurch können Interessierte die eigenen Vorstellungen einem Realitätscheck unterziehen. Wissenschaftlerinnen und Wissenschaftler entdecken vielleicht neue interdisziplinäre Potenziale an der Volluniversität FAU.
Oleg Harlamov (BA LingInf)
Corpus Query Lingua Franca, Teil 2 (CQLF-2): Eine Ontologie für Korpusabfragesprachen
Mittwoch 30.10.2019, 16:15–17:45, Bismarckstr. 12, Raum 0.320
Oleg Harlamov stellt seine Forschungsarbeiten im Rahmen eines Praktikums am Lehrstuhl für Korpus- und Computerlinguistik sowie eines laufenden Bachelorarbeitsprojekts vor. Er arbeitet dabei eine Ontologie für Korpusabfragesprachen am Beispiel des Corpus Query Processor (CQP) aus, die in den in Entwicklung befindlichen ISO/DIN-Standard CQLF-2 einfließen wird.
Programm im SS 2019
Dr. Sascha Wolfer (Leibniz-Institut für Deutsche Sprache, Mannheim)
Verständlichkeit juristischer Fachtexte: Eyetracking-Korpora in der Verständlichkeitsforschung
Mittwoch, 17.07.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)
Dass die meisten juristischen Texte schwer verständlich sind, ist vermutlich einigermaßen unumstritten. Aus dieser Einsicht können wir leicht ableiten, dass sie hinsichtlich ihrer Verständlichkeit optimiert werden sollten. Im Vortrag werde ich vorstellen, wie mit Reformulierungen auf drei linguistischen Ebenen (Nominalisierungen, komplexe Nominalphrasen, exzessiv eingebettete Sätze) die Verarbeitung juristischer Texte zumindest im Ansatz erleichtert werden kann.
Auf methodischer Ebene werde ich zeigen, wie Eyetracking- oder Lesekorpora erstellt und ausgewertet werden. Dabei lasse ich mich von den folgenden Fragen leiten: Was unterscheidet Eyetracking-Korpora von „klassischen“ linguistischen Korpora? Wie gehen wir vor, wenn wir Eyetracking-Korpora auswerten bzw. linguistische Aussagen aus ihnen ableiten? Welchen Herausforderungen stehen wir gegenüber, wenn wir Eyetracking-Korpora natürlicher Texte erstellen und auswerten?
Auf einem „Nebenschauplatz“ des Vortrags werde ich die Konzepte Lesbarkeit und Verständlichkeit gegenüberstellen. Auch der Verstehensprozess und das Verstehensprodukt werde ich auf konzeptueller Ebene vergleichen und (hoffentlich) verbinden. Ich möchte schließen mit etwas „Werbung“ für ein für die wissenschaftliche Forschung verfügbares Eyetracking-Korpus, das aus populärwissenschaftlichen Texten zusammengestellt wurde.
Daniel Rieß (doctima GmbH, Alumnus der Linguistischen Informatik)
Die Welt der Technischen Redaktion
Mittwoch, 26.06.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)
In dem Vortrag wird doctima (Dienstleistungen in Technische Dokumentation, Content Management, Softwareentwicklung) und die Branche kurz vorgestellt. Dabei werden insbesondere computerlinguistische Inseln im Arbeitsalltag gezeigt, d. h. die Aufgaben, bei denen Wissen aus Computer- bzw. Korpuslinguistik von Vorteil ist und für Studierende interessant sein können.
Dr. Besim Kabashi (Lehrstuhl für Korpus- und Computerlinguistik, FAU)
Kollokationen im Albanischen
Mittwoch, 05.06.2019, 16:30–18:00, Bismarckstr. 12 (Raum 0.320)
Im Vortrag wird über die Arbeit berichtet, ein Wörterbuch des Albanischen zu kompilieren. Zu Beginn wird allgemein auf das Thema Kollokationen eingegangen. Anschließend werden die Arbeitsschritte besprochen, die bei der Zusammenstellung des Wörterbuches notwendig sind, u.a. die Datenquellen, Arbeitsmethoden und Werkzeuge, sowie die Auswahl der Lemmata und ihrer Typen.
Lukas Sönning & Dr. Stefan Hartmann (Universität Bamberg)
The English comparative alternation revisited: A fresh look at theory and data
Mittwoch, 29.05.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)
Lukas Sönning und Stefan Hartmann stellen in ihrem Vortrag ein Korpusprojekt zu alternativen Komparativbildungen (nicht Fakten) im Englischen vor (deadlier vs. more deadly usw.). Dabei werfen sie methodische Grundsatzfragen auf und nutzen korpusbasierte Methoden, um vorherrschende Ansichten in der bisherigen Forschung ein wenig in Frage zu stellen und neue Erklärungsansätze vorzuschlagen.