Dr. Ngoc Duyen Tanja Tu
Function
- Postdoctoral researcher in the Department Grammar
Task area
- Researcher in the project Sprachanfragen
- Researcher in the project (Semi-)Automatisierte thematische Textklassifikation
Board activities
- Executive board member of the association "DHd – Association for Digital Humanities in the German Speaking Areas"
- Co-spokesperson of the Leibniz PostDoc Network
Personal data
- October 2022: Research fellow at the Trier Center for Digital Humanities in the project "Zeta and company. Measures of Distinctiveness for Computational Literary Studies" (Project leader: Prof. Dr. Christof Schöch); funded by the "Young Researcher Visiting Programme" of the DFG Priority Programme "Computational Literary Studies"
- 2019-2022: Dissertation project in German Linguistics and Media Studies at the University of Mannheim with a work on "Eine korpuslinguistische Untersuchung zur lexikalischen Vielfalt von direkten und indirekten Redeeinleitern" (Supervisor: Prof. Dr. Stefan Engelberg, Prof. Dr. Carolin Müller-Spitzer)
- since February 2017: Researcher at the Leibniz Institute for the German Language
- 2014-2016: Students assistant at the Chair of Psychology of Education, University of Mannheim in the DFG-funded project "Lernen mit Animationen im Vergleich zu Standbildern: Extrahieren vs. Inferieren von Informationen über dynamische Zusammenhänge"
- 2011-2017: German Studies and Computer Science at the University of Mannheim (degree: 1. Staatsexamen für das Lehramt an Gymnasien)
Research interests
- (Quantitative) corpus linguistics
- Large Language Models
- Machine Learning
- Natural Language Processing
Award
- Thierry Declerck Prize (Best paper award) for the paper "Making Non-Normalized Content Retrievable – A Tagging Pipeline for a Corpus of Expert–Layperson Texts"
Lectures
Current selection:
- Module A3 'Modeling and representing data in Digital Lexicography', European Master in Lexicography (EMLex), Blockseminar, SoSe 2024, Universität Hildesheim
Publications
Current selection:
- Tu, Ngoc Duyen Tanja / Brunner, Annelen / Lang, Christian (Hg.) (2025):
- Journal for Language Technology and Computational Linguistics 38(2). Special Issue: LLM fails – Failed experiments with generative AI and what we can learn from them. Hildesheim: Gesellschaft für Sprachtechnologie und Computerlinguistik.
→IDS-Publikationsserver →Text - Tu, Ngoc Duyen Tanja (2025):
- Eine Vorstudie zur Eignung von Llama 3-8B für eine Sentimentanalyse. In: Reiter, Nils / Haider, Thomas / Kababgi, Daniel / Buschmeier, Hendrik (Hg.): Book of Abstracts. DHd 2025: Under Construction. 11. Jahrestagung des Verbands Digital Humanities im deutschsprachigen Raum e.V.. Universität Bielefeld und HSBI, 3.–7. März 2025, Bielefeld, Deutschland. Genf: Zenodo. S. 165-169.
→IDS-Publikationsserver →Verlag - Lang, Christian / Schneider, Roman / Tu, Ngoc Duyen Tanja (2024):
- Automatic Question Answering for the Linguistic Domain – An Evaluation of LLM Knowledge Base Extension with RAG. In: Rapp, Amon / Di Caro, Luigi / Meziane, Farid / Sugumaran, Vijayan (Hg.): Natural Language Processing and Information Systems. (= Lecture Notes in Computer Science 14763). Cham: Springer. S. 161-171.
→IDS-Publikationsserver →Verlag - Brunner, Annelen / Tu, Ngoc Duyen Tanja / Weimer, Lukas (2024):
- Das kleine Wörterbuch der Redeeinleiter. In: Weiss, Joëlle / Bunout, Estelle / Haider, Thomas / Helling, Patrick (Hg.): Digital Humanities im deutschsprachigen Raum 2024, Passau, Deutschland, 26.02.2024-01.03.2024. Zenodo. 2 S.
→IDS-Publikationsserver →Verlag - Tu, Ngoc Duyen Tanja (2024):
- Eine korpuslinguistische Untersuchung zur lexikalischen Vielfalt von direkten und indirekten Redeeinleitern. (= IDSopen 6). Mannheim: IDS-Verlag.
Talks
Current selection:
- Tu, Ngoc Duyen Tanja:
- Is Llama 3-8b a reliable annotator for a sentiment analysis?LLM fails. Gescheiterte Experimente mit Generativer KI und was wir daraus lernen können.
9.4.2025, IDS Mannheim - Tu, Ngoc Duyen Tanja:
- Eine Vorstudie zur Eignung von Llama 3-8B für eine Sentimentanalyse. 11. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum".
5.3.2025, Hochschule Bielefeld - Lang, Christian / Tu, Ngoc Duyen Tanja / Schneider, Roman:
- Posterpräsentation: Wissen, wen man fragt – Agentic RAG für Automatisches Question Answering in der Domäne deutscher Grammatik. Text+ Plenary: Große Sprachmodelle (LLMs) und deren Nutzung.
10.10.2024, Universität Mannheim - Tu, Ngoc Duyen Tanja:
- Textanalyse mit Llama 3-8B am Beispiel von Sprachanfragen zur geschlechtergerechten Schreibung. Gesprächsrunde.
31.7.2024, IDS Mannheim, Vortragssaal - Lang, Christian / Schneider, Roman / Tu, Ngoc Duyen Tanja:
- Automatic question answering for the linguistic domain – An evaluation of LLM knowledge base extension with RAG. 29th International Conference on Natural Language & Information Systems (NLDB).
25.6.2024, Universität Turin, Italien