About ten years ago, researchers in business economics started using textual analysis methods to analyze the verbal content of documents. In the field of finance, Tetlock (2007) is regarded as one of the “milestone” contributions. The paper analyzes the relation between the tone of the daily Wall Street Journal column “Abreast of the Market” and stock market returns over the subsequent days. In this course, students will learn how textual analysis methods work and how they can be implemented using Python.

The first part will introduce students to prominent papers on textual analysis. The lecturer will discuss the most commonly used methods for textual analysis, e.g. simple word count and Naïve Bayes.

In the second part, the most commonly used text databases will be presented. For instance, the EDGAR (Electronic Data Gathering, Analysis, and Retrieval System) of the Security and Exchange Commission (SEC) will be introduced.

The third and largest part of the course deals with the implementation of textual analysis methods introduced in the first part using the programming language Python. Furthermore, the students will use Python to obtain data from the databases introduced in the second part (e.g. from the EDGAR system).

As Part 3 starts with a general introduction to Python, it is not required to have any previous knowledge or experience with Python.

The course explicitly targets students from all disciplines. Having some basic knowledge of economics is helpful but not required.

For the programming problems, participants need a computer or notebook with the software “Anaconda”. “Anaconda” provides a handy user interface for Python and includes additional Python packages. It is available for free at https://www.anaconda.com/download/. Version 3.6 of Python (and not 2.7) is recommended for the course. “Anaconda” is available as a 32-bit or 64-bit version.

Introductory literature

Loughran, T., and B. McDonald (2016). Textual analysis in accounting and finance: A survey. Journal of Accounting Research, 54(4), 1187-1230.

Qualification objective

The students will learn to implement the following procedures in Python

  • Download documents and files automatically from the internet
  • Edit text documents and search for information in documents using regular expressions
  • Perform a dictionary-based textual analysis
  • Determine measures of readability and document complexity
  • Introduction to machine learning

The overall goal of the course is to provide students with the knowledge and tools to apply the procedures mentioned above to their research projects.


Promotionsverfahren stellen eine besondere Form akademischer Prüfungen dar, denen eine mehrjährige Forschungsphase vorangeht. Der Erfolg von Promotionen hängt dabei nicht nur davon ab, ob Promovierende geeignet und ausreichend motiviert für diese Forschungsleistung sind. Vielmehr kann gerade eine gelungene Promotionsbetreuung eine vielfältige Unterstützung bieten, die den Ausschlag zwischen Erfolg und Misserfolg geben kann. Der Workshop verfolgt das Ziel, einen Austausch über die Vielfalt bestehender Praktiken in der Promotionsbetreuung zu ermöglichen und einen Dialog über best practices und Herausforderungen der Betreuung herzustellen. Er dient den beteiligten Wissenschaftler/innen als Forum der Selbstverständigung bezüglich ihrer aktuellen Betreuerrolle und vermittelt Grundlagen gegenwärtiger Professionalisierungstendenzen auf dem Feld der Promotionsbetreuung.

 

Themen sind u.a.

o   aktuelle hochschulpolitische Entwicklungen im Feld der Promotion

o   Qualität im Betreuungsprozess

o   Gestaltung und Weiterentwicklung der eigenen Rollen in der Promotionsbetreuung

o   Herausforderungen im Betreuungsverhältnis

o   Werkzeuge der Promotionsbetreuung

o   Rechtsfragen der Promotionsbetreuung (einschließlich WissZeitVG)


Kursbeschreibung

Vor etwa zehn Jahren hat im Bereich der Wirtschaftswissenschaften die Anwendung von Textanalysemethoden zum Quantifizieren von verbaler Information angefangen. Im Bereich der Finanzwirtschaft war dabei das Papier von Tetlock (2007), das den Zusammenhang zwischen dem Ton einer täglich erscheinenden Zeitungskolumne und Aktienmarktrenditen analysiert, ein sehr einflussreiches Papier. In diesem Kurs werden die Teilnehmer lernen, wie Textanalyseverfahren funktionieren und wie man sie in Python implementiert.

Im ersten Teil des Kurses werden ausgewählte Papiere vorgestellt, anhand derer die verschiedenen Textanalyseverfahren und das grundsätzliche Vorgehen erläutert werden. Im zweiten Teil werden ausgewählte Datenquellen/Datenbanken, die häufig in textbezogenen Studien verwendet werden, präsentiert. Im dritten und größten Teil des Kurses lernen die Teilnehmer durch selbstständiges Programmieren in Python, wie man die in Teil 1 besprochenen Verfahren und die in Teil 2 besprochenen Datenquellen in der Praxis umsetzt.

Der Kurs setzt keine Vorkenntnisse im Bereich der Programmierung voraus. Teil 3 des Kurses startet mit einer grundlegenden Einführung in Python. Der Kurs richtet sich explizit auch an Teilnehmer, die nicht aus dem Bereich der Wirtschaftswissenschaften kommen. Ein Grundverständnis von wirtschaftlichen Zusammenhängen ist hilfreich, aber nicht erforderlich.

Für die Programmieraufgaben in Teil 3 wird ein Laptop oder Computer benötigt. Auf diesem sollte die Software „Anaconda“ installiert sein. „Anaconda“ bietet eine übersichtliche Benutzeroberfläche für Python und beinhaltet zudem Zusatzmodule für Python. Die Software ist kostenlos unter folgendem Link verfügbar: https://www.continuum.io/downloads. Für den Kurs ist zudem empfohlen Python Version 3.6 (und nicht 2.7) zu verwenden. „Anaconda“ steht sowohl als 32-bit als auch als 64-bit Version zur Verfügung.

Einstiegsliteratur:
Loughran, T., and B. McDonald (2016). Textual analysis in accounting and finance: A survey. Journal of Accounting Research, 54(4), 1187-1230.

 

Qualifikationsziel

Die Teilnehmer lernen folgende Verfahren in Python zu implementieren:

1. Automatisiertes Herunterladen von Texten/Dateien aus dem Internet

2. Aufbereiten und Durchsuchen von Textdokumenten, u.a. mit regulären Ausdrücken

3. Auf Wortlisten basierende Textanalysen

4. Berechnung von Maßen zur Lesbarkeit/Komplexität von Texten

5. Einstieg in maschinelles Lernen

Das Gesamtlernziel des Kurses ist, dass die Teilnehmer nach Abschluss des Kurses in der Lage sind, die unter Punkt 1 bis 5 erlernten Methoden auf ihren Forschungsbereich zu adaptieren und dort für ihre Fragestellungen anwenden können.