Zum Inhalt springen

Mit Mathe-Magie versteckten Informationen auf der Spur

von Oliver Rolle, Data Scientist

Mit Mathe-Magie versteckten Informationen auf der Spur

von Oliver Rolle, Data Scientist

Zur Berichtssaison veröffentlichen börsennotierte Unternehmen tausende Seiten Quartals- und Jahresberichte. Kaum ein Mensch kann diese Menge an Texten lesen, die von Jahr zu Jahr immer länger werden. Eine magische Texterkennung, die interessante Bereiche herausfiltert, wäre die Lösung.

In etwa so:

Hat das Unternehmen Zahlungsverpflichtungen, die es in Liquiditätsprobleme bringen könnte? – Blutrot

Welche Textstellen wurden von Juristen geschrieben? – Rot

Wo üben Konkurrenten Druck aus? – Orange

Wo gab es textuelle Veränderungen zum Vorjahr? – Blau

Gibt es positive Überraschungen? – Grün

„Word Embeddings“ ist eine dieser magischen Texterkennungen, die Wörter oder Formulierungen erkennt und herausfiltert. Embeddings nutzt eine Art Landkarte (Künstliche Intelligenz Modell), um nach bestimmten Wörtern und Bedeutungen zu suchen. Dazu werden alle Wörter einer Textquelle auf einer Landkarte der Nähe zueinander sortiert.

In Texten über „Autos“ wird mehr über „Räder“ gesprochen als über „Eiscreme“. Das heißt, auf der sortierten Landkarte liegt „Räder“ näher an „Autos“ als an „Eiscreme“. Der „Eiswagen“ liegt zwischen „Eiscreme“ und „Autos“.

Das magische an Embeddings ist, dass es durch die relative Positionierung der Wörter zueinander deren Bedeutung einfängt. So entstehen Wort-Wolken mit Wörtern ähnlicher und verwandter Bedeutung. Innerhalb der Wort-Wolke um das Wort „Rad“ findet man „Bremse“, „Reifen“, „Auto“ und „LKW“ [1].

Die Mathe-Magie geht noch weiter. Wir können nach Beziehungen zwischen Wörtern suchen. So suchen wir die Beziehung zwischen „Deutschland“ und „Berlin“. Auf der Landkarte legen wir ein Lineal zwischen die Worte „Deutschland“ und „Berlin“ und messen die Distanz und Richtung des Lineals. Nun legen wir das Lineal mit derselben Richtung an das Wort „Frankreich“ an und finden bei der zuvor gemessenen Distanz das Wort „Paris“ [2].

Die Herausforderung hierbei ist, die Landkarte für die jeweilige Anwendung richtig zu berechnen. In unserer Anwendung erkennt das Modell verschiedene Arten von Unternehmensrisiken, markiert diese Textstellen in Berichten und warnt unsere Analysten und Portfoliomanager, falls wir das Unternehmen in unseren Portfolios halten.

Diese Machine Learning Technik wird von ACATIS Investment aktuell erforscht und perfektioniert, sodass sie hoffentlich bald Anwendung im Portfoliomanagement findet.
 

[1] Verwandte Worte (Englische Sprache): http://vectors.nlpl.eu/explore/embeddings/en/similar/#

[2] Mit Worten rechnen: http://vectors.nlpl.eu/explore/embeddings/en/calculator/
Siehe auch die Beispielgrafiken. (Quelle: https://nlp.stanford.edu/projects/glove/)


Für den Bericht gilt unter Disclaimer.

Foto: Oliver Rolle

Beispielgrafiken zu [2] Mit Worten rechnen