Systematischer Literaturüberblick

Insolvenzprognose in der Literatur

Die Forschung zur Insolvenzprognose reicht von univariaten Kennzahlenanalysen der 1960er Jahre bis hin zu modernen Large Language Models. Diese Seite bietet einen strukturierten Überblick — von den historischen Meilensteinen bis zum systematischen 8-Schritte-Prozess der datengetriebenen Modellierung.

0

Jahre Forschungsgeschichte
0

Studien im Literaturüberblick
0

ML-Algorithmen verglichen
0

% Genauigkeit (State of Art)
Historische Entwicklung

Von Beaver bis BERT — 60 Jahre Forschungsgeschichte

1966
William Beaver
Univariate Kennzahlenanalyse
Erste statistische Methode zur Insolvenzprognose. Beaver analysierte 30 Finanzkennzahlen für 158 Unternehmen — der Grundstein der modernen Forschung.

90% Genauigkeit (1 Jahr vor Insolvenz)

1968
Edward I. Altman
Z-Score / Multivariate Diskriminanzanalyse
Revolutionäres Modell mit 5 Finanzkennzahlen. Bis heute das meistzitierte Modell der Insolvenzprognose — in 70% aller nachfolgenden Studien referenziert.

94% Genauigkeit (1 Jahr)

1980
James Ohlson
O-Score / Logistische Regression
Erstmals Logit-Modell mit 9 Faktoren auf Basis von über 2.000 Unternehmen — ohne Pair-Matching. Genauer als der Z-Score bei 2-Jahres-Prognosen.

Verbesserte Langfristprognose

1984
Zmijewski
Probit-Modell
Methodenkritik und Probit-basiertes Alternativmodell mit 3 Indikatoren: Nettoeinkommen/Aktiva, Verbindlichkeiten/Aktiva, Umlaufvermögen/kurzfristige Verbindlichkeiten.

Methodische Grundlage

2001
Shumway
Hazard-Modelle (Dynamisch)
Zeitabhängige Überlebenszeitanalyse — erstmals dynamische Modellierung der Insolvenzwahrscheinlichkeit über mehrere Perioden hinweg.

Dynamische Prognose

2000er
Verschiedene Autoren
ML-Ära: SVM, ANN, Random Forest
Support Vector Machines, Neuronale Netze und Ensemble-Methoden übertreffen klassische Modelle — besonders bei nichtlinearen Zusammenhängen und großen Datensätzen.

Bis zu 96% Genauigkeit

2019
Mai et al.
Deep Learning & Textdaten
Erstmals Deep Learning auf Basis von Offenlegungstexten börsennotierter US-Unternehmen — Texte allein überraschend präzise bei der Insolvenzprognose.

NLP-Pionierarbeit

2023+
Aktuelle Forschung
LLMs, BERT & Hybrid-Modelle
BERT, Mixtral und Hybrid-Ansätze kombinieren strukturierte Finanzdaten mit unstrukturierten Texten. Fokus auf KMU und nicht-börsennotierte Unternehmen wächst.

State of the Art

Systematischer Prozess

Die 8 Schritte der datengetriebenen Insolvenzprognose

1
Datenbeschaffung

Data Acquisition

Die Grundlage jedes Insolvenzprognosemodells ist ein hochwertiger, repräsentativer Datensatz. Für nicht-börsennotierte KMU ist dies besonders herausfordernd, da weniger Offenlegungspflichten bestehen. Typische Quellen sind Handelsregister, Kreditauskunfteien (z.B. KSV1870), statistische Ämter und Nachrichtenquellen.
Herausforderungen
Datenverfügbarkeit, Zeitverzögerungen bei Veröffentlichung, Qualitätsschwankungen, Stichprobenverzerrung durch Pair-Matching
Im Projekt
KSV1870-Datenbank: 1,7M+ Bilanzen österreichischer AGs & GmbHs, 1995–2022, inkl. Insolvenzinformationen
Datentypen
Bilanzen, GuV, Insolvenzregister, Makrodaten (Eurostat), Nachrichtenartikel (Google News)
Best Practices
Längsschnittdaten bevorzugen, Zeitverzögerungen dokumentieren, Klassenungleichgewicht berücksichtigen
2
Datenanalyse & Vorverarbeitung

Data Preprocessing

Rohdaten enthalten typischerweise fehlende Werte, Ausreißer und Inkonsistenzen. Dieser Schritt umfasst explorative Datenanalyse (EDA), Behandlung fehlender Werte, Normalisierung, Ausreißerdetektion und Behandlung des Klassenungleichgewichts — bei Insolvenzdaten typischerweise 1–5% insolvente Unternehmen.
Fehlende Werte
Imputation (Mittelwert, Median, KNN), Deletion oder Schätzmethoden basierend auf Branchendurchschnitt
Klassenungleichgewicht
SMOTE (Synthetic Minority Oversampling), Undersampling, Cost-Sensitive Learning — entscheidend für faire Modelle
Normalisierung
Min-Max-Skalierung, Z-Score-Standardisierung, Winsorizing für Extremwerte
Zeitverzögerung
Für nicht-börsennotierte KMU: Berücksichtigung der Publikationsverzögerung von Jahresabschlüssen (oft 12–18 Monate)
3
Parameterselektion

Feature Selection

Nicht alle verfügbaren Kennzahlen sind für die Prognose relevant — zu viele irrelevante Features verschlechtern die Modellperformance (Fluch der Dimensionalität). Drei Hauptansätze: Filter-Methoden (z.B. Korrelationsanalyse), Wrapper-Methoden (z.B. Recursive Feature Elimination) und Embedded-Methoden (z.B. LASSO, Random-Forest-Importance).
Filter-Methoden
Chi²-Test, ANOVA, Korrelationsmatrix, Information Gain — schnell, unabhängig vom Modell
Wrapper-Methoden
RFE (Recursive Feature Elimination), Forward/Backward Selection — hohe Genauigkeit, rechenintensiv
Embedded-Methoden
LASSO-Regularisierung, Ridge-Regression, Random-Forest-Feature-Importance — integriert in Modelltraining
Dimensionsreduktion
PCA (Principal Component Analysis), LDA — Interpretierbarkeit geht verloren, aber Overfitting wird reduziert
4
Feature Engineering

Feature Engineering

Neue, aussagekräftigere Merkmale aus Rohdaten konstruieren. Bei Insolvenzprognosen werden typischerweise Finanzkennzahlen (Liquidität, Leverage, Profitabilität, Aktivität) berechnet. Für nicht-börsennotierte KMU sind makroökonomische Ratios und Veränderungsraten besonders wertvoll, da Marktdaten fehlen.
Liquiditätskennzahlen
Current Ratio, Quick Ratio, Working Capital/Aktiva — Kurzfristige Zahlungsfähigkeit
Leverage-Kennzahlen
Verschuldungsgrad, Eigenkapitalquote, Debt-to-EBITDA — Kapitalstruktur und Schuldentragfähigkeit
Profitabilitätskennzahlen
ROA, ROE, EBIT-Marge, Retained Earnings/Aktiva — Ertragskraft und Wachstumspotenzial
NLP-Features
Sentiment-Score, Topic-Embeddings, Häufigkeit negativer Berichterstattung — aus Nachrichtenartikeln via BERT/Mixtral
5
Datensatzgenerierung

Dataset Generation

Vorbereitung des finalen Trainings- und Testdatensatzes. Dieser Schritt definiert die Ausfallsdefinition (Insolvenzanmeldung, URG-Verfahren, Zahlungsverzug), den Beobachtungszeitraum (1-Jahres-, 2-Jahres-Prognose) und die Train/Test/Validation-Aufteilung. Für KMU-Prognosen ist die Handhabung der zeitlichen Dimension kritisch.
Ausfallsdefinition
Insolvenzanmeldung, URG-Kriterien (§22 URG: negatives EK + Überschuldung), Zahlungsrückstand >90 Tage (Basel-Definition)
Train/Test-Split
Typisch: 70/30 oder 80/20, zeitbasierter Split für Zeitreihendaten (kein zufälliges Splitting!)
Cross-Validation
K-Fold CV (k=5 oder k=10), Stratified CV bei Klassenungleichgewicht, Walk-Forward-Validation für Zeitreihen
Österreichischer Kontext
URG §22: Reorganisationsbedarf bei Eigenkapitalquote <8% und fiktiver Schuldentilgungsdauer >15 Jahre
6
Modellierung

Modelling

Training und Kalibrierung der Prognosemodelle. Die Literatur zeigt einen klaren Trend: Ensemble-Methoden und Deep-Learning-Ansätze übertreffen klassische Modelle bei ausreichend Daten. Für KMU-Daten mit limitierter Datenverfügbarkeit performen traditionelle Modelle jedoch oft konkurrenzfähig und sind regulatorisch besser akzeptiert.
Traditionelle Statistik
Logistische Regression (dominant in der Literatur), Multivariate Diskriminanzanalyse, Probit-Modelle
Machine Learning
Random Forest, Support Vector Machines (SVM), Künstliche Neuronale Netze (ANN), Gradient Boosting (XGBoost)
NLP-Integration
BERT-Embeddings, Mixtral-8x7B für Sentiment-Features, Transformer-basierte Textklassifikation
Hyperparameter-Tuning
Grid Search, Random Search, Bayesian Optimization — entscheidend für optimale Modellperformance
7
Evaluierung

Model Evaluation

Bewertung der Modellqualität anhand geeigneter Metriken. Bei Insolvenzprognosen ist Accuracy allein unzureichend — aufgrund des Klassenungleichgewichts. Entscheidend sind Type-I-Fehler (nicht-insolventes Unternehmen als insolvent klassifiziert) und Type-II-Fehler (insolventes Unternehmen als gesund klassifiziert) — letzterer ist für Kreditgeber gravierender.
Primäre Metriken
AUC-ROC (Diskriminanzfähigkeit), F1-Score, Precision, Recall — robuster als pure Accuracy
Fehlertypen
Type I: False Positive (gesundes Unternehmen als insolvent) / Type II: False Negative (insolventes als gesund) — asymmetrische Kosten
Konfusionsmatrix
TP, TN, FP, FN — Basis für alle abgeleiteten Metriken und Kostenanalysen
Backtesting
Validierung mit historischen Daten über mehrere Zeitfenster — prüft Generalisierbarkeit und Stabilität
8
Modellvergleich

Model Comparison

Systematischer Vergleich aller Modelle unter identischen Bedingungen — gleiche Datensätze, gleiche Kreuzvalidierung, gleiche Metriken. Die Literatur zeigt: Ensemble-Methoden (Random Forest, XGBoost) und hybride Ansätze übertreffen klassische Modelle meist, sind aber schwerer interpretierbar (Black-Box-Problem), was bei regulatorischen Anforderungen kritisch ist.
Statistische Tests
McNemar-Test, DeLong-Test für AUC-Vergleiche — Signifikanzüberprüfung der Leistungsunterschiede
Interpretierbarkeit
SHAP-Values (SHapley Additive exPlanations), LIME — Erklärbarkeit von Black-Box-Modellen für Regulatoren
Robustheitsprüfung
Externe Validierung auf Hold-out-Datensätzen, Stress-Tests mit Krisenzeiträumen (COVID-19, Finanzkrise)
Benchmarks
Vergleich mit Altman Z-Score und Ohlson O-Score als etablierte Baselines — für Einordnung in die Literatur
Prädiktoren

Variablen in der Insolvenzprognose

Finanzkennzahlen (Strukturiert)

Liquidität: Current Ratio, Quick Ratio
Leverage: Verschuldungsgrad, EK-Quote
Profitabilität: ROA, ROE, EBIT-Marge
Aktivität: Kapitalumschlag, Lagerreichweite
Wachstum: Umsatz- und Bilanzsummenveränderung
Altman Z-Score Komponenten (X1–X5)

Nicht-Finanzielle Variablen

Unternehmensalter und -größe
Branche (NACE-Klassifikation)
Region (NUTS-3-Ebene)
Rechtsform und Eigentumsstruktur
Anzahl der Mitarbeiter
Prüfungsurteil (Auditor Opinion)

Makro- & Textdaten (Unstrukturiert)

BIP-Wachstum, Inflationsrate
Zinssätze (EZB-Leitzins, EURIBOR)
Arbeitslosenquote (regional, sektoral)
Sentiment aus Nachrichtenartikeln
Topic-Modelling (Restrukturierung, Klage)
Bruttowertschöpfung (Eurostat, NACE)
Modellgüte

Die wichtigsten Evaluierungsmetriken

AUC-ROC
Area under ROC Curve
Goldstandard bei Klassenungleichgewicht. Misst die Fähigkeit des Modells, Insolvente von Nicht-Insolventen zu trennen. Wert 0,5 = Zufall, 1,0 = perfekt.
Precision
TP / (TP + FP)
Anteil korrekt als insolvent klassifizierter Unternehmen an allen als insolvent klassierten. Relevant für Kreditgeber: Wie viele Alarme sind berechtigt?
Recall
TP / (TP + FN)
Anteil tatsächlich insolventer Unternehmen, die korrekt erkannt wurden. Kritisch: Ein niedriger Recall bedeutet viele übersehene Insolvenzen.
F1-Score
2 · (P · R) / (P + R)
Harmonisches Mittel aus Precision und Recall. Kombinierte Metrik bei unbalanciertem Datensatz — Standard in aktuellen KMU-Studien.
Forschungsstand

Offene Forschungsfragen & Lücken

Fokus auf börsennotierte Unternehmen

Über 90% der Studien analysieren börsennotierte Unternehmen. Nicht-börsennotierte KMU — das Rückgrat europäischer Volkswirtschaften — sind massiv unterrepräsentiert.

Fehlende Längsschnittdaten für KMU

Longitudinale Datensätze über mehrere Konjunkturzyklen für nicht-börsennotierte KMU sind selten. Österreichische Spezifika (URG, Offenlegungspflichten) wurden kaum untersucht.

Unstrukturierte Textdaten weitgehend unerforscht

Nur wenige Studien integrieren NLP-basierte Features für KMU-Prognosen. Nachrichtenartikel als Frühwarnsignal sind für nicht-börsennotierte Unternehmen praktisch nicht untersucht.

Makroökonomische Integration

Sektoral- und regionalgranulare Makrodaten (NACE × NUTS-3) werden in der KMU-Insolvenzforschung kaum genutzt, obwohl Eurostat umfangreiche Daten bereitstellt.

Zeitverzögerung der Finanzdaten

Die Publikationsverzögerung von Jahresabschlüssen nicht-börsennotierter Unternehmen (teils 18+ Monate) wird in Modellen selten adäquat berücksichtigt.

Branchenspezifische Modelle

Generische Modelle versagen bei branchenspezifischen Risikoprofilen. Sektorspezifische Modelle (Baugewerbe, Handel, Dienstleistungen) sind für KMU noch selten.

„Die Forschung zur Insolvenzprognose hat sich in 60 Jahren von 30 univariaten Kennzahlen zu multimodalen KI-Modellen entwickelt — doch für nicht-börsennotierte KMU bleibt sie eine offene Forschungsfrage.“
Basierend auf: Darmann, Leitner-Hanetseder & Perkhofer (2024) · Systematischer Literaturüberblick

SMEDefault Prediction

Datengetriebene Kreditausfallprognose für nicht-börsennotierte österreichische KMU — OeNB Jubiläumsfonds.

Laufzeit 2025–2028
OeNB Jubiläumsfonds
FH OÖ · Campus Steyr
Partner
OeNB
Österr. Nationalbank
Fördergeber
KSV
KSV1870
Praxispartner
FH
FH Oberösterreich
Campus Steyr
Kontakt
Projektleiter
FH-Prof. Mag. Dr. Stefan Fink
Team
Sarah Wallner, MA
Prof. Dr. Lisa Perkhofer
FH-Prof MMag. Dr. Susanne Leitner-Hanetseder
Institution
FH OÖ · Campus Steyr · CRF
© 2025 FH Oberösterreich · Campus Steyr · Alle Rechte vorbehalten
OeNB Jubiläumsfonds · sme-defaultprediction.at