class: middle, title-slide .title[ # Ökonometrische Ansätze für die Analyse der Überlebensraten und -dauer von Unternehmensneugründungen im Land Brandenburg ] .author[ ### Dennis A. V. Dittrich ] .date[ ### 2022 ] --- layout: true --- # Mögliche Forschungsfragen .row[.col-7[ * Wie hoch ist die Wahrscheinlichkeit, dass ein Unternehmen ein Jahr nach Gründung / Markteintritt noch im Markt aktiv ist? * Wie lange ist die Median Lebensdauer eines neu gegründeten Unternehmens in Potsdam im Vergleich zum Landkreis Barnim? * Hat die Wahl der Rechtsnatur oder des Standortes eines Unternehmens einen Einfluss auf seine Lebensdauer? * Es gibt unterschiedliche Gründe für einen Marktaustritt: Insolvenz, Geschäftsaufgabe, Fusion, Verkauf. Welchen Einfluss haben Charakteristika des Unternehmens zur Gründung auf die Marktaustrittswahrscheinlichkeit aus den unterschiedlichen Gründen? ]] --- # Daten: Die Lebensdauer eines Unternehmens .row[.col-6[ * gewöhnlich kontinuierlich * aufgrund der Datenerhebung oft diskret oder gruppiert (interval-zensiert) * immer `\(\geq 0\)` * kann für einige Unternehmen unvollständig erfasst sein, diese Beobachtungen sind **zensiert** ] .col-6[ .question[ Angenommen wir beobachten drei Unternehmen bis zu 10 Jahren nach ihrem Markteintritt. Unternehmen 1 gibt nach **4** Jahren den Betrieb auf, Unternehmen 2 nach **7** Jahren, Unternehmen 3 ist nach **10** Jahren noch aktiv am Markt. Was ist die durchschnittliche Lebensdauer der Unternehmen? ] ] ] --- # Terminologie .row[.col-6[ `\(T \geq 0\)` ist unsere abhängige Variable mit cdf `\(F(t)\)` und gibt uns die Dauer bis zur Beobachtung eines Ereignisses an * `\(F(t) = Pr(T\leq t) = \int_0^t f(s)ds\)` * `\(F(0) = 0\)` und `\(\lim_{t\to\infty} F(t) =1\)` * `\(F^\prime (t) = f(t)\)` Die Survivalfunktion `\(S(t)\)` gibt die Wahrscheinlichkeit an, dass ein Unternehmen noch nach Zeitpunkt `\(t\)` am Markt aktiv ist. `$$S(t) = Pr(T>t) = 1- F(t)$$` ] .col-6[ * `\(0 \leq t \leq \infty\)` * `\(S(t)\)` ist nicht-steigend * `\(S(0) = 1\)` Die Wahrscheinlichkeit für ein aktives Unternehmen am Markt nach Zeitpunkt `\(t=0\)` aktiv ist 1 * Wenn `\(t=\infty, S(t) = S(\infty) = 0\)` Wenn die Zeit gegen unendlich strebt, nähert sich die Überlebenswahrscheinlichkeit 0 * Theoretisch ist die Survivalfunktion kontinuierlich, in der Praxis beobachten wir die Ereignisse (Marktaustritt) auf einer diskreten Zeitskala (Tage, Wochen, ...) ] ] --- # Die Hazardrate .row[.col-7[ (Konditionale) Wahrscheinlichkeit für einen Marktaustritt (exit) in einem Zeitintervall, gegeben, die Unternehmung war zu Beginn des Intervalls noch aktiv am Markt `\(h(t) = \lim_{\Delta t \to 0} \dfrac{Pr(t<T\leq t+\Delta t | T > t)}{\Delta t} = \dfrac{f(t)}{S(t)}\)` Die kumulierte Hazardfunktion für ein Ereignis bis zum Zeitpunkt `\(t\)` ist gegeben durch `$$H(t) = \int_0^t h(u)du$$` ]] --- # Beziehung zwischen Hazard und Survivalfunktion .row[.col-7[ Wenn wir nur eine der drei Funktionen `\(S(t)\)`, `\(H(t)\)` oder `\(h(t)\)` kennen, lassen sich die beiden anderen Funktionen daraus herleiten: `\begin{align} S(t) &= \exp (-H(t))\\ H(t) &= -\log S(t)\\ h(t) &= -\dfrac{\delta \log S(t)}{\delta t} \end{align}` ]] --- ## Ökonometrische Schätzung von `\(S(t)\)` und `\(H(t)\)` .row[.col-6[ Wenn alle Unternehmen die gleiche Survivalfunktion haben, lässt sich S(t) einfach schätzen: * nicht-parametrisch mit dem Kaplan-Meier Schätzer * nicht-parametrisch mit dem Nelsen-Aalen Schätzer für `\(H(t)\)` * parametrisch unter der Annahme spezifischer Verteilungsfunktionen ] .col-6[ Ist nicht die Survivalfunktion selbst von Interesse, sondern Unterschiede in der Überlebensdauer aufgrund unterschiedlicher Charakteristika der Unternehmen lassen sich diese schätzen mit: * semi-parametrisch mit dem Cox Proportional Hazard Model * parametrisch unter der Annahme spezifischer Verteilungsfunktion und eines Proportional Hazard * parametrisch mit einen Accelerated Failure Time (AFT) Model ]] --- # Kaplan Meier Schätzer der Survivalfunktion .row[.col-7[ Wenn die Ereignisse nicht zensiert sind, ist ein nicht-parametrischer Schätzer von `\(S(t)= 1-F_n(t)\)`, wobei `\(F_n(t)\)` die empirische kumulative Verteilungsfunktion ist (ecdf). Wenn Beobachtungen zensiert sind, können wir den **Kaplan-Meier** Schätzer verwenden: * `\(n_i\)` Anzahl der Unternehmen aktiv am Markt (_at risk_) im `\(i\)`-ten Zeitintervalls * `\(d_i\)` Anzahl der Unternehmen, die den Markt verlassen (exit) `\(\hat{S}(t) = \prod_{i: t_i\leq t} \left(1 - \dfrac{d_i}{n_i}\right)\)` ] .col-5[ <img src="survival_files/figure-html/unnamed-chunk-2-1.png" width="100%" style="display: block; margin: auto;" /> ] ] --- ## Vergleich der Survivalfunktion .row[.col-7[ ## für unterschiedliche Sub-Samples * Wie lange ist die Median Lebensdauer eines neu gegründeten Unternehmens in Potsdam im Vergleich zum Landkreis Barnim? ``` ## Call: survfit(formula = Surv(dauer, censor) ~ highlow, data = d.firm) ## ## n events median 0.95LCL 0.95UCL ## highlow=0 103 78 34 25 48 ## highlow=1 97 60 53 36 73 ``` ] .col-5[ <img src="survival_files/figure-html/unnamed-chunk-4-1.png" width="100%" style="display: block; margin: auto;" /> ]] --- # Proportional Hazard und Regressionsanalyse .row[ .col-5[ <img src="survival_files/figure-html/unnamed-chunk-5-1.png" width="100%" style="display: block; margin: auto;" /> ] .col-7[ Haben alle Unternehmen die gleiche Baseline-Hazard und unterscheiden sich nur in einem multiplikativen Faktor: `$$h(t|X) = h(t)\exp (X\beta )$$` oder in kumulierten Hazards `$$H(t|X) = H(t)\exp (X\beta )$$` oder in linearer Form `$$\log h(t|X) = \log h(t) + X\beta$$` $$\log H(t|X) = \log H(t) + X\beta $$ ] ] --- # Cox Proportional Hazard .row[.col-5[ Kennen wir die funktionelle Form der Baseline Hazard können wir `\(\beta\)` parametrisch zusammen mit eventuellen Parametern der Baseline Hazard Funktion schätzen Kennen wir die funktionelle Form von `\(h(t)\)` nicht, bleibt uns die **semi-parametrische** Cox Proportional Hazard Regression ] .col-7[ `\begin{align} Pr(\text{Firma } i \text{ endet zu } t_i| R_i \text{ und nur } 1 \text{ Ereignis zu } t_i) =\\ \frac{Pr(\text{Firma } i \text{ endet zu } t_i| R_i)}{Pr(\text{genau 1 Ereignis zu } t_i)} \end{align}` `\begin{align} \frac{h(t_i)\exp(X_i\beta)}{\sum_{j \in R_i} h(t_i)\exp(X_j\beta)} &= \frac{\exp(X_i\beta)}{\sum_{j \in R_i} \exp(X_j\beta)} \\ &= \frac{\exp(X_i\beta)}{\sum_{T_j \geq t_i} \exp(X_j\beta)} \end{align}` `\(\beta\)` lässt sich nun via Maximum Likelihood schätzen ] ] --- # Proportional Hazard .row[ .col-7[ **Semi-parametrische Cox PH Regression** ``` ## Call: ## coxph(formula = Surv(dauer, censor) ~ highlow, data = d.firm) ## ## n= 200, number of events= 138 ## ## coef exp(coef) se(coef) z Pr(>|z|) ## highlow -0.4995 0.6068 0.1738 -2.874 0.00405 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## exp(coef) exp(-coef) lower .95 upper .95 ## highlow 0.6068 1.648 0.4316 0.8531 ## ## Concordance= 0.565 (se = 0.023 ) ## Likelihood ratio test= 8.36 on 1 df, p=0.004 ## Wald test = 8.26 on 1 df, p=0.004 ## Score (logrank) test = 8.42 on 1 df, p=0.004 ``` ]] --- # Proportional Hazard .row[ .col-8[ **Parametrische PH Regression mit exponentieller Hazard** ``` ## Call: ## flexsurvreg(formula = Surv(dauer, censor) ~ highlow, data = d.firm, ## dist = "exponential") ## ## Estimates: ## data mean est L95% U95% se ## rate NA 0.02215 0.01774 0.02765 0.00251 ## highlow 0.48500 -0.49781 -0.83437 -0.16125 0.17172 ## exp(est) L95% U95% ## rate NA NA NA ## highlow 0.60786 0.43415 0.85108 ## ## N = 200, Events: 138, Censored: 62 ## Total time at risk: 7979 ## Log-likelihood = -693.6591, df = 2 ## AIC = 1391.318 ``` * Effizienter, wenn die Annahmen korrekt sind * Erlauben die Vorhersagen von Survival-Zeiten und Hazard-Raten * Erlauben das Plotten von adjustierten Survival-Kurven ] .col-4[ <img src="survival_files/figure-html/unnamed-chunk-8-1.png" width="100%" style="display: block; margin: auto;" /> ] ] --- ## Erweiterungen und alternative Methoden zur Untersuchung von Verweildauern .row[.col-7[ * Konkurrierende Risiken * Firmen können aus unterschiedlichen Gründen den Markt verlassen * Frailty * Korrelierte Überlebensdaten können bei Clusterbildung der Unternehmen in Gruppen entstehen * Frailty Modelle berücksichtigen Heterogenität aufgrund nicht gemessener Variablen mithilfe von _Random Effects_ * AFT: Accelerated Failure Time ] ] --- # Time-to-Event Data Analysis .row[ .col-7[ * Skewed and censored data * The censoring process is independent of the process governing the event of interest * Survival and hazard rates are linked **Survival Function** S(t): the probability that a firm will be active beyond time t [ `\(Pr(T>t)\)` ] **Hazard Function** h(t): the instantaneous potential of experiencing an event at time t, conditional on having survived to that time **Cumulative Hazard Function** H(t): the integral of the hazard function from time 0 to time t, which equals the area under the curve h(t) between time 0 and time t ] ] --- # Time-to-Event Data Analysis .row[ .col-7[ * Non-parametric Kaplan-Meier estimator * suitable for univariate analysis with a categorical variable * Proportional Hazard Assumption * semi-parametric Cox PH model * parametric PH models assume specific form of the hazard * more efficient if assumptions are correct * allows prediction of survival times and hazard rates * allows plotting of covariate-adjusted survival curves * these model allow multivariable analyses and provide estimates of the strength of the effects ] .col-5[ * Extensions ] ]