HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Logistische Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Logistische Regression, auch Logit-Modell genannt, wird zum Modell verwendet Dichotome Ergebnisgrößen. Im Logitmodell werden die Logarithmen des Ergebnisses als lineare Kombination der Prädiktorvariablen modelliert. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Dabei werden insbesondere die Datenreinigung und - prüfung, die Überprüfung der Annahmen, die Modelldiagnose und die möglichen Folgeanalysen nicht berücksichtigt. Beispiele für logistische Regression Beispiel 1: Angenommen, wir interessieren uns für die Faktoren, die beeinflussen, ob ein politischer Kandidat eine Wahl gewinnt. Das Ergebnis (Antwort) Variable ist binär (01) gewinnen oder verlieren. Die Prädiktor-Variablen von Interesse sind die Menge an Geld für die Kampagne, die Menge der Zeit verbracht Kampagne negativ verbracht und ob der Kandidat ist ein Amtsinhaber. Beispiel 2: Ein Forscher ist daran interessiert, wie Variablen, wie GRE (Graduate Record Exam Scores), GPA (Grade Punkt Durchschnitt) und Prestige der Undergraduate-Institution, Wirkung Eintritt in die Graduate School. Die Antwortgröße, admitdont zugeben, ist eine binäre Variable. Beschreibung der Daten Für unsere Datenanalyse im Folgenden werden wir auf Beispiel 2 erweitern, um in die Graduiertenschule zu gelangen. Wir haben hypothetische Daten erstellt, die auf unserer Website abgerufen werden können. Dieser Datensatz hat eine binäre Antwort (Ergebnis, abhängige) Variable namens admit. Es gibt drei Vorhersagevariablen: gre. Gpa und Rang. Wir behandeln die Variablen gre und gpa als stetig. Der variable Rang nimmt die Werte 1 bis 4 an. Institutionen mit einem Rang 1 haben das höchste Prestige, die mit dem Rang 4 haben den niedrigsten Wert. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Ihnen begegnet sind. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Bevorzugung gefallen oder haben Einschränkungen. Logistische Regression, der Schwerpunkt dieser Seite. Probit-Regression. Probit-Analyse ergibt Ergebnisse ähnlich logistische Regression. Die Wahl des Probits gegenüber dem Logit hängt weitgehend von individuellen Vorlieben ab. OLS-Regression. Bei Verwendung mit einer binären Antwortvariable wird dieses Modell als lineares Wahrscheinlichkeitsmodell bezeichnet und kann als eine Möglichkeit zur Beschreibung bedingter Wahrscheinlichkeiten verwendet werden. Jedoch verletzen die Fehler (d. h. Residuen) aus dem linearen Wahrscheinlichkeitsmodell die Homoskedastizität und die Normalität von Fehlerannahmen der OLS-Regression, was zu ungültigen Standardfehlern und Hypothesentests führt. Für eine genauere Erörterung dieser und anderer Probleme mit dem linearen Wahrscheinlichkeitsmodell siehe Long (1997, S. 38-40). Zweigruppendiskriminante Funktionsanalyse. Eine multivariate Methode für dichotome Ergebnisgrößen. Hotellings T 2. Das Ergebnis 01 wird in die Gruppierungsvariable umgewandelt, und die früheren Prädiktoren werden zu Ergebnisvariablen. Dies erzeugt einen Gesamttest der Signifikanz, gibt aber keine individuellen Koeffizienten für jede Variable, und es ist unklar, inwieweit jedes quotpredictorquot für die Auswirkungen der anderen quotpredictors. quot angepasst wird. Logistische Regression Im Folgenden verwenden wir den Befehl logit, um einen Wert zu schätzen Logistischen Regressionsmodells. Das i. Bevor der Rang angibt, dass Rang eine Faktorvariable ist (d. h. kategorische Variable), und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Beachten Sie, dass diese Syntax in Stata 11 eingeführt wurde. In der obigen Ausgabe sehen wir zuerst das Iterationsprotokoll, das angibt, wie schnell das Modell konvergiert. Die Log-Likelihood (-229.25875) kann in Vergleichen von verschachtelten Modellen verwendet werden, aber wir zeigen hier kein Beispiel. Auch an der Spitze der Ausgabe sehen wir, dass alle 400 Beobachtungen in unserem Datensatz verwendet wurden (weniger Beobachtungen wären verwendet worden, wenn irgendeine unserer Variablen fehlende Werte hätte). Das Wahrscheinlichkeitsverhältnis chi-Quadrat von 41.46 mit einem p-Wert von 0.0001 sagt uns, dass unser Modell als Ganzes wesentlich besser passt als ein leeres Modell (d. h. ein Modell ohne Prädiktoren). In der Tabelle sehen wir die Koeffizienten, ihre Standardfehler, die z-Statistik, die zugehörigen p-Werte und das Konfidenzintervall der Koeffizienten. Sowohl gre und gpa sind statistisch signifikant, als auch die drei Indikator-Variablen für Rang. Die logistischen Regressionskoeffizienten geben die Änderung der Logarithmen des Ergebnisses für eine Erhöhung der Prädiktorvariablen um eine Einheit an. Für jede Einheitsänderung in g. Erhöht sich die Quote der Zulassung (gegenüber der Nichtzulassung) um 0,002. Für eine Einheitserhöhung in gpa. Die Log-Chancen für die Aufnahme in die Graduiertenschule erhöht sich um 0,804. Die Indikatorvariablen für Rang haben eine etwas andere Interpretation. Zum Beispiel, nach einem Studentenwohnheim mit Rang von 2, im Vergleich zu einer Institution mit einem Rang von 1 besucht, verringert die Log-Chancen der Zulassung um 0,675. Mit dem Testbefehl können wir auf eine Gesamt-Wirkung des Ranges testen. Unten sehen wir, dass der Gesamteffekt des Ranges statistisch signifikant ist. Wir können auch zusätzliche Hypothesen über die Unterschiede in den Koeffizienten für verschiedene Rangniveaus testen. Im Folgenden wird untersucht, dass der Koeffizient für Rang 2 dem Koeffizienten für Rang 3 entspricht. (Beachten Sie, dass wir diesen Unterschied mit Hilfe des lincom-Befehls abschätzen könnten.) Sie können die Koeffizienten auch exponentiieren und als Quoten interpretieren - Raten. Stata wird diese Berechnung für Sie durchführen, wenn Sie die Option oder die Option verwenden, die unten dargestellt wird. Sie könnten auch den logistischen Befehl verwenden. Jetzt können wir sagen, dass für eine Einheit Erhöhung in gpa. Steigen die Chancen auf ein Absolvieren der Schule (versus nicht zugelassen) um den Faktor 2,23 zu. Für weitere Informationen über die Interpretation Odds Ratios siehe unsere FAQ-Seite Wie interpretiere ich Odds Ratios in der logistischen Regression. Sie können auch vorhergesagte Wahrscheinlichkeiten verwenden, um das Modell zu verstehen. Sie können vorhergesagte Wahrscheinlichkeiten mit dem Ränderbefehl berechnen, der in Stata 11 eingeführt wurde. Im Folgenden verwenden wir den Ränderbefehl, um die vorhergesagte Eintrittswahrscheinlichkeit auf jeder Rangstufe zu berechnen. Wobei alle anderen Variablen in dem Modell an ihren Mitteln gehalten werden. Weitere Informationen zur Verwendung des Ränderbefehls zur Berechnung der vorhergesagten Wahrscheinlichkeiten finden Sie auf unserer Seite Verwenden von Rändern für vorhergesagte Wahrscheinlichkeiten. In der obigen Ausgabe sehen wir, dass die voraussichtliche Wahrscheinlichkeit, in ein Graduiertenprogramm aufgenommen zu werden, 0,51 für die höchsten Prestigeuniversitäten (Rang 1) und 0,18 für die untergeordneten Institutionen (Rang 4) ist, wobei gre und gpa an ihren Mitteln gehalten werden. Im Folgenden werden die prognostizierten Wahrscheinlichkeiten für Werte von gre von 200 bis 800 in Schritten von 100 erzeugt. Da wir weder atmeans angegeben haben oder bei (.) Zur Angabe von Werten bei den anderen Prädiktorvariablen verwendet wurden, sind die Werte in der Tabelle Die unter Verwendung der Abtastwerte der anderen Prädiktorvariablen berechnet werden. Um zum Beispiel die durchschnittliche vorhergesagte Wahrscheinlichkeit zu berechnen, wenn gre 200, wurde die vorhergesagte Wahrscheinlichkeit für jeden Fall berechnet, unter Verwendung dieser Fälle Werte von Rang und gpa. Wobei gre auf 200 gesetzt ist. In der obigen Tabelle sehen wir, dass die mittlere prognostizierte Wahrscheinlichkeit, angenommen zu werden, nur 0,167 beträgt, wenn die GRE-Punktzahl 200 ist und auf 0,414 ansteigt, wenn die GRE-Punktzahl 800 ist (Mittelung über die Stichprobenwerte von gpa und Rang ). Es kann auch hilfreich sein, Graphen von vorhergesagten Wahrscheinlichkeiten zu verwenden und das Modell darzustellen. Wir mögen auch sehen, wie gut unser Modell passt. Dies kann insbesondere beim Vergleich konkurrierender Modelle nützlich sein. Der benutzerdefinierte Befehl "fitstat" erzeugt eine Vielzahl von Anpassungsstatistiken. Weitere Informationen zu fitstat erhalten Sie, indem Sie findit fitstat eingeben (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Was Sie beachten sollten Leere Zellen oder kleine Zellen: Sie sollten auf leere oder kleine Zellen überprüfen, indem Sie eine Kreuztabelle zwischen kategorischen Prädiktoren und der Ergebnisvariablen durchführen. Wenn eine Zelle sehr wenige Fälle (eine kleine Zelle) hat, kann das Modell instabil werden oder es läuft überhaupt nicht. Trennung oder Quasi-Trennung (auch perfekte Vorhersage genannt), eine Bedingung, bei der das Ergebnis nicht auf einigen Ebenen der unabhängigen Variablen variiert. Siehe unsere Seite FAQ: Was ist eine vollständige oder quasi vollständige Trennung in der Logistikprofit-Regression und wie gehen wir mit ihnen für Informationen über Modelle mit perfekter Vorhersage um. Beispiel-Größe: Sowohl logit - als auch probit-Modelle erfordern mehr Fälle als OLS-Regression, da sie Maximal-Likelihood-Schätzverfahren verwenden. Es ist manchmal möglich, Modelle für binäre Ergebnisse in Datensätzen mit nur einer kleinen Anzahl von Fällen mit exakter logistischer Regression (mit dem exlogistischen Befehl) abzuschätzen. Weitere Informationen finden Sie in unserem Datenanalysebeispiel für eine exakte logistische Regression. Es ist auch wichtig zu beachten, dass, wenn das Ergebnis selten ist, auch wenn die gesamte Datenmenge groß ist, kann es schwierig sein, ein Logit-Modell zu schätzen. Pseudo-R-Quadrat: Es gibt viele verschiedene Psuedo-R-Quadrate. Sie alle versuchen, Informationen ähnlich wie die von R-squared in OLS-Regression zur Verfügung gestellt, aber keiner von ihnen kann genau so interpretiert werden, wie R-Quadrat in OLS-Regression interpretiert wird. Für eine Diskussion über verschiedene Pseudo-R-Quadrate siehe Long und Freese (2006) oder unsere FAQ-Seite Was sind Pseudo-R-Quadrate Diagnostik: Die Diagnosen für die logistische Regression unterscheiden sich von denen für die OLS-Regression. Zur Diskussion der Modelldiagnostik für logistische Regression siehe Hosmer und Lemeshow (2000, Kapitel 5). Es ist zu beachten, dass die für die logistische Regression durchgeführten Diagnosen denen der Probit-Regression ähnlich sind. In Stata werden Werte von 0 als eine Stufe der Ergebnisvariablen behandelt, und alle anderen nicht fehlenden Werte werden als die zweite Stufe des Ergebnisses behandelt. Clusterdaten: Manchmal werden Beobachtungen in Gruppen gruppiert (z. B. Personen innerhalb von Familien, Studenten in Klassenzimmern). In solchen Fällen können Sie unsere Seite auf Nicht-Unabhängigkeit innerhalb von Clustern sehen. Referers Hosmer, D. Lemeshow, S. (2000). Applied Logistic Regression (Zweite Auflage). New York: John Wiley Sons, Inc. Lang, J. Scott, Freese, Jeremy (2006). Regression Modelle für kategorische abhängige Variablen mit Stata (zweite Ausgabe). Hochschulstation, TX: Stata Press. Long, J. Scott (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der Universität von Kalifornien ausgelegt werden. NOTICE: Die IDRE Statistical Consulting-Gruppe wird die Migration der Website, um die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Probit Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Probit Regression, auch als probit-Modell, wird verwendet, um zu modellieren Dichotome oder binäre Ergebnisvariablen. Im Probit-Modell wird die inverse Standard-Normalverteilung der Wahrscheinlichkeit als Linearkombination der Prädiktoren modelliert. Bitte beachten Sie: Der Zweck dieser Seite ist, zu zeigen, wie man verschiedene Datenanalyse-Befehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Dabei werden insbesondere die Datenreinigung und - prüfung, die Überprüfung der Annahmen, die Modelldiagnose und die möglichen Folgeanalysen nicht berücksichtigt. Beispiele für Probit-Regression Beispiel 1: Angenommen, wir interessieren uns für die Faktoren, die beeinflussen, ob ein politischer Kandidat eine Wahl gewinnt. Das Ergebnis (Antwort) Variable ist binär (01) gewinnen oder verlieren. Die Prädiktor-Variablen von Interesse sind die Menge an Geld für die Kampagne verbracht, die Menge der Zeit verbracht Kampagne negativ und ob der Kandidat ist ein etablierter. Beispiel 2: Ein Forscher ist daran interessiert, wie Variablen, wie GRE (Graduate Record Exam Scores), GPA (Grade Punkt Durchschnitt) und Prestige der Undergraduate-Institution, Wirkung Eintritt in die Graduate School. Die Antwortgröße, admitdont zugeben, ist eine binäre Variable. Beschreibung der Daten Für unsere Datenanalyse im Folgenden werden wir auf Beispiel 2 erweitern, um in die Graduiertenschule zu gelangen. Wir haben hypothetische Daten erstellt, die auf unserer Website abgerufen werden können. Dieser Datensatz hat eine binäre Antwort (Ergebnis, abhängige) Variable namens admit. Es gibt drei Vorhersagevariablen: gre. Gpa und Rang. Wir behandeln die Variablen gre und gpa als stetig. Der variable Rang ist ordinal, er nimmt die Werte 1 bis 4 an. Institutionen mit einem Rang 1 haben das höchste Prestige, die mit dem Rang 4 haben den niedrigsten Wert. Wir werden Rang als kategorisch behandeln. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Ihnen begegnet sind. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Bevorzugung gefallen oder haben Einschränkungen. Probit Regression, der Schwerpunkt dieser Seite. Logistische Regression. Ein Logitmodell führt zu Ergebnissen mit ähnlicher Probit-Regression. Die Wahl des Probits gegenüber dem Logit hängt weitgehend von individuellen Vorlieben ab. OLS-Regression. Bei Verwendung mit einer binären Antwortvariable wird dieses Modell als lineares Wahrscheinlichkeitsmodell bezeichnet und kann als eine Möglichkeit zur Beschreibung bedingter Wahrscheinlichkeiten verwendet werden. Jedoch verletzen die Fehler (d. h. Residuen) aus dem linearen Wahrscheinlichkeitsmodell die Homoskedastizität und die Normalität von Fehlerannahmen der OLS-Regression, was zu ungültigen Standardfehlern und Hypothesentests führt. Für eine genauere Erörterung dieser und anderer Probleme mit dem linearen Wahrscheinlichkeitsmodell siehe Long (1997, S. 38-40). Zweigruppendiskriminante Funktionsanalyse. Eine multivariate Methode für dichotome Ergebnisgrößen. Hotellings T 2. Das Ergebnis 01 wird in die Gruppierungsvariable umgewandelt, und die früheren Prädiktoren werden zu Ergebnisvariablen. Dies führt zu einem Gesamttest der Signifikanz, gibt aber keine individuellen Koeffizienten für jede Variable, und es ist unklar, inwieweit jedes quadratische Quotient für die Auswirkungen der anderen Quotienten angepasst wird. Probit-Regression Nachfolgend verwenden wir den probit-Befehl, um a zu schätzen Probit-Regressionsmodell. Das i. Bevor der Rang angibt, dass Rang eine Faktorvariable ist (d. h. kategorische Variable), und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Beachten Sie, dass diese Syntax in Stata 11 eingeführt wurde. In der obigen Ausgabe sehen wir zuerst das Iterationsprotokoll, das angibt, wie schnell das Modell konvergiert. Die Log-Likelihood (-229.20658) kann in Vergleichen von verschachtelten Modellen verwendet werden, aber wir zeigen hier kein Beispiel. Auch an der Spitze der Ausgabe sehen wir, dass alle 400 Beobachtungen in unserem Datensatz verwendet wurden (weniger Beobachtungen wären verwendet worden, wenn irgendeine unserer Variablen fehlende Werte hätte). Das Wahrscheinlichkeitsverhältnis chi-Quadrat von 41,56 mit einem p-Wert von 0,0001 sagt uns, dass unser Modell als Ganzes statistisch signifikant ist, das heißt, es passt deutlich besser als ein Modell ohne Prädiktoren. In der Tabelle sehen wir die Koeffizienten, ihre Standardfehler, die z-Statistik, die zugehörigen p-Werte und das Konfidenzintervall der Koeffizienten. Beide gre. Gpa. Und die drei Indikatorvariablen für Rang sind statistisch signifikant. Die Probit-Regressionskoeffizienten geben die Veränderung im z-Score - oder Probit-Index für eine Ein-Einheiten-Änderung im Prädiktor an. Für eine Erhöhung der Einheit um 1 Einheit. Die z-Kerbe steigt um 0,001 an. Für jede Einheit Erhöhung in gpa. Die z-Kerbe steigt um 0,478. Die Indikatorvariablen für Rang haben eine etwas andere Interpretation. Zum Beispiel, nachdem er eine Grundschule im Rang von 2 besucht hat, im Vergleich zu einer Institution mit einem Rang von 1 (die Referenzgruppe), verringert sich die z-Punktzahl um 0,415. Mit dem Testbefehl können wir auf eine Gesamt-Wirkung des Ranges testen. Unten sehen wir, dass der Gesamteffekt des Ranges statistisch signifikant ist. Wir können auch zusätzliche Hypothesen über die Unterschiede in den Koeffizienten für verschiedene Rangniveaus testen. Im Folgenden testen wir, dass der Koeffizient für Rang 2 gleich dem Koeffizienten für Rang 3 ist. Sie können auch vorhergesagte Wahrscheinlichkeiten verwenden, um das Modell zu verstehen. Sie können vorhergesagte Wahrscheinlichkeiten mit dem Ränderbefehl berechnen, der in Stata 11 eingeführt wurde. Im Folgenden verwenden wir den Ränderbefehl, um die vorhergesagte Eintrittswahrscheinlichkeit auf jeder Rangstufe zu berechnen. Wobei alle anderen Variablen in dem Modell an ihren Mitteln gehalten werden. Weitere Informationen zur Verwendung des Ränderbefehls zur Berechnung der vorhergesagten Wahrscheinlichkeiten finden Sie auf unserer Seite Verwenden von Rändern für vorhergesagte Wahrscheinlichkeiten. In der obigen Ausgabe sehen wir, dass die vorausgesagte Wahrscheinlichkeit, in ein Graduiertenprogramm aufgenommen zu werden, 0,52 für die höchsten Prestigeuniversitäten (Rang 1) und 0,19 für die untergeordneten Institutionen (Rang 4) ist, wobei gre und gpa an ihren Mitteln gehalten werden. Im folgenden werden die prognostizierten Wahrscheinlichkeiten für Werte von gre von 200 bis 800 in Schritten von 100 erzeugt. Da wir weder atmeans angegeben haben oder in (.) Angegeben wurden, um Werte anzugeben, bei denen die anderen Prädiktorvariablen gehalten werden, sind die Werte in der Tabelle Die unter Verwendung der Abtastwerte der anderen Prädiktorvariablen berechnet werden. Um beispielsweise die durchschnittliche prognostizierte Wahrscheinlichkeit zu berechnen, wenn gre 200, wurde die prognostizierte Wahrscheinlichkeit für jeden Fall unter Verwendung dieser Fälle als Wert von Rang und gpa berechnet. Und die Einstellung gre bis 200. In der obigen Tabelle können wir sehen, dass die mittlere prognostizierte Wahrscheinlichkeit, akzeptiert zu werden, nur 0,16 beträgt, wenn die GRE-Punktzahl 200 ist und auf 0,42 steigt, wenn die GRE-Punktzahl 800 ist (Mittelung über die Stichprobenwerte von gpa und Rang ). Es kann auch hilfreich sein, Graphen von vorhergesagten Wahrscheinlichkeiten zu verwenden und das Modell darzustellen. Wir mögen auch sehen, wie gut unser Modell passt. Dies kann insbesondere beim Vergleich konkurrierender Modelle nützlich sein. Der benutzerdefinierte Befehl "fitstat" erzeugt eine Vielzahl von Anpassungsstatistiken. Weitere Informationen zu fitstat erhalten Sie, indem Sie findit fitstat eingeben (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Was Sie beachten sollten Leere Zellen oder kleine Zellen: Sie sollten auf leere oder kleine Zellen überprüfen, indem Sie eine Kreuztabelle zwischen kategorischen Prädiktoren und der Ergebnisvariablen durchführen. Wenn eine Zelle sehr wenige Fälle (eine kleine Zelle) hat, kann das Modell instabil werden oder es läuft überhaupt nicht. Trennung oder Quasi-Trennung (auch perfekte Vorhersage genannt), eine Bedingung, bei der das Ergebnis nicht auf einigen Ebenen der unabhängigen Variablen variiert. Siehe unsere Seite FAQ: Was ist eine vollständige oder quasi vollständige Trennung in der Logistikprofit-Regression und wie gehen wir mit ihnen für Informationen über Modelle mit perfekter Vorhersage um. Beispiel-Größe: Sowohl probit - als auch logit-Modelle erfordern mehr Fälle als OLS-Regression, da sie Maximal-Likelihood-Schätzverfahren verwenden. Es ist manchmal möglich, Modelle für binäre Ergebnisse in Datensätzen mit nur einer kleinen Anzahl von Fällen mit exakter logistischer Regression (mit dem exlogistischen Befehl) abzuschätzen. Weitere Informationen finden Sie in unserem Datenanalysebeispiel für eine exakte logistische Regression. Es ist auch wichtig zu beachten, dass, wenn das Ergebnis selten ist, auch wenn die gesamte Datenmenge groß ist, kann es schwierig sein, ein Probit-Modell zu schätzen. Pseudo-R-Quadrat: Es gibt viele verschiedene Psuedo-R-Quadrate. Sie alle versuchen, Informationen ähnlich wie die von R-squared in OLS-Regression zur Verfügung gestellt, aber keiner von ihnen kann genau so interpretiert werden, wie R-Quadrat in OLS-Regression interpretiert wird. Für eine Diskussion über verschiedene Pseudo-R-Quadrate siehe Long und Freese (2006) oder unsere FAQ-Seite Was sind Pseudo-R-Quadrate In Stata werden Werte von 0 als eine Ebene der Ergebnisvariablen und alle anderen nicht fehlenden Werte behandelt Werden als die zweite Ebene des Ergebnisses behandelt. Diagnostik: Die Diagnose für die Probit-Regression unterscheidet sich von der für die OLS-Regression. Die Diagnostik für Probit-Modelle ähnelt denen von Logitmodellen. Zur Diskussion der Modelldiagnostik für logistische Regression siehe Hosmer und Lemeshow (2000, Kapitel 5). Referers Hosmer, D. Lemeshow, S. (2000). Applied Logistic Regression (Zweite Auflage). New York: John Wiley Sons, Inc. Long, J. Scott (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment