Transcript
Econométrie TP
Les accidents de la route en France :
Etude en coupe départementale.
(Données de 2004)
Sommaire :
Introduction.
Construction du modèle.
Schématisation.
Nos données.
Le modèle de régression linéaire multiple (RLM)
A. Hypothèses du modèle de RLM
B. Terme d’erreur
C. Propriétés des estimateurs
Estimation de notre modèle
A. Modèles théoriques
B. 1ère estimation par la méthode des moindres carrés ordinaires (MCO).
1. Théorie de la décision:
2. Test F :
3. Test t (test bilatéral)
4. Matrice de corrélation :
C. 2ème estimation par la méthode des moindres carrés ordinaires (MCO) :
1. Théorie de la décision:
2. Test F
3. Test t (test bilatéral)
4. Comparaison des deux estimations :
D. 3ème estimation avec transformation logarithmique.
1. Test F
2. Test t (test bilatéral)
3. Comparaison entre les 3 estimations.
E. Prévisions
2. Estimation par MCO
3. Estimation ponctuelle
Conclusion.
Bibliographie.
Introduction.
Alors que la lutte contre la violence routière est une des priorités actuelles du gouvernement, nous nous sommes donc interrogés sur les facteurs explicatifs du nombre d’accident corporel observer sur les routes des départements français. Plusieurs phénomènes nous paraissaient à priori intéressant à étudier comme la mise en place des radars automatiques ou encore le renforcement des contrôles effectués ces derniers temps. Malheureusement nous n’avons pas pu trouver suffisamment de données sur ces dernières années pour construire un modèle significatif. C’est pourquoi nous nous sommes rabattus sur une analyse en coupe transversale sur un échantillon de 50 départements français. Les donnés datent de l’année 2004.
Ainsi, nous allons construire un modèle de régression linéaire multiple à 4 variables explicatives sur le nombre d accidents constatés dans les différents départements. Différents tests sur notre modèle vont nous permettre de conclure à la significativité ou non des variable explicative et de quantifier ces éventuelles relations.
Construction du modèle.
Notre modèle va tenter d’expliquer les accidents de la route par :
La population générale du département. Intuitivement nous allons supposer que plus la population est importante, plus la fréquence des accidents sera grande. Pour que cette variable ne soit pas biaisée nous avons constitué l’échantillon de manière aléatoire. Il contient donc des départements de différentes tailles tant au niveau de la surface que de la population. Cette variable endogène sera notée X2i.
La part de la population urbaine dans le département. Ici, il faut comprendre que nous supposons que la densité de véhicules est bien plus forte en ville. Ainsi le but de l introduction de cette variable va permettre de savoir si la densité de véhicule a un quelconque effet sur la fréquence des accidents. Il faut tout de même distinguer les accidents de la route des morts constatés comme nous le verrons plus tard. Cette variable est notée X3i.
La part du trafic sur route nationale 2*2 voies dans le département. Cette variable est définie comme le poids du parcours (véhicules * kilomètre) qu elle représente en 2004. Lors de nos recherche documentaire, nous avons constaté que :
Les routes nationales sont très accidentogènes
Les autoroutes présentent une bonne sécurité.
Ainsi grâce à cette variable nous allons pouvoir mesuré l’éventuelle impacte du doublement de la chaussée des routes nationales sur les accident. Nous avons supposé que la présence d’un terre plein central et d équipement adapté à ce type de voie a un impact négatif sur les accidents. Cette variable est notée X4i.
La part des 15-24 ans dans la population du département. Les tests effectués sur cette variable vont tenter de cerner l’impact du manque d’expérience de la route des jeunes utilisateurs pour les 18-24, et dans une moindre mesure l’utilisation des véhicules 2 roues avant l’age de 18 ans. La variable X5i devrait avoir un impact positif sur notre variable expliquée.
Les cinq variables citées devraient selon nous expliquer les variations du nombre constaté d’accident dans chaque département.
Schématisation.
Nous devons rappeler que le phénomène que nous allons expliquer ne peut pas se résumer à nos seules variables et est bien sur bien plus complexe. Voici une vue d’ensemble des facteurs qui probablement ont un impact significatif.
22860005186680Facteurs potentiellement explicatifs
-Facteurs étudiés
00Facteurs potentiellement explicatifs
-Facteurs étudiés
160020054152800016002005872480001143005758180Groupe de facteurs
00Groupe de facteurs
2286005186680Evenement
00Evenement
-457200518668000-457200575818000-68580043180MORT
ACCIDENT
-Efficacité – rapidité des secours
-Infrastructures et éléments de sécurité
-Sécurité passive du véhicule.
-Budgets
-R & D
Véhicule
Population et densité
Conducteur
Infrastructures
-Etat du véhicule
-Eléments de sécurité a bord
-Alcoolémie
-Vitesse
-fatigue
-Expérience
-réseaux type
Autoroutier.
-Signalisation
00MORT
ACCIDENT
-Efficacité – rapidité des secours
-Infrastructures et éléments de sécurité
-Sécurité passive du véhicule.
-Budgets
-R & D
Véhicule
Population et densité
Conducteur
Infrastructures
-Etat du véhicule
-Eléments de sécurité a bord
-Alcoolémie
-Vitesse
-fatigue
-Expérience
-réseaux type
Autoroutier.
-Signalisation
Au vues de ce schéma, on aperçoit la grande diversité des éléments expliquant les accidents de la route. A la première approche de notre problématique nous avions penser déterminer les facteurs emmenant au décès, mais les facteurs étaient difficilement quantifiables et les données très peu accessibles. Cependant intuitivement, on devine une relation très forte entre le nombre d’accidents et le nombre de tués sur les routes. Ainsi nous avons opté pour une étude portant sur les accidents plutôt que sur le nombre de tués. Apres une rapide analyse nous avons pu constater que cette corrélation est globalement vérifiée, a l’exception des grandes agglomérations. Il parait probable que la vitesse de circulation dans le centre des grandes villes est trop faible pour provoquer des accidents mortels. Prenons l’exemple de Paris ou le nombre de tués pour un million d’habitants est de 24, ce qui est le taux le plus faible de France, mais dans le même temps Paris est une des villes les plus accidentogène (7000 accidents corporels pour 2 million d’habitants). Les deux événements doivent donc être dissociés.
Avant de passer a l analyse des données statistique, il parait judicieux de rappeler que notre travail a pour but d’appliquer un cours théorique, le rapport souligne dons l’intérêt de l’approche économétrique sur un phénomène comme celui étudié, mais ne pourra pas se conclure par des recommandations car les variables utilisées ne se prêtent pas à d’éventuels ajustements.
Nos données.
DEPARTEMENT
Accidents corporels
Population (en millier)
Part de la pop urbaine (%)
Part des 2*2 ds les Rn (%)
Part des homme 15-24 ans (%)
Ain
615,00
515,00
60,00
0
12,9174
Aisne
544,00
535,00
57,00
19,9
13,7958
Allier
459,00
345,00
60,00
11
11,1563
Alpe de H P
221,00
140,00
52,00
0
11,0855
Hautes alpes
214,00
121,00
52,90
0
11,9282
Alpes maritimes
3 454,00
1 011,00
95,40
37,4
12,2464
Ardèche
313,00
286,00
52,10
0,8
11,4884
Ardennes
253,00
290,00
61,40
27,7
13,5099
Ariège
173,00
137,00
48,20
34
10,7718
Aube
320,00
292,00
60,60
8,5
13,4786
Aude
276,00
310,00
54,80
8,7
11,6914
Aveyron
214,00
264,00
45,50
14
10,9236
Bouches du Rhône
5 449,00
1 836,000
98,80
21,3
13,9068
Calvados
704,00
648,00
62,30
73
14,6446
Cantal
99,00
151,00
36,40
0
11,116
Charente
332,00
340,00
46,80
54
12,0913
Charente maritime
889,00
557,00
55,30
32
11,9023
Cher
376,00
314,00
57,30
4
11,7563
Corrèze
366,00
233,00
49,40
0
11,1902
Corse du sud
408,00
119,00
61,30
6,5
12,0378
Haute corse
408,00
142,00
63,40
72
12,806
Cote d Or
838,00
507,00
64,90
58,8
14,4896
Cote d’Armor
377,00
542,00
53,90
4
12,0797
Creuse
117,00
124,00
24,20
29,3
10,0574
Dordogne
453,00
388,00
47,90
25
10,6177
Doux
630,00
499,00
66,90
28
14,764
Drome
615,00
438,00
69,60
35
12,8412
Eure
621,00
541,00
54,70
84,3
13,3004
Eure et loir
460,00
408,00
62,30
4,3
12,7625
Finistère
721,00
852,00
72,80
19,7
13,1927
Gard
1 190,00
623,00
76,40
12
12,8815
Haute-Garonne
1 680,00
1 046,00
82,20
5,3
14,7968
Gers
234,00
172,00
36,60
7,1
10,0966
Gironde
2 135,00
1 287,00
79,60
41
14,1076
Hérault
1 095,00
896,00
82,80
19
14,409
Ile et vilaine
1 023,00
868,00
65,40
96,5
14,6914
Indre
323,00
231,00
55,00
1,5
10,7375
Indre et Loire
549,00
554,00
75,10
11
13,6894
Isère
1 262,00
1 094,00
76,40
8,1
14,5211
Jura
164,00
251,00
44,60
9,3
12,1403
Landes
454,00
327,00
53,50
73
11,0521
Loire et cher
446,00
315,00
54,60
9,6
11,5617
Loire
985,00
729,00
79,60
16,6
13,7011
Haute et Loire
244,00
209,00
53,60
42,7
11,6422
Loire atlantique
1 405,00
1 134,00
76,70
82
14,2435
Loiret
795,00
618,00
74,30
25,1
13,5312
Lot
239,00
160,00
36,30
10,6
10,3147
Lot-et-Garonne
510,00
305,00
62,60
0
11,7026
Lozère
105,00
74,00
35,10
0
11,6759
Maine et Loire
1 009,00
733,00
64,90
58,8
14,6238
Sources :
? http://www.securiteroutiere.gouv.fr/IMG/pdf/comparaisons_interdepartementales-2.pdf
? http://www.insee.fr/fr/ffc/docs_ffc/ElpDep_5trages90-04[1].xls
Le modèle de régression linéaire multiple (RLM)
A. Hypothèses du modèle de RLM
? La variable dépendante Yi , dans notre modèle , peut être calculée par une relation linéaire des variables indépendantes et du terme d’erreur. Cette relation linéaire impose:
? Yi = ?+?Ni=1 ? j X ji+ ?i i ? [1,N] j ? [2,k]
Où: - Yi…variable dépendante, endogène ou à expliquer
X ji …variables indépendantes, exogènes ou explicatives
? …paramètre du modèle
? j …paramètre du modèle
?i …variable aléatoire, terme d’erreur, élément perturbateur
? Hypothèse fondamentale :
? L’espérance mathématique conditionnelle est supposée être nulle.
E[?i/ X ji ] = 0 pour tout i ? [1,N] et j ? [2,k]
? Hypothèse d’homoscédasticité :
La variance de cette variable aléatoire, le terme d’erreur, est une variance identique. Les termes d’erreur ne sont pas corrélés entre eux.
? V[?i/ X ji ] = E[?i ²] = ?² pour tout i ? [1,N] et j ? [2,k]
? Cov[?i ?i’] = E[?i ?i’] = 0 pour tout i ? [1,N] et i ? i’
? Les variables explicatives et les termes d’erreur sont supposés indépendants et non corrélés :
? Cov[?i X ji ] = E[(?i - E[?i ]) (X ji - E[X ji])] = 0
? La variable aléatoire ?i évolue selon le loi normale. On suppose que les perturbations sont normales, indépendantes et identiquement distribuées :
? ?i ~ N (0, ?²)
? Hypothèse de multicolinéarité :
? On suppose qu’il n’existe pas de relation linéaire parfaite entre les variables explicatives.
B. Terme d’erreur
On considère que les variables explicatives du modèle ne sont pas les seules variables à pouvoir expliquer la variable endogène Yi .
La présence d’?i s’explique à cause de l’erreur de spécification. Il existe beaucoup de variables qui ne sont pas observables et entrent ainsi dans la partie „erreur“. Cette variable „erreur“ va représenter l’effet net d’un grand nombre de variables non présentes dans le modèle. On suppose que l’effet net en terme d’erreur est relativement faible.
Nous introduisons ?i pour les erreurs de mesure sur la variable dépendante Yi. Les erreurs de mesure ne correspondent pas aux erreurs réelles postulées par la théorie.
Les individus effectuent des choix différents dans des conditions totalement identiques. Il s’agit de la notion du hasard.
C. Propriétés des estimateurs
Pour qu’un estimateur ponctuel soit un bon estimateur il doit avoir les propriétés suivantes:
? L’estimateur doit être sans biais, c’est-à-dire que le coefficient de régression b doit avoir comme espérance mathématique le paramètre de la relation théorique:
E(b) = ?
? L’estimateur b doit être efficace. Un estimateur sans biais est un estimateur efficace si sa distribution d’échantillonnage possède la plus petite variance parmi tous les estimateurs sans biais:
V(b) = ?²b
? L’estimateur doit converger vers la vraie valeur du paramètre ?.
Estimation de notre modèle
A. Modèles théoriques
RLM:
Yi = ?+?Ni=1 ? j X ji+ ?i i ? [1,N] j ? [2,k]
Yi = ?+?50i=1 ? j X ji+ ?i i ? [1,50] j ? [2,6]
Où: - Yi …variable dépendante, nombre d’accidents,
X ji …variables indépendantes,
X 2i …population du département (en millier),
X 3i …part d’urbanisation du département,
X 4i …part de 2x2 voies dans le département,
X 5i …part des hommes de 15-24 dans la population totale du département,
? …paramètre du modèle,
? j …paramètre du modèle,
?i …variable aléatoire, terme d’erreur, élément perturbateur,
? E[?i/ X ji ] = 0 pour tout i ? [1,50] et j ? [2,5]
? V[?i/ X ji ] = E[?i ²] = ?² pour tout i ? [1,50] et j ? [2,5]
? Cov[?i ?i’] = E[?i ?i’] = 0 pour tout i ? [1,50] et i ? i‘
? Cov[?i X ji ] = E[(?i - E[?i ]) (X ji - E[X ji])] = 0 pour tout i ? [1,50] et j ? [2,5]
? ?i ~ N (0, ?²)
Dependent Variable: Y
Method: Least Squares
Date: 01/13/06 Time: 14:01
Sample: 1 50
Included observations: 50
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
1900.406
625.5454
3.037999
0.0040
X2
2.170576
0.276186
7.859108
0.0000
X3
20.55132
7.051298
2.914544
0.0055
X4
1.174395
2.359868
0.497653
0.6212
X5
-278.9953
62.02830
-4.497870
0.0000
R-squared
0.831343
Mean dependent var
735.3200
Adjusted R-squared
0.816351
S.D. dependent var
897.4098
S.E. of regression
384.5786
Akaike info criterion
14.83681
Sum squared resid
6655532.
Schwarz criterion
15.02802
Log likelihood
-365.9203
F-statistic
55.45332
Durbin-Watson stat
1.871092
Prob(F-statistic)
0.000000
B. 1ère estimation par la méthode des moindres carrés ordinaires (MCO).
?i = a + b2 X 2i + b3 X 3i + b4 X 4i + b5 X 5i i ? [1,50]
[t] [ta = 3.038] [tb2 =7,859] [tb3 = 2,915] [tb4 = 0,498] [tb5 = 4,498]
a…estimateur de ?
bj …estimateur de ? j j ? [2,5]
Où: - Yi …variable dépendante, nombre d’accidents,
X ji …variables indépendantes,
X 2i …population du département,
X 3i …part d’urbanisation du département,
X 4i …part de 2x2 voies dans le département,
X 5i …part des hommes de 15-24 dans la population totale
N.B. Les résultats sont obtenus par EViews.
1. Théorie de la décision:
Nous allons prendre en compte le risque de première espèce (qui correspond à la situation où l‘on rejette l’hypothèse alors qu’en réalité elle est vérifiée). On va imposer ce risque à une valeur relativement faible, seuil limite s = 5% = 0,05.
2. Test F :
Hypothèse jointe: H0 : ?2 = ?3 = ?4 = ?5 = 0
Fstat = 55,45332
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (4 ; 50-(4+1))
= F0,95 (4 ; 45) = 2,61
où: k…nombre de variables explicatives
N…nombre d’observations
(k+1)…nombre de variables explicatives + la constante
Fstat > F0,95 (5 ; 45) H0 : ?2 = ?3 = ?4 = ?5 = 0
H0 va être rejetée
Si H0 est rejetée, alors on peut trouver dans le modèle testé au moins une variable explicative significative statistiquement.
3. Test t (test bilatéral)
? ? 2 ~ N (E(b2 ), ?b2)
E(b2 ) = ?2
(b2 - ?2) / ?b2 ~ N (0, 1)
(b2 - ?2) / ^?b2 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?2 = 0.
H0 : ?2 = 0 contre H1 : ?2 ? 0
tstat = | b2 / ^?b2 | = 7,859108
tthéorique = ts (N-(k+1))
= t0,05 (50-(4+1))
= t0,05 (45) = 2,042
tstat > t0,05 (45) H0 : ?2 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X2 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 3 ~ N (E(b3), ?b3)
E(b3 ) = ?3
(b3 – ?3) / ?b3 ~ N (0, 1)
(b3 – ?3) / ^?b3 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?3 = 0.
H0 : ?3 = 0 contre H1 : ?3 ? 0
tstat = | b3 / ^?b3 | = 2,914544
tthéorique = ts (N-(k+1))
= t0,05 (50-(4+1))
= t0,05 (45) = 2,042
tstat > t0,05 (45) H0 : ?3 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X3 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 4 ~ N (E(b4 ), ?b4)
E(b4 ) = ?4
(b4 – ?4) / ?b4 ~ N (0, 1)
(b4 – ?4) / ^?b4 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?4 = 0.
H0 : ?4 = 0 contre H1 : ?4 ? 0
tstat = | b4 / ^?b4 | = 0,497653
tthéorique = ts (N-(k+1))
= t0,05 (50-(4+1))
= t0,05 (45) = 2,042
tstat < t0,05 (45) H0 : ?4 = 0
H0 va être accepté
Si H0 est acceptée, la variable explicative X4 n’est pas considérée comme statistiquement significative. Elle ne peut donc expliquer les comportements de la variable dépendante Yi .
? ? 5 ~ N (E(b5 ), ?b5)
E(b5 ) = ?5
(b5 – ?5) / ?b5 ~ N (0, 1)
(b5 – ?5) / ^?b5 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?5 = 0.
H0 : ?5 = 0 contre H1 : ?5 ? 0
tstat = | b5 / ^?b5 | = 4,497870
tthéorique = ts (N-(k+1))
= t0,05 (50-(4+1))
= t0,05 (45) = 2,042
tstat > t0,05 (45) H0 : ?5 = 0
H0 va être rejetée.
Si H0 est rejetée, la variable explicative X5 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on constate, qu’il y a trois variables explicatives significatives statistiquement, X2 et X3 et X5
4. Matrice de corrélation :
Pour pouvoir définir la variable explicative à supprimer de notre modèle, on va effectuer la matrice de corrélation.
X2
X3
X4
X5
X2
1
0.818578
0.276888
0.686188
X3
0.818578
1
0.181700
0.723525
X4
0.276888
0.181700
1
0.394526
X5
0.686188
0.723525
0.394526
1
On observe la plus forte corrélation entre X2 et X3. Cependant ces deux variables sont statistiquement significative. Il n’est donc pas judicieux de supprimer l’une des deux.
X4 étant la seul variable non significative, on va alors la supprimer pour tester de nouveau le modèle.
C. 2ème estimation par la méthode des moindres carrés ordinaires (MCO) :
Dependent Variable: Y
Method: Least Squares
Date: 01/13/06 Time: 14:58
Sample: 1 50
Included observations: 50
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
1829.473
604.0885
3.028485
0.0040
X2
2.191306
0.270785
8.092432
0.0000
X3
19.77604
6.820581
2.899465
0.0057
X5
-268.1058
57.56398
-4.657528
0.0000
R-squared
0.830415
Mean dependent var
735.3200
Adjusted R-squared
0.819355
S.D. dependent var
897.4098
S.E. of regression
381.4207
Akaike info criterion
14.80230
Sum squared resid
6692161.
Schwarz criterion
14.95526
Log likelihood
-366.0575
F-statistic
75.08321
Durbin-Watson stat
1.844189
Prob(F-statistic)
0.000000
?i = a + b2 X 2i + b3 X 3i + b5 X 5i i ? [1,50]
[t] [ta = 3,028] [tb2 =8,092] [tb3 = 2,899] [tb5 = 4,658]
a…estimateur de ?
bj …estimateur de ? j j ? [2,5]
Où: - Yi …variable dépendante, nombre d’accidents,
X ji …variables indépendantes,
X 2i …population du département,
X 3i …part d’urbanisation du département,
X 5i …part des hommes de 15-24 dans la population totale
N.B. Les résultats sont obtenus par EViews.
1. Théorie de la décision:
Nous allons prendre en compte le risque de première espèce (qui correspond à la situation où l‘on rejette l’hypothèse alors qu’en réalité elle est vérifiée). On va imposer ce risque à une valeur relativement faible, seuil limite s = 5% = 0,05.
2. Test F
Hypothèse jointe: H0 : ?2 = ?3 = ?5 = 0
Fstat = 75,08321
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (3 ; 50-(3+1))
= F0,95 (3 ; 46) = 2,76
où: k…nombre de variables explicatives
N…nombre d’observations
(k+1)…nombre de variables explicatives + la constante
Fstat > F0,95 (3 ; 45) H0 : ?2 = ?3 = ?5 = 0
H0 va être rejetée
Si H0 est rejetée, alors on peut trouver dans le modèle testé au moins une variable explicative significative statistiquement.
3. Test t (test bilatéral)
? ? 2 ~ N (E(b2 ), ?b2)
E(b2 ) = ?2
(b2 - ?2) / ?b2 ~ N (0, 1)
(b2 - ?2) / ^?b2 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?2 = 0.
H0 : ?2 = 0 contre H1 : ?2 ? 0
tstat = | b2 / ^?b2 | = 8,092
tthéorique = ts (N-(k+1))
= t0,05 (50-(3+1))
= t0,05 (46) = 2,042
tstat > t0,05 (46) H0 : ?2 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X2 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 3 ~ N (E(b3), ?b3)
E(b3 ) = ?3
(b3 – ?3) / ?b3 ~ N (0, 1)
(b3 – ?3) / ^?b3 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?3 = 0.
H0 : ?3 = 0 contre H1 : ?3 ? 0
tstat = | b3 / ^?b3 | = 2,899
tthéorique = ts (N-(k+1))
= t0,05 (50-(3+1))
= t0,05 (46) = 2,042
tstat > t0,05 (46) H0 : ?3 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X3 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 5 ~ N (E(b5 ), ?b5)
E(b5 ) = ?5
(b5 – ?5) / ?b5 ~ N (0, 1)
(b5 – ?5) / ^?b5 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?5 = 0.
H0 : ?5 = 0 contre H1 : ?5 ? 0
tstat = | b5 / ^?b5 | = 4,658
tthéorique = ts (N-(k+1))
= t0,05 (50-(3+1))
= t0,05 (46) = 2,042
tstat > t0,05 (46) H0 : ?5 = 0
H0 va être rejetée.
Si H0 est rejetée, la variable explicative X5 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on constate, que les trois variables explicatives sont significatives statistiquement, X2, X3 et X5 .
4. Comparaison des deux estimations :
On observe dans les deux modèles testé un coefficient de détermination R² quasiment identique. Le graphique indiquant les résidus est lui aussi presque similaire entre les deux estimations. Il est alors préférable de conserver la variable X4 .
D. 3ème estimation avec transformation logarithmique.
Dependent Variable: LY
Method: Least Squares
Date: 01/14/06 Time: 12:03
Sample(adjusted): 2 50
Included observations: 43
Excluded observations: 6 after adjusting endpoints
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
-0.789204
1.126020
-0.700879
0.4876
LX2
0.752757
0.114155
6.594147
0.0000
LX3
1.569797
0.306569
5.120526
0.0000
LX4
0.092691
0.044582
2.079108
0.0444
LX5
-1.637755
0.665013
-2.462741
0.0184
R-squared
0.880222
Mean dependent var
6.321732
Adjusted R-squared
0.867614
S.D. dependent var
0.805067
S.E. of regression
0.292923
Akaike info criterion
0.491129
Sum squared resid
3.260543
Schwarz criterion
0.695920
Log likelihood
-5.559271
F-statistic
69.81357
Durbin-Watson stat
1.771178
Prob(F-statistic)
0.000000
L?i = a + b2 LX 2i + b3 LX 3i + b4 LX 4i + b5 LX 5i i ? [1,43]
[t] [ta = 0,7009] [tb2 = 5,5941] [tb3 = 5,1205] [tb4 = 2,0791] [tb5 = 2,4627]
a…estimateur de ?
bj …estimateur de ? j j ? [2,5]
Où: - Yi …variable dépendante, nombre d’accidents,
X ji …variables indépendantes,
X 2i …population du département,
X 3i …part d’urbanisation du département,
X 4i …part de 2x2 voies dans le département,
X 5i …part des hommes de 15-24 dans la population totale
N.B. Les résultats sont obtenus par EViews.
1. Test F
Hypothèse jointe: H0 : ?2 = ?3 = ?4 = ?5 = 0
Fstat = 69,81357
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (4 ; 43-(4+1))
= F0,95 (4 ; 38) = 2,61
où: k…nombre de variables explicatives
N…nombre d’observations
(k+1)…nombre de variables explicatives + la constante
Fstat > F0,95 (5 ; 38) H0 : ?2 = ?3 = ?4 = ?5 = 0
H0 va être rejetée
Si H0 est rejetée, alors on peut trouver dans le modèle testé au moins une variable explicative statistiquement significative.
2. Test t (test bilatéral)
? ? 2 ~ N (E(b2 ), ?b2)
E(b2 ) = ?2
(b2 - ?2) / ?b2 ~ N (0, 1)
(b2 - ?2) / ^?b2 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?2 = 0.
H0 : ?2 = 0 contre H1 : ?2 ? 0
tstat = | b2 / ^?b2 | = 6,5941
tthéorique = ts (N-(k+1))
= t0,05 (43-(4+1))
= t0,05 (38) = 2,042
tstat > t0,05 (38) H0 : ?2 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X2 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 3 ~ N (E(b3), ?b3)
E(b3 ) = ?3
(b3 – ?3) / ?b3 ~ N (0, 1)
(b3 – ?3) / ^?b3 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?3 = 0.
H0 : ?3 = 0 contre H1 : ?3 ? 0
tstat = | b3 / ^?b3 | = 5,1605
tthéorique = ts (N-(k+1))
= t0,05 (43-(4+1))
= t0,05 (38) = 2,042
tstat > t0,05 (38) H0 : ?3 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X3 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 4 ~ N (E(b4 ), ?b4)
E(b4 ) = ?4
(b4 – ?4) / ?b4 ~ N (0, 1)
(b4 – ?4) / ^?b4 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?4 = 0.
H0 : ?4 = 0 contre H1 : ?4 ? 0
tstat = | b4 / ^?b4 | = 2,0791
tthéorique = ts (N-(k+1))
= t0,05 (43-(4+1))
= t0,05 (45) = 2,042
tstat > t0,05 (45) H0 : ?4 = 0
H0 va être rejetée
Si H0 est rejetée, la variable explicative X4 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
? ? 5 ~ N (E(b5 ), ?b5)
E(b5 ) = ?5
(b5 – ?5) / ?b5 ~ N (0, 1)
(b5 – ?5) / ^?b5 ~ t (N-k+1)
On teste l’hypothèse H0 selon laquelle ?5 = 0.
H0 : ?5 = 0 contre H1 : ?5 ? 0
tstat = | b5 / ^?b5 | = 2,4627
tthéorique = ts (N-(k+1))
= t0,05 (43-(4+1))
= t0,05 (38) = 2,042
tstat > t0,05 (45) H0 : ?5 = 0
H0 va être rejetée.
Si H0 est rejetée, la variable explicative X5 est considérée comme statistiquement significative. Elle peut donc expliquer les comportements de la variable dépendante Yi .
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on constate, que les quatre variables sont statistiquement significative. Cependant, il faut noter que la transformation logarithmique a écarté 6 observations du fait qu’elles ont un X4 égal à zéro.
3. Comparaison entre les 3 estimations.
Après avoir « fait tourné » le modèle trois fois, on peut supposer qu’il peut être utiliser avec les quatre variables explicatives pour faire des prévisions puisque le R-squared est a chaque fois compris entre 0,83 et 0,88 et qu’au moins trois variable sur quatre sont significative tout le temps.
E. Prévisions
Nous effectuons la prévisions pour la variable explicative X2 , la population du département, et concernant le département de la Manche (51ème observation).
1. Modèle théorique.Yi = ? + ?2 X 2i + ?i i ? [1,N] Yi = ? + ?2 X 2i + ?i i ? [1,50] Où: - Yi…variable dépendante, nombre d’accidents corporelsX 2i …variable indépendante, population du département? …paramètre du modèle?2 …paramètre du modèle?i …variable aléatoire, terme d’erreur, élément perturbateur
? E[?i / X ji ] = 0 pour tout i ? [1,48] et j ? [2,6]
? V[?i / X ji ] = E[?i ²] = ?² pour tout i ? [1,48] et j ? [2,6]
? Cov[ ?i ?i‘] = E[ ?i ?i‘] = 0 pour tout i ? [1,48] et i? i‘
? Cov[ ?i X ji ] = E[(?i - E[?i]) (X ji - E[X ji])] = 0 pour tout i ? [1,48] et j ? [2,6]
? ?i~ N (0, ?²)
2. Estimation par MCO
?i = a + b2 X 2i i ? [1,50]
ei = Yi - ^ Yi
a……estimateur de ?
b2 ….estimateur de ?2
ei……estimateur d’?i
Où: - X 2i … la population du département (en millier).
Dependent Variable: Y
Method: Least Squares
Date: 01/14/06 Time: 12:48
Sample: 1 50
Included observations: 50
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
-317.8957
109.9507
-2.891258
0.0057
X2
2.148455
0.181313
11.84945
0.0000
R-squared
0.745236
Mean dependent var
735.3200
Adjusted R-squared
0.739928
S.D. dependent var
897.4098
S.E. of regression
457.6542
Akaike info criterion
15.12928
Sum squared resid
10053474
Schwarz criterion
15.20576
Log likelihood
-376.2321
F-statistic
140.4095
Durbin-Watson stat
1.910418
Prob(F-statistic)
0.000000
3. Estimation ponctuelle
Erreur de prévision:
?? - Y? = (a - ? ) + (b2 - ?2) X? - ??
E[(?? - Y?)] = 0
V[[(?? - Y?)] = ?² (1 + 1/N + (X? - X¯)² / Sxx)
? a = -317,8957
? b2 = 2,148455
? X? = 481
? X¯= 490,22
? ?² = 457,6542
? N = 50
? Sxx = ?Ni=1 (Xi - X¯)² = 6 371 164,58
Application numérique :
V[(?? - Y?)] = 457,6542 (1 + 1/50 + (481 - 490,22)² / 6371164,58)
V[(?? - Y?)] = 466,81
?(^y? – y?) = 21,61
?? = a + b2 X?
?? = -317,8957 + 2,148455 * 481 = 715,51
Région d’acceptation: [?? ± ts ^?(^y? – y?)]
Avec : tthéorique = ts (N-(k+1)) = 2,042
Intervalle de confiance :
Prob [715,51 + 2,042 * 21,61 ; 715,51 - 2,042 * 21,61] = 0,95
[715,51 ± 44,12]
[671.39 ; 759.63]
On constate que le département de la Manche a connu 697 accidents corporels en 2004. Ce nombre appartient à l’intervalle de confiance. La relation théorique peut donc être considérée comme valide pour la période de ?.
Conclusion.
Notre modèle parait à priori bien expliquer les variation de notre variable expliquée, mais les types de corrélation vont a l encontre de nos premières intuitions. En effet, la part des 15-24 ans dans la population et le poids des 2*2 voies dans les parcours de chaque département sont significatifs mais corrélés négativement avec le nombre d’accidents corporels. Nous devons alors remettre en cause soit nos données, soit les spécifications du modèle. On peut schématiser le principe :
114300571500
114300173355Phénomène méritant une étude
00Phénomène méritant une étude
0158115Echantillonage
00Echantillonage
11430004381500
5143500387350011430003873500
45720014795500
4572000142875-Nouvelles spécifications
-Nouvelles données
-Redéfinition des variables
00-Nouvelles spécifications
-Nouvelles données
-Redéfinition des variables
45720028575Statistiques
00Statistiques
114300013779500
228600013271500
2628900127635Infirmation
00Infirmation
45720013335
00
3886200825500182880012255500
571500117475Méthode économétrique
00Méthode économétrique
182880010731500228600022161500
2628900216535Confirmation
00Confirmation
Les variables plus générales relatives à la population et au taux d’urbanisation sont elles aussi significatives mais corrélées comme nous l’avions supposé.
On peut dons conclure que l’approche d’une étude des accidents de la route n’est pas aisée car le nombres de déterminants de l’accident est très élevé et très souvent ces variable sont corrélées entre elles, d’où la difficulté à résumer le phénomène a seulement quatre variables explicative. A posteriori une étude du type suivant aurai été intéressante a mener :
-1447809144000
Liste de facteurs (non exhaustif) jouant sur la fréquence des accidents
indépendants du temps
utiliser un véhicule qui peut rouler beaucoup plus vite que les vitesses autorisées
circuler sur une route peu lisible dont l'aspect incite à rouler à une vitesse supérieure à celle pour laquelle elle a été conçue
transgresser facilement les règles de la circulation
intervenant à l'échelle de l'année
l'ancienneté du permis de conduire récent
parcourir peu de kilomètres chaque année
intervenant à l'échelle du trajet (heures)
ne pas avoir suffisamment dormi
avoir consommé une quantité d'alcool excessive
avoir consommé des produits psycho-actifs (certains médicaments, drogues)
ne pas avoir attaché sa ceinture ou mis son casque
intervenant à l'échelle de la minute (pré-accident)
être en excès de vitesse par rapport à la limite légale du lieu
ne pas avoir identifié un facteur de risque routier (virage serré, sol glissant, chaussée altérée)
faire une manoeuvre qui réduit les capacités de conduite (téléphoner)
intervenant à l'échelle de la seconde
quitter trop longtemps du regard la voiture qui vous précède ou la chaussée (se tourner pour regarder des enfants à l'arrière du véhicule, se laisser distraire par un événement, par exemple un accident dans l'autre sens sur une autoroute, un animal, etc.)
effectuer une manoeuvre sans s'être assuré de pouvoir l'effectuer sans risque (changer de file pour un dépassement ou un changement de direction)
http://www.securite-routiere.org/Connaitre/accidentologie.htm
Ce genre d’étude oblige à utiliser des donnés en panel voir en cohorte et est bien sur bien plus compliqué à mener.
Bibliographie.
http://www.securite-routiere.org/Connaitre/accidentologie.htm
http://www.securitéroutière.gouv.fr
http://www.insee.fr.