Python pour un data scientist/economist

Lino Galiana

Partie 3: modéliser

Cette partie du cours illustrera les concepts à partir des jeux de données suivants:

Principes

Un modèle statistique est une construction mathématique qui formalise une loi ayant généré les données. La différence principale entre machine learning et économétrie est dans le degré de structure imposé par le modélisateur.

Dans le premier cas, la structure imposée par le data scientist est minimale et ce sont plutôt les algorithmes qui, sur des critères de performance statistique, vont déterminer une loi mathématique qui correspond aux données. En économétrie, les hypothèses de structure des lois sont plus fortes (même dans un cadre semi ou non-paramétrique) et sont plus souvent imposées par le modélisateur.

L’adoption du Machine Learning dans la littérature économique a été longue car la structuration des données est souvent le pendant empirique d’hypothèses théoriques sur le comportement des acteurs ou des marchés (Athey and Imbens, 2019).

Pour caricaturer, l’économétrie s’attache à comprendre la causalité des certaines variables sur une autre donc s’attache principalement à l’estimation des paramètres alors que le Machine Learning se focalise sur un simple objectif prédictif en exploitant les relations de corrélations entre les variables.

Panorama d’un éco-système vaste

Grâce aux principaux packages de Machine Learning (scikit), Deep Learning (keras, pytorch, TensorFlow…) et économétrie (statsmodels), la modélisation est extrêmement simplifiée. Cela ne doit pas faire oublier l’importance de la structuration et de la préparation des données. Souvent, l'étape la plus cruciale est le choix du modèle le plus adapté à la structure du modèle. L’aide suivante, issue de l’aide de scikit, concernant les modèles de Machine Learning peut déjà donner de premiers enseignements sur les différentes familles de modèles:

L’aide-mémoire suivante peut aider à se diriger dans la large gamme des modèles de scikit-learn:

On distingue généralement deux types de méthodes, selon qu’on dispose d’information, dans l'échantillon d’apprentissage, sur les y (on utilisera parfois le terme label) :

  • apprentissage supervisé: la valeur cible est connue et peut-être utilisée pour évaluer la qualité d’un modèle
  • apprentissage non supervisé: la valeur cible est inconnue et ce sont des critères statistiques qui vont amener à sélectionner la structure de données la plus plausible.

Contenu de la partie:

Plan prévisionnel:

Autres champs:

  • maximum vraisemblance
  • stats bayésiennes
  • semi et non paramétrique: méthodes noyaux, GAM

Références

Athey, S., & Imbens, G. W. (2019). Machine learning methods economists should know about, arxiv.

Last updated on 21 Oct 2020
Published on 14 Oct 2020
Edit on GitHub