Archives pour juillet 2008

Analyse de Trajectoire

26 juillet 2008

Il vous est peut-être déjà arrivé, ou il vous arrivera peut-être un jour, de vouloir modéliser un phénomène et de déterminer les facteurs qui influencent les changements de ce phénomène dans le temps. L’approche classique consiste à effectuer une analyse de la variance en mesure répétées. Cependant, peut-être que le changement moyen dans le temps n’est pas celui auquel vous vous attendiez. Peut-être aussi qu’il n’y a tout simplement pas de changement en moyenne. Il vous vient peut-être à la tête qu’en fait, la trajectoire du phénomène que vous étudiez n’est pas homogène pour tous les individus.

Prenons un exemple concret, pour notre projet de fin d’études, Simon Olivier et moi tentions de modéliser le niveau de motivation scolaire des élèves du secondaires. Le niveau de motivation des élèves augmentait dans le temps, ce qui est contraire à ce qui a été observé dans la population en général. De plus, les élèves ayant de moins bons résultats scolaires au début de l’étude tendaient à connaître davantage une hausse de motivation que ceux qui avaient de moins bons résultats. Une hypothèse qui a été soulevée pour expliquer ce phénomène était que peut-être que la plupart des élèves avaient une motivation relativement stable, mais qu’un certain nombre des élèves qui avaient de mauvais résultats au départ ont redoublés d’effort, ont connus une hausse de leurs résultats et de leur motivation scolaire.

Pour vérifier cette hypothèse, j’ai utiliser un modèle d’analyse des trajectoires. Ce type de modèle permet de déterminer combien de trajectoires différentes sont suivies par les individus de notre échantillon, de déterminer la forme des trajectoires suivies par les individus (linéaire, quadratique, cubique…), de déterminer les facteurs de risque qui font qu’un individu suit une trajectoire plutôt qu’une autre et de déterminer des covariables variant dans le temps et qui font que l’individu subit une déviation par rapport à la moyenne de la trajectoire qu’il suit. Pour télécharger la procédure, pour connaître plus d’information, pour lire des articles qui expliquent le fonctionnement de base de la procédure et ses possibilités plus avancées, vous pouvez consulter : http://www.andrew.cmu.edu/user/bjones/ .

Nalgin a également écrit un livre sur l’analyse des trajectoires, qui est assez intéressant, bien qu’il ne parle pas de la procédure qu’il a implanté en SAS pour effectuer l’analyse. Principalement, il donne des lignes directrices pour effectuer l’analyse. Voici quelques conseils:

 

1. Prenez un phénomène que vous désirez étudier. Supposez d’abord qu’il y a une trajectoire d’un ordre donné (par exemple 2) et aucune covariable ni facteurs de risque, puis 2 trajectoires, puis 3, et ainsi de suite. Notez la valeur du critère BIC. La plus grande valeur (ou la plus petite valeur en valeur absolue) vous indique le bon nombre de trajectoire à utiliser.

2. Déterminer successivement l’ordre de chacune des trajectoires. Trajectoire par trajectoire, changez son ordre et notez le critère BIC. Même critère de décision qu’en 1.

3. Ajoutez des facteurs de risque, des covariables ou effectuez une analyse de trajectoire duale en utilisant comme valeur de départ de votre algorithme les valeurs des paramètres donnés dans le log de votre programme en 2.

L’analyse des trajectoires est certainement quelque chose d’assez complexe. Si vous avez des questions, n’hésitez pas à poster.

 

Denis 

P.S.: Je vais surement refaire un post éventuellement pour axer davantage sur la programmation SAS de la procédure, car je ne trouve pas les indications du site hyper hyper claires. Ça m’a pris pratiquement une semaine à temps plein à ne me concentrer que cette procédure avant de commencer à être capable de l’utiliser.

Median Absolute Deviation

24 juillet 2008

La deuxième chronique le saviez-vous de l’été!

Cette fois çi, elle porte sur le MAD (Median absolute deviation), qui est une mesure robuste de la variation des données similaire à l’écart-type.
Certains d’entre nous ont programmé à la main des programmes pour calculer le MAD, cependant, SAS est capable de le faire pour nous avec la procédure UNIVARIATE et l’option ROBUSTSCALE.

Exemple:

PROC UNIVARIATE DATA = perm.transition2 ROBUSTSCALE; VAR AMI BMI CMI AIDEN BIDEN CIDEN AINTRO BINTRO CINTRO BREGE CREGE AAMO BAMO CAMO; RUN;

Bonne journée!

Denis

Conditions avec SELECT

24 juillet 2008

Allo

J’ai appris une nouvelle façon de faire des if, mais c’est beaucoup plus compact comme méthode. Voici un exemple :

SELECT(toto);
        WHEN (“valeur de toto” : ex. : 2) x = 3; (Cela veut dire que if toto = 2 then x = 3.)
        WHEN (“valeur de toto” : ex. : 4) x = 5;
        … (Autant qu’on en veut.)
        OTHERWISE x = .; (Optionnel, on peut s’arrêter avec un when.)
END;

Ou

SELECT;
        WHEN (toto < 2) x = 2;
        WHEN (2 <= toto < 6) x = 4;
        …
        OTHERWISE x = .;
END;

Dans un programme, ça fait pas mal plus beau qu’un paquet de if et de then.

Aussi, j’ai découvert une nouvelle procédure : PROC GLIMMIX. Par contre, elle doit être downloadé sur le site de SAS.
http://www.sas.com/apps/demosdownloads/sasstatglimmix_PROD__sysdep.jsp?packageID=000353&jmpflag=N
Elle fait sensiblement la même chose que GENMOD et s’écrit vraiment presque pareil. Elle permet cependant d’ajouter des effets aléatoires comparativement à GENMOD où on peut seulement lui ajouter un paramètre de dispersion (scale = d ou p avec l’option aggregate = ).

C’est tout pour ma chronique le saviez-vous. J’espère que vous avez appris des choses nouvelles.

Marie

Modélisation non-linéaire

24 juillet 2008

Salut tout le monde,

 

J’avoue que Denis a raison en disant qu’au MRNF, on apprend plein de choses.  Bon, pour ma première chronique, je veux simplement vous soumettre un site internet qui m’a été très utile pour faire des régressions lors de mon premier projet, surtout pour les régressions non-linéaires.   Voici l’adresse : http://www.for.gov.bc.ca/hfd/pubs/docs/Bio/Bio04.pdf

 

Dans ce document pdf, on retrouve une multitude d’options pour faire des régressions linéaires et non-linéaires, ainsi qu’un exemple de programme SAS de « proc reg » et/ou « proc nlin » pour chaque type de régression.  Bref, un bon document à conserver.

 

Bonne journée !

 

Richard

Terminologie statistique

24 juillet 2008

Allo tout le monde,

 

Je lis beaucoup de livres en statistique présentement et j’ai découvert deux lexiques qui traduisent les mots du domaine de la statistique en français. Je trouve ça très utile parce qu’on ne trouve pas la moitié des mots dans un dictionnaire anglais-français. Je préfère le deuxième lexique, mais on ne trouve pas tous les mots donc le premier peut être utile aussi. Aussi, quand on vient pour écrire des textes en français à partir d’un livre en anglais, ça permet de traduire correctement les termes utilisés.

 

http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/eurostat/research/isi/glossaryfe.htm&1

 

http://biol09.biol.umontreal.ca/legendre/Lexique.pdf

 

 

 

Marie-Eve