<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:georss="http://www.georss.org/georss" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:media="http://search.yahoo.com/mrss/"
	>

<channel>
	<title>Feenomenale's Weblog &#187; ACP</title>
	<atom:link href="http://feenomenale.wordpress.com/tag/acp/feed/" rel="self" type="application/rss+xml" />
	<link>http://feenomenale.wordpress.com</link>
	<description>Just another WordPress.com weblog</description>
	<lastBuildDate>Thu, 31 Dec 2009 17:11:24 +0000</lastBuildDate>
	<generator>http://wordpress.com/</generator>
	<language>fr</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<cloud domain='feenomenale.wordpress.com' port='80' path='/?rsscloud=notify' registerProcedure='' protocol='http-post' />
<image>
		<url>http://www.gravatar.com/blavatar/47eb6e82e22c38cc5d95f9b2ba4fda2d?s=96&#038;d=http://s.wordpress.com/i/buttonw-com.png</url>
		<title>Feenomenale's Weblog &#187; ACP</title>
		<link>http://feenomenale.wordpress.com</link>
	</image>
	<atom:link rel="search" type="application/opensearchdescription+xml" href="http://feenomenale.wordpress.com/osd.xml" title="Feenomenale&#8217;s Weblog" />
		<item>
		<title>L&#8217;Analyse de données, épisode 2 : la CAH</title>
		<link>http://feenomenale.wordpress.com/2008/07/23/analyse-de-donnees-episode-2-la-cah/</link>
		<comments>http://feenomenale.wordpress.com/2008/07/23/analyse-de-donnees-episode-2-la-cah/#comments</comments>
		<pubDate>Wed, 23 Jul 2008 13:26:55 +0000</pubDate>
		<dc:creator>feenomenale</dc:creator>
				<category><![CDATA[Boulot]]></category>
		<category><![CDATA[ACP]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[CAH]]></category>
		<category><![CDATA[classes]]></category>
		<category><![CDATA[inertie]]></category>
		<category><![CDATA[macro SAS]]></category>
		<category><![CDATA[méthode]]></category>
		<category><![CDATA[statistiques]]></category>

		<guid isPermaLink="false">http://feenomenale.wordpress.com/?p=198</guid>
		<description><![CDATA[La Classification Ascendante Hiérarchique (CAH) permet de séparer des individus en groupes homogènes (les individus appartenant à une même classe ont des caractéristiques proches) et distincts les uns des autres (les groupes formés ne sont pas identiques). Cette méthode produit des partitions emboîtées d’hétérogénéité croissante. Plus simplement, la première partition produite est celle qui contient autant de classes [...]<img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=feenomenale.wordpress.com&blog=4034009&post=198&subd=feenomenale&ref=&feed=1" />]]></description>
			<content:encoded><![CDATA[<div class='snap_preview'><br /><p style="text-align:justify;">La Classification Ascendante Hiérarchique (CAH) permet de séparer des individus en groupes homogènes (les individus appartenant à une même classe ont des caractéristiques proches) et distincts les uns des autres (les groupes formés ne sont pas identiques). Cette méthode produit des partitions emboîtées d’hétérogénéité croissante. Plus simplement, la première partition produite est celle qui contient autant de classes que d’objets à classer. La dernière est celle qui comporte tous les objets à classer. Evidemment, la partition à choisir n’est ni la première, ni la dernière. En fonction de certains critères, le statisticien est capable de choisir le nombre qu’il lui faut !</p>
<p style="text-align:justify;"><span id="more-198"></span></p>
<ul style="text-align:justify;">
<li>
<h2><em>Quand utiliser une CAH ?</em></h2>
</li>
</ul>
<p style="text-align:justify;">Dès que l’on dispose d’une notion de distance, et que l’on souhaite regrouper des individus semblables !</p>
<ul style="text-align:justify;">
<li>
<h2 style="margin-left:5pt;margin-right:5pt;text-align:justify;"><em>Comment ?</em></h2>
</li>
</ul>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Par des macros SAS développées par l’INSEE, ou grâce à SPAD et d’autres logiciels d’analyse de données (plus ou moins presse-boutons)… Le logiciel R, extrêmement performant et gratuit, en est aussi capable !</p>
<ul style="text-align:justify;">
<li>
<h2 style="margin-left:5pt;margin-right:5pt;text-align:justify;"><em>Algorithme ?</em></h2>
</li>
</ul>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Point de départ : aucune observation regroupée</p>
<p style="margin-left:77pt;text-indent:-18pt;margin-right:5pt;text-align:justify;">1.       Pour chaque unité, on calcule les distances qui les séparent.</p>
<p style="margin-left:77pt;text-indent:-18pt;margin-right:5pt;text-align:justify;">2.       On regroupe les 2 individus les plus proches en terme de distance. Les individus rassemblés forment une seule et même unité (classe).</p>
<p style="margin-right:5pt;text-align:justify;"><span> </span>Point final : quand toutes les observations de départ sont dans la même classe.</p>
<ul style="text-align:justify;">
<li>
<h2 style="margin-right:5pt;text-align:justify;"><em>Le nombre de classes ?</em></h2>
</li>
</ul>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Il faut regarder le dendrogramme ! Celui ci est issu du best seller de Tufféry (http://data.mining.free.fr/)</p>
<div class="mceTemp mceIEcenter" style="text-align:justify;">
<dl class="wp-caption aligncenter">
<dt class="wp-caption-dt"><a href="http://feenomenale.files.wordpress.com/2008/07/dendo.jpg"><img class="size-medium wp-image-221" title="dendrogramme" src="http://feenomenale.files.wordpress.com/2008/07/dendo.jpg?w=458&#038;h=285" alt="dendogramme" width="458" height="285" /></a></dt>
<dd class="wp-caption-dd">dendrogramme (http://data.mining.free.fr/)</dd>
</dl>
</div>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">
<p style="margin-right:5pt;text-align:justify;">La hauteur de deux branches jointes représente la perte d’inertie interclasse (entre les classes). Il faut alors « couper les branches avant qu’elles ne soient trop longues » comme dirait Michel Volle ! En réalité il faut que la perte d’inertie interclasse soit la plus faible possible, il faut donc couper où la hauteur des branches est élevée.</p>
<p style="margin-right:5pt;text-align:justify;">On remarque que selon la hauteur de la coupe on n&#8217;obtient pas le même nombre de classes, mais il faut garder en tête l’optimisation des critères de qualité statistique (inertie interclasse).</p>
<ul style="text-align:justify;">
<li>
<h2 style="margin-right:5pt;text-align:justify;"><em>Interprétation ?</em></h2>
</li>
</ul>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Une fois, votre arbre coupé, vous disposez du nombre de classes. Tous les logiciels, vous donneront quelques élèments d’interprétation par classe. Pour chaque classe, il est intéressant d&#8217;observer :</p>
<ol style="text-align:justify;">
<li>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Inertie intra (indicateur d&#8217;homogénéité de la classe)</p>
</li>
<li>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Distance au centre de gravité (indicateur d&#8217;excentricité de la classe): tous les chiffres sont en millièmes, exceptés l&#8217;effectif absolu et le RHO2</p>
</li>
</ol>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Les variables les plus caractéristiques sont généralement les variables actives de l&#8217;ACP réalisée auparavant*, en particulier celles qui étaient les plus contributives aux axes de l&#8217;ACP.</p>
<ul style="text-align:justify;">
<li>
<h2 style="margin-left:5pt;margin-right:5pt;text-align:justify;"><em>Caractérisation des classes par les variables ?</em></h2>
</li>
</ul>
<p style="margin-left:5pt;margin-right:5pt;text-align:justify;">Le but est d&#8217;identifier les variables pour lesquelles chaque classe se distingue le plus de la moyenne. Ainsi, pour chaque classe, on compare les valeurs moyennes prises par les variables continues dans la classe avec leur moyenne dans l&#8217;échantillon total. Une fois écartée les statistiques non significatives (probabilité supérieure au seuil que l&#8217;on s&#8217;est fixé, souvent 5%), une valeur-test positive signifie que la moyenne dans la classe est supérieure à la moyenne générale et reciproquement.</p>
<address>*En effet on peut utiliser les coordonnées sur les premiers axes du nouvel espace (qui contient une part importante de l&#8217;information initiale, si l&#8217;ACP est bonne) qui peuvent être prises en compte pour une CAH. Souvent, une CAH sur les valeurs initiales des variables ne convient pas à une classification en peu de classes (effectifs écrasant de certaines classes par rapport aux autres). Une ACP préalable a l’avantage d&#8217;étudier et de prendre en compte les relations entre les variables.</address>
<p class="MsoNormal" style="text-align:justify;margin:0;"><span style="font-size:x-small;"><span style="font-family:Arial;"> </span></span></p>
<img alt="" border="0" src="http://feeds.wordpress.com/1.0/categories/feenomenale.wordpress.com/198/" /> <img alt="" border="0" src="http://feeds.wordpress.com/1.0/tags/feenomenale.wordpress.com/198/" /> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/feenomenale.wordpress.com/198/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/feenomenale.wordpress.com/198/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godelicious/feenomenale.wordpress.com/198/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/delicious/feenomenale.wordpress.com/198/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gostumble/feenomenale.wordpress.com/198/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/stumble/feenomenale.wordpress.com/198/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godigg/feenomenale.wordpress.com/198/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/digg/feenomenale.wordpress.com/198/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/goreddit/feenomenale.wordpress.com/198/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/reddit/feenomenale.wordpress.com/198/" /></a> <img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=feenomenale.wordpress.com&blog=4034009&post=198&subd=feenomenale&ref=&feed=1" /></div>]]></content:encoded>
			<wfw:commentRss>http://feenomenale.wordpress.com/2008/07/23/analyse-de-donnees-episode-2-la-cah/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
	
		<media:content url="http://0.gravatar.com/avatar/81d167bde968973b3f1e685f11ac4981?s=96&#38;d=identicon" medium="image">
			<media:title type="html">Feenomenale</media:title>
		</media:content>

		<media:content url="http://feenomenale.files.wordpress.com/2008/07/dendo.jpg" medium="image">
			<media:title type="html">dendrogramme</media:title>
		</media:content>
	</item>
		<item>
		<title>L&#8217;analyse de données, épisode 1 : l&#8217;ACP</title>
		<link>http://feenomenale.wordpress.com/2008/07/18/lanalys-de-donnees-episode-1-lacp/</link>
		<comments>http://feenomenale.wordpress.com/2008/07/18/lanalys-de-donnees-episode-1-lacp/#comments</comments>
		<pubDate>Fri, 18 Jul 2008 14:49:16 +0000</pubDate>
		<dc:creator>feenomenale</dc:creator>
				<category><![CDATA[Boulot]]></category>
		<category><![CDATA[ACP]]></category>
		<category><![CDATA[analyse de données]]></category>
		<category><![CDATA[axes]]></category>
		<category><![CDATA[contribution]]></category>
		<category><![CDATA[critère]]></category>
		<category><![CDATA[dimensions]]></category>
		<category><![CDATA[inertie]]></category>
		<category><![CDATA[INSEE]]></category>
		<category><![CDATA[macro SAS]]></category>
		<category><![CDATA[méthode]]></category>
		<category><![CDATA[nuage]]></category>
		<category><![CDATA[projection]]></category>
		<category><![CDATA[qualité]]></category>
		<category><![CDATA[statistiques]]></category>
		<category><![CDATA[variables quantitatives]]></category>

		<guid isPermaLink="false">http://feenomenale.wordpress.com/?p=188</guid>
		<description><![CDATA[

Introduction


L&#8217;Analyse en Composantes Principales appelée plus communément ACP constitue l&#8217;une des plus anciennes méthodes factorielles dont le principe remonte à Hotelling (1933). Cette technique permet d&#8217;analyser des tableaux de type individus-variables lorsque ces dernières sont quantitatives. La méthode la plus fréquemment utilisée est l&#8217;ACP sur données centrées réduites ou ACP normée. 
Le nuage individus-variables formé par [...]<img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=feenomenale.wordpress.com&blog=4034009&post=188&subd=feenomenale&ref=&feed=1" />]]></description>
			<content:encoded><![CDATA[<div class='snap_preview'><br /><ul>
<li>
<h2 style="text-align:left;"><em>Introduction</em></h2>
</li>
</ul>
<p style="text-align:justify;">L&#8217;Analyse en Composantes Principales appelée plus communément ACP constitue l&#8217;une des plus anciennes méthodes factorielles dont le principe remonte à Hotelling (1933). Cette technique permet d&#8217;analyser des tableaux de type individus-variables lorsque ces dernières sont quantitatives. La méthode la plus fréquemment utilisée est l&#8217;ACP sur données centrées réduites ou ACP normée. </p>
<p style="text-align:justify;">Le nuage individus-variables formé par les données contient toute l&#8217;information, mais celle-ci n&#8217;est pas interprétable à l&#8217;oeil nu. En effet il est impossible pour l&#8217;esprit humain de se représenter un espace à plus de 3 dimensions. Alors que faire quand on dispose de n individus ayant chacun des valeurs sur plus de trois variables? On souhaite alors projeter le nuage sur un nombre restreint d&#8217;axes! Mais on &#8220;écrase&#8221; ce nuage et on perd donc de l&#8217;information! Mais quelle horreur, pauvre nuage?! Heureusement des petits malins et surtout de grands scientifiques ont eu l&#8217;idée géniale de développer des méthodes d&#8217;analyse multidimensionnelle&#8230; Le critère retenu pour l&#8217;ACP est la maximisation de l&#8217;inertie. Celle-ci est définie comme la somme des distances à l&#8217;origine pour tous les individus, pondérée par leur masse. Il s&#8217;agit en fait de la forme globale du nuage (taille, étendue&#8230;). Ainsi on peut conserver toute l&#8217;information utile même en &#8221;écrasant&#8221; le nuage, c&#8217;est à dire, en garantissant une perte minimale de l&#8217;information&#8230;</p>
<p style="text-align:justify;"><span id="more-188"></span>Il s&#8217;agit de construire un nouveau repère avec de nouveaux axes, qui seront des combinaisons linéaires des variables de départ. Techniquement pour les plus mathématiciens, pour le premier axe, on souhaite maximiser l&#8217;inertie du nuage projeté (nécessairement inférieure à l&#8217;inertie totale), c&#8217;est à dire déformer le moins possible le nuage des données. Le deuxième axe sera tel que l&#8217;inertie projetée sera maximale (mais inférieure à celle sur le premier axe) et cet axe sera orthogonal au premier. La méthode utilisée est celle des multiplicateurs de Lagrange (maximisation sous contrainte).</p>
<p style="text-align:justify;">En résumé technique très rapide, une ACP est une diagonalisation d&#8217;une matrice définie positive puis un classement par ordre décroissant des valeurs propres, les vecteurs propres associés déterminant les axes du nouveau repère. Ouf! On ne le fait pas à la main&#8230; Il existe des macros sous Excel (Tanagra) et SAS (développées par l&#8217;INSEE!!!)</p>
<ul style="text-align:justify;">
<li>
<h2><em>Nombre d&#8217;axes à interpréter</em>           </h2>
</li>
</ul>
<p style="text-align:justify;">On peut utiliser plusieurs critères. Le permier consiste à repérer un coude sur l&#8217;histogramme des valeurs-propres. Le deuxième est de calculer les différences secondes entre les valeurs propres et de choisir le nombre d&#8217;axe qui correspond à un changement de signe de cette différence. Enfin certains préféreront peut-être la comparaison à l&#8217;inertie moyenne, qui correspond en gros à choisir les axes qui ont une valeur propre supérieure à 1 (inertie moyenne que l&#8217;on obtiendrait si tous les axes portaient la même quantité d&#8217;inertie), ou encore se fixer un seuil en terme d&#8217;inertie cumulée. En réalité il faut interpréter les axes jusqu&#8217;à ce qu&#8217;ils ne soient plus interprétables&#8230;</p>
<ul style="text-align:justify;">
<li>
<h2><em> Interprétation </em></h2>
</li>
</ul>
<p style="text-align:justify;">Pour chaque individu et variable, on dispose de la nouvelle coordonnée dans le nouvel espace et de sa masse. Deux éléments sont essentiels dans l&#8217;interprétation d&#8217;un axe factoriel : la contribution et la qualité de représentation.</p>
<ol style="text-align:justify;">
<li>la contribution indique la participation d&#8217;un élément à la formation de l&#8217;axe, à son orientation.</li>
<li>la qualité de représentation, indicateur de la distance entre le point d&#8217;origine, dans l&#8217;espace des variables et sa projection sur le nouvel axe.</li>
</ol>
<h3 style="text-align:justify;">Résultats pour les variables</h3>
<p style="text-align:justify;">=&gt; Les coordonnées les plus fortes correspondent aux variables les plus contributives et les mieux représentées.</p>
<p style="text-align:justify;">Il faut sélectionner les variables les plus contributives en se fixant comme limite la contribution moyenne (si toutes les variables contribuaient de la même façon à la formation de l&#8217;axe : 1/&#8221;nombre de variables actives&#8221;). </p>
<h3 style="text-align:justify;">Résultats pour les individus</h3>
<p style="text-align:justify;">Dans le nuage des individus, la coordonnée n&#8217;implique pas automatiquement la contribution (la masse éventuellement inégale des individus intervient), ni la qualité qui fait intervenir la norme des individus.</p>
<p style="text-align:justify;">- on peut donc trouver des individus contributifs mal représentés. Ces individus contribueront certainement à un autre axe (ils étaient assez éloignés de cet axe, tout en ayant une influence sur son orientation, du fait de leur forte particularité)</p>
<p style="text-align:justify;">- peu contributifs mais bien représentés, ceci signifie qu&#8217;ils sont bien illustrés par l&#8217;axe, sans avoir réellement participé à son orientation</p>
<p style="text-align:justify;">- fortement contributifs et bien représentés sur un axe, ils ne participeront vraisemblablement pas à la formation des autres axes.</p>
<p style="text-align:justify;">=&gt; Les individus qui se projettent d&#8217;un même côté de l&#8217;axe auront des caractéristiques proches du point de vue des variables les plus contributives à cet axe.</p>
<p style="text-align:justify;"> </p>
<img alt="" border="0" src="http://feeds.wordpress.com/1.0/categories/feenomenale.wordpress.com/188/" /> <img alt="" border="0" src="http://feeds.wordpress.com/1.0/tags/feenomenale.wordpress.com/188/" /> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/feenomenale.wordpress.com/188/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/feenomenale.wordpress.com/188/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godelicious/feenomenale.wordpress.com/188/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/delicious/feenomenale.wordpress.com/188/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/gostumble/feenomenale.wordpress.com/188/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/stumble/feenomenale.wordpress.com/188/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/godigg/feenomenale.wordpress.com/188/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/digg/feenomenale.wordpress.com/188/" /></a> <a rel="nofollow" href="http://feeds.wordpress.com/1.0/goreddit/feenomenale.wordpress.com/188/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/reddit/feenomenale.wordpress.com/188/" /></a> <img alt="" border="0" src="http://stats.wordpress.com/b.gif?host=feenomenale.wordpress.com&blog=4034009&post=188&subd=feenomenale&ref=&feed=1" /></div>]]></content:encoded>
			<wfw:commentRss>http://feenomenale.wordpress.com/2008/07/18/lanalys-de-donnees-episode-1-lacp/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
	
		<media:content url="http://0.gravatar.com/avatar/81d167bde968973b3f1e685f11ac4981?s=96&#38;d=identicon" medium="image">
			<media:title type="html">Feenomenale</media:title>
		</media:content>
	</item>
	</channel>
</rss>