paint-brush
Ndenge ya kosalela Propensity Score Matching: Buku ya litambe na litambepene@ngl21
438 botángi
438 botángi

Ndenge ya kosalela Propensity Score Matching: Buku ya litambe na litambe

pene Angela Nedopekina9m2024/11/04
Read on Terminal Reader

Molai mingi; Mpo na kotánga

Propensity Score Matching ezali technique ya ba tests A/B ya kobakisa oyo esalelamaka tango randomisation ya échantillon esali te. Point ya propension (probabilité ya kozala assigné na groupe ya test) ya groupe ya traitement etangamaka pona usager nionso et puis usager a matcher na usager mosusu sur la base ya ba données historiques ya usage ya produit oyo esali groupe témoin. Na sima, ba résultats ya ba groupes mibale ekokanisi na nzela ya test statistique mpe ba mesurer effet ya expérience. Oyo ezali awa na se ezali cadre ya PSM : 1) Kosangisa ba données oyo ba estimer score ya propension mpe usager oyo ekokani na yango ezwami. 2) Ko estimer score ya propension na kosalelaka ba méthodes, lokola régression logistique, pe ko former na ensemble ya ba données pona ko prédire soki usager moko akopesama na groupe ya test. Mpo na mosaleli nyonso, modèle oyo azwaki formasyo ebimisaka probabilité ya kozala na groupe ya test. 3) Bokokani na kotalela score ya propension, esika bamekaka ba méthodes ya boyokani ndenge na ndenge, lokola voisin ya penepene.  4) Equilibre ya ba covariables entre groupe ya traitement na témoin e vérifié na calcul ya ba statistiques ya solde pe ko générer ba parcelles. Equilibre ya mabe elakisi que modèle oyo e estimer score ya propension esengeli ezala réspecifiée. 5) Ba effets ya test e estimé na nzela ya ba données oyo ekokani pe test statistique esalemaka. Ezali na ba limitations mosusu pona kosalela PSM.
featured image - Ndenge ya kosalela Propensity Score Matching: Buku ya litambe na litambe
Angela Nedopekina HackerNoon profile picture
0-item


Kala mingi te nazalaki kosala expérience moko oyo esalemaki na Propensity Score Matching mpe tango nazalaki kolukaluka ba informations nakutanaki na manque ya ba matériaux na sujet. La plupart ya ba articles nakuti ezali sur efficacité ya méthode mpe ezali bien détaillé te na oyo etali théorie. Yango wana, nazwaki mokano ya kokabola na bino malako ya mobimba na ntina ya cadre ya Propensity Score Matching mpe matambe na yango

Propensity Score Matching ezali nini mpe mpo na nini kosalela yango?

“Kokokanisa bapwɛ́ ya ezaleli esɛngaka kosala bituluku oyo ekokani ya bato oyo basalisamaki mpe oyo bazwaki lisalisi te oyo bazali na motuya moko ya bapwɛ́ ya ezaleli. Soki basalaki échantillon oyo ekokani na yango, bakoki kokanisa bopusi ya lisalisi ya monganga na kokokanisaka mbala moko matomba oyo ekobima.”


Ndimbola epesamaki mpo na mbala ya liboso na Rosenbaum PR, Rubin DB na article “Kotalela sensibilité na covariate binaire oyo emonanaki te na boyekoli ya botali na mbano binaire” ya 1983.


Mpo na koloba na pete, oyo ezali technique ya ba tests A/B ya kobakisa oyo esalelamaka tango randomisation ya échantillon esalaka te . Point ya propension (probabilité ya kozala assigné na groupe ya test) ya groupe ya traitement etangamaka pona usager nionso et puis usager a matcher na usager mosusu sur la base ya ba données historiques ya usage ya produit oyo esali groupe témoin. Na sima, ba résultats ya ba groupes mibale ekokanisi na nzela ya test statistique mpe ba mesurer effet ya expérience.


Figure 1. Ndakisa ya boyokani ya ba scores ya propension


Kasi mpo na nini kosalela technique complexe ya koluka groupe de contrôle soki plateforme A/B ekoki kosala yango na esika na yango? Na ba cas misusu ezali possible te ko employer plateforme A/B na fonction ya splitting intégré. Talá makambo oyo ekoki kobima:


  1. Ezali ntalo mingi mpe ezwaki ntango mingi mpo na mombongo mpo na kosalela momekano ya A/B mpo na mosala mpe bopanzi sango ndenge na ndenge ya misala ya ekulusu (ɛɛ, ekoki kosalema).
  2. Société ekoki kozanga litomba tango ezali komeka monetisation to ba fonctions/stratégies liées na marketing na cas ya ko mettre en œuvre expérience classique ya test/contrôle.
  3. Mbala mingi ekoki kosalema te kozala na échantillonnage randomisé na ba expériences hors ligne oyo esengeli mpo na test A/B.
  4. Ezali mpe na mosala te kosalela momekano ya A/B na ba expériences en ligne tango eloko oyo emekami ekabolami na ndenge ya pwasa te.


Nazalaki na cas ya minei na pratique na ngai mpe esalemaki tango nazalaki kosala na produit ya e-commerce. Ekipi moko ya biloko ezalaki komibongisa mpo na komeka fonction moko ya kopesa ba bonus na basaleli nsima ya kosala commande ya liboso. Probleme ezalaki que fonction ezalaki kosala te na ba usagers nionso oyo bazalaki kosala commande ya liboso. Esengelaki kokokisa makambo mosusu, na ndakisa motuya ya komande, mpe bongo na bongo. Na cas oyo, ezali koleka ndelo ya plateforme ya test A/B mpo na kokabola trafic entre groupe ya test na ya contrôle. Tala ntina oyo Propensity Score Matching ezalaki option.

Cadre ya boyokani ya ba scores ya propension

Cadre ya mobimba esalemi na ndenge ya moke na lisolo moko “ Bokokani ya score ya propension na R : ba méthodes conventionnelles pe ba fonctionnalités ya sika ” pe ezali na ba étapes mitano (Figure 2).


Etape ya liboso ezali ya kosangisa ba données oyo ba estimer score ya propension mpe usager oyo ekokani na yango ezwami.


Etape ya mibale ezali ya ko estimation ya score ya propension na kosalelaka ba méthodes, lokola régression logistique, pe ko former na ensemble ya ba données pona ko prédire soki usager akopesama na groupe ya test. Mpo na mosaleli nyonso, modèle oyo azwaki formasyo ebimisaka probabilité ya kozala na groupe ya test.


Etape ya misato ezali kolobela boyokani oyo esalemi na kotalaka score ya propension, esika bamekaka mayele ndenge na ndenge ya boyokani, lokola mozalani ya penepene.


Na étape ya minei, équilibre ya ba covariables entre groupe ya traitement na témoin e vérifié na calcul ya ba statistiques ya solde pe ko générer ba parcelles. Equilibre ya mabe elakisi que modèle oyo e estimer score ya propension esengeli ezala respecifiée.


Na eteni ya mitano ya suka, ba effets ya test e estimé na nzela ya ba données oyo ekokani mpe test statistique esalemi.


Figure 2. Cadre ya boyokani ya ba scores ya propension

Bosangisi ya ba données

Etape oyo ezali na oyo etali kosangisa ba variables oyo esengeli, ba covariables pe ba confondants. Covariate (X) ezali variable indépendante oyo ekoki ko influencer résultat ya expérience (Y), kasi oyo ezali na intérêt direct te. Confondateur ezali facteur mosusu longola se oyo ezali koyekola oyo ezali na boyokani ezala na allocation na groupe ya test (W) pe na résultat ya expérience (Y).


Graphique oyo ezali awa na se ezali kolakisa ba relation ya ba variables. X ezali covariate, W ezali indicateur ya assignation ya traitement, mpe Y ezali résultat. Graphique oyo ezali na gauche ezali kolakisa relation ya confondateur mpe oyo ezali na droite ezali kolakisa connexion indépendante ya covariate na résultat ya expérience (Y) mpe na test ya allocation ya groupe (W).


Figure 3. Boyokani ya covariate, assignation ya test pe résultat. 


Awa ezali na ntina mingi ko souligner que ezali recommandé te pona kaka ba variables oyo ezali associée na assignation ya ba usagers na groupe ya test (W) po ekoki ko réduire précision na évaluation ya différence ya groupe sans ko diminuer bias ( https://www.ncbi .nlm.nih.gov/pmc/masolo/PMC1513192/ ).


Okoki kotuna soki esengeli napona ba variables boni? Eyano ezali pete - mingi, malamu mpo na kozwa estimation ya likolo ya ba résultats mpe ko minimiser bias ya études . Et awa nazo loba ba nombres minene lokola 20-50 ou même plus.

Estimation ya Point ya Propensité

Kokende na etape oyo elandi, esengeli kosangisa ba données mpe kotiya drapeau ya kozala na groupe ya traitement. Ba usagers nionso misusu bakosala potentiellement groupe ya contrôle. Na sima score ya propension e estimé na kosalelaka ba méthodes ndenge na ndenge, lokola régression logistique to ba zamba ya pamba pamba.


La plupart ya ba articles oyo natangi epesi likanisi ya kokangama na régression logistique mpe kosalela te ba modèles mosusu ya complexe mingi mpo précision ya likolo ezali crucial te . Kasi, mayele ya kokokanisa oyo elandi etalelaka mingimingi bosikisiki.


Sima ya kopona méthode, modèle prédictif ezuami na formation na ba données na kosalelaka ba covariables oyo eponami pona ko prédire soki mosaleli azali na groupe ya test. Na suka, modèle esalaka ba prédictions pona usager moko na moko, pe score ya propension, probabilité ya kozala na groupe ya test, e calculer. Na oyo etali ba logiciels, na Python okoki kosalela bibliothèque nionso ya prévision kobanda na scikit-learn ya base mpe kokende na Prophet.

Kokokanisa ba Données

Mosala oyo elandi ezali ya kosalela mayele ya boyokani mpo na koluka mosaleli oyo ekokani na mosaleli uta na etuluku ya komeka. Yango wana, bato basalaka etuluku moko ya bato oyo bazali na bokonzi.


Ezali na ba méthodes ndenge na ndenge ya matching oyo okoki kopona, na ndakisa matching exact to Mahalanobis distance matching. Na article oyo nako lobela surtout technique commune ya matching ya voisin proche na ba variations na yango.


Bokokani ya ba voisins ya penepene (NNM) ezali na ba phases mibale. Ya liboso, algorithme yango eponaka basaleli, moko na moko na etuluku ya lisalisi, na molɔngɔ oyo emonisami. Na sima, pona mosaleli moko na moko ya groupe ya test, algorithme ezuaka usager na groupe ya contrôle oyo azali na score ya propension ya pene. Ba étapes oyo ezongelamaka tii tango basaleli moko te akotikala na ba groupes ya test to ya contrôle. Na Python, ezali na ba bibliothèques spécifiques pona PSM lokola PyTorch, Psmpy , causallib . To okoki ntango nyonso kokangama na bibliotɛkɛ nyonso ya kala oyo ezali na algorithmes oyo ekokani.


Ezali na ntina mingi ko souligner que na cas ya ko créer groupe de contrôle oyo ekokani na test classique A/B, esika ba usagers na groupe moko bazali unique mpe ba taille ya échantillon ekokani, esengeli ko mettre en œuvre NNM sans méthode ya remplacement. Méthode yango elingi koloba que sima ya ko correspondre, paire oyo ekokani ekolongolama, po usager moko na groupe ya contrôle akosalelama kaka mbala moko.


Ezali mpe na option ya kopona modèle NNM na étrier to sans étrier. Etrier etie ndelo ya likolo ya distance ya ba scores ya propension na paire oyo ekokani. Na yango, mosaleli nyonso akoki kokokana kaka na basaleli ya score ya propension na kati ya intervalle limité. Soki basaleli oyo babongi bakoki kokokana te, mosaleli akobwakama.


Mpo na nini nasengeli kosalela étrier? Ezali malamu kosalela yango ntango ntaka ya ba scores ya propension na paire oyo ekokani ekoki kozala monene. Ntango ozali kozwa ekateli ya bonene ya étrier, talela makambo oyo elandi: soki mosala ya boyokani ezali malamu te, boyokani ekoki kosalema na étrier oyo ezali makasi mpe soki boyokani elongi kasi motango ya ba paires oyo ekokani ezali moke, ekoki koyeisa monene étrier ( https:/ /www.ncbi.nlm.nih.gov/pmc/masolo/PMC8246231/ ).

Diagnostic ya équilibre

Na étape oyo e vérifier soki ba covariables ya ba groupes ya test na témoin matchés ezali équilibré, donc, ezo prétendre soki match moko ezali précis.

Ezali litambe ya ntina mingi lokola ba covariables oyo ezali na bokatikati te ekosala ete bokokanisi ya ba résultats ya test A/B oyo ezali malamu te.

Ezali na ba moyens misato ya diagnostic ya équilibre:


- ba statistiques descriptives : différence moyenne standardisée (SMD) to rapport ya variance (VR) .

- ba tests ya statistique

- botalisi : qq-plot, histogramme to plot ya bolingo


Na article na concentrer mingi mingi na option ya liboso na ya misato.


Ya liboso, tolobela différence moyenne standardisée na rapport ya variance. Ba valeurs nini elakisaka que covariate ezali équilibré? Nazali kopesa toli ete motuya ya SMD ezala na nse ya 0,1 Na oyo etali VR, motuya oyo ezali pene na 1,0 elakisi solde .


Na esika ya mibale, na oyo etali ba méthodes ya visualisation, moko ya ba statistiques descriptives oyo ezali likolo e calculer pona covariate nionso pe elakisami na ndenge ya graphique. Ngai moko nalingi plot ya bolingo lokola ba covariables nionso ekoki kotiama na graphique moko mpe ba covariables avant mpe après matching ekoki ko comparer facilement. Natie ndakisa ya graphique oyo ezali awa na se.


Figure 4. Track ya bolingo ya ba covariables SMD avant pe après ajustement


Est-ce que soki ba covariables ezali kaka inéquilibrées après matching? Pona kolakisa, différence moyenne standardisée (SMD) ya ba covariables fréquence ya ba achats na AOV ezali nzinga nzinga ya 0,5, oyo ezali likolo ya 0,1 oyo esengeli. Ezali ko impliquer que ba covariables ezali débalancements mpe rematching esengeli.

Ba covariables débalancelles signal modèle PSM ezali efficace te mpe esengeli etongama lisusu. Yango wana, esengeli kozonga nsima mwa matambe mpe kozongela kokokanisa.

Ezali na mayele minei ya kosala lisusu boyokani:


1. Bakisa ba covariables ya sika

2. Bo changer kaka méthode ya matching lokola ezali ebele

3. Sangisa Propensity Score Matching na méthode ya boyokani ya sikisiki

4. Kobakisa bonene ya échantillon moko

Estimation ya ba effets ya traitement

Na suka, tozali kopusana na eteni ya suka tango effet ya expérience e estimé. Ezali mingimingi na mitindo misato ya estimation ya effet : moyenne ya effet ya traitement (ATE), moyenne ya effet ya traitement na oyo azali traitement (ATT), mpe moyenne ya effet ya traitement na contrôle (ATC). Na tina, ATE ezali bokeseni ya calcul na métrique clé entre groupe ya test na contrôle (ndenge moko na ko mesurer métrique principale na test A/B). Ezali calculé lokola moyenne ya effet ya traitement, ATE = avg (Y1 - Y1) ndenge elakisami na se na figure.


Figure 5.Ba formules na ba exemples ya calcul ya ba effets ya traitement 


Alors que ATT na ATC ezali effet moyen ya traitement ya groupe ya test na témoin, respectivement. Nyonso ezali mayele ya estimation ya semba mpe ya kososolama.


ATE ezali lolenge oyo emonanaka mingi mpe esalelamaka tango bakokanisi métrique ya munene ya ba groupes témoins mpe ya test mpe ba mesurer effet testé. Alors que ATT na ATC e préférer tango ba métriques absolus esengeli pona groupe nionso. Na suka, test statistique oyo ebongi esalemaka pona ko vérifier signification statistique ya ba résultats.

Limite ya matching ya score ya propension

Nsima ya ndimbola ya sikisiki ya lolenge ya Propensity Score Matching , ekoki kozala ntango ya kobanda kosalela yango na mosala na yo, kasi ezali na mwa bandelo oyo esengeli kotalela.


1. Bootstrap ezali recommandé te ko employer na Propensity Score Matching lokola ematisaka variance. ( https://economics.mit.edu/sites/default/files/publications/LILOBA YA ÉCHEC YA BOOTSTRAP FOR.pdf )

 2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.

Kasi, soki ezali likoki ya kosalela Propensity Score Matching , sala yango mpe kokakatana te mpo na kotombola mayele na yo mpe boyebi na yo ya kosalela. Bonne chance na ba expériences na yo ya mikolo ekoya pe ba découvertes ya apprentissage machine



Okolinga kozwa mbeli mpo na koyanola na mwa mituna yango? Lien mpo na modèle ezali AWA . Olingi kotanga makambo oyo ezali na kati ya ba prompts na biso nionso ya kokoma? Finá na esika bakomi AWA .




L O A D I N G
. . . comments & more!

About Author

Angela Nedopekina HackerNoon profile picture
Angela Nedopekina@ngl21
Data Analyst with 3+ work experience of building analytics from 0-to-1 and managing international projects.

KOKANGA BA ÉTIQUES

ARTICLE OYO EZALAKI PRESENTE NA...