Meta-analyse over de
psychometrische eigenschappen van enkele veelgebruikte projectieve technieken
Door Lic. Peeters, Tim; De Bock, Karel; Cayenbergs, Karen; DeNoël, Kelly en Schouten, Ben
© December
2002.
1.1 Inleiding
projectieve technieken
1.2 Inleiding
methodologische aspecten
2. Wetenschappelijke status van de Rorschach test
2.1 Inleiding
2.2 Wetenschappelijke
status van het Comprehensive systeem
2.2.1
Inleiding
2.2.2
Normering
2.2.3
Betrouwbaarheid
2.2.4
R-probleem
2.2.5
Validiteit
2.3 Besluit
3. Wetenschappelijke status van de TAT
3.1 Inleiding: de
TAT algemeen
3.1.1 Achtergrond
3.1.2 Vorm en afname
3.2 De TAT
psychometrisch
3.2.1 Introductie
3.2.2 Indeling volgens scoringsschema
3.2.3 Behoeftescoring
3.2.4 SCORS
3.2.5 DMM
3.2.6 Conclusie naar
scoringsschema toe
3.3 Besluit
4. Wetenschappelijke status van tekentesten
4.1 Inleiding
4.2 Betrouwbaarheid
4.2.1
Interbeoordelaarsbetrouwbaarheid
4.2.2 Test hertest
betrouwbaarheid
4.3 Validiteit
4.3.1 Constructvaliditeit
4.3.2 Gelijktijdige validiteit
4.3.3 Incrementele validiteit
4.4 Bruikbaarheid
4.5 Normering
4.6 Besluit
5. Conclusie
6. Referenties
In de psychodiagnostiek wordt
gebruik gemaakt van twee soorten technieken. Naast vragenlijsten worden
projectieve technieken veelvuldig toegepast om een diagnostisch oordeel te
maken. In deze paper gaan we dieper in op projectieve technieken, hun
eigenschappen, hun pluspunten en tekortkomingen.
Projectieve technieken maken een
aparte groep uit in het psychodiagnostisch arsenaal. Ze kunnen negatief
gedefinieerd worden door ze te contrasteren met de overige diagnostische
technieken, b.v. de vragenlijsten (De Boeck, 1999). Lilienfeld, Wood en Garb
(2000) daarentegen geven een beschrijvende definitie wanneer zij projectieve
technieken omschrijven als een geheel van ambigue stimuli waarbij gevraagd
wordt om deze stimulus te verduidelijken (b.v. het vertellen van een verhaal,
antwoorden geven op open vragen…).
De projectieve hypothese vormt de
bestaansreden van de projectieve technieken. Volgens deze hypothese projecteren
mensen aspecten van hun persoonlijkheid in hun ‘(test-) gedrag’ wanneer hen
gevraagd wordt ongestructureerde stimuli te verduidelijken / interpreteren.
Door de gedragingen die gesteld worden te analyseren, kunnen allerlei
inferenties over iemands persoonlijkheid gemaakt worden. De term ‘projectie’ is
afkomstig van S. Freud (1911) waarmee hij een defensiemechanisme omschreef
waardoor patiënten hun negatieve persoonlijkheidseigenschappen op een onbewuste
wijze in andere personen konden plaatsten. Binnen de context van de projectieve
technieken heeft de term ‘projectie’ een veel ruimere betekenis gekregen.
Projectie duidt hier niet meer op het defensiemechanisme maar op een algemeen
onderliggend mechanisme in iedere mens.
De projectieve methode kan dus
omschreven worden als een psychodiagnostische methode, waarbij de onderzochte in
het vervullen van de opdracht een grote mate van vrijheid krijgt, zodat
bepaalde affectieve en conatieve aspecten van zijn persoonlijkheid op indirecte
wijze uit zijn of haar gedrag en resultaten blijken (de Zeeuw, 1995). De
projectieve techniek is dan als het ware een scherm waarop de mensen hun
‘gevoelens’ kunnen projecteren waardoor de onderzoeker inzicht kan verschaffen
in de ‘de dark side’ van de persoonlijkheid. De onderliggende assumptie luidt
dat er zo een globale beoordeling inzake de onderliggende persoonlijkheid van
de onderzochte gemaakt wordt. Een betere term dan ‘projectietechnieken’ is
‘expressietechnieken (De Zeeuw, 1995).
De verschillende projectieve
technieken hebben vier gemeenschappelijke kenmerken.Ten eerste zijn de
aangeboden stimuli zijn vaag en ambigu. Daarnaast is de respons van de
onderzochte op de stimuli is ongestructureerd. Vervolgens is er ook sprake van
vermomming van de doelstellingen van de techniek. De geteste persoon weet niet
wat er gemeten wordt, waardoor er geen sociaal wenselijk gedrag optreedt.
Daarom wordt het geheel van projectieve technieken ook wel een indirecte
methode genoemd, in tegenstelling tot de vragenlijsten die eerder op een
directe manier pijlen naar de angsten, wensen en verlangens van de ondervraagde.
Tenslotte geven Lilienfeld et al. (2000) aan dat zo bewuste
verdedigingsmechanismen bij het antwoorden omzeild worden.
Alle projectieve technieken
baseren zich op een interpretatief proces om betekenis te geven aan het
geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het scoren
niet evenveel projectie aanwezig is als in de gegeven antwoorden van de
proefpersonen (tegenoverdracht).
Hiermee kan de link gelegd worden
met het onderscheid dat er gemaakt wordt tussen een kwantitatieve en een
kwalitatieve benadering van de verschillende technieken Bij een
kwantitatieve benadering probeert men de bekomen antwoorden op het materiaal op
een formeel-systematische en kwantificerende manier te omschrijven en
vervolgens te interpreteren. Bij de kwalitatieve benadering poogt men op een
systematische wijze een inhoudelijke interpretatie te maken (Groth-Marnat,
1999; Laroche & Corveleyn, 1986).
In navolging van Lindzey (1959)
zullen de we een onderscheid maken tussen verschillende soorten van projectieve
technieken, nl. (1) associatie b.v. de Rorschach-vlekkentest, (2) de
constructie b.v. Draw a Person van Machover, (3) de aanvulling b.v. de
Zinaanvullingstest van Rotter, (4) de expressie b.v TAT en tenslotte (5) de
rangschikking en selectie b.v. Color Test van Luscher. Deze classificatie is
gebaseerd op de verschillende typen van antwoorden.
In deze paper zullen we ons focussen op de belangrijkste projectieve technieken: (a) de Rorschach-vlekkentest, (b) de TAT en (c) de Human Figure Drawings. Er zijn twee redenen waarom we ons beperken tot deze drie technieken. Het zijn de meest gebruikte projectieve technieken. Een onderzoek naar 21 projectieve methoden, gemeten aan de aantallen researchpublicaties in tien belangrijke Amerikaanse tijdschriften (Crenshaw, 1968) wijst uit dat de Rorschach-vlekkentest en de TAT de meest beschreven methoden uit de projectieve technieken waren. Daarnaast is er in de huidige literatuur het meest te vinden over deze drie methoden wat betreft methodologische aspecten. We focussen ons op de methologische aspecten van de projectieve technieken. We beginnen met een korte omschrijving van de verschillende projectieve technieken en geven daarbij hun psychometrische eigenschappen. Tenslotte geven we een samenvatting over de wetenschappelijke status van de technieken en enkele opmerkingen
We gaan eventjes kort ingaan op
de methodologische criteria die gehanteerd worden bij het nagaan van de
wetenschappelijke status van projectieve technieken.
Eén van de belangrijkste criteria
is dat van de validiteit, hetgeen verband houdt met de vraag ‘Wat onderzoekt
deze projectieve techniek?’ Indien we niet een redelijk juist antwoord op deze
vraag kunnen geven, zal de projectieve methode waardeloos zijn voor de clinici
die streven om iets zinnigs over mensen te weten te komen. De validiteit is het
allerbelangrijkste punt bij het opstellen en toepassen van alle soorten tests.
Deze geldigheid van een test wordt uitgedrukt in een validiteitcoëfficiënt.
Er zijn verschillende categorieën
binnen validiteit.
Eerst en vooral heeft men
constructvaliditeit of begripsvaliditeit, hetgeen een analyse is van attributen
die met het testresultaat in verband staan, of zij nu behoren tot het bedoelde
of het niet – bedoelde. Dit onderzoek loopt via de correlaties die
testvariabele heeft met andere variabelen. Men bekomt een netwerk van
correlaties. Er zijn twee strategieën: (1) een nomologisch netwerk (Cronbach
& Meehl, 1955) en (2) een multitrek – multimehode matrix (Campbell &
Fiske, 1959).
Bij bespreking van testen kan men
soms ook vinden dat nieuwe testen worden gevalideerd tegen de resultaten van
soortgelijke reeds bestaande testen. Dit noemt men de congruente validiteit.
Ook wordt er gezocht naar hun ongelijksoortigheid, dit is dan de concurrente
validiteit.
Voorts spreekt men ook van
incrementele validiteit, dit heeft te maken met het toenemen van de validiteit
(increment is aangroei of toename).
Voegt de test nog extra toe?
Bij inhoudsvaliditeit wordt de
mate nagegaan waarin testinhoud of testgedrag representatief is voor een breed
domein.
Predictieve validiteit of
voorspellende validiteit wordt nagegaan wanneer een test in hoofdzaak gebruikt
wordt om te kunnen voorspellen.
De uiterlijke validiteit (face
validity) is eigenlijk louter een gevoelskwestie. Testen worden gelanceerd die
voor het gevoel van de ontwerper een bepaald facet onderzochten, omdat zij daar
uiterlijk overeenkomsten mee hadden, zonder dat de validiteit echt nader wordt
onderzocht.
Op de tweede plaats in orde van
belangrijkheid komt de betrouwbaarheid. We kunnen hierbij opnieuw ingaan van
een vraagstelling, namelijk ‘Hoe nauwkeurig of hoe consequent meet een
projectieve techniek datgene wat zij meet?’ Wanneer iemand een test aflegt,
kunnen immers tal van omstandigheden zijn score beïnvloeden, die geheel los
staan van de vaardigheid of de persoonlijke eigenschap waarvoor de test is
ontworpen.
Er zijn net zoals bij validiteit
verschillende soorten van betrouwbaarheid te onderscheiden. Dé betrouwbaarheid
op zich bestaat niet, er zijn verschillende types van betrouwbaarheid. De
betrouwbaarheid wordt uitgedrukt in een correlatiecoëfficiënt.
Zo heeft men
interbeoordelaarsbetrouwbaarheid (interscorerbetrouwbaarheid), dit is de mate
van objectiviteit bij scoring van de test en de onderling gelijke wijze waarop
testafnemers hun taak verrichten.Vooral bij projectieve testen en
observatietesten is deze coëfficiënt van belang. Hij moet tenminste het niveau
van r=.90 hebben.
Men kan ook de betrouwbaarheid
opvatten als de validiteit van de test t.o.v zichzelf. Dit is de stabiliteit
van de test of de test – hertest betrouwbaarheid.
Zeer frequent als schatting van
de testbetrouwbaarheid is het gebruik van de coëfficiënt van interne
consistentie. Er zijn twee maten: de
Kuder – Richardson voor nominaal niveau en de Cronbach alpha voor
intervalniveau. Deze interne consistentie geeft aan in hoeverre de items
homogeen of consistent zijn. Dit wordt niet uitgedrukt in een
correlatiecoëfficiënt.
Voor de praktijk van het
testonderzoek is het ook vereist dat een test voorzien moet zijn van normen. De
individuele testprestaties worden beoordeeld in relatie tot de resultaten van
andere personen van de populatie, waartoe de onderzochte moet behoren. De normen
moeten zodanig zijn dat een ondubbelzinnige kwantificering of kwalificering van
het testresultaat mogelijk is. Dit heeft tot doel om de subjectiviteit van de
onderzoeker zoveel mogelijk te reduceren.
Het is in het algemeen een
langdurige en moeilijke opgave om de wetenschappelijke status na te gaan van
testen.
De Rorschach Inkblot Test (1921), die volgens de indeling van Lindsey tot de associatietechnieken behoort (Lilienfeld et al., 2000), had oorspronkelijk de bedoeling om de fantasie van kinderen te onderzoeken. Het is pas door toedoen van S. Hens, die met een eenvoudige vlekkentest psychiatrische patiënten onderzocht, dat Rorschach zijn Inkblot Test ontwikkeld heeft tot een algemene persoonlijkheidstest (de Zeeuw, 1995).
De Rorschach Inkblot Test maakt gebruik van 10 kartonnen kaarten waarop tegen een witte achtergrond een inktvlek, die ongeveer symmetrisch is, afgedrukt staat. 5 vlekken zijn enkel in zwart-wit weergegeven, terwijl de andere 5 vlekken ook kleur bevatten. De 10 kaarten worden na elkaar aangeboden en bij elke kaart wordt aan de onderzochte gevraagd ‘wat dit zou kunnen zijn’.[1][1] De antwoorden van de onderzochte worden nauwkeurig genoteerd (d.i. het protocol).[2][2] Vervolgens worden de antwoorden geformaliseerd in categorieën en gescoord met speciale lettersymbolen (d.i. signeren). Tenslotte volgt er een kwantificering (de Zeeuw, 1995).
Alhoewel de vereiste leeftijd 5 jaar bedraagt, wordt in de klinische praktijk de test nauwelijks gebruikt voor kinderen jonger dan 14 jaar. Lilienfeld et al. (2000) vermelden dat de afnameprocedure ongeveer 45 minuten in beslag neemt en dat ongeveer 2 uur besteed wordt aan het scoren en interpreteren van de antwoorden. De afnameprocedure kan meer of minder tijd in beslag nemen naargelang de toestand van de onderzochte en zijn neiging om veel of weinig antwoorden te geven. Ook de aanwezigheid van een bepaalde soort pathologie kan de afnametijd beïnvloeden. De afname gebeurt individueel tussen de patiënt en de afnameleider.
Verschillende benaderingen
tegenover de ‘Rorschach technique’ (Aronow, Reznikow & Moreland, 1995)
kunnen beschreven worden. Opvallend
hierbij is het gebruik van het woord ‘Technique’ in plaats van ‘Test’ (zie
verder). Aronow et al. (1995) beschrijven drie benaderingen die ontstaan door
een combinatie van twee assen nl. de ideografisch-nomothetisch as en de
perceptueel-inhoud as. De drie benaderingen zijn[3][3]: de perceptueel-nomothetische, de
inhoud-nomothetische en de inhoud-ideografische. De nomothetische benadering
heeft als doel het ontdekken van algemeen geldige wetten. De ideografische
benadering daarentegen legt de nadruk op een grondige studie van de (relatieve)
unieke kwaliteiten van het individu. Bij de perceptueel-inhoud as legt de
perceptueel benadering de nadruk op hoe een subject de verschillende
aspecten zoals locatie, vorm en determinanten waarneemt. De inhoud benadering
neemt wat het subject waarneemt als het cruciale element.
De perceptueel-nomothetische
benadering heeft zijn grondvesten in de visie van Hermann Rorschach. Aronow et
al. (1995)
citeren zijn werk Psychiadiagnostik (1912, 1942): “In scoring the answers given
by subjects, the content is considered last. It is more important to study the
function of perception and apperception”. De
jaren na zijn publicatie neemt Rorschach echter een meer inhoudsgericht en
projectief psycho-analytisch standpunt in. De scholen in Amerika daarentegen bleven
nog lang trouw aan de oorspronkelijk perceptueel-nomothetische benadering.
De inhoud-nomothetische
benadering beschrijven Aronow et al. (1995) in het kader van een enorme groei
in het gamma van de inhoudsschalen voor scoring van de Rorschach rond 1940. Dit
leidde tot een ‘boom’ van onderzoek op dit gebied in de jaren zestig en
zeventig. Aronow et al. (1995) verwijzen hierbij naar hun eigen review (Aronow
& Reznikoff, 1976). Deze verwijzing wordt hen niet in dank afgenomen door
Ritzler (1995) omdat in de review geconcludeerd wordt dat scores op basis van
inhoudsschalen krachtiger zijn dan perceptuele scores.
De inhoud-ideografische
benadering tenslotte legt de focus op de inhoud van de antwoorden en bijkomende
verbale informatie. Dit wordt dan beschouwd als toegangspoort tot de unieke
wereld van het individu en in het bijzonder tot het zelfconcept van dat
individu.
Aronow et al. (1995) nemen naast
de beschrijving ervan, tegenover deze verschillende benaderingen een duidelijk
standpunt in. De inhoud-ideografische benadering is volgens hen het meest
consistent aan de visie van de Rorschach Inkblot Test als een projectieve
techniek. Ze vinden dat deze benadering het meest tegemoet komt aan de
‘strenghts’ van de Rorschach. Daarom verkiezen ze in tegenstelling tot H.
Rorschach zelf, de term ‘Technique’ in plaats van ‘Test’. In het licht van
conceptuele helderheid reserveren ze de term ‘Test’ voor instrumenten die
nomothetisch van aard zijn, terwijl ‘Technique’ volgens hen gebruikt wordt bij
ideografisch georiënteerde instrumenten zoals de Rorschach.
Dit uitdrukkelijke standpunt werd echter onder vuur
genomen. Ritzler (1995) schrijft dat deze inhoudsgerichte benadering
onvoldoende de nadruk legt op het belang van informatie die verkregen wordt via
een empirisch gefundeerde en gekwantificeerde methode van interpretatie van de
Rorschach. Ook het argument dat de Rorschach in de eerste plaats een
projectieve techniek is, wordt door Ritzler (1995) weerlegd.
Na Rorschach
hebben anderen gepoogd een eigen scoringssysteem uit te werken.[4][4] Volgens Lilienfeld et al. (2000) echter
werd de Rorschach Inkblot Test (1921) tijdens het midden van de vorige eeuw
geregeld bestookt met wetenschappelijke kritieken. Deze kritieken verweten de
Rorschach Inkblot Test (1921) een gebrek aan gestandaardiseerde
afnameprocedures. Tevens beweerden deze kritieken dat de normen van de
Rorschach Inkblot Test (1921) niet adequaat waren en dat enige sluitende
evidentie voor de betrouwbaarheid en validiteit totaal ontbrak. Het is binnen
deze context dat J.E. Exner zijn The Rorschach: A Comprehensive System
(1974) ontwikkeld heeft. Exner had met zijn ‘Comprehensive System’ de bedoeling
om de Rorschach Inkblot Test (1921) van een stevige wetenschappelijke en
psychometrische basis te voorzien.
Belangrijk
hierbij is de positie die Exner innam tegenover de Rorschach Inkblot Test. In
tegenstelling tot Hermann Rorschach, bleef Exner trouw aan de aanvankelijke
perceptueel-nomothetische benadering. Exner (vermeld in Aronow et al., 1995)
beoordeelt de Rorschach Inkblot Test als ‘niet geschikt voor het verzamelen van
projectieve data’. Volgens hem kan de Rorschach Inkblot Test bezwaarlijk een
projectief instrument genoemd worden. Een logisch scenario bij deze houding,
zou een poging zijn om het instrument om te vormen tot een zo objectief
mogelijke test. Dit is juist wat ‘The Comprehensive System’ heeft proberen te
verwezenlijken, aldus Aronow et al. (1995).
Om een goed beeld te krijgen van de wetenschappelijke
status van de Rorschach Inkblot Test (1921) lijkt het ons
dus aangewezen om de wetenschappelijke en psychometrische kwaliteiten van dit
meest verbreide scoringssysteem te onderzoeken, nl. Exners Comprehensive System.
Volgens Lilienfeld et al. (2000)
heeft Exners Comprehensive System de Rorschach voorzien van gedetailleerde
(gestandaardiseerde) regels voor afname en scoring. Tevens heeft Exner ervoor
gezorgd dat normeringstabellen voor kinderen en volwassenen voorhanden zijn.
Tenslotte bestaat Exners bijdrage in het rapporteren van positieve resultaten
van verschillende betrouwbaarheids- en validiteitsstudies.
Ondanks deze inspanningen van Exner blijven verschillende auteurs overtuigd van de lage psychometrische kwaliteiten van de Rorschach Inkblot Test (1921). In wat volgt bekijken en analyseren we de discussie tussen de voor- en tegenstanders van Exners Comprehensive System. Hierbij bespreken we de adequaatheid van de normen, de betrouwbaarheid en de validiteit. Tevens worden enkele hete hangijzers uit het onderzoek grondig besproken.
2.2.1 Normering
Opdat een testscore op een wetenschappelijke manier zou kunnen geïnterpreteerd worden, moet deze vergeleken worden met de scores van een referentiegroep. Bij de traditionele Rorschach Inkblot Test (1921) ontbreken dergelijke normeringsgegevens totaal. Exner heeft de Rorschach Inkblot Test (1921) voorzien van normeringsgegevens op basis van zijn eigen scoringssysteem voor Amerikaanse volwassenen en kinderen die geen deel uitmaken van de klinische patiëntenpopulatie. Verder heeft Exner ook statistische tabellen berekend voor verschillende klinische referentiegroepen, b.v. patiënten met schizofrenie.[5][5]
In de literatuur echter zijn deze normeringsgegevens van Exner onderwerp geweest van hevige kritiek. Op de eerste plaats opperen sommige auteurs het verwijt dat deze normeringsgegevens achterhaald zijn en dat ze gebaseerd zijn op een eerder kleine steekproef in vergelijking met gevestigde psychologische instrumenten zoals b.v. de WAIS en de MMPI-2. Een fundamenteler verwijt bestaat erin dat onderzoek aangewezen heeft dat de normeringsgegevens van Exner niet representatief zijn voor de Amerikaanse bevolking en dat ze de neiging tot overpathologisering vertonen, d.w.z. verschillende volwassenen die als normaal gepercipieerd worden, zijn buitengewoon pathologisch wanneer ze vergeleken worden met de normeringsgegevens van Exner.[6][6] In de literatuur omtrent de Rorschach Inkblot Test (1921) wordt hiervoor geen plausibele verklaring gegeven (Lilienfeld et al., 2000).
In de literatuur wordt ook melding gemaakt van het probleem van de culturele generaliseerbaarheid van Exners normeringsgegevens. Alhoewel voorstanders van de Rorschach Inkblot Test (1921) beweren dat deze test geschikt is voor het onderzoeken van Amerikaanse minderheden en niet-Amerikanen, kan er in de literatuur nauwelijks onderzoeksevidentie voor deze hypothese teruggevonden worden. Onderzoeksevidentie daarentegen die tegen de hypothese ingaat is massaal aanwezig. Tevens bestaat er zo goed als geen onderzoek naar de differentiële validiteit van Rorschach indexes over verschillende raciale en culturele groepen (Lilienfeld et al., 2000).
2.2.2 Betrouwbaarheid
Bij de studie van de betrouwbaarheid van Exners Comprehensive System maken we een onderscheid tussen interscorerbetrouwbaarheid (interrater reliability) en test-hertest-betrouwbaarheid. Onderzoek naar de homogeniteit of interne consistentie wordt bij de Rorschach Inkblot Test niet uitgevoerd (de Zeeuw, 1995).
2.2.2.1 Interscorerbetrouwbaarheid
Een voorwaarde om op een wetenschappelijk verantwoorde manier gebruik te maken van de Rorschach Inkblot Test bestaat erin dat verschillende codeerders tot dezelfde coderingen en conclusies moeten komen bij het signeren van eenzelfde protocol.
Lilienfeld et al. (2000) vermelden onderzoeksliteratuur waarin beweerd wordt dat de interscorerbetrouwbaarheid van de variabelen van het Comprehensive System uniform boven de 0.85 gelegen is. Deze gegevens worden ondersteund door verschillende tabellen die terug te vinden zijn in Exners boek uit 1993[7][7] waarin de interscorerbetrouwbaarheid berekend wordt in de vorm van percentage van overeenkomst (Wood, Nezworski & Stejskal, 1996a). Volgens de Zeeuw (1995) is Exner in zijn boek erg nauwgezet in het geven van gedetailleerde aanwijzingen voor de scoringen en lange lijsten met scoringsvoorbeelden. De auteur besluit dat mede hierdoor de interscorerbetrouwbaarheidsindices hoog zijn (0.90 en hoger voor de diverse variabelen). De auteur voegt er wel aan toe dat dit enkel geldt wanneer de Rorschach Inkblot Test (1921) afgenomen wordt door zeer geoefende diagnosten. De enorme complexiteit van Exners scoringssysteem wordt hier ter verantwoording ingeroepen.
Volgens Lilienfeld et al. (2000) echter bestaan er verschillende recente studies die aantonen dat slechts de helft van de variabelen van het Comprehensive System een interscorerbetrouwbaarheid, berekend d.m.v. kappa-coëfficiënten of intra-klasse-correlaties (zie later), bezitten van 0.85 of hoger. Tevens tonen deze studies aan dat de interscorerbetrouwbaarheidsindices van verschillende vaak gebruikte CS-variabelen, v.b. SCZI (indicator voor schizofrenie), Adjusted D (indicator voor zelfcontrole onder stress) en X-% (indicator voor perceptuele en mentale vervorming), eerder laag is.
Wood, Nezworski en Stejskal (1996a) hebben enkele fundamentele kritieken ten aanzien van Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen.
Als eerste kritiek opperen zij dat verschillende auteurs reeds aangetoond hebben dat het percentage overeenkomst in sommige gevallen een inadequate en misleidende maat is voor interscorerbetrouwbaarheid. Deze betrouwbaarheidsmaat maakt immers geen correctie voor overeenkomst bij toeval, wat soms kan leiden tot een overschatting van de ware interscorerbetrouwbaarheid. Het kan m.a.w. in sommige gevallen, b.v. bij een extreme basiskans van voorkomen van een variabele, voorkomen dat beoordelaars een vrij hoog percentage van overeenkomst bereiken, alhoewel ze een protocol totaal op toeval gecodeerd hebben.[8][8] Wood, Nezworski en Stejskal (1996a) raden dan ook aan om meer geschikte statistieken te gebruiken, zoals b.v. kappa-coëfficiënten, phi, Spearman’s rho of Pearson’s r, bij het berekenen van interscorerbetrouwbaarheidsindices.
De reacties op deze stelling gaan in drie richtingen. Een eerste reactie komt van Exner (1996) die stelt dat het probleem van het op toeval correct, d.w.z. de 2 beoordelaars onderkennen in een antwoord eenzelfde variabele, coderen enorm gereduceerd wordt door het feit dat ieder antwoord altijd gecodeerd wordt op tenminste vijf categorieën, dat iedere categorie uit verschillende variabelen bestaat en dat verschillende variabelen binnen één categorie gecodeerd kunnen worden voor een antwoord.
Een tweede reactie komt van Meyer (1997a) die erkent dat het percentage overeenstemming in sommige gevallen een inadequate maat voor interscorerbetrouwbaarheid is omdat deze maat de mate van geobserveerde overeenkomst niet corrigeert voor de mate van overeenkomst die puur op toeval kan verwacht worden. Volgens Gronnerod (1999) vertoont het percentage overeenkomst de neiging om, onafhankelijk van het werkelijke niveau van overeenkomst, te stijgen wanneer de basiskans van voorkomen daalt. Meyer (1997a) is het echter niet eens met de definitie van overeenkomst op toeval die Wood et al. (1996a) huldigen. Deze definitie is afgeleid van de kansdefinitie die gebruik wordt bij het berekenen van kappa-coëfficiënten, nl. de mate van overeenkomst die geobserveerd zou worden wanneer twee codeerders op toeval een reeks antwoorden zouden coderen voor een reeks variabelen waarvan men de basiskans op voorkomen kent. Het gebruik van kappa-coëfficiënten wordt echter door Meyer (1997a) op tweevoudige wijze bekritiseerd. Ten eerste stelt de auteur dat de codeerders meestal de basiskans van voorkomen van een variabele niet kennen. Wanneer twee codeerders nu onafhankelijk van elkaar tot het besluit komen dat een bepaalde variabele een extreem hoge of lage basiskans van voorkomen heeft dan wordt hun hoge mate van overeenkomst door de kappa-coëfficiënt als bijna volledig toevallig geïnterpreteerd. De kappa-coëfficiënt m.a.w. straft de codeerders door gebruik te maken van de extreme basiskans van voorkomen die zij onafhankelijk van elkaar zijn bekomen bij het coderen. Ten tweede haalt Meyer (1997a) het feit aan dat wanneer de basiskans van voorkomen zich verwijdert van 0.50, d.i. het punt van maximale variantie, eenzelfde kleine graad van niet-overeenkomst tussen codeerders de kappa-coëfficiënt sterker doet dalen. Wanneer er m.a.w. met een extreme basiskans van voorkomen gewerkt wordt, kan de kappa-coëfficiënt nooit een hoge interscorerbetrouwbaarheid aangeven. Wood, Nezworski en Stejskal (1997) verdedigen zich tegen Meyers aantekeningen door te wijzen op het feit dat er in de statistische literatuur een universele consensus bestaat dat het percentage overeenkomst geen correctie voor overeenkomst op toeval bevat, waardoor deze maat als index voor betrouwbaarheid inferieur is aan de kappa-coëfficiënt. Meyer (1997b) repliceert hierop door te stellen dat in sommige gevallen interscorerbetrouwbaarheidsschattingen op basis van de kappa-coëfficiënt inadequaat zijn. Volgens Gronnerod (1999) tenslotte is het belangrijk dat men bij de keuze van de maat voor het schatten van de interscorerbetrouwbaarheid rekening houdt met het type van data waarvan men de interscorerbetrouwbaarheid wil berekenen. Volgens hem is voor Rorschach data het percentage overeenkomst de meest gebruikelijke schattingsmethode. Deze maat kampt echter met het probleem van een extreme basiskans van voorkomen. Een switch naar de kappa-coëfficiënt is te overwegen, maar ook deze maat kampt met problemen, nl. sensitiviteit voor een lage basiskans van voorkomen. De auteur raadt aan om met correlaties, b.v. intra-klasse-correlaties, te werken.
Een derde reactie van Exner (1996) poogt de kritiek van Wood et al. te omzeilen door te argumenteren dat de methode die hij gebruikt heeft om de interscorerbetrouwbaarheidsindices te berekenen beter ‘percentage correct’ in plaats van ‘percentage overeenkomst’ zou genoemd worden. Wood, Nezworski en Stejskal (1996b) reageren hierop door te stellen dat het percentage correct, d.i. de mate van overeenkomst tussen een codeerder en de correcte coderingen, een maat is voor de accuraatheid van de codering en dat deze maat niet als evidentie kan aangebracht worden voor de interscorerbetrouwbaarheid. Zij concluderen dan ook dat, als Exner werkelijk het percentage correct heeft berekend i.p.v. percentage overeenkomst, de werkelijke interscorerbetrouwbaarheid van het Comprehensive System nog steeds onbekend is.
Een tweede kritiek van Wood, Nezworski en Stejskal (1996a) op Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen betreft het feit dat Exner primair percentages overeenkomst voor individuele antwoorden, b.v. het coderen van een bepaalde variabele op één antwoord, vermeldt i.p.v. totalen, b.v. het aantal malen dat een bepaalde variabele gecodeerd is geworden binnen één protocol. Het is immers op basis van deze totalen dat de Rorschach Inkblot Test klinisch geïnterpreteerd wordt. Volgens Meyer (1997a) echter is het belangrijker dat de interscorerbetrouwbaarheid van individuele antwoorden aangetoond wordt. Het doel van de interscorerbetrouwbaarheid bestaat er immers in om aan te tonen dat het Comprehensive System een systematisch en consequent coderingssysteem is. Vermits de coderingen toegekend worden op het niveau van individuele antwoorden is het erg belangrijk om interscorerbetrouwbaarheid te berekenen op dit niveau van individuele antwoorden. Meyer (1997a) beweert verder dat totalen niets meer zijn dan samengetelde coderingen van individuele antwoorden. Vermits toevallige coderingsfouten de tendens vertonen om gecompenseerd te worden wanneer zij worden samengesteld, kan aangenomen worden dat totalen per definitie meer betrouwbaar zijn dan coderingen voor individuele antwoorden. Wanneer men zich dus bij het berekenen van de interscorerbetrouwbaarheid enkel op totalen baseert, bekomt men een overschatting van de interscorerbetrouwbaarheid van de coderingen. Wood, Nezworski en Stejskal (1997) daarentegen beweren dat er geen enkel psychometrisch artikel of geen enkele gepubliceerde demonstratie bestaat waarin aangetoond wordt dat de interscorerbetrouwbaarheid van totalen noodzakelijk hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden. De reactie van Meyer (1997b) hierop is kort en krachtig, nl. er bestaan wel degelijk studies die aantonen dat de interscorerbetrouwbaarheid van totalen hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden.
Wood, Nezworski en Stejskal (1996a) wijzen erop dat er een onderscheid moet gemaakt worden tussen de ideale interscorerbetrouwbaarheid van een test en de veldinterscorerbetrouwbaarheid, d.i. de interscorerbetrouwbaarheid die aangetoond wordt door mensen in de praktijk. De auteurs halen een studie van Exner aan waarin de veldinterscorerbetrouwbaarheden verontrustend laag zijn. Exner (1996) reageert hierop door te stellen dat de resultaten van zijn onderzoek de aanleiding waren voor het verbeteren van de scoringscriteria voor bepaalde categorieën in latere werken. Een analoog onderzoek wees uit dat de percentages overeenkomst voor deze categorieën opmerkelijk verbeterd waren voor deze categorieën. Meyer (1997a) merkt verder op dat een lage veldinterscorerbetrouwbaarheid niet noodzakelijk betekent dat het coderingssysteem van het Comprehensive System onbetrouwbaar is. Er zijn immers verschillende factoren, die niets met de betrouwbaarheid van het scoringssysteem te maken hebben, die een lage veldinterscorerbetrouwbaarheid kunnen veroorzaken, b.v. slecht getrainde afnameleiders. Wood, Nezworski en Stejskal (1997) voegen hier echter ironisch aan toe dat het waar is dat men op basis van slecht afgenomen tests geen valide conclusies kan trekken m.b.t. de (ideale) interscorerbetrouwbaarheid van de test. Een valide conclusie, volgens deze auteurs, is wel dat de test, wanneer deze gebruikt wordt in een klinische setting, meer schade dan goed kan berokkenen.
2.2.2.2 Test-hertest-betrouwbaarheid
Volgens Lilienfeld et al. (2000) beweren voorstanders van de Rorschach Inkblot Test dat de test-hertest-betrouwbaarheid van verschillende variabelen van het Comprehensive System excellent is. In de literatuur echter kunnen er slechts voor 40% van de CS-variabelen studies teruggevonden worden waarin schattingen vermeld worden van de test-hertest-betrouwbaarheid van deze CS-variabelen.
Meyer (1997a) verwijt Wood et al. dat zij hun oordeel omtrent de interscorerbetrouwbaarheid van het Comprehensive System enkel baseren op twee, volgens Wood et al. (1996a) weinig overtuigende, interscorerbetrouwbaarheidsstudies. Volgens Meyer (1997a) heeft Exner in zijn boek voldoende overtuigende empirische argumenten aangehaald, in de vorm van test-hertest-coëfficiënten (bereik van 0.30 tot 0.90 en mediaanwaarde rond de 0.80), om de hypothese te ontkrachten dat codering met het CS op toeval verloopt. De kritiek op deze stelling van Exner loopt in twee richtingen.
Ten eerste beweert Lilienfeld et al. (2000) dat andere onderzoekers dan Exner steeds test-hertest-coëfficiënten voor CS-variabelen vinden die substantieel lager zijn dan deze van Exner. Lilienfeld et al. (2000) besluiten dat, wegens methodologische beperkingen i.v.m. test-hertest studies, de enige valide conclusie die men kan trekken is dat de test-hertest-betrouwbaarheid van de meeste CS-variabelen nog steeds een open vraag is die enkel kan opgelost worden d.m.v. verder onderzoek.
Ten tweede opperen Wood, Nezworski en Stejskal (1997) dat de gegevens, d.i. test-hertest-coëfficiënten, die Meyer aanhaalt op geen enkele wijze hun kritieken op de interscorerbetrouwbaarheid weerleggen. Hoge test-hertest-coëfficiënten kunnen immers niet als bewijs dienen voor hoge interscorerbetrouwbaarheidsindices omdat deze coëfficiënten niet de overeenkomst tussen codeerders onderzoeken. Meyer (1997b) stemt in met de opmerking dat test-hertest-coëfficiënten niet noodzakelijk gerelateerd zijn aan interscorerbetrouwbaarheidsindices. Lage test-hertest-coëfficiënten kunnen het gevolg zijn van zowel inconsiste scoring als van de natuur van het construct, d.i. sommige CS-variabelen kunnen veranderen over de tijd. Volgens de auteur echter vertonen de meeste studies dat de test-hertest-betrouwbaarheid van CS-variabelen excellent is. Vermits nu accurate codering deel uitmaakt van een retest-design, is het onmogelijk om hoge test-hertest-coëfficiënten te bekomen zonder reeds hoge interscorerbetrouwbaarheidsindices te hebben.
2.2.3 R-probleem
Lilienfeld et al. (2000) wijzen erop dat verschillende auteurs de afgelopen decennia aangetoond hebben dat R, d.i. het totale aantal antwoorden dat één onderzochte geeft op alle vlekken, gerelateerd is aan het totaal aantal keren dat een bepaalde CS-variabele in het protocol voorkomt. Vermits deze totalen de basis vormen voor klinische inferenties, hebben mensen met een hoge R meer kans om b.v. als agressief of depressief bestempeld te worden. Lilienfeld et al. (2000) voegen hier nog aan toe dan R hoger is in bepaalde culturele en educationele groepen en dat R positief gecorreleerd is met intelligentie. Hieruit concluderen deze auteurs dat bepaalde groepen van mensen een hoger totaal op bepaalde CS-variabelen en daardoor een hogere score voor bepaalde CS-indices van psychopathologie behalen, enkel omdat ze geneigd zijn meer antwoorden te geven op de aangeboden vlekken.
Lilienfeld et al. (2000) merken op dat sommige psychologen beweren dat men het R-probleem in het Comprehensive System kan elimineren door totalen te corrigeren voor R of door met ratio’s te werken. Wood, Nezworski en Stejskal (1996a) reageren hierop door te stellen dat er voor de meeste klinisch relevante scores en indices in het CS er niet, of slechts ten dele, gecorrigeerd wordt voor R (zie ook de bespreking van validiteit).
Volgens Lilienfeld et al. (2000) zijn er in de literatuur verschillende pogingen terug te vinden om het R-probleem op te lossen, b.v. het gebruiken van 45 inktvlekken en de onderzochte verplichten slechts één antwoord te geven of het houden bij de 10 oorspronkelijke inktvlekken en per inktvlek de onderzochte verplichten om juist 2 antwoorden te geven. Beide voorstellen echter werden maar met weinig succes in de literatuur onthaald. De meeste onderzoekers naar de Rorschach Inkblot Test en clinici immers blijken vol te houden dat het R-probleem niet bestaat, dat het geen belangrijke praktische gevolgen met zich meebrengt en dat het niet de moeite loont om oplossingen te zoeken voor het probleem (Lilienfeld et al., 2000).
2.2.4
Validiteit
Lilienfeld et al. (2000)
onderscheiden voor het nagaan van de validiteit van de Rorschach Inkblot Test
verschillende niveaus van benadering.
Op deze verschillende niveaus is ook onze indeling voor de bespreking
van validiteit gebaseerd. We
beschrijven globale meta-analyses, specifieke meta-analyses, relaties met
diagnoses en zelfrapporteringsgegevens,
incrementele validiteit en tenslotte de factorstructuur van de Rorschach
Inkblot Test.
2.2.4.1 Globale meta-analyses
Deze meta-analyses vergelijken de
gemiddelde validiteit van verschillende tests. Meestal wordt de gemiddelde
validiteit van de Rorschach Inkblot Test vergeleken met die van de MMPI
(Minnesota Multiphasic Personality Inventory) en de WAIS (Wechsler Adult
Intelligence Scale). In de literatuur (Garb, Florio & Grove, 1998, 1999;
Hiller, Rosenthal, Bornstein, Berry & Brunell-Neuleib, 1999; Parker, Hanson
& Hunsley, 1988) is een stevige discussie terug te vinden m.b.t. de
methodologische aanpak en het trekken van conclusies bij de vergelijking van de
validiteit van deze drie instrumenten.
Lilienfeld et al. (2000)
formuleren vijf opmerkingen m.b.t. deze meta-analyses waarin ze de
belangrijkste issues van de discussie in de literatuur weergeven. Ten eerste is
de methodologische aanpak van deze meta-analyses erg zwak. Ten tweede wordt
opgemerkt dat elk van deze meta-analyses uitsluitend zijn gebaseerd op
gepubliceerde onderzoeken. Het probleem hierbij is dat gepubliceerde studies
vaak veel grotere effecten rapporteren dan de niet gepubliceerde studies. Dit
fenomeen staat bekend als het file drawer effect. Een derde -en in het kader
van het spreken over validiteit- erg belangrijk probleem dat wordt vermeld is
het feit dat globale meta-analyses of analyses per test weinig waarde hebben
voor de klinisch toepassing, m.a.w. de validiteit van specifieke delen van een
test of de validiteit van een specifieke toepassing kan met deze meta-analyses
niet achterhaald worden (zie verder). Een vierde opmerking betreft de
gemiddelde validiteitscoëfficiënten. In de globale meta-analyse van
verschillende gepubliceerde studies convergeren de validiteitscoëfficienten van
de Rorschach Inkblot Test op 0.30 (met een afwijking van plus of min 0.05). Dit
zou er op kunnen wijzen dat enkele Rorschach indexen een matige validiteit
hebben. Toch suggereren Lilienfeld et al. (2000) dat deze gemiddelde
validiteitscoëfficiënt een overschatting is, te wijten aan de eerder besproken
methodologische zwakheden en het file drawer effect. Als laatste wordt vermeld
dat in het algemeen de gevonden gemiddelde validiteit van de Rorschach Inkblot
Test lager is dan die van de WAIS. Andere meta-analyses suggereren bovendien
dat de gemiddelde validiteit van de Rorschach Inkblot Test in het algemeen ook
lager is dan voor de MMPI, hoewel de verschillen in dit geval niet erg groot
zijn en in sommige studies zelfs niet statistisch significant. Opnieuw
waarschuwen Lilienfeld et al. (2000) hier voor het uitsluitend gebruik van
gepubliceerde studies en de verschillende methodologische tekortkomingen.
2.2.4.2 Specifieke meta-analyses
Zoals eerder reeds werd vermeld
kunnen globale meta-analyses de validiteit van specifieke Rorschachscores voor
specifieke doeleinden niet nagaan. In dit kader zijn de specifieke
meta-analyses van belang. Hierbij concentreert men zich op de validiteit van de
Rorschach Inkblot Test of een deel ervan bij gebruik in een specifieke context.
Om begripsverwarring te voorkomen lijkt het ons daarom erg belangrijk om dit
niet uit het oog te verliezen. Voor een instrument als de Rorschach Inkblot
Test zou discussie in de literatuur veel efficiënter kunnen verlopen als er
woorden worden gewisseld over dezelfde validiteit in dezelfde toepassing.
Strikt gesproken is het onjuist
om te vragen of het Comprehensive System valied is of niet. Het systeem brengt
een hele reeks percentages, ratio’s en scores voort en de validiteit zou moeten
nagegaan worden voor elk apart. Geen enkel artikel kan de validiteit van alle
scores in het systeem nagaan (Wood, Nezworski & Stejskal, 1996a).
Het is dus belangrijk om bij het
onderzoek naar validiteit te focussen op een bepaalde subset van variabelen.
Bij Wood et al. (1996a) ligt die focus op een aantal belangrijke klinische
gegevens zoals psychologische symptomen of stoornissen, graad van functioneren
of graad van stress omdat de validiteit van deze deelgebieden erg belangrijk is
als je weet dat de Rorshach Inkblot Test in heel wat klinische settings als een
diagnostisch instrument wordt gehanteerd. Zonder in te gaan op de betekenis van
de afzonderlijke indexen vermelden we hier dat Wood et al. (1996a) concluderen
dat zij voor The Egocentricity Index, Adjusted D, Depression Index en The
Suïcide Constellation weinig of geen empirische evidentie voor validiteit
hebben gevonden. Nochtans hebben deze scores allemaal een directe invloed op
het nemen van beslissingen in een klinische context als de Rorschach Inkblot
Test als een diagnostisch instrument wordt gebruikt.
Lilienfeld et al. (2000) vatten andere specifieke meta-analyses van de afgelopen decennia samen. Ook hun conclusies zijn weinig bemoedigend. Uit de convergentie van verschillende specifieke meta-analyses blijkt dat er uiteindelijk nog vier succesvolle scores kunnen worden gedistilleerd, nl. TDIR (Thought Disorder Index), SCZI (Schizophrenia Index), RPRS (Rorschach Prognostic Rating Scale) en ROD (Rorschach Oral Dependency Scale). Toch worden hierbij ook vier opmerkingen geformuleerd. Enkel de SCZI behoort tot het scoringssysteem van het Comprehensive System. De validiteit van de drie overblijvende scores doet dus feitelijk niet ter zake in onze bespreking van ‘The Comprehensive System’. Ten tweede is de methodologische kwaliteit van de onderzoeken die steun geven voor de validiteit van de ROD erg zwak. Ten derde worden er vragen gesteld bij de klinische praktijk. De RPRS bijvoorbeeld maakt gebruik van erg moeilijk te hanteren of omslachtige regels. Bij onderzoek naar de validiteit van de TDIR werd slechts gebruik gemaakt van op audiocassette opgenomen Rorschachsessies. Ten slotte zijn de normen voor de TDIR, de RPRS en de ROD niet representatief of recent genoeg. De hantering van de huidige normen voor de SCZI zorgt voor een onacceptabel hoog aantal vals positieven, vooral bij kinderen. Ondanks de bemoedigende hermeneutische en kwantitatieve reviews over deze indexen blijven er dus toch problemen met de toepassing in de klinische praktijk.
2.2.4.3 Relaties met diagnoses en zelfrapporteringsgegevens
Lilienfeld et al. (2000)
beschrijven de nood aan degelijke wetenschappelijke literatuur als reactie op
de contradicties van enkele voorstanders van de Rorschach. Weiner (1997)
bijvoorbeeld beweerde nog dat de Rorschach Inkblot Test degelijke empirisch
gevalideerde indexen bevat voor het diagnosticeren van bepaalde
psychopathologieën. In zijn conclusie schrijft Weiner (1997) zelfs dat ondanks
het ruime gebruik en de validering door clinici en onderzoekers, de Rorschach
Inkblot Test nog steeds niet het welverdiende respect heeft gekregen als
degelijk psychometrisch instrument.
Twee jaar later schrijft Weiner,
(1999) in Lilienfeld et al. (2000) echter dat de Rorschach Inkblot Test geen
diagnostische test is, dat ze niet ontworpen is als diagnostische test en in
feite niet werkt als diagnostische test, zeker niet als met een diagnose een
DSM diagnose bedoeld wordt.
Lilienfeld et al. (2000) citeren letterlijk de ‘abstract’ van een eigen artikel (Wood, Lilienfeld, Garb & Nezworski, 2000a) en concluderen dat ondanks enkele positieve bevindingen, de Rorschach Inkblot Test als diagnostisch instrument weinig blijk geeft van validiteit. De positieve bevindingen zijn dat voor een aantal DSM diagnosen een relatie gevonden werd met de uitkomst van de Rorschach.[9][9] De negatieve bevindingen zijn dat afwijkende bewoordingen gerelateerd worden aan schizofrenie of een bipolaire stoornis zodat deze diagnosen vaak worden gesteld terwijl dit met andere diagnostische instrumenten niet het geval zou zijn.
Wat betreft de indexen voor zelfrapportering besluiten Lilienfeld et al. (2000) dat ook hier geen consistente relaties met de Rorschach Inkblot Test kunnen gevonden worden. Sommige voorstanders van de Rorschach zoals bijvoorbeeld Stricker en Gold (1999) in Lilienfeld et al. (2000) argumenteren in zo’n geval dat overeenkomst niet zinvol of wenselijk is. Met zo’n argumentatie kan aldus Lilienfeld et al. (2000) elke negatieve bevinding over de Rorschach Inkblot Test afgewimpeld worden.
Ze besluiten dat het uitblijven van correlaties tussen de Rorschach Inkblot Test met diagnoses of indexen van zelfrapportering twijfel zaait over de validiteit van de Rorschach voor de meeste doeleinden.
2.2.4.3.1
Incrementele
validiteit
Voor alle duidelijkheid vermelden
we hier kort wat we in dit geval onder incrementele validiteit verstaan. De incrementele validiteit van een test is
de informatie of validiteit die een test kan toevoegen aan reeds bestaande
informatie. Een concrete vraag in een
diagnostische setting zou bijvoorbeeld kunnen zijn: Is het nuttig de Rorschach Inkblot Test af te nemen naast de
andere diagnostische instrumenten die we ter beschikking hebben? Aangezien de tijdrovende afname, scoring en
interpretatie van de Rorschach Inkblot Test, zou men toch een zekere
incrementele validiteit verwachten.
Ook hier geven Lilienfeld et al.
(2000) een degelijk overzicht van verricht onderzoek ter zake. Ze maken hier
een onderscheid tussen klinische beoordeling en statistische predictie. Bij de klinische beoordeling waren er zelfs
enkele studies waarin de validiteit daalde als de Rorschach Inkblot Test werd
toegegoegd. Lilienfeld et al. (2000)
vinden het verantwoord te concluderen dat er weinig steun is voor het gebruik
van de Rorschach Inkblot Test in klinische settings, zeker als andere beoordelingsinstrumenten
beschikbaar zijn.
Wat de statistische predictie
betreft wordt er voor enkele Rorschach scores steun voor incrementele
validiteit gevonden. Lilienfeld et al.
(2000) sommen zes gebieden op waarin er statistisch significant betere
predicties kunnen worden gedaan als de Rorschach Inblot Test of bepaalde
indexen ervan worden toegevoegd aan andere instrumenten. Toch wordt hierbij opgemerkt dat zulke
statistische incrementele validiteit enkel klinische relevantie heeft als
hierbij exclusief en heel precies de uitkomst van de statistische
predictieregels wordt gevolgd. Dit
gebeurt echter maar heel zelden.
Bovendien is het gros van de Rorschach scores niet onderzocht.
Lilienfeld et al. (2000)
concluderen dat voor bijna alle Rorschach scores en de CS scores er geen
evidentie is voor incrementele validiteit bij vergelijking met andere
psychometrische informatie.
2.2.4.4 De
factorstructuur van de Rorschach scores
Factoranalyse helpt te zoeken
naar verschillende dimensies die te onderscheiden zijn in de relaties tussen
scores. Op deze manier kan worden
nagegaan of deze dimensies dan ook overeenkomen met een patroon dat door de
theorie voorspeld wordt. Lilienfeld et
al. (2000) verwijzen naar vijf reviews en rapporteren in het kader van
validiteit twee erg belangrijke bevindingen.
Ten eerste blijkt dat zeker de
grootste factor en misschien ook de tweede grootste een hoge lading hebben op
R. Deze bevinding bevestigt zoals
eerder vermeld dat R een sterke invloed heeft op een groot deel van de
Rorschach scores. Meyer (1989,1991) in
Lilienfeld et al. (2000) stellen dat dit in sterke mate de validiteit van de
Rorschach Inkblot Test compromitteert.
Ze gaan zelfs zo ver dat ze elk onderzoek op het gebied van de Rorschach
in vraag stellen omdat de meeste studies deze variabele R niet in rekening
brengen.
Een tweede problematische
bevinding is dat de verschillende Rorschach scores niet samenhangen of
intercorreleren zoals op basis van de testtheorie of op basis van de kennis in
de klinische praktijk zou verwacht worden.
2.3 Besluit
Het was de
bedoeling van Rorschach om zijn Inkblot Test uit te werken tot een
perceptueel-nomothetisch instrument waarmee persoonlijkheidskarakteristieken
konden opgespoord worden. Volgens psychometrici echter bezit de Rorschach
Inkblot Test niet de (psychometrische) capaciteiten om aan deze doelstelling te
kunnen voldoen. Het Comprehensive System van Exner probeert, d.m.v.
gedetailleerde regels voor afname en scoring, normeringsgegevens en studies
omtrent validiteit en betrouwbaarheid, de psychometrische kwaliteiten van de
Rorschach Inkblot Test te verbeteren. Deze poging van Exner wordt echter in de
literatuur op een ambigue wijze onthaald.
De
normeringsgegevens die Exner presenteert zijn, volgens verschillende auteurs,
achterhaald, niet representatief en ze vertonen de neiging tot
overpathologisering. Tevens beweren verschillende auteurs dat deze
normeringsgegevens totaal niet generaliseerbaar zijn naar andere samenlevingen
dan deze van de Amerikanen.
Verschillende
auteurs hebben kritiek op de wijze waarop Exner zijn
interscorerbetrouwbaarheidsindexen voor CS-variabelen berekende, nl. d.m.v.
percentage overeenkomst. Zij stellen dat kappa-oëfficiënten en
intra-klasse-correlaties betere maten zijn voor een schatting van de
interscorerbetrouwbaarheid. De discussie tussen voor- en tegenstanders van het
percentage overeenkomst als maat voor de schatting van de
interscorerbetrouwbaarheid is echter nog steeds volop aan de gang. Tevens zijn
er auteurs die beweren dat de interscorerbetrouwbaarheid van de totalen, i.p.v.
de afzonderlijke coderingen, moet nagegaan worden. Ook op dit vlak is er nog
steeds discussie. Tenslotte wijzen sommige auteurs op het onderscheid dat moet
gemaakt worden tussen (ideale) interscorerbetrouwbaarheid en
veldinterscorerbetrouwbaarheid.
Voor de hoge
test-hertest-betrouwbaarheidindexen van verschillende CS-variabelen, zoals
Exner deze vermeldt, wordt er in de literatuur nauwelijks evidentie gevonden.
Uit onderzoek blijkt enerzijds dat slechts voor 40% van de CS-variabelen
test-hertest-betrouwbaarheidsindexen berekend zijn en anderzijds dat andere
auteurs dan Exner steeds schattingen voor de test-hertest-betrouwbaarheid van
CS-variabelen bekomen die significant lager zijn dan deze van Exner.
Verschillende auteurs halen
studies aan die aantonen dat de meeste CS-totalen gecorreleerd zijn met R.
Vermits R significant hoger is in bepaalde groepen en positief gecorreleerd is
met intelligentie hebben verschillende groepen van mensen een grotere kans om
als pathologisch bestempeld te worden enkel omdat ze de neiging vertonen om
meer antwoorden te geven op de aangeboden vlekken. Alhoewel er in de literatuur
verschillende pogingen terug te vinden zijn om het R-probleem op te lossen,
doen de meeste clinici en Rorschach-onderzoekers alsof het R-probleem niet
bestaat.
Net zoals voor het
wetenschappelijk onderzoek naar de betrouwbaarheid geldt ook voor het onderzoek
naar de validiteit dat er in de literatuur heel wat discussies tussen voor- en
tegenstanders van de Rorschach Inkblot Test te vinden zijn. Het problematische
in dergelijke discussies is vaak het feit dat niet steeds dezelfde definities
gehanteerd worden. Om dit probleem in deze paper te omzeilen, hebben we voor de
bespreking van de validiteit van de Rorschach Inkblot Test een onderscheid
tussen verschillende niveaus van benadering gemaakt. Globale meta-analyses
stellen het probleem dat de validiteit van het instrument voor een specifiek
doeleinde niet kan onderzocht worden. Ze vergelijken enkel de gemiddelde
validiteit en tonen daarbij doorgaans lagere waarden dan de WAIS en de MMPI.
Wegens grote methodologische tekortkomingen en het file drawer effect, moeten
de resultaten van deze globale meta-analyses echter met een korreltje zout genomen
worden.
Specifieke meta-analyses houden
wel rekening met een bepaalde subset van variabelen en het gebruik in een
specifieke context. Toch wordt hier besloten dat ondanks enkele schaarse
positieve bevindingen m.b.t. de validiteit van een subset van variabelen er
toch problemen blijven met de klinische toepassing. Het uitblijven van
correlaties met diagnoses en zelfrapporteringsgegevens zaait bovendien ook
twijfel over de validiteit van de Rorschach Inkblot Test. Wat de incrementele
validiteit betreft, wordt geconcludeerd dat hiervoor tot nu toe nog geen
empirische evidentie gevonden werd. Bij de bespreking van de factorstructuur
tenslotte maakten we melding van vragen die gesteld worden bij de waarde van
het onderzoek dat tot nu toe verricht werd naar de validiteit van de Rorschach
Inkblot Test. Op R lijkt de grootste factor te laden en de verschillende
variabelen van het instrument lijken onderling niet samen te hangen zoals
voorspeld wordt door de theorie of de klinische praktijk.
3 Wetenschappelijke status van de Thematic
Apperception Test (TAT)
3.1 Inleiding : De TAT algemeen
3.1.1 Achtergrond
De TAT is een constructietechniek
ontwikkeld door H. Murray en C. Morgan in 1935. Een andere benaming is de
plaatjes – interpretatie methode. Wanneer we een verhaal lezen, leren we niet
alleen iets over de fictieve personages, maar ook iets over de auteur zelf.
Deze observatie leidde Murray en Morgan tot de ontwikkeling van de TAT.
Murray ontwikkelde de TAT met een
bepaalde persoonlijkheidstheorie in gedachten, namelijk dat het menselijk
gedrag het resultaat is van psychobiologische factoren en omgevingsaspecten.
Murray gaat er dus vanuit dat gedrag bepaald wordt door de combinatie van twee
factoren. De gedragsreactie van een organisme kan steeds toegeschreven worden
aan een hypothetische kracht, behoefte of nood (Eng. : need) binnen het
organisme. Naast deze noden situeert Murray een aantal significante
gedragsdeterminanten in de omgeving (Eng. : press). Een individu kent op
elk moment een complexe integratie van
needs en presses. De centrale notie in de dynamische persoonlijkheidstheorie
van Murray is de need–press combination of het thema.
Er zijn volgens Murray 2 algemene
psychische tendenties die leiden tot de mogelijkheid van dergelijk
plaatjes/methode – onderzoek. Ten eerste is er de neiging van de mens om
ambigue menselijke situaties te interpreteren in overeenstemming met zijn
vroegere ervaringen. Ten tweede is er de tendentie om bij het schrijven of
vertellen van een verhaal te putten uit ervaringen, hierdoor komen de onbewuste
gevoelens en wensen aan de oppervlakte bovendrijven. Er wordt dus gereflecteerd
over de behoeften, emoties, conflicten, … van de proefpersoon op bewust en op
onbewust niveau. Men beweert ook dat de TAT info bezit over de denkorganisatie,
emotionele responsiviteit, interpersoonlijke relaties, zelfconcept, coping
mechanismen, … .
De eerste stap die in het
analyse–systeem van Murray wordt gedaan, is het opsporen van de held in het
verhaal. De volgende stap in de analyse is het opsporen in detail wat de helden
op de verschillende platen voelen, denken, wensen of doen. Vervolgens gaat men
op zoek naar de behoeften (needs b.v. dominantie, prestatie, hostiliteit…) van
deze protagonisten. Er wordt hierbij een lijst van 28 aandriften gebruikt. Men
moet dan de sterkte van de aandriften beoordelen in een zespuntsschaal. Op
dezelfde manier wordt er gekeken naar de druk (Eng. : pressure) vanuit de
omgeving op de held.
Er zijn enkele modificaties
geweest tot in 1943 de huidige test met handleiding verscheen. De TAT is na de
Rorschachtest de meest gebruikte projectietest. De TAT heeft weinig
voorgeschiedenis. Er zijn ook veel varianten op de TAT ontstaan, o.a de Child Apperception
Test, de Blacky Pictures Test, de Gerontological Apperception Test, … .
3.1.2 Vorm
en afname
Men kan drie modificaties
onderscheiden: (1) modificaties waarbij de oorspronkelijke TAT – platen van
Murray worden gebruikt; (2) modificaties waarbij de afbeeldingen op één enkel
principieel punt zijn gewijzigd; (3) modificaties waarbij alleen de hoofdinhoud
van de bepaalde platen is behouden. De platen zijn in hoge mate
polyinterpretabel. Het zijn immers ambigue afbeeldingen. De testopdracht is “Wat
was de aanleiding tot de afgebeelde situatie, wat stelt deze voor, wat ging
eraan vooraf en hoe loopt dit verder af ?”.
De test bestaat uit 30
afbeeldingen en 1 blanco kaart. De afbeeldingen zijn deels ontleend aan
tijdschriften, deels reproducties van bestaande schilderijen en deels
tekeningen die speciaal zijn ontworpen voor de test (o.a door C. Morgan).
Sommige platen kunnen aan alle proefpersonen voorgelegd worden, andere zijn
meer geschikt voor bepaalde proefpersonen. Voor elke leeftijd en geslacht is er
een reeks van 20 platen beschikbaar. De TAT is bruikbaar vanaf 7 jaar en vanaf
15 jaar kan men de platen voor mannen en vrouwen aanbieden. Niet al de 31
afbeeldingen zijn dus voor één individu bestemd, men gebruikt slechts enkele
van de platen, omdat een volledige afneming zeer veel tijd kan vergen, de test
moet immers mondeling worden afgenomen. De interpretatie is ook tijdrovend.
Schriftelijke afneming is ook mogelijk. Behoudens bepaalde waardevolle
observatiegegevens vb. stotteren, lange pauzes … levert dit dezelfde resultaten
op als de mondelinge afneming.
De TAT wordt zeer veel gebruikt
in klinische settings. Er is echter ook zeer veel kritiek op gekomen vanuit
methodologisch onderzoek.
3.2. De TAT psychometrisch
3.2.1.1 Problemen
eigen aan de TAT
Het statuut van projectieve
technieken in de kliniek is dus een fel bediscussieerde, hoewel op grote schaal
toegepast werd erg veel kritiek geuit op hun psychometrische eigenschappen (zie
ook supra). De Thematic Apperception Test (TAT) behoort, samen met ondermeer de
Rorschach, tot de meest door klinische psychologen toegepaste instrumenten,
zodat een grondige invraagstelling van de wetenschappelijke status een vereiste
is.
In deze paragraaf beperken we ons
tot de TAT, omdat deze test erg bekend is en enigszins als voorbeeld kan
dienen, hoewel generaliseren delicaat zoniet onmogelijk is : tussen de diverse
technieken onderling duiken er grote verschillen op qua bijvoorbeeld
constructvaliditeit. Illustratief ter duiding van de ongelijkheden kan de
taxonomische indeling van Lindzey zijn (Lindzey, 1959), die 5 subtypes
onderscheidt in de projectieve technieken, waarbij de TAT hoort onder de
categorie der constructie-technieken (Lindzey, 1959). Andere, naast
constructvaliditeit, hier voorname factoren zijn predictieve validiteit,
betrouwbaarheid (incorporeert test-hertest betrouwbaarheid,
interbeoordelaarsbetrouwbaarheid en interne consistensie, zie verder onder
‘Betrouwbaarheid’), incrementele validiteit (in hoeverre levert een instrument
extra informatie op, naast andere informatie afkomstig van b.v.
zelf-rapportering?), en nut voor de behandeling (Lilienfeld et al., 2000).
Twee belangrijke bemerkingen bij
dit alles: (a) Als men als methode een meta-analyse uitvoert, zal de zgn.
publicatie-bias meespelen - er bestaat een selectieve tendens om negatieve
bevindingen niet te publiceren, en de effectgrootte van gepubliceerde artikels
is opmerkelijk groter dan die van ongepubliceerde. (b) In de klinische praktijk
wordt zelden een standaard stimulusset gehanteerd, en hetzelfde geldt voor het
gebruikte scoringssysteem. Dit gegeven is erg belangrijk, en zal het
noodzakelijk maken om bij de psychometrie-bespreking een indeling volgens
scoringsschema aan te houden. Alvarado (1994) geeft het belang aan van
potentiële invloeden van kaart-inhoud, presentatievolgorde der kaarten, en vorm
van de instructies. Daarom zouden onderzoekers steeds moeten nagaan of hun
resultaten toe te schrijven zijn aan subjectkarakteristieken dan wel aan louter
artefact zijn van de experimentele procedure. Verder vermelden Lilienfeld et
al. (2000) het “Walter Mitty” effect en het inhibitie-effect, die inhouden dat
respectievelijk hoge en lage niveau’s op een zeker attribuut kunnen te wijten
zijn aan een bepaalde mate van fantaseren dat men een attribuut erg bezit
(hoog) of een onderdrukken van de expressie van een attribuut (laag). In beide
gevallen wordt het waarheidsgehalte van het door het subject verhaalde
verlaagd. Daartegenover kunnen we in navolging van Cramer (1999) benadrukken
dat de TAT narratief van aard is, en dat het verhaal van de verteller een
constructie van de realiteit is, en niet louter een reconstructie.
3.2.1.2 Klinische validiteit versus onderzoeksvaliditeit
Ondanks de kritiek wordt de TAT
nog veel toegepast, en wordt hij onder clinici als nuttig ervaren. Men zou
kunnen zeggen dat afdoende empirische ondersteuning van de ‘klinische
validiteit’ (Alvarado, 1994) nog moet gerealiseerd worden, maar dat de test
daarentegen wel reeds een soort subjectieve validiteit heeft verworven, in de
mate dat de TAT bruikbare informatie oplevert over de emotionele responsen van
subjecten op afbeeldingen van bepaalde conventionele menselijke situaties. De
kracht van de TAT zou dan schuilen in wat hij aan verborgen materiaal
openbaart, gegevens die men via meer directe methodes niet zou kunnen of willen
mededelen.
Voor onderzoeksdoeleinden kan de
TAT beschouwd worden als een vorm van observationeel gedrag, en
scoringssystemen moeten dan bijvoorbeeld toelaten op gedrag gebaseerde
vergelijkingen tussen groepen te maken.
3.2.2 Indeling
volgens scoringsschema
Zoals reeds
vermeld, zijn de gehanteerde scoringsschema’s, voorzover ze überhaupt gebruikt
wórden, heel uiteenlopend. De meeste clinici interpreteren de TAT op een
impressionistische wijze, zich baserend op klinische beoordeling en
intuïtie. Daarom is het goed volgens
enige representatieve scoringstechnieken in te gaan op psychometrische
bevindingen. Er zijn een drietal aanpakken ter systematische TAT-scoring die
veelbelovend zijn gebleken : (1) behoeftescoring schema’s, (2)
nagaan van objectrelaties, en (3) nagaan van defensiemechanismen (vb. Cramer: de Defense Mechanisms
Manual, 1991).
Het standaardiseren van de TAT, wat ondermeer het gebruik van voorgeschreven scoringsschema’s inhoudt, lijkt geen prioriteit te zijn in het werkveld. Nochtans, o.m. Garb (1998) wijst op het gegeven dat zogenaamde experten vaak niet accurater zijn in hun gestelde intuïtieve diagnoses dan andere beoordelaars. De auteur benadrukt dan ook de nood aan een volwaardiger TAT-training in psychologie-opleidingen, teneinde een betere integratie van wetenschap en praktijk te verwezenlijken. De resultaten van empirisch onderzoek zouden het onderricht in de afname en scoring van de TAT moeten sturen, en meer éénvormigheid zou normatieve data mogelijk maken.
Hoezeer bij onderzoek (in de pracktijk is de situatie nog schrijnender) bij afname aangewende sets platen van elkaar kunnen verschillen werd overtuigend geïllustreerd door Keiser & Prather (1990), die alle TAT-artikels over een tijdspanne van 10 jaren heen verschenen in het vaktijdschrift ‘Psychological Abstracts’ nakeken (69 stuks waren beschikbaar voor het onderzoek) : slechts 26 studies specifieerden de Murray-kaarten met nummer, bij de andere ontbrak deels informatie daarover, of er werden andere platen gehanteerd. Bijna één derde der studies vermeldde helemaal niets dienaangaande.
3.2.3 Behoeftescoring
Het bekendste scoreschema gericht op behoeftescoring is dat
van McClelland, Atkinson, Clarke en Lowell (1953), om prestatiebehoefte (Eng. :
need for achievement) na te gaan. De geschreven verhalen van de respondenten
worden daartoe gescoord volgens een gedetailleerde schema. Ten grondslag aan
deze procedure ligt het gegeven dat projectietechnieken in staat zouden zijn
impliciete motieven, i.e. behoeften waar het subject zich niet van bewust is,
bloot te leggen. Daarin verschillen ze van zelfrapportering, die
zelf-toegekende motieven taxeert.
3.2.3.1 Betrouwbaarheid
Cramer (1999) spreekt zich uit
tegen metingen van betrouwbaarheid gebaseerd op interne consistensie. TAT
kaarten zijn immers onvergelijkbaar met een serie items op een
persoonlijkheidsschaal die allen bedoeld zijn eenzelfde persoonlijkheidstrek te
meten. De alfacoëfficiënt is dus een ongeschikte meting van betrouwbaarheid.
Rechtstreeks betrouwbaarheidsonderzoek heeft over het algemeen lage tot
middelmatige correlaties opgeleverd. De betrouwbaarheid varieert afhankelijk
van het gevolgde uitwerkingssysteem. Men moet dus steeds de gevonden
coëfficiënten relateren aan het desbetreffend systeem. De algehele klinische
betrouwbaarheid is dus niet hoog. Gevonden waarden voor behoeftescoring stijgen
zelden uit boven 0.40 (Lelienfeld et al., 2000).
Test-hertest betrouwbaarheid is evenmin aangewezen, daar bij een volgende aanbieding het verrassingselement minder zal meespelen, subjecten de neiging vertonen een ánder verhaal te willen vertellen, en de gemeten psychologische karakteristiek kan veranderd zijn, zowel door aan het experiment inherente factoren als door bijvoorbeeld therapeutische interventie. Evenwel, in een studie van Winter en Stewart (1977) werd aangetoond dat de test–hertest betrouwbaarheid hoger is, wanneer aan de proefpersonen expliciet gevraagd wordt om bij de retest dezelfde verhalen te schrijven, i.p.v. een andere versie. Test-hertest scores liggen doorgaans laag, in het 0.30-bereik, en volgens Winter en Stewart (1977) is dit resultaat te wijten aan impliciete strategieën van subjecten en instructies van de test zelf.
Cramer (1999) stelt observatie voor als hoeksteen om tot een betrouwbaarheidsraming te komen, en suggereert dan ook interbeoordelaarsbetrouwbaarheid als te volgen methodologische weg. Deze laatste ligt voor TAT behoeftescoringsschema’s typisch tussen 0.80 en 0.90 (Fineman, 1977).
3.2.3.2 Constructvaliditeit
Om constructvaliditeit na te gaan
is het volgens Cramer (1999) om 2 redenen niet aan te raden om correlaties
tussen de TAT en zelfrapportering metingen te vergelijken. Ten eerste toetsen
metingen gebaseerd op de TAT een verschillend niveau van persoonlijkheid dan
zelfrapporteringen : persoonlijkheidstrekken versus persoonlijke
aangelegenheden (Eng. : personal concerns; zijnde doelen, strategieën en
defensiemechanismen). Ten tweede is het volgens Cramer paradoxaal om mensen bij
zelfrapportering te vragen naar hun
persoonlijkheidskenmerken die, per definitie, gewoonlijk ontoegankelijk zijn
voor het bewustzijn. Een meta-analyse uitgevoerd door Spangler (1992), die zich
toch baseerde op correlaties tussen TAT en zelfrapportering, gaf een bedroevend
lage gemiddelde correlatie van 0.09 als resultaat. De vergeleken methodes
determineren blijkbaar wel degelijk andere constructen.
Men zou bijvoorbeeld, in plaats
daarvan, om constructvaliditeit te controleren, kunnen trachten aan te tonen hoe de theorie geleid heeft tot de
constructie van het TAT coderingssysteem, en er zich van vergewissen of dit
systeem de te peilen theoretische constructen accuraat en adequaat reflecteren.
Een andere mogelijkheid om vanuit de theorie te werken, is via predictie.
Theoretisch zou het mogelijk moeten zijn tevoorspellen welke veranderingen in
de persoonlijkheid moeten optreden bij wijziging van de omstandigheden,
constructvaliditeit moet dan gezocht worden in de bevestiging van theoretische
predicties.
3.2.4 SCORS
Westen coderingsschema voor de
TAT (Westen, 1991) behelst het inschatten van niveau’s van objectrelaties
(bedoeld wordt de mentale representaties over andere personen). Daartoe werd de
Social Cognition and Object Relations Scale (SCORS) opgesteld.
De studie van objectrelaties
moest de volgende domeinen omvatten : complexiteit van representaties van
mensen, affectkleur van relationele schema’s, capaciteit tot emotioneel
investeren in relaties, en het verstaan van sociale causaliteit. Elk van deze
zaken werd onderverdeeld in 5 niveau’s, gaande van primitief tot matuur. Het
gebruik van de SCORS voorziet in een manier om systematisch het
ontwikkelingsniveau, of de relatieve pathologie, van verscheidene patiënttypes
te determineren, gebaseerd op een bepaling van objectrelaties.
3.2.4.1 Betrouwbaarheid
3.2.4.2 Constructvaliditeit
De constructvaliditeit werd in
diverse studies met klinische populaties goed bevonden, de SCORS blijkt
differentiële diagnostiek mogelijk te maken. Vooral de borderline
persoonlijkheidsstoornis werd dienaangaande onderzocht. Cramer (1999) vond
resultaten die de theorie onderschrijven dat borderline adolescenten een meer
dan normaal kwaadaardige objectwereld bezitten, net als een relatieve
incapaciteit om te investeren in anderen op een aangenaam-behaaglijke wijze, en
een tendens vertonen om motivatie bij anderen te attribueren op een al te
eenvoudige, onlogische en idiosyncratische manier. Westen, Lohr, et al. (1990)
vonden meestal de verhoopte resultaten bij een onderzoek waarbij naast een
controlegroep zowel borderline persoonlijkheidsstoornis als major depressie
patiënten betrokken waren, en gefocust werd op onderlinge verschillen op het
niveau van de vier schalen waaruit de SCORS is opgebouwd (complexiteit
menselijke relaties, enz. ...). Evenzeer bemoedigend is het onderzoek van Ackerman,
Clemence, Weatherill en Hilsenroth (1999), die ondermeer borderline en
antisociale persoonlijkheidsstoornis in het proefopzet opnamen, daar ook hier
de theoretische predicties grotendeels gestaafd werden. De SCORS blijkt dus wel
degelijk significant geassocieerd te zijn met zekere psychopathologische
condities. Onopgeloste problemen bij Westen et al. (1990) en bij Ackerman et
al. (1999) geven echter aan dat het bedoelde verband verre van perfect is : (a)
er werden complexere objectrelaties gevonden bij de borderline- dan bij de
controlegroep, hoewel Cramer (1999) wijst op de grote vairabiliteit in de
klinische populatie, en (b) ten aanzien van andere groepen vertoonde de
antisociale persoonlijkheid te lage niveau’s van immoraliteit en agressie. Bovendien
is aangetoond dat intelligentie enerzijds, en het aantal door de respondenten
geproduceerde woorden anderzijds, positief correleren met respectievelijk de
complexiteitsschaal, en de affectkleur- en sociale causaliteit-schalen van de
SCORS. Eenzelfde bemerking kan trouwens gemaakt worden voor de
behoefteschaal-scoringsschema’s, waar intelligentie gematigd positief
samenhangt met de TAT-indexen, en in toekomstige studies aldus best als
covariaat in de analyse opgenomen wordt (wat niet gebeurde in de tot nu toe
aangehaalde artikels).
Consensusanalyse, gevolgd door
multidimensionele schalering (MDS), leverde evenzeer steun op voor de indeling
gesuggereerd door Westen (1991) gebaseerd op objectrelaties. In het bijzonder
affectkleur bleek een voorname component in de betekenis die subjecten aan de
platen toekennen. Om emotie experimenteel aan betekenis te koppelen werd zowel
een emotionele respons beslissingstaak (platen apart aangeboden dienden op een
Likertschaal beoordeeld te worden volgens intensiteit van de emotionele
respons) als een figuur triade taak (van drie TAT-platen moest telkens
aangegeven worden welke het meest apart/afwijkend gebaseerd was op een
‘persoonlijke boodschap of betekenis’) afgenomen. De emotionele respons die de
afbeeldingen teweegbrengen vermag dus op een systematische wijze bij te dragen
tot het cognitief beslissingsproces. Algemeen is consensusanalyse nuttig van
zodra men wil bepalen of responsen idiosyncratisch zijn, tegenover het bestaan
van een gemeenschappelijke antwoordtendens binnen een groep (Alvarado, 1994).
Indien consensus niet bereikt wordt, kunnen de individuele responspatronen
geanalyseerd worden teneinde subgroepen in de stimuli te onderscheiden voor
dewelke overeenkomst wél bestaat, of niet. Het concensusmodel levert bovendien
een competentiescore voor elk subject op (komt de persoon overeen met de groep
?), en een gemiddelde competentiescore als maat voor de homogeniteit van de
responsen binnen de groep. Alvarado (1994) gebruikte deze techniek, om
vervolgens via MDS clusters te ontdekken in de collectie aangeboden
Murray-platen. Er ís een zekere consensus in de responsen op de gepresenteerde
kaarten te vinden, “... that the cards are not as ambiguous as their developers
had hoped.”, maar de link tussen emotionele respons en cognitief oordeel
onderschrijft de klinische validiteit van de TAT, ondanks het gebrek aan
statistisch gedemonstreerde empirische validiteit, “Emotion underlies most
clinical disturbance, and there seems little doubt that the TAT pictures reliably evoke emotional
responses in subjects” (Alvarado, 1994).
3.2.5. DMM
Cramer (1991) ontwikkelde de
Defense Mechanisms Manual (DMM), een TAT coderingssysteem ontworpen om de
aanwezigheid van drie defensies te toetsen.
De drie defensiemechanismen representeren
verschillende graden van rijpheid. ‘Ontkenning’ is de meest primitieve
defensiemechanisme, ‘projectie’ is een complexer en rijper defensiemechanisme,
en ‘identificatie’ heeft de hoogste graad in complexiteit en rijpheid. De drie
defensies zijn gecodeerd in een set criteria, deze worden beschreven in een
scorehandleiding met voorbeelden. Elk TAT verhaal wordt dan gescoord op elk
defensiemechanisme, door meer dan één beoordelaar. Verschillende studies hebben
aangetoond dat dit een voldoend hoge interbeoordelaarsbetrouwbaarheid oplevert.
Ter illustratie de criteria die horen onder het ontkenning-defensiemechanisme :
weglating, misperceptie, omkering, ontkennende/loochenende beweringen,
ontkenning van de realiteit, overdreven maximaliseren van het positieve en
minimaliseren van het negatieve, en tenslotte onverwachte goedheid, optimisme,
zelfverzekerdheid en vriendelijkheid.
De DMM aanpak voor de toetsing
van defensiemechanismen is gebruikt geworden in zeer veel studies met kinderen,
adolescenten, volwassenen en psychiatrische patiënten. Wederom is generalisatie over al deze
studies niet mogelijk, wegens de diversiteit van het aangeboden
stimulusmateriaal, en populatienormen van de DMM zijn niet beschikbaar.
3.2.5.1 Betrouwbaarheid.
Eenzelfde tendens in de
resultaten als bij de andere scoringsschema’s: de
interbeoordelaarsbetrouwbaarheid is in orde, wat niet gezegd kan worden van de
interne consitensie en de test-hertest betrouwbaarheid. Cramer en Block (1998)
vonden Pearson correlaties van 0.81, 0.80 en 0.64 voor respectievelijk
ontkenning, projectie en identificatie.
3.2.5.2 Constructvaliditeit
Toetsing kan geschieden op
verschillende manieren, omdat bij defensiemechanismen een zeker verloop, een
groei doorheen de levensjaren, te onderkennen valt. Overheen de schooljaren zou
er een terugval in het gebruik van ontkenning moeten plaatsvinden, terwijl
projectie en zeker identificatie verwacht worden eigen te zijn aan het bereiken
van een zekere maturiteit. Onderzoek op niet-klinische populaties is dus
zinvol. Cramer (1999) deed cross-sectioneel onderzoek bij schoolkinderen,
leeftijd 6 à 16 jaren, en vond de voorspellingen stavende resultaten. Daarnaast
is ook klinisch onderzoek mogelijk : Hibbard et al. (1994) trachtten te
differentiëren tussen psychiatrische patiënten en een controlegroep, en slechts
identificatie bleek significant hoger te liggen in de referentiepopulatie. De
constructvaliditeit van de TAT wordt dus niet tenvolle ondersteund.
Psychodynamische modellen
voorspellen een stijging der DMM-scores na stressvolle ervaringen, en Cramer en
Gaul (1988) vonden bij schoolkinderen een toename in het gebruik van ontkenning
en projectie (maar niet van identificatie) na het geven van negatieve feedback
op een perceptueel-motorische taak. Geopperd werd dat defensiemechanismen een
psychologische zelfprotectie kunnen vormen na traumatische ervaringen.
Dergelijk theorie-gedreven onderzoek kwam ook reeds kort ter sprake bij
behoeftescoringschema’s. Omdat bepaalde vormen van psychopathologie positief samenhangen
met het gebruik van defensiemechanismen, en andere niet of minder, blijft
natuurlijk de vraag bestaan of niet welk patroon aan bevindingen dan ook niet
altíjd kan geïnterpreteerd worden als ondersteuning voor de DMM-validiteit. Het
te toetsen concept (een zekere pathologie) dient dus a priori strikt genoeg
omschreven te zijn.
3.2.6 Conclusie
naar scoringsschema toe
Verschillende TAT scoreschema’s
hebben geen adequate normen beschikbaar. Deze zijn nochtans nodig om te
vermijden dat clinici psychopathologie overdiagnosticeren. De test hertest –
betrouwbaarheid van deze scoreschema’s is twijfelachtig. En er is ook culturele
bias.
De conclusie die we kunnen
trekken uit de drie uitgewerkte tactieken (behoeftescoring, DMM & SCORS) is
dat de constructvaliditeit van verscheidene TAT scoreschema’s, i.e. toetsing
van de behoefte ‘prestatie’ en objectrelaties, voldoende hoog is. Het gebruik
van de TAT voor het toetsen van defensiemechanismen heeft daarentegen een lage
interne consistentie.
3.3 Besluit
De TAT is een veel gebruikt
instrument in klinische settings, waarschijnlijk omwille van het feit dat het
bruikbaar materiaal oplevert voor de clinici. Daarentegen levert onderzoek naar
de validiteit en betrouwbaarheid ontmoedigende cijfers op, wat grotendeels te
wijten is aan dergelijk onderzoek, eerder dan aan het instrument zelf. Het
belang van de matige ondersteuning der constructvaliditeit voor de klinische
praktijk is evenwel twijfelachtig, daar het overgrote deel van de clinici enkel
en alleen op impressionistische interpretaties van de TAT vertrouwen. Het
onderzoek naar de TAT is zeer variabel, er is immers erg divers
stimulimateriaal van de TAT in omloop. Generalisatie van de ene studie naar de
andere is bijgevolg bijna onmogelijk, te wijten aan de gebrekkige consistentie
en specificiteit van materiaal en procedures. Men gebruikt bijvoorbeeld al te
vaak andere kaarten i.p.v de oorspronkelijke Murray-platen.
Dit alles betekent niet dat de
TAT waardeloos is voor individueel gebruik. De TAT kan worden gebruikt als
aanknopingspunt voor het gesprek, en/of aanwijzingen opleveren voor nader
onderzoek.
De TAT moet men eerder beschouwen
als een observatiemethode dan als een psychometrische test. Hoe dan ook, de
wetenschappelijke status van de TAT dient nog verder geëxploreerd te worden.
4. Wetenschappelijke
status van tekentesten
Tekeningen
van de kerstman worden groter naarmate kerstmis nadert en heksen verkleinen
rond de Halloweenperiode (Sechrest & Wallace, 1964). Volgens sommige onderzoekers hebben de
tekentesten een potentieel dat moet worden gecultiveerd. Anderen daarentegen vinden dat het de
frenologie van de twintigste eeuw is (Rietmuller & Handler, 1997 in
Lilienfeld et al., 2000). Tekentesten worden gebruikt, net als de andere
projectieve technieken, om onbewuste of bewuste onderdrukte gevoelens. Men gaat
op die manier de innerlijke conflicten, angsten en percepties proberen te
begrijpen (Tharinger & Stark, 1990). Recent worden tekentesten
tevens gebruikt om cognitieve processen te onderzoeken. Zo poogt men het
cognitief functioneren bij personen met dementie vast te stellen (Ericson et
al. , 1994).
Tekentesten
kan men onderverdelen in een kinetische methode, waar men expliciet vraagt om
mensen te tekenen die iets aan het doen zijn.
Door die actie wordt de dynamiek, de relaties in de familie, beter geprojecteerd. De kinetische ‘family drawing’ (KFD) die
nagaat hoe iemand zijn familie percipieert.
Daarnaast is er de niet-kinetische methode. Bij deze laatste benadering wordt er enkel gevraagd om een figuur
te tekenen, bijvoorbeeld de draw-a-person test (DAP) en de house-tree-person
test (HTP) (Handler & Habenicht, 1994).
Er bestaan verschillende
scoringssystemen die elk gebaseerd zijn op een theorie. Een van de achterliggende theorieën is de
‘body image’ hypothese, geponeerd door Machover. Men tekent een menselijke figuur zoals men zichzelf ziet. Men moet eerst een tekening maken van een
persoon. De tweede tekening bestond uit
een figuur van de andere sekse. Deze methode is ontwikkeld voor adolescenten en
volwassenen. Ook het Koppitz-systeem is
daarop gebaseerd. Koppitz gaat uit van de ‘emotional state’. Ze vroeg aan het
kind, dat tussen de vijf en tien jaar is, enkel een tekening omdat ze ervan
uitging dat de tweede tekening maar weinig bijkomende informatie geeft. Ze
baseerde haar schema’s altijd op de gehele tekening. Bij de ‘kinetische family
drawing’ is de scoringsmethode van Burns en Kaufman een van de meest
gekende. Een probleem is echter dat
deze scoringsmethoden niet systematisch vergeleken zijn met elkaar (Swensen,
1968). In de paper zullen we over scoringssystemen in het algemeen spreken,
omdat zij qua validiteit en betrouwbaarheid nauw op elkaar lijken.
De scoringssystemen hebben ook
een aantal assumpties gemeenschappelijk (Kamphaus & Pleiss, 1991): tekenen
is voor kinderen een taal, kinderen tekenen eerder wat zij kennen dan wat zij
zien, kinderen uiten hun ideeën over de wereld in door kunst, naarmate men
ouder wordt, zullen de tekeningen meer realistisch worden, tot tien jaar is intellectuele ontwikkeling de
belangrijkste determinant op de kwaliteit van de tekening.
Tekentesten zijn van oorsprong
ontwikkeld voor kinderen. Dit is
wellicht de reden dat deze assumpties toegespitst zijn op kinderen. We hebben
geen assumpties gevonden specifiek voor volwassenen.
Een tweede onderscheid bevindt
zich op het niveau van de scoring. Bij
de kwantitatieve scoring bepalen individuele ‘signs’ of er sprake is van
pathologie b.v. men kijkt naar de dikte
van de lijn en scoort deze op een schaal om te voorspellen of er een depressie
aanwezig is (Groth-Marnat & Roberts, 1998). De kwalitatieve methode is een
holistische methode: de clinicus maakt een beslissing aan de hand van de gehele
tekening (Tharinger & Stark, 1990).
Een bemerking is dat elke studie
verschillende artikels uitlokt die steun en tegenevidentie aantonen qua
validiteit en betrouwbaarheid.
4.2.1 Interbeoordelaarsbetrouwbaarheid
De
interbeoordelaarsbetrouwbaarheid scoort bij al de gelezen artikels hoog. Die varieerde van 0.87 tot 0.95 (Handler
& Habenicht, 1994; Kamphaus & Pleiss, 1991). Alleen Lilienfeld et al. (2000) vond een
interbeoordelaarsbetrouwbaarheid van 0.8 tot laag.
Wij hebben moeite om deze
bevindingen, behalve deze van Lilienfeld et al. (2000), te integreren met de
volgende feiten. De interpersoonlijke
stijl (het persoonlijkheidspatroon) heeft een grote invloed op de interpretatie
van de tekeningen door de therapeut.
Hammer en Piotrowski (vermeld in Scibner & Handler,1987) vonden een hoge correlatie tussen de mate
van vijandigheid en agressie in de therapeut en vijandigheid en hostiliteit in
de tekeningen. Interpersoonlijke
factoren die geassocieerd zijn met lage empathie: agressiviteit, tendens om
arrogant te zijn, klagen. Een kenmerk
die samengaat met een hoge empathie is b.v. tact. Goede interpreteerders scoren significant hoger op metingen van
creativiteit, intuïtie en empathie (Scribner & Handler, 1987).
4.2.2 Test-hertest
Deze vorm van betrouwbaarheid
varieerde sterk over de artikels heen: van 0.46 tot 0.9 (Handler &
Habenicht, 1994).
Er zijn twee problemen om een
betrouwbaar resultaat te bekomen.
Vooreerst zijn er verschillende scoringssystemen door elkaar gebruikt,
waardoor er verschillende interpretaties zullen ontstaan. Wij beseffen ter dege dat dit ook de
vergelijking tussen de artikels
bemoeilijkt. Dit kan tevens de reden
zijn waarom de test-retest betrouwbaarheid zo varieert. Ten tweede is er de mogelijkheid dat het
subject beïnvloed wordt door emoties, die enkel de dag van de eerste tekentest,
aanwezig zijn (Handler & Habenicht, 1994; Thomas & Jolley, 1998). Handler en Habenicht (1994) vonden echter
ook dat in 80% kinderen qua karakteristieken in de tekening consistentie tonen
over de tijd heen. Dit was een reactie
op het onderzoek van Hammer en Kamplan (vermeld in Handler & Habenicht,
1994). Zij vonden dat wanneer een kind
de eerste tekening klein maakt, de tweede groot is en omgekeerd.
Validatie is de mate waarin de
test aan zijn doel beantwoordt. In
psychologische context betekent dat de diagnose bruikbaar is en een hoge
informatiewaarde heeft. Validiteit
wordt begrensd door de betrouwbaarheid.
Op het vlak van validiteit vindt
er een selectie van de literatuur plaats door onderzoekers die de techniek
steunen in vergelijking met diegenen die dit niet doen. Beiden gaan confirmatorisch te werken en
doen de tegenevidentie af als een methodologisch artefact of negeren de
literatuur die een andere mening uitdrukken (Riethmiller & Handler,
1997).
In de paper maken
we een onderscheid tussen verschillende soorten validiteit. In de praktijk is
het echter moeilijk om deze verdeling te handhaven (Messick, vermeld in Linn,
1993). Zo zal men bij lage
gelijktijdige validiteit de vraag stellen of men wel de juiste operationele
variabelen heeft, wat betekent dat de constructvaliditeit wordt bevraagd. De
beslissing om het onderscheid te behouden is omdat dit eveneens gebeurt bij al
de gelezen artikelen en we op die manier een beter overzicht kunnen houden.
4.3.1 Constructvaliditeit
In deze paragraaf zullen we de
mate waarin de ‘signs’, in de tekentesten, de onderliggende psychologische
constructen reflecteren.
Bij een tekentest is het moeilijk
om het construct vast te stellen: meet hij de dynamische processen, de
cognitieve processen, de perceptie van zichzelf of de artistieke vaardigheden
(Kamphaus & Pleiss, 1991)? Daarnaast zijn er de verschillende
scoringssystemen die gedeeltelijk andere variabelen hebben en een diverse
achterliggende theorie. Daardoor komt
men bij de operationalisering voor onoverkomelijke problemen te staan. De hypothesen zijn namelijk niet
falsifieerbaar (Lilienfeld et al., 2000).
In de meeste onderzoeken worden de variabelen grootte van de tekening,
het aantal details en de dikte van de getekende lijnen. Tevens worden de positie van de tekening, de
kleren en anatomische kenmerken als variabelen soms genomen. Geen van al deze
indicatoren zijn valied om de persoonlijkheid of pathologie vast te stellen
(Smith & Dumont, 1995). Tharinger en Stark (1990) vonden wel een
significante relatie tussen de DAP en depressie. Zij onderzochten de relatie
tussen een ‘happy face’ en depressie.
Wat bleek: 77% van controlekinderen tekenen een lachend gezicht, terwijl
dit maar 17% is bij depressieve kinderen.
Al dan niet een lachend gezicht tekenen heeft dus
constructvaliditeit.
In tekeningen worden niet altijd
de emotionele spanningen van mensen geprojecteerd (Lilienfeld et al., 2000)
waarbij wij aan psychosomatische klachten denken. Of deze ontstaan door parasympathisch systeem[10][10] of door verdringing[11][11], gaat buiten het onderwerp van de
paper. Bij een onderzoek (Schacker,
vermeld in Handler & Habenicht, 1994) kon men aan de hand van tekeningen
niet differentiëren tussen kinderen wiens ouders aan het scheiden waren en
wiens ouders getrouwd waren. Annunziata
(vermeld in Handler & Habenicht, 1994) vond wel significant meer emotionele
indices en meer onnauwkeurigheid in de tekeningen bij kinderen van gescheiden
ouders. Als tweede hebben extreme angst en stress dezelfde ‘signs’. Beiden hebben twee manieren om met de
situatie om te gaan, met name vermijden en coping. Tekeningen van vermijdende
patiënten zijn vaak groot met lichte lijnen en weinig detail, terwijl die van
de coping-patiënten kleine gedetailleerde tekeningen zijn met een zware
lijn. Maar men weet, zonder een
interview, niet of het afkomstig is van angst of stress (Riethmiller & Handler, 1997).
Het feit dat kinderen de kerstman
groter tekenen rond de periode van kerstmis hoeft niet afkomstig te zijn van
hun ‘emotional state’. Het kan zijn dat
de kinderen door de vele foto’s in die maand, ze een beter beeld hebben van de
kerstman. Deze alternatieve verklaring zou dan gereflecteerd worden in de
grotere tekening en meer details van de kerstman (Lilienfeld et al., 2000).
Een probleem in de KFD
interpretatie en onderzoek is dat men niet weet of de tekening een realistische
weergave is van de familiestructuur of het een wens is van het kind. Shaw (vermeld in Handler & Habenicht, 1994)
vond een discrepantie tussen het aantal kinderen de rapporteerden dat hun vader
gestorven was en diegenen die een vader tekenden. In de klinische praktijk is dit niet echt een probleem omdat het
een betekenis heeft of kan krijgen. In het onderzoek is dit echter wel een
groot probleem, omdat men die persoon niet kent en dus niet kan plaatsen.
Daardoor ontstaat er een kloof tussen de klinische praktijk en het theoretische
onderzoek.
Het menselijk functioneren is
complex fenomeen. Onderzoekers die met deze complexiteit geen rekening houden,
zullen invalide gegevens bekomen. Een
kwalitatieve benadering zoekt een relatie tussen de variabelen waardoor men met
deze visie meer valide gegevens krijgt, hoewel deze nog altijd klein zijn. De kwantitatieve benadering daarentegen
negeert die complexiteit door enkel naar één variabele te kijken (Riethmiller
& Handler, 1997).
We zouden deze paragraaf willen
eindigen met een onderzoek dat het gebrek aan constructvalideit mooi aantoont.
Layton (vermeld in Handler & Habenicht, 1994) vergeleek zes- tot
twaalfjarigen met leer-, gedrags- en socio-emotionele problemen met een groep
‘normale’ kinderen. Er waren weinig significante verschillen. Soms waren er
zelfs meer tekenen van pathologie aanwezig in de controlegroep dan in de
conditie met problemen.
4.3.2 Gelijktijdige validiteit
Vele studies gaan na of er
gelijktijdige validiteit bestaat tussen de DAP of KFD en de diagnose van een
andere test. Hier vallen de grote verschillen op tussen de diverse onderzoeken.
In het ene onderzoek wordt er evidentie voor concurrente validiteit gevonden,
terwijl dat bij een andere onderzoeker niet zo is. Het was niet onze bedoeling
om een exhaustief overzicht te geven van al de studies. Hieronder zullen we een
verschillende diagnoses vergelijken met de resultaten van de tekentest.
Is de DAP een screener voor
intelligentie? Twee valide instrumenten om de intelligentie te meten zijn de
WISC-R en de Stanfort-Binet. DAP heeft met beiden een lage tot matige
concurrente validiteit: de correlatie varieert van 0.4 tot 0.65 (Kamphaus &
Pleiss, 1991). Een kind met een normaal
IQ zal bij toenemende leeftijd ook beter, realistischer en met meer details
kunnen tekenen, op voorwaarde dat men de artistieke vaardigheden kan
controleren. Een kind met b.v. een lichte verstandelijke handicap zal een
tekening construeren die onder zijn ontwikkelingsstadium ligt. Toch pleiten wij om meermaals een tekening
te laten maken. Wij denken daarbij aan mensen met autisme. Zij blinken vaak uit op één welbepaalde
vaardigheid, en soms is dit tekenen. Dit zijn dan echter vaak mechanische
onderwerpen, waardoor de tekeningen van mensen onder hun niveau zal liggen[12][12]. Daarbij vermoeden we dat de
gelijktijdige validiteit laag is. Onderzoek zal dit moeten uitwijzen.
Naar de relatie tussen zelfbeeld
en de tekentesten is er meer onderzoek verricht. Groth-Marnat en Roberts (1998) onderzochten de correlatie tussen
de HTP en de Cooper-Smith Self Esteem
Inventory en de Tennessee Self Concept Scale.
Men bekwam geen significant effect.
Tharinger en Stark (1990) vonden
ook geen relatie wanneer de tekeningen op een kwantitatieve manier werden
gescoord. Een kwalitatieve benadering gaf wel een significant effect tussen de
HTP en zelfbeeld.
Gardano (vermeld in Handler &
Habenicht, 1994) vond een significante relatie tussen kinderen wiens vader alcoholicus was en wiens vader niet
pathologisch dronk enerzijds en de KFD anderzijds. Bij kinderen met een
alcoholieke vader was er een grotere afstand tussen de figuren, namelijk tussen
de moeder en de vader, de ouders en de kinderen. Ook was er een verminderde
interactie op de tekeningen te zien tussen de familieleden.
Ook bij depressie werd er een
verschil gevonden tussen de kwalitatieve en kwantitatieve benadering. Joiner, Schmidt en Barnett, J. (1996) koos
drie variabelen: grootte van de tekening, aantal details en de dikte van de
lijnen. Zij gingen na of deze onder
andere correleerden met de Children’s Depression Inventory, de Revised Children’s
Manifest Anxiety Scale. Bij geen van de drie variabelen vond men een
significant effect. Een mogelijke reden voorgesteld door Joiner, Schmidt en
Barnett (1996) is dat de instrumenten zijn gevalideerd in de vorm van een
gehele schaal. Daardoor krijgt men bij
de kwantitatieve benadering lage gelijktijdige validiteit, omdat men een
volledige schaal vergelijkt met één item. Doordat men bij de kwalitatieve visie
de gehele tekening of een groep categorieën correleert met een volledige
schaal, bekomt men nu wel hogere validiteitswaarden.
Ericson, Hilleras, Holmen, Jorm,
et al (1994) onderzochten of tekentesten het cognitief functioneren, gemeten
aan de hand van Mini-Mental State Examination, kon aanduiden. Deze schaal kon
men nagaan of een oudere persoon dement was of niet en in welke mate. Als tekentest werd de DAP afgenomen en op
een kwantitatieve manier gescoord. De
DAP kon niet differentiëren tussen een persoon met en zonder dementie.
4.3.3 Incrementele validiteit
Lilienfeld et al. (2000) stellen
zich ernstige vragen rond de incrementele validiteit van de tekentesten. De
tekenmetingen zouden naast de dynamische processen, ook op intelligentie en
artistieke vaardigheden scoren. De tekenkwaliteiten kunnen inderdaad stijgen
als men meer dan normaal begaafd is, want men functioneert mogelijk dan boven
zijn ontwikkelingsniveau. Maar men moet hierbij voorzichtig zijn, omdat iemand
die slecht kan tekenen ook hoog begaafd kan zijn. Volgens ons zijn de artistieke vaardigheden het enige wat men als
zekerheid kan vaststellen, als bijkomend bij andere testen. De vraag is wel wat men hiermee is, want
artistieke vaardigheden kunnen geen onderscheid maken tussen de normaliteit en
pathologie of zegt niets over de persoonlijkheid in se. De artisticiteit is
echter ook een methodologisch probleem. Lichaamsdelen die moeilijk te tekenen
zijn, zullen gemakkelijker als een ‘maladjustment’ beschouwd worden. Cressen
(vermeld in Lilienfeld et al., 2000) onderzocht de invloed van deze artistieke
vaardigheden. Er werd aan psychologen gevraagd om tekeningen te klasseren bij
de ‘normale’ mensen en diegenen met schizofrenie. Uit de resultaten bleek dat er een tendens is om tekeningen met
een lage artistieke kwaliteit te classifiseren bij schizofrenie, ook als de
tekeningen afkomstig waren van de normale conditie. Het omgekeerde zagen ze bij tekeningen met een hoge
artisticiteit.
Naar onze mening
gebruikte McCallister (vermeld in Handler & Habenicht, 1994) de KFD op de
meest valide manier. Hij testte
adolescenten tussen de twaalf en achttien jaar die in een instelling zaten. Dit
gebeurde niet om de mate van agressiviteit vast te stellen, maar om na te gaan
hoe de jongeren zichzelf percipiëren en hoe ze zich zagen in relatie met hun
familie. Men gebruikte deze tekeningen als een poging tot begrijpen. Volgens
ons zit er waarde in als men b.v. kinderen laat tekenen en dit nemen als
uitgangspunt voor een interview. Op
deze manier kan een gesprek vergemakkelijken. Dit is echter een intuïtieve
hypothese, zonder enig onderzoek.
Voor clinici dragen de
tekentesten iets bij dat niet bekomen kan worden via andere
testinstrumenten. Tekeningen stralen
een intimiteit uit, waardoor je al een stukje van iemands leefwereld ziet. Ze reflecteren ook wie we zijn. Deze reflectie is vaak niet gestructureerd
en kan men niet goed in categorieën plaatsen, dus scoring is moeilijk (Handler
& Habenicht, 1994).
Tekeningen van jonge kinderen
zijn een grotere indicator dan bij oudere kinderen (Riethmiller & Handler,
1997).
Bij sommige scoringssystemen zijn
er normatieve data voor handen, maar deze zijn niet de regel (Lilienfeld et
al., 2000). Clinici interpreteren
tekeningen vaak intuïtief, ontstaan door ervaring.
Om tekeningen te
interpreteren is leeftijd een belangrijke variabele, omdat bepaalde aspecten
pas voorkomen of juist niet aanwezig zijn als een kind ouder wordt. Zo zal een tekening waar de persoon zich
geïsoleerd tekent, in de tienertijd als een normale fase in de ontwikkeling
beschouwd worden. Wanneer dit echter
voorkomt in de kindertijd, kan men dat interpreteren als pathologisch. Ook het geslacht is belangrijk. Mannelijke adolescenten tekenen hun vader
altijd het grootst. Bij vrouwelijke
adolescenten daarentegen stijgt het percentage tekenen waar de vader als de
grootste figuur wordt afgebeeld, naarmate ze 18 worden. De laatste die een invloed heeft bij het
maken van een tekening, is de cultuur waarin men opgroeit of opgegroeid is. Naar onze mening is in de studie van Patton
(vermeld in Handler & Habenicht, 1994) sprake van deze
cultuurvariabele. Hij vond dat de
figuur van de vader meer in actie was dan de moeder. Dit onderzoek is gebeurd op een moment waar enkel de vader voor
het inkomen zorgde. Onze hypothese
heeft verdere exploratie nodig (Handler & Habenicht, 1994).
We hebben enkel één onderzoek
gevonden die met al de bovenstaande data rekening houdt en in de normen
opneemt. Bentley (vermeld in Handler
& Habenicht, 1994) heeft in zijn studie leeftijd, geslacht, intelligentie
en culturele achtergrond gebruikt. De
moeilijkheid bij wat al dan niet selecteren om in je normering op te nemen is
de vraag hoe ver je moet gaan, b.v. moet men de Belgen differentiëren in de
tekentesten naar hun geloof? Op die
manier krijgt men vlug heel veel combinaties ook.
Ondanks het feit dat de
tekentesten vaak worden gebruikt in de klinische praktijk, is het een arm
gevalideerde psychometrisch instrument (Smith & Dumont, 1995).
Een advies dat wij naar voor
willen brengen, is dat men een standaard scoresysteem zou gebruiken, met een
stevige achterliggende theorie. Het probleem, die de tekentesten delen met de
andere projectietechnieken, is dat die theoretische basis moeilijk of niet
falsifieerbaar zijn.
Steeds meer is men de mening
toegedaan dat kwalitatieve benaderingen meer valide gegevens oplevert, en wordt
dit geïntegreerd in het onderzoeksdesign. In de klinische praktijk werkt men
echter nog vaak op een intuïtieve basis.
Er is nood aan verder onderzoek,
omdat wij de indruk kregen dat we vaak artikels lazen die evidentie en
tegenevidentie voor het gebruik van de techniek, maar dat ze naast elkaar
spraken. Heel vaak werden er in een replicatie een ander scoringssysteem gebruikt,
andere proefpersonen, … Daarbij bleek
dat er een duidelijke behoefte aan een meta-analyse bestaat. Lilienfeld et al.
(2000) hebben dat gepoogd.
Vaak zijn de onderzoeksresultaten
omtrent betrouwbaarheid en validiteit onduidelijk en spreken elkaar tegen. De
betrouwbaarheid en de validiteit van deze technieken worden door de ene
verguisd en door de ander met hand en tand verdedigd. Daarbij valt een grote discrepantie
tussen de praktijk en het onderzoek op. Vaak wordt in de praktijk volop
gebruik gemaakt van technieken die psychometrisch een erg slecht figuur slaan
Lilienfeld et al. (2000)
vermelden studies die aangegeven dat 49% tot 65% van de ondervraagde
verantwoordelijken van opleidingsprogramma’s voor psychologen de projectieve
technieken als onontbeerlijk voor de opleiding beschouwen. Bovendien geven ze
ook aan dat projectieve technieken, waaronder de Rorschach en de TAT, tot de
top tien van de meest gebruikte technieken behoren. Andere onderzoeken
daarentegen maken notie van een dalend gebruik of zelfs een doelbewuste
verbanning van de technieken. We maken daarbij de kantekening dat niet
noodzakelijke een tegenstelling moet zijn: het gebruik van de technieken kan
dalen, ondanks het feit dat heel populair zijn.
Lilienfeld et al. (2000), Van Der
Molen (1997) en Masling (1997) verklaren het voorkomen van de vele kritieken op
de projectieve technieken vanuit het vaak ontbreken van de bespreking van de
methodologische aspecten.
De kritieken slaan voornamelijk
op aspecten van de betrouwbaarheid (het niet-gestandaardiseerd zijn van het
scorens-, normerings[13][13]- en interpretatiesystemen, de
onderliggende assumpties betreffende het scoren en de moeilijkheden bij het
verwerven van expertkennis en bij de trainbaarheid) en op aspecten van de
validiteit (de voorspellende kracht en de overeenkomst tussen verschillende
technieken is heel laag). Het is moeilijk om bij de technieken na te gaan of de
gegeven antwoorden van de onderzochten echt zijn dan wel geveinsd (Lilienfeld
et al., 2000) of wat de invloed is van de minimale interferenties van degene
die de techniek afneemt.
Bovendien worden de technieken
vaak gebruikt voor een ander doel dat dat waarvoor de techniek oorspronkelijk
werd opgesteld. Zo dient bijvoorbeeld de Rorschach-vlekkentest niet om een
DSM-diagnose te stellen. Het spreekt daarom voor zich dat we niet noodzakelijk
een hoge correlatie tussen de DSM en de techniek mogen verwachten. Hoewel dit
volgens sommige auteurs ook gerelativeerd moet worden, gezien de hoge
correlaties met het opsporen van bepaalde pathologieën (Lilienfeld et al.,
2000).
Lilienfeld et al. (2000) leggen
daarnaast ook de nadruk op een vaak sterk verontachtzaamde kritiek: namelijk. de
gegevens omtrent de betrouwbaarheid en de validiteit kunnen sterk vertekend
kunnen zijn door het weglaten van insignificante resultaten. Het polariseren
van de resultaten door zowel voor- als tegenstanders is hier mogelijks de
oorzaak van (De Boeck, 1999).
Alle projectieve technieken
baseren zich op een interpretatief proces om betekenis te geven aan het
geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het scoren
niet evenveel projectie aanwezig is als in de gegeven antwoorden van de proefpersonen
(tegenoverdracht).
De projectieve technieken hebben
ook voordelen. Deze technieken worden vaak als ‘ijsbreker’ ervaren door zowel
de onderzochte als door degene die de techniek afneemt. Vaak worden er een hele
testbatterij vol vragenlijsten afgenomen. De meeste[14][14] projectieve technieken worden dan als
interessant en aangenaam ervaren. Natuurlijk speelt de pathologie van de
onderzochte ook rol. Daarnaast wordt, zoals reeds boven vermeld, sociaal
wenselijk gedrag geminimaliseerd en worden bewuste verdedigingsmechanismen bij
het antwoorden door de aard van de technieken omzeild.
Het is niet te verwachten dat de
projectieve projectiemethoden uit het diagnostisch instrumentarium zullen
verdwijnen. Ze verschaffen nu eenmaal informatie die niet op een andere wijze
te verkrijgen zijn (Exner, 1976 en Wade et al., 1977). Men zal dus moeten
blijven zoeken naar meer betrouwbare en meer valide uitwerkingsmethoden van de
projectietests. Ook nieuwe data-verwerkingstechnieken zullen in de toekomst mogelijkheden
kunnen bieden voor sommige projectiemethoden.
Ackerman, S.J., Clemence, A.J., Weatherill, R., & Hilsenroth, M.J. (1999).
Use of the TAT in the assessment of DSM-IV Cluster B personality disorders. Journal
of Personality Assessment, 73, 422-448.
Alvarado, N. (1994). Empirical validity of the Thematic Apperception
Test. Journal of Personality Assessment, 63(1), 59-79.
Anastasi, A. (1982). Psychological testing. NY: MacMillan.
Arononow, E. , Reznikoff, M., & Moreland, K. L. (1995). The
Rorschach: Projective technique or Psychometric test?. Journal of
Personality Assessment, 64, 213-228.
Campbell, D. T. ,
& Fiske, D.W. (1959).Convergent and discrimant validity by the
multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity
assessment. London: Sage Publications.
Cramer, P. (1991). The development of defense mechanisms: Theory,
research and assessment. NY: Springer-Verlag.
Cramer, P. (1999). Future directions for the Thematic Apperception Test.
Journal of Personality Assessment, 72, 74-92.
Cramer, P., & Block, J. (1998). Preschool antecedents of defense
mechanism use in young adults: A longitudinal study. Journal of Personality
and Social Psychology, 74, 159-169.
Cramer, P., & Gaul, R. (1988). The effects of success and failure on
children’s use of defense mechanisms. Journal of Personality, 56, 729-742.
Cronbach, I. J., & Meehl P. I.. (1955). Construct validity in
psychological tests. Psychological Bulletin, 52, 281-302.
De Boeck, P. (1999). Cursus:
Vraagstukken uit de psychodiagnostiek. Leuven: Niet-gepubliceerde uitgave.
de Zeeuw, J. (1995). Algemene
psychodiagnostiek I: Testmethoden (7e druk). Lisse: Swets &
Zeitlinger.
Exner, J. E. , Jr. (1979). The Rorschach Systems. New York: Grune
& Stratton.
Exner, J. E., Jr. (1992). R in Rorschach research: A ghost revisited.
Journal of Personality Assessment, 58, 245-251.
Exner, J. E., Jr. (1996). A comment on “The Comprehensive System for the
Rorschach: A critical examination”. Psychological Science, 7, 11-13.
Ericson, K., Hilleras, P., Holmen, K., Jorm, A. et al (1994). The short human figure drawing scale for the
evaluation of suspect cognitive dysfunction in old age. Archives of gerontology and geriatrics,
19(3), 243-251.
Fineman, S. (1977). The achievement motive and its measurement. Where
are we now? British Journal of Psychology, 68, 1-22.
Frank, I..
K. (1948). Projective methods. Springfield, III: Thomas.
Freud, S. (1998). Psychoanalytische opmerkingen over een autobiografisch beschreven geval van paranoia (dementia praecox). In S.Freud, Ziektegeschiedenissen 4. Amsterdam: Boom Meppel.(Oorspronkelijke versie gepubliceerd in 1911).
Garb, H.N. (1998). Recommendations for training in the use of the
Thematic Apperception Test (TAT). Professional Psychology: Research and
Practice, 29, 621-622.
Garb, H. N. , Florio, C. M., & Grove, W. M. (1998). The validity of the Rorschach and
the Minnesota Multiphasic Personality Inventory: Results from meta-analyses. Psychological
Science, 9, 402-404.
Garb, H. N. , Florio, C. M. , & Grove, W . M . (1999). The Rorschach controversy: Reply to
Parker, Hunsley, and Hanson. Psychological Science, 10, 293-294.
Gronnerod, C . (1999).
Rorschach interrater agreement estimates: An empirical evaluation. Scandinavian
Journal of Psychology, 40, 115-120.
Groth-Marnat, G. , & Roberts, L . (1998). Human figure drawings and
house tree person drawings as indicators of self-esteem: a quantitative
approach. Journal of Clinical Psychology, 54,(2), 219-222.
Groth-Marnat, G . (1999). Handbook of clinical Assessment, third
edition. New York: John Wiley & Sons Inc.
Guildford, J. P. (1954). Psychometric methods. London:
McGraw-Hill Book Company.
Handler, L.,
& Habenicht, D. (1994). The kinetic family drawing technique: a review of the
literature. Journal of personality assessment, 62(3), 440-464.
Hibbard, S., Farmer, L., Wells, C., Difillipo, E., Barry, W., Korman,
R., & Sloan, P. (1994). Validation of Cramer’s Defense Mechanism Manual for
the TAT. Journal of Personality Assessment, 63, 197-210.
Hiller, J. B. , Rosenthal, R. , Bornstein, R. F. , Berry, D. T. R. ,
& Brunell-Neuleib, S . (1999). A comparative meta-analysis of Rorschach and
MMPI validity. Psychological Assessment, 11, 278-296.
Joiner, T. E. , Schmidt, K. L. , & Barnett, J. (1996). Size, detail, and line heaviness in
children’s drawings as correlates of emotional distress: (more) negative
evidence. Journal of personality
assessment, 67(1), 127-141.
Kamphaus, R. W. , & Pleiss, K. L (1991). Draw a
person techniques: tests in search of a construct. Journal of school
psychology, 29, 395-401.
Karon, B.P . (1978). Projective tests are valid. American
Psychologist, 33, 764-765.
Keiser, R.E., & Prather, E.N.
(1990). What is the TAT? A
review of ten years of research. Journal of Personality Assessment, 55(3&4),
800-803.
Klopfer, W. F. , & Taulbee, E.
(1976). Projective tests. Annual
review of Psychology, 27, 543-567.
Laroche, N. , & Corveleyn, J. (1986). Enkele bedenkingen omtrent de basisprincipes van Rorschachs onderzoeksmethode: Vorm en inhoud. Tijdschrift voor Klinische Psychologie, 16(3), 132-147.
Lilienfeld, S. O. , Wood, J. M., & Garb, H. N. (November 2000). The
scientific status of projective techniques. Psychological science in the
public interest, 1 (2), 27-66.
Lipgar, R. M. (1992). The problem of R in the Rorschach:
The value of varying responses. Journal of Personality Assessment, 58,
223-230.
Masling, J. (1960). The influence of situational and interpersonal
variables in projective testing. Psychological Bulletin, 57, 65-85.
Masling, J. (1997). On the nature and utility of projective tests. Journal
of Personality Assessment, 69, 257-270.
McClelland, D.C., Atkinson, J.W., Clark, R.A., & Lowell, E.L.
(1953). The achievement motive. NY: Appleton-Century-Crofts.
Messick, S. (1993).
Validity. In Linn, R.L. (Eds.), Educational
measurement (pp 13-103) (3rd ed). Washington, DC: Oryx press.
Meyer, G. J. (1992). Response frequency problems in the Rorschach: Clinical and research
implications with suggestions for the future. Journal of Personality
Assessment, 58, 231-244.
Meyer, G. J. (1993). The impact of response frequency on the Rorschach constellation indices
and on their validity with diagnostic and MMPI-2 criteria. Journal of
Personality Assessment, 60, 153-180.
Meyer, G. J. (1997a). Assessing reliability: Critical corrections for a critical examination
of the Rorschach Comprehensive System. Psychological Assessment, 9,
480-489.
Meyer, G. J. (1997b). Thinking clearly about reliability: more critical corrections regarding
the Rorschach Comprehensive System. Psychological Assessment, 9,
495-498.
Meyer, G. J. (2000a). Incremental validity of the Rorschach Prognostic
Rating Scale over the MMPI Ego Strength Scale and IQ. Journal of Personality
Assessment, 74, 356-370.
Meyer, G. J. (2000b). On the science of Rorschach Research. Journal
of Personality Assessment, 75, 46-81.Nunnaly, J.C. (1967). Psychometric
theory. London: McGraw-Hill Book Company.
Parker, K. C. H. , Hanson, R. K. , & Hunsley, J. (1988). MMPI,
Rorschach and WAIS: A meta-analytic comparison of reliability, stability, and
validity. Psychological Bulletin, 103, 367-373.
Riethmiller, R. J. , & Handler, L. (1997). Problematic methods and
unwarranted conclusions in DAP research: suggestions for improved research
procedures. Journal of personality assessment, 69(3), 459-475.
Riethmiller, R. J. , & Handler, L. (1997). The great figure drawing
controversy: the integration of research and clinical practice. Journal of
personality assessment, 69(3), 488-496.
Ritzler, B. (1995). Putting your eggs in the content analysis basket: a
response to Aronow, Reznikoff, and Moreland. Journal of Personality
Assessment, 64, 228-234.
Scribner, C. M. & Handler, L. (1987). The interpreter’s personality
in draw-a-person interpretation: a study of interpersonal style. Journal of personality assessment, 51(1),
112-122.
Sechrest L. (1963). Incremental validity: A recommendation. Educational
and Psychological Measurement, 12, 153-158.
Sechrest, L. , & Wallace, J. (1964). Figure drawings and naturally occurring
events: elimination of the expansive euphoria hypothesis. Journal of
educational psychology, 55, 42-44.
Smith, D., & Dumont, F. (1995). A cautionary study: unwarranted
interpretations of the draw-a-person test. Professional psychology: research
and practice, 26, 298-303.
Spangler, W.D. (1992). Validity of questionnaire and TAT measures of
need for achievement: Two meta-analyses. Psychological Bulletin, 112,
140-154.
Swensen, C. H. (1968). Empirical
evaluations of human figure drawings: 1957-1966. Psychological bulletin, 70, 20-44.
Tharinger, D. J. , & Stark, K. (1990). A qualitative versus quantitative approach to evaluating the
draw-a-person and kinetic family drawing: a study of mood- and anxiety-disorder
children. Psychological assessment:
a journal of consulting and clinical psychology, 2, 365-375.
’t Hart , H., van Dijck, J., de Goede,
M. Jansen, W., & Teunissen, J. (1998). Onderzoeksmethoden.
Amsterdam: Boom.
Thomas, G. V., & Jolley, R. P. (1998). Drawing conclusions: a re-examination of empirical and conceptual
bases for psychological evaluation of children form their drawings. British
journal of clinical psychology, 37, 127-139.
Van Audenhove, C., & Stinissen, J.
(1981). Handleiding bij de Thematic Apperception Test. Leuven:
Niet-gepubliceerde uitgave.
Vander Steene, G., & Stinissen, J.
(1976). Inleiding tot de Rorschach-techniek naar het systeem van Klopfer.
K. U. Leuven: Niet-gepubliceerde uitgave.
Van Engeland, H. (2000). Autisme en psychosen. In Vandereycken, W., Hoogduin, C.A.L., & Emmelkamp, P.M.G. (Eds.), Handboek psychopathologie (pp469-490). Houten: Bohn Stafleu Van Loghum.
Weiner, I.B. (1996). Some observations on the validity of the
Rorschach Inkblot Method. Psychological Assessment, 8, 206-211.
Weiner,
I.B. (1997). Current status of the Rorschach Inkblot Method. Journal of
Personality, 68, 5-19.
Westen, D. (1991). Clinical assessment of object relations using the
TAT. Journal of Personality Assessment, 56, 56-74.
Westen, D., Lohr, N., Silk, K.R., Gold, L., & Kerber, K. (1990).
Object relations and social cognition in borderlines, major depressives, and
normals: A Thematic Apperception Test analysis. Psychological Assessment, 2,
355-364.
Winter, D.G., & Stewart, A.J. (1977). Power motive reliability as a
function of retest instructions. Journal of Consulting and Clinical
Psychology, 45, 436-440.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996a). The
Comprehensive System for the Rorschach: A critical examination. Psychological
Science, 7, 3-10.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996b). Thinking
critically about the Comprehensive System for the Rorschach. A reply to Exner. Psychological
Science, 7, 14-17.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1997). The
reliability of the Comprehensive System for the Rorschach: A comment on Meyer
(1997). Psychological Assessment, 9, 490-494.
Wood, J.M., Lilienfield, S.O., Garb, H.N., & Nezworski, M.T. (2000). The Rorschach Test in clinical diagnosis: A critical review, with a backward look at Garfield (1947). Journal of clinical psychology, 56, 395-430.
Door Lic. Peeters, Tim; De Bock, Karel;
Cayenbergs, Karen, DeNoël, Kelly en Schouten, Ben
Niets mag vemenigvuldigd worden zonder
toestemming van de auteurs, © December 2002.
[1][1] De oorspronkelijk instructie van Rorschach was: “Was könnte dies sein?” (de Zeeuw, 1995).
[2][2] De onderzochte mag zoveel antwoorden geven als hij of zij wil. Het totale aantal antwoorden op alle vlekken wordt met het symbool ‘R’ aangegeven (de Zeeuw, 1995). Rond ‘R’ zal er later een hevige discussie ontstaan (zie later).
[3][3] De vierde combinatie, perceptueel-ideografisch, heeft zich nooit echt ontwikkeld (Aronow et al., 1995).
[4][4] In de VSA werden vooral de systemen van S. Beck en B. Klopfer populair. In Europa was deze rol weggelegd voor E. Bohm (de Zeeuw, 1995).
[5][5] Deze normeringsgegevens zijn enkel geldig voor de Amerikaanse samenleving. Om toegepast te kunnen worden in andere delen van de wereld is uitgebreider onderzoek noodzakelijk.
[6][6] Uit een studie van Shaffer, Erdberg en Haroian (1999) blijkt dat de normeringsgegevens van Exner significante discrepanties vertonen voor verschillende belangrijke Rorschach variabelen. Een follow-up-studie van Wood, Nezworski, Garb en Lilienfeld (in press) bevestigt deze bevindingen.
[7][7] Exner, J. E. (1993). The
Rorschach: A comprehensive system: Vol. 1. Basic foundations (3rd ed.). New
York: Wiley.
[8][8] Neem als voorbeeld 2 codeerders die een groot aantal Rorschach protocollen op toeval coderen. Stel dat variabele X in 5% van de antwoorden daadwerkelijk aanwezig is. Het zou kunnen voorkomen dat de 2 codeerders onafhankelijk van elkaar in 5% van de antwoorden variabele X onderkennen. Bij het op toeval coderen bestaat er dus een kans van 0.0025 (0.05 x 0.05) dat beide codeerders besluiten dat X aanwezig is in een bepaald antwoord en er bestaat een kans van 0.9025 (0.95 x 0.95) dat beide codeerders besluiten dat X afwezig is in een bepaald antwoord. Hieruit volgt dat enkel op basis van toeval alleen een percentage overeenkomst van 0.9050 (0.0025 + 0.9025) verwacht kan worden.
[9][9] Major Depressive Disorder,
Posttraumatic Stress Disorder, anxiety disorders other than PTSD, Dissociative
Identity Disorder, Dependent, Narcissistic, or Antisocial Personality
Disorders, Conduct Disorder, or psychopathy. (Wood et al. 2000a)
[10][10] Het parasympathisch systeem staat in voor de overleving op lange termijn. Er vindt een verminderde activiteit plaats bij stress op lange termijn. Het sympathisch systeem scheidt catecholamines af bij korte termijn stress.
[11][11] Verdringing heeft dezelfde basis als de projectietechnieken, namelijk beiden zijn afkomstig van de psycho-analyse. Dit is de reden waarom wij er kort over uitweiden: er is één construct met name emotionele stress die vertaald kan worden in ‘pathologische’ tekeningen of in psychosomatische klachten.
[12][12] Meestal hebben mensen met autisme ook een verstandelijke handicap, en dit in 80% van de gevallen. Als men daarnaast geen verstandelijke handicap heeft, zal men wellicht nog lager scoren dan gemiddeld maar dan door eigenschappen die eigen zijn aan autisme b.v. het schoolse leren verloopt moeizaam. Autisme bij mensen met een gemiddeld IQ noemt men het syndroom van Asperger (Van Engeland, 2000).
[13][13] Hoewel men vaak heeft getracht hier verandering in te brengen, moeten we toch enkele kanttekeningen aanbrengen (Lilienfeld et al., 2000). De aanpassing van de vergelijkende populaties moeten bruikbaar zijn en moet cross-cultureel gebeuren.
[14][14] De Zin Invultest bijvoorbeeld lijkt vaak nog te veel op een vragenlijst.