Handelt es sich bei den Ergebnissen nur um einen glücklichen Zufall, der den Rest der Arbeit stützt? Immerhin kann man auf Grund der kleinen Probandenzahl nicht erwarten, traditionellen Signifikanz-Ansprüchen gerecht zu werden. Lassen sich diese aber überhaupt sinnvoll auf den Test anwenden?
Sogar bei einer konservativeren Sicht, bei der vier mal eher nichts gefunden, anstatt ein Effekt irrtümlich festgestellt wird, lässt sich die Hypothese auf einem Niveau von knapp 11% nicht mehr verwerfen.
Üblicherweise soll mit dem Signifikanz-Niveau die Wahrscheinlichkeit angegeben werden, einen Effekt zu messen, der in Wirklichkeit gar nicht auftritt (alpha-Fehler). Man möchte aber wohl genauso wenig einen Effekt übersehen, der sich eigentlich sehr wohl zeigen sollte (beta-Fehler). Sollen beide gleichermaßen ins Gewicht fallen, so muss man nach einer Analyse mit dem Programm GPOWER (Parameter: Personenzahl=31; Effektstärke=0,45; Faul, Erdfelder, 1992: GPOWER. A priori, post-hoc, and compromise power analyses for MS-DOS) die oben gestellte These bereits bei einer Wahrscheinlichkeit von 27% für den alpha-Fehler annehmen.
Für die gebräuchlichen 5% dagegen müssten zweihundert Leute getestet werden, was für einen Testballon wie diesen klar zuviel Aufwand bedeutet hätte.
Der Effekt, dem Computer eine Persönlichkeit zuzuordnen ließe sich noch weiter steigern, wenn dem Fragebogen eine suggestive Selbsteinschätzung des Computers vorausgehen würde. Er könnte unterstellen, dass er für die Erfüllung der Aufgabe besonders wichtig und hilfreich war. Die Hemmschwelle, ihm "direkt ins Gesicht" zu sagen, dass dies wohl nicht zutrifft, ist dann noch höher.
Reeves, Nass, 1996: The Media Equation, S. 32
Allerdings findet damit auch eine offensichtliche Vermenschlichung des Computers von Seiten des Programmierers statt. Freilich würde man als vermeintlich mündiger und aufmerksamer Benutzer dieses selbstsichere Postulat dem Programmierer vorwerfen müssen und nicht der Maschine.
Der Test kann außerdem noch auf eine Weise umgebaut werden, die die persönlichen Gefühle der Benutzer stärker einbezieht: Während im vorliegenden Beispiel eine für die Benutzer interessante Aufgabe zu bewältigen war, wäre auch ein Lernprozess mit anschließendem Quiz denkbar. Das Abschneiden im Test wird zumeist stark auf die eigenen Fähigkeiten und erst in zweiter Linie auf die Fragestellung an sich bezogen.
Reeves, Nass, 1996: The Media Equation, S. 22
Wenn nun das Gerät, das die eigenen Schwächen offengelegt hat, bewertet werden soll, so ist der emotionale Effekt womöglich noch stärker.
Schon diese beiden Variationen wären eine weitere Untersuchung wert. Der tägliche und alltägliche Umgang mit Computern, die sie uns immer mehr als geradezu natürlichen Gegenstand unserer Umwelt erscheinen lassen, legt eine intensivere und wissenschaftlich standfeste Analyse nahe, die allerdings anderen Berufsfeldern aufgegeben ist.