Skocz do zawartości




Zdjęcie

Badania nad żywieniem, które przyprawią Was o niestrawność, albo nauka od kuchni


  • Zaloguj się, aby dodać odpowiedź
Brak odpowiedzi do tego tematu

#1

Nick.
  • Postów: 1455
  • Tematów: 723
  • Płeć:Mężczyzna
  • Artykułów: 2
Reputacja znakomita
Reputacja

Napisano

Brian Wansink.jpg

Brian Wansink /źródło: Cornell

 

Nieco ponad pół dekady temu badaczami zajmującymi się psychologią społeczną wstrząsnął skandal: po akademickim donosie studentów na swojego profesora wszczęte zostało (nie bez przeszkód) dochodzenie w kwestii potencjalnego fałszowania wyników przez Diederika Stapela. Stapel był w tym momencie gwiazdą psychologii społecznej, publikując liczne swoje badania w magazynie Science, a także wiodących periodykach psychologicznych. Gdy postępowanie dobiegło końca, jego kariera była już w gruzach, jego prace – na wylocie (do dzisiaj wycofano ich ponad 50, czyniąc Stapela jednym z niechlubnych liderów rankingu retrakcji), a społeczność akademicka w szoku.

 

Stapelowi przez lata kłamanie uchodziło płazem dzięki nieuzasadnionej łatwowierności kolegów i koleżanek po fachu, którzy do zaskakujących wyników Holendra podchodzili bez normalnego zazwyczaj sceptycyzmu. Byłoby jednak nieuczciwym stwierdzenie, że tylko jego wyniki unikały dogłębnej krytyki i oceny – literatura psychologiczna z ostatnich dekad usiana jest badaniami, które nie tylko nie przetrwały próby czasu, ale w dodatku trudno wyjaśnić, dlaczego zostały w ogóle opublikowane.

 

Być może jednak skala fałszerstwa Stapela była wstrząsem potrzebnym temu polu nauki: nie powinno być zatem zaskoczeniem, że to w psychologii właśnie bardzo aktywny jest ruch domagający się badań replikujących stare odkrycia, które wszyscy bierzemy na wiarę, chociaż może nie powinniśmy, domagający się też, aby nowe badania prowadzone były w oparcie o protokoły rejestrowane przez zbieraniem danych (ang. registered reports).

 

Upadek Stapela był niezwykle publiczny – do tego stopnia, że to, co normalnie byłoby maleńką aferką znaną tylko kilku specjalistom, trafiło pod strzechy nie tylko innych naukowców, ale też laików. I można by pomyśleć, że jego historia jest solidną lekcją dla każdego, komu przez myśl przeszło kiedykolwiek, że możeby podciągnąć te dane, możeby wywalić dwa czy trzy punkty pomiarowe, które wprowadzają za dużo szumu do skąd inąd eleganckich wyników. A już zwłaszcza że taką lekcją jest dla badaczy w tej samej dziedzinie, którzy powinni chyba zrozumieć, że teraz cały świat patrzy im na ręce.

 

Dlatego pewnym zaskoczeniem dla mnie – a podejrzewam, że i dla wielu innych osób – było, gdy na początku 2017 roku zaczęło się robić robić gorąco wokół kolejnej gwiazdy psychologii (tym razem amerykańskiej), profesora na Uniwersytecie Cornella Briana Wansinka.

 

Kim jest Brian Wansink?

 

Bardziej może właściwe byłoby to pytanie zadane w czasie przeszłym: kim był Wansink, zanim świat zaczął mu się walić na głowę półtora roku temu? Wansink nie pojawił się bowiem znikąd: kariera akademicka tego 58-latka sięga wczesnych lat 90’. Jego badania skupiały się na badaniu tego, w jaki sposób ludzie podejmują decyzje – w dużej mierze w kontekście żywienia. Znany jest ze swoich badań na przykład nad tym, jaki wpływ na nasze żywienie mają rozmiary porcji: z odkrycia, że popcorn w czasie filmu będziemy jeść tak długo, aż sięgniemy dna miski, niezależnie od apetytu, albo że zamówienie deseru w restauracji zależy od granej w niej muzyki.

 

W 2007 roku Wansink otrzymał najcenniejszego z Nobli – Ig Nobla – za badania z zastosowaniem misek do zupy bez dna. W tym doświadczeniu Wansink chciał zademonstrować, jak nasze postrzeganie rozmiaru porcji wpływa na to, ile w rzeczywistości jemy. Uczestnicy badania jedli zupę z niewielkich misek. Część z nich miała miski normalne i jeśli chcieli jeść więcej, musieli prosić o dolewkę. Część zaś miała miski, które przez dno były uzupełniane zupą w takim tempie, w jakim była ona zjadana. Wansink pokazał, że osoby zmuszone do proszenia o kolejne porcje jadły mniej. Jest to jedno z najbardziej znanych badań Wansinka (zapewne tylko po cześci dzięki nagrodzie) – i jedno z wielu, których wnioski stanęły pod znakiem zapytania na skutek późniejszej afery.

 

W 2006 roku Wansink opublikował książkę popularnonaukową Beztroskie jedzenie, dlaczego jemy więcej niż byśmy chcieli, która podsumowywała całokształt jego badań i była kombinacją manifestu i poradnika samo-pomocy (książkę wciąż można tu i ówdzie nabyć, linków nie podaję – możecie sobie oszczędzić 50 zeta). W latach 2007-2009 Wansink doradzał amerykańskiemu rządowi w kwestii dietetycznych wytycznych i programu MyPyramid.gov. W 2014 wydał kolejną książkę Slim by Design.

 

Autor, rządowy doradca, badacz z ponad setką publikacji na koncie, które cytowane były ponad 20 tysięcy razy, oraz z imponującym indeksem Hirscha na poziomie ponad 70 – do listopada 2016 roku cała kariera Wansinka wydawała się być pasmem powodzeń. Wtedy uwagę kilku badaczy zwrócił z pozoru nieszkodliwy, niewinny post, który Wansink opublikował na prowadzonym przez siebie blogu.

 

Studentka, która nie odmawiała

 

21listopada 2016 Brian Wansink upublicznił na swoim blogu wpis, w którym wyjaśniał, że p-hacking to nie to samo co analiza eksploracyjna danych. Stwierdzenie, które być może w jakimś kontekście jest prawdziwe – nie był to jednak kontekst tego wpisu. Wansink tłumaczy bowiem dalej, że czasem, gdy hipoteza nie znajduje poparcia w danych, to trzeba się przyjrzeć, czy być może popiera ją tylko jakaś ich część – zdaniem Wansinka takie postępowania nie oznacza, że hipoteza ulega zmianie, chociaż wyraźnie jej ulega. Co tu dużo więcej mówić. Wansink wyraził też swoją opinię na temat problemów, jakich doświadczają młodzi badacze będący pod presję, żeby publikować, jeśli chcą gdzieś w akademii zajść.

 

Aby zilustrować te dwa problemy – analizy danych oraz problemów młodych badaczy – Wansink przytoczył przykład swojej studentki, Ozge Sigirci. Sigirci była doktorantką z Turcji, która miała w laboratorium Wansinka odbyć krótki staż. W trakcie jej pobytu Wansink zaproponował, żeby spróbowała przeanalizować dane zebrane w czasie badania przeprowadzonego wcześniej przez jego grupę, w którym nie udało im się potwierdzić pierwotnej hipotezy. Wansink miał pomysł na to, jakie hipotezy można tymi danymi też przetestować, ignorując zupełnie to, że wymyślanie hipotezy po zebraniu danych, jest wbrew jakimkolwiek naukowym praktykom. W każdym bowiem wystarczająco bogatym zbiorze danych da się odkryć jakieś związki, które wyskakują nieco ponad szum.

 

Sirgici jednak nie tylko nie kwestionowała tej rady, ale posłuchała zalecenia i wzięła się za przeczesywanie danych – wyniki tego przeczesywania zaskutkowały co najmniej czterema publikacjami.

 

Wpis Wansinka zwrócił jednak uwagę trzech badaczy, Tima van der Zee i Nicka Browna z Holandii oraz Jordana Anayi ze Stanów. Poruszeni opisanymi przez Wansinka szkodliwymi praktykami, postanowili przeanalizować powtórnie dane, na których oparte były badania. Skontaktowali się z Wansinkiem wskazując na listę nieścisłości w tych publikacjach – Wansink szybko przestał odpowiadać na maile, gdy badacze wyjaśnili, że chcieliby otrzymać dostęp do pierwotnych danych.

 

Poznajcie data thugs

 

Oryginalni krytycy Wansinka zostali przez portal Retraction Watch ochrzczeni ukutym przez Jamesa Heathersa mianem data thugs, które nie ma niestety żadnego odpowiednika w języku polskim, a nazywanie ich danowymi zbirami jakoś mi nie pasuje. Nazwę tę przez ostatnie półtora roku zaczęto stosować na określenie badaczy, który analizując danych z publikacji naukowych odkrywają różne machlojki oryginalnych autorów (Heathersowi i Brownowi należy się tytuł pierwszych data thugs).

 

Wracając do prac Wansinka: pod nieobecność oryginalnych danych, które pozwoliłyby na powtórną analizę i potwierdzenie jego wyników, van der Zee, Anaya i Brown przeprowadzili takie analizy, jakie się dało – a ich wyniki opublikowali w BMC Nutrition, jednym z pism, w których ukazały się oryginalne wyniki Wansinka.

 

Nie jest bowiem tak, że pewnych nieścisłości – żeby nie powiedzieć wprost, oczywistych błędów – nie da się wykryć nawet bez dostępu do oryginalnych danych.

 

Po pierwsze zatem, krytycy skupili się na nieścisłościach w opisie metodologii pracy. Ponieważ teoretycznie wszystkie cztery publikacje, które analizowali, zostały napisane w oparciu o ten sam zbiór danych, opis tych danych powinien być w nich taki sam. Jak się z tego wstępu możecie jednak spodziewać – wcale taki nie był (w podlinkowanej analizie z BMC Nutrition rozbieżności pokazuje Tabela 2). Problematyczne jest nie tylko to, że te same dane różnią się pomiędzy publikacjami, ale też na przykład to, że suma wszystkich testowanych grup nie jest taka sama jak przytoczony gdzie indziej rozmiar całej próby. Pięciolatek zrozumie, że jeśli wartości po dwóch stronach znaku równości nie są identyczne, to ten znak równości mija się z celem. Profesor na Uniwersytecie Cornella jakoś ten szkopuł pominął.

 

Po drugie, dla pewnych rodzajów danych istnieją testy statystyczne pozwalające sprawdzić, czy średnia wartość dla próby jest matematycznie możliwa, biorąc pod uwagę projekt badania. Brown i Heathers, opracowali taki test kilka lat temu i w pracy opisującej jego działanie podają na wstępie ładny przykład, który poniżej upraszczam (matma jest prosta, ale jak nie chcecie, to wyłuszczony fragment można po prostu przeskoczyć):

 

Proszę sobie wyobrazić, że mamy 28 osobową grupę badanych (N=28), którzy odpowiadają na pytanie, w którym odpowiedzi udziela się na siedmiopunktowej skali (takich jak: całkiem się zgadzam, trochę się zgadzam, ciut się zgadzam, ani się zgadzam ani nie zgadzam itd., punktowane od 1 do 7). W wynikach doświadczenia badacze podają, że średni wynik to 5.19 +/- 1.34.

 

Abstrahując od tego, na jakie pytanie odpowiadali badani i jak bardzo zaskakujący lub nie jest wynik 5.19, jest on niemożliwy z technicznego punktu widzenia. Jeśli mamy 28 uczestników, których odpowiedziami były de facto liczby całkowite z zakresu 1 do 7, to suma ich wyników musi być liczbą całkowitą z zakresu 28 (28*1) i 196 (28*7).

 

5,19*28 to 145,32. Ponieważ 5,19 to średnia uzyskana przez podzielenie sumy dla wszystkich uczestników przez 28, tą sumą nie mogło być 145,32: musiało to być albo 145 albo 146.

 

Jednak jeśli podzielimy któryś z tych wyników przez 28 i zaokrąglimy do drugiego miejsca po przecinku, to w żadnych z tych wypadków nie otrzymamy 5,19 – średnia dla 28 uczestników ze 145 to 5,178571 – zaokrąglone daje 5,18. Średnia ze 146 to 5,21428, które zaokrąglone daje 5,21. Czyli żaden wynik z tego doświadczenia nie mógł dać średniej 5,19, która znalazła się potem w wynikach.

 

Co może być wyjaśnieniem? Są wyjaśnienia niewinne – błąd typograficzny lub przypadkowe niewłączenie czyjegoś wyniku do badania. Są też wyjaśnienia znacznie bardziej niepokojące: na przykład fabrykacja danych.

 

Innymi problemami w pracach była nieścisłość definicji, różne rozmiary grup, a nawet sposób pomiaru (doświadczenie polegało na obserwowaniu, ile spożywali klienci pizzeri – olbrzymie znaczenie miałoby na przykład to, czy ostatni niedojedzony kawałek pizzy liczy się jako zjedzony czy nie, albo to, w którym momencie sprawdzano, ile kawałków pizzy mogło zostać na talerzu).

 

Mądrzejsza stołówka

 

Podczas gdy analiza van der Zee, Anayi i Browna skupiła się na tzw. pizza study, inny badacz, Eric Robinson z Liverpoolu, miał podobne wątpliwości dotyczące innej serii badań Wansinka nad sposobem promowania zdrowego żywienia na szkolnych stołówkach, stosując techniki behawioralne ze szkoły Richarda Thalera. Wansink na przykład twierdził, że nadawanie zdrowemu jedzeniu bardziej przyjemnych nazw spowoduje, że uczniowe będą je chętniej jedli. Robinsona zaniepokoiło to, jak pozytywne były wyniki programu – bo chociaż być może nie byłoby nieoczekiwane, że taka strategia pomogłaby zmienić nawyki żywieniowe małej liczbie uczniów, było jednak zaskoczeniem, że media taktykę opiewały jak nadejście mesjasza.

 

Robinson przeanalizował prace Wansinka, które były podstawą programu Smarter Lunchrooms. Zrobił to pod kątem analizy spójności wyników, ale także aby sprawdzić, czy doniesienia medialne dokładnie odzwierciedlały wyniki publikacji naukowych. W kolejnych publikacjach Robinson identyfikował problemy podobne do tych, których doszukali się krytycy innych prac: niespójności metodologiczne w obrębie poszczególnych prac (jedna z publikacji podawała na przykład trzy różne rozmiary tej samej próby), niespójności w sposobie prezentowania wyników (jedna z publikacji podawała dokładnie przeciwne wnioski w abstrakcie i w głównym tekście publikacji), niespójność w opisie uczestników badania (jedna z prac opisuje 8-11-latków w sposób zarezerwowany zazwyczaj dla dzieci w wieku przedszkolnym – później okazało się, że w istocie w tym badaniu opisywano badania na 3-5-latkach).

 

Robinson odkrył też, że liczne prace, nawet jeśli uzyskane wyniki są dość skromne, opisują ostateczne wnioski stosując znacznie bardziej obiecujący (żeby nie powiedzieć: obfity) język, de facto zakłamując rzeczywistość ukrytą w numerycznych wynikach doświadczeń.

 

Czego nie powiedzą wam liczby, powiedzą wam emaile

 

Opisywane powyżej wątpliwości światło dzienne ujrzały w pierwszej połowie 2017 roku – na blogu van der Zee, i początkowo w formie preprintów. Praca w BMC Nutrition opublikowana została dopiero w lipcu 2017 – i tak szybko, jak na akademickie standardy, ale wciąż cztery miesiące później niż pierwsze próby upublicznienia problemów z pracami Wansinka. Jednak publikacje, preprinty i blogi dalekie są od bardziej powszechnego nagłośnienia kłopotów z tymi publikacjami – co jest nie bez znaczenia biorąc pod uwagę na przykład skalę eksperymentu z programem Smarter Lunchrooms (fundowanego z pieniędzy federalnych za ponad 22 miliony dolarów w blisko 30 tysiącach amerykańskich szkół).

 

Na szczęście jednak temat podchwyciły szybko publiczne media: magazyn New York już w lutym opublikował tekst opisujące sagę badań nad jedzeniem pizzy, nazywając je w tytule artykułu trefnymi. Miesiące później nowej perspektywy też dodał BuzzFeed, który poprzez FOIA dostał dostęp do korespondencji mailowej Wansinka. Okazało się, że w odpowiedzi na tę publiczną krytykę Wansink wysłał list do kilkudziesięciu kolegów, broniąc swoich publikacji, wyjaśniając, że problemy wynikały z „drobnych” kłopotów takich jak brakujące dane, czy błędy w przybliżeniach, ale także nazywając krytykę cyber-znęcaniem.

 

Krytycy nie ustępowali – Brown analizując historyczne prace Wansinka zwrócił uwagę na liczne przypadki auto-plagiatu, na co Wansink w kolejnym emailu do władz uczelni tłumaczył, że niektóre z tych powtórzeń były usprawiedliwione wagą przekazywanej przez nie wiadomości (przypomina to trochę stary argument usprawiedliwiający plagiat tym, że jest on najwyższą formę pochlebstwa). Inne maile pokazują, że Wansink nie był w stanie zlokalizować, który z jego współpracowników ma dane będące podstawę niektórych z jego badań.

 

Znacznie bardziej pogrąża jednak Wansinka korespondencja sprzed 2016 roku – co krok pojawiają się w niej opisy tego, jak w „kreatywny” sposób analizować dane, aby uzyskać znaczący statystycznie wynik – ten święty Gral nauki, który dałby publikację w prestiżowym fachowym piśmie. Wansink przyuczał Sirgici w tym kierunku jeszcze przed jej przyjazdem do Stanów – obiecując, że jeśli uda się jej coś z danych wydusić, to na pewno zaimponuje to reszcie zespołu, a może da i jakąś publikację.

 

Zawiódł badacz, zawiodło i środowisko

 

Pomimo wywiadów, pomimo sprawdzenia wyników analiz przez niezależną firmę, pomimo wycofania się Wansinka ze światła jupiterów, lawiny nie dało się zatrzymać. Cornell wszczął postępowanie dyscyplinarne. Pisma, w których publikowane były jego prace, zaczęły się tym pracom przyglądać na nowo, próbując zweryfikować ich poprawność.

 

Powolutku zaczęły się do literatury fachowej sączyć korekty i retrakcje – pierwszy artykuł wycofano już w kwietniu 2017 roku. Było to badanie pokazujące, jak zawartość etykiet na jedzeniu wpływa na ich smak. Ta retrakcja była raczej waniliowa – pracę wycofano bowiem „jedynie” za auto-plagiat. Nie jest jednak zaskoczeniem, że praca, która runęła pierwsza, runęła przez plagiat, gdyż pośród różnych bolączek publikacji Wansinka, plagiat jest najłatwiejszy do udowodnienia. Przed końcem 2017 wycofano 5, a poprawiono 8 jego artykułów.

 

Od początku 2018 do listy dołączyło kolejnych 9 retrakcji. Stopień komplikacji tej sagi dobrze ilustrują przejścia niektórych spośród tych artykułów. Jeden wycofano, ponieważ, chociaż teoretycznie możliwa była korekta, okazało się, że poprawka byłaby dłuższa niż oryginalny artykuł. Jeden artykuł wycofano, opublikowano ponownie, i jeszcze raz wycofano. JAMA, której różne pisma opublikowały sześć prac Wansinka, wcześniej w tym roku opublikowała do tych artykułów noty redakcyjne – rodzaj artykułu, zwracającego uwagę czytelników na potencjalny problem z badaniem, zanim do końca dojdzie postępowanie uczelniane pokazujące, czy rzeczywiście doszło do fałszerstwa lub innych machloj.

 

W tym samym czasie JAMA zwróciła się do Uniwersytetu Cornella o wszczęcie takiego postępowania.

 

Do wielkiego finału doszło w ubiegłym tygodniu. Uniwersytet Cornella ogłosił, że postępowania zakończono i że uczelniane śledztwo ustaliło, że Wansink zachował się nieetycznie (ang. academic misconduct) poprzez m.in. błędne raportowanie wyników, stosowanie wątpliwych metod statystycznych, błędy w prowadzeniu i archiwizacji dokumentacji badawczej oraz problemy z autorstwem prac (to zapewne dotyczy wszystkich jego auto-plagiatów). Dzień wcześniej JAMA network wycofała wszystkie sześć artykułów, który wcześniej miały noty redakcyjne. Sam Wansink postanowił odejść z Uniwersytetu Cornella – chociaż można podejrzewać, że nie jest to odejście nie do końca niewymuszone.

 

I można powiedzieć, że historia tutaj się kończy. Złoczyńca został wykryty i ukarany. Literatura naukowa została poprawiona. Publiczne upokorzenie zostało uskutecznione. A jednak niesmak wciąż pozostaje.

 

Bo – tak jak i w przypadku Diederika Stapela – winnych jest znacznie więcej. O ile skłonny jestem być bardziej pobłażliwy wobec studentów Wansinka, którym w końcu ich własny mentor mówił, że manipulacja i oszustwa są ok, o tyle tej samej wymówki nie mogą użyć jego bardziej doświadczeni współpracownicy, którzy na tych publikacjach byli współautorami. Autorstwo pracy naukowej oznacza bowiem odpowiedzialność za jej treść.

 

Tutaj wychodzi na to, że prezentowany wynik był zbyt ciekawy, zbyt seksowny, zbyt niebywały i gwarantujący publikację, żeby współautorom chciało się dokładnie przyjrzeć tym danym. O tyle tej samej wymówki nie mogą użyć redaktorzy pism, które te prace opublikowały tylko dlatego, że były one gwarantem cytowań. O tyle tej samej wymówki nie mogą użyć recenzenci – bo nie ma na świecie wymówki na to, że recenzent nie zauważył, że rozmiar próby ma trzy różne wartości w tej samej pracy! I wreszcie tej samej wymówki nie mogą użyć czytelnicy, specjaliści w tej samej dziedzinie, którzy przez lata czytali, chwalili i cytowali te wyniki, nie kwestionując ich w najmniejszym nawet stopniu.

 

Czyli ponownie, pomimo pół dekady samobiczowania i pracy nad powtarzalnością badań, zawiódł nie tylko badacz, ale i cała akademicka społeczność.

źródło

 


  • 2





Użytkownicy przeglądający ten temat: 1

0 użytkowników, 1 gości oraz 0 użytkowników anonimowych

stat4u