Wielkie danych: Możliwości Nauk Komputerowych i Społecznej

26 Apr 12:16 pm


Original: http://www.zephoria.org/thoughts/archives/2010/04/17/big-data-opportunities-for-computational-and-social-sciences.html

Scott Golder napisał niedawno na blogu Cloudera zatytułowany “Scaling Social Science z Hadoop”, gdzie odpowiada za “, jak socjologowie używają dużej obliczeń skalę.” Zaczyna z pięknym cytatem z George’a Homans: Metody nauki społecznej są drogi w czasie i pieniędzy, a coraz droższe każdego dnia. Potem okazuje się mówić o trajektorii nauki społecznej:

Kiedy Homans – jeden z moich ulubionych 20 wieku nauk społecznych – napisał powyżej, jednym z powodów, dane niezbędne do zrobienia nauk społecznych było drogie dlatego zbieranie nie skaluje się zbyt dobrze. Jeżeli przeprowadzenie wywiadu lub eksperymentu laboratoryjnego trwa godzinę, dwa wywiady lub doświadczenia zajmuje dwie godziny. Ilość danych, które można zebrać w ten sposób rośnie liniowo wraz z liczbą studentów, które można wysłać w teren (lub z liczbą godzin można zrobić wszystko działa). Ale jak nasz wspólny zasób wiedzy zgromadził, jak i “niskiej wiszące owoce” pytania zostały wysłuchane, złożoność naszych pytań rośnie szybciej niż nasze praktyczne zdolności nie odpowiedzieć. Co się zmieni.

To jego odbijając punktu do myślenia o tym, jak “nauka społeczna obliczeniowa” stwarza nowe możliwości, bo z I wtedy robi się bardzo przekonujące twierdzenie, dlaczego patrząc na danych behawioralnych jest krytyczna “dużymi naturalistycznie archiwów utworzonych danych behawioralnych.”:

Choć socjologowie obchodzi, co ludzie myślą, ważne jest też, aby obserwować, co ludzie robią, zwłaszcza, jeśli to, co myślą, że robią okazuje się być inna od tego, co faktycznie robią.

W zasadzie zgadzam się z nim. Big Data prezentuje nowe możliwości dla zrozumienia praktyki społecznej. Oczywiście następne oświadczenie musi zaczynać się “ale”. I to “ale” jest prosta: Tylko dlatego, że widać ślady danych, nie oznacza, że ​​zawsze wie, zamiar lub kulturową logikę za nimi. I tylko dlatego, że masz duże N nie oznacza, że ​​jest to przedstawiciel lub uogólnione. Scott wie o tym, ale zbyt wiele osób obsesję na punkcie dużych ilości danych nie.

Coraz obliczeniowe naukowcy mają dzień pole z Big Data. Przykładem tego jest “nauki” społeczności internetowej i bardzo widocznych w konferencjach, takich jak CHI i WWW i ICWSM i wiele innych środowisk, w których jestem członkiem obwodowych. W tych wspólnotach, zauważyłem coś, co uważam za bardziej niepokojące … Wiele obliczeniowe naukowcy uważają, że ponieważ mają duże N dane, że wiedzą więcej o praktykach ludzi niż jakikolwiek inny naukowiec społecznej. Raz po raz widzę obliczeniowych naukowcom błąd kulturalnego zachowania śladów dla logiki. I to zarówno zasmuca mnie i mnie martwi, zwłaszcza, gdy myślimy o polityce stypendium i finansowania. Jestem coraz dalej od siebie.

Zacznę konkretny przykład. Podobnie jak serwisy społecznościowe zaczęły zyskiwać widoczność, I recenzja obliczeniową kawałek nauki (który nigdy nie został opublikowany), gdzie autorzy czołgał Friendster, obliczone liczby przyjaciół i wykorzystał to, aby wyjaśnić, jak serwisy społecznościowe rosły rozmiar przyjaźni. Moja złość na czytanie tego artykułu spowodowało rant, który zamienił się w pierwszym artykule w poniedziałek. Jak jest teraz powszechnie wiadomo, istnieje duża różnica pomiędzy dlaczego ludzie łączą się na portalach społecznościowych i dlatego oświadczam relacje podczas przesłuchiwania przez socjologa. Jest to różnica między przegubowych i sieci osobistej.

Z jednej strony, możemy śmiać się z tego i powiedzieć, oh ludzie nie wiedzą, jak obiekty te rozgrywają się, czy to nie jest śmieszne. Ale ta bestia jeszcze nie umarł. Te dni, obsesja jest z zachowaniem sieci. Oczywiście, ludzie, którzy spędzają najwięcej czasu razem są prawdziwe “silne” więzi, prawda? Źle. Według takiego środka, jestem zdecydowanie bliżej do prawie wszystkich, że mogę pracować z od brata lub matki, które oznacza świat do mnie. Nawet jeśli możemy obliczyć czas spędzony interakcji, jest różnica w jakości czasu spędzanego z różnymi ludźmi.

Big Data będzie bardzo ważne, ale nie możemy stracić z kontekstu, w jakim dane te są produkowane i nielogiczny kulturalnym swojej produkcji. Musimy nadal pytać “dlaczego” pytania, na które nie można odpowiedzieć poprzez ślady sam, że nie może się zdarzyć jedynie w wyniku doświadczeń. I nie możemy automatycznie zakładać, że część teoretyczna ciała pracy na jednym zestawie danych można łatwo przenieść do innego zbioru danych, jeżeli podstawowe warunki są różne.

Jak zaczniemy zajęcia Big Data, musimy zacząć od położenia podwalin, zrozumienie podstaw teoretycznych, które mają sens i wiedzieć, kiedy nie są one stosowane. Cherry picking z różnych dziedzin, nie rozumiejąc, gdzie te pomysły są zakorzenione prowadzi nas na manowce.

Każda metoda ma swoje słabe i mocne strony. Każde podejście do danych ma swoje mocne i słabe strony. Każdy aparat teoretyczny ma swoje miejsce w stypendium. A jednym z największych wyzwań w sposób “interdyscyplinarny” praca jest o celu uwzględnienia tych różnic, aby wiedzieć, jakie podejście będzie najlepsze dla jakie pytanie, aby wiedzieć, co teorie mówią do jakich danych i mogą być używane w których sposoby.

Niestety, nasz dyscyplinarne natura czyni bałagan z tego. Uczeni nie są szkoleni, aby przeczytać w innych dziedzinach, a co dopiero zrozumieć warunki, w których praca była produkowanych. Tak więc, to wszystko jest nazbyt często wybierać z różnych dziedzin i wziąć wszystko z kontekstu. Jest to jedna z rzeczy, która mnie przeraża o uczniów przeszkolonych w ramach interdyscyplinarnych programów.

Teraz, oczywiście, można zapytać: Ale czy nie pochodzą z interdyscyplinarnego programu? Tak, zrobiłem. Ale to nie dlatego, że byłam w grad szkoły na 8,5 roku. Pierwsze dwa były brutalne, jak otrzymałem gwałtowne przebudzenie, że nic nie wiedział o naukach społecznych. A potem zrobiłem ogromny przekwalifikowanie jako rysunku etnografa na literaturze socjologicznej i antropologicznej. W tym momencie, że to moja siła jako uczony. I wie, jak zapytać jakościowych pytania i wiem, jak stosować metod etnograficznych i teorie wypracować praktyki kulturowe. Musiałem Specjalizujemy się mieć wystarczająco dużo głębi.

Oczywiście, jest jeszcze jedna duża zaleta w interdyscyplinarnym programie: łatwo jest uzyskać uznanie dla różnych podejść metodologicznych i analitycznych. W mojej drodze, nauczyłem się wartości eksperymentalnej, obliczeniowe oraz badania ilościowe, ale jestem w żaden sposób dobrze przeszkoleni w żadnej z tych metod. Powiedział, że jestem przekonany, w mojej zdolności do oceny, jakie pytania można odpowiedzieć, które podejścia. Oznacza to również, że mogę odpowiadać za pytania nie mogę odpowiedzieć.

Wracając do danych … Big Big Data stwarza ogromne możliwości dla tych, którzy wiedzą, jak ocenić kontekstu danych i zadawać właściwe pytania do niego. Ale mucking z Big danych nie jest badanie. A widząc wzorców w dużych danych nie jest taki sam jak testowania hipotez. Wzory zaprosić więcej pytań niż odpowiedzi.

Zgadzam się ze Scottem, że istnieje potencjał do nauk społecznych, które mają być przekształcone przez Big Data. Tak wiele pytań, na które mamy ochotę zapytać, ale nie udało się. Ale jestem też zaniepokojony, że bardziej obliczeniowo myślący badacze sądzą, że odpowiadasz na pytania nauki społeczne po prostu znalezienia wzorców w Big Data. To jest to samo zmartwienie, że mam kiedy teoretycy wykres myślę, że rozumieją ludzi, ponieważ mogą one modelować wąską rodzaj przepływu informacji, biorąc pod uwagę doskonałe warunki.

Jeśli mamy zamiar faktycznie zaatakować Big Data, najlepszym rozwiązaniem byłoby połączenie sił między socjologów i naukowców obliczeniowych. W niektórych miejscach, że to się dzieje. Ale są też ogromne problemy w grze, które należy uwzględnić i rozwiązać. Po pierwsze, każda dyscyplina ma swoją arogancję i zbyt wielu badaczy uważa, że ​​wiedzą wszystko. Rozpaczliwie potrzebujemy trochę pokory tutaj. Po drugie, musimy myśleć o różnicach w publikacji, współpracy i weryfikacji w całej dziedzinie. Socjologowie nie dostanie etat na ACM i IEEE publikacji. Piekło, są często oddalone o nic, że nie jest to pojedynczy autor. Obliczeniowe naukowcy często nie widzą sensu w obszernych cykli odwoławczych, które wchodzą w czasopiśmie publikacji pomaga stworzyć solidne artykuły. I nie zaczynaj mi na bałagan procesie przeglądu z obu stron.

Musimy znaleźć sposób, by ludzie mogli zacząć pracować razem i nadal się zatwierdzone w ich pracy. I rzeczywiście uważam, że instytucje finansujące będą odgrywać ogromną rolę w tym, a nie tylko w wymagających interdyscyplinarnego współpracę, ale na etapie ustalania, jak badania zostanie opublikowany. Biorąc pod uwagę, wydziałowe obsesje z finansowaniem tych dni, mają dużo kołysać na kształtowanie przyszłości tutaj.

Jest też inna droga, którą należy stosować: krzyżówka studentów. Scott Golder, nasz nieustraszony krytyk, jest tego dobrym przykładem. Szkolił się w obliczeniowych sposobów przed udaniem się do Cornell realizować doktorat z socjologii. To jest jeden sposób to zrobić. Innym jest, aby rozpocząć krzyżowanie studentów na początku. Informatycy: uczyć kursy dla nauk społecznych, w jaki sposób myśleć o Big dane z obliczeniowego punktu widzenia. Socjologowie: umożliwić naukowcom komputerów do swoich kursów podstawowych lub uczyć kursy podstawowe dla nich, aby zrozumieć podstawy metodologii nauk społecznych i teorii społecznej. I uniwersytety: zachęt dla twój wydział uczyć studentów poza ich wydziałów i departamentów, aby zachęcić swoich uczniów na zajęcia w innych działach.

To wspaniałe, że mamy duże ilości danych, ale musimy opracować urządzenia do intelektualnej rzeczywiście analizować. Każdy z nas ma kawałek do układanki, ale szwy to razem zajmie dużo przeróbki starych nawyków. Można to zrobić, a to jest ważne. Najważniejsze jest, aby puścić naszych urazów i terytorialności bez puszczania naszego analitycznego rygoru i głębokości.

Comments are closed