Openness of databases as a condition for the formation of "large data" in sociology

ART 173020

UDK 311.21:316

Author:

Aleksandr Odincov

Abstract. The article deals with the problems of sociological research databases closeness. This fact does not allow to integrate effectively the data already available to sociology, and also to use them again. Special attention is paid to the weak potential of formalization and generalization of databases in sociology, which prevents the establishment of a truly effective theory related to empiricism. The low level of formalization in sociology casts science back to the descriptive stage of development, without giving an opportunity to make substantiated informed conclusions.

Keywords: data, sociology of public opinion, methodology of sociological research, openness of data

Full text

История эмпирической науки – это история сбора данных, идеалом которого стал метод «элиминативной индукции», предложенный Ф. Бэконом в «Новом органоне». Классик философского эмпиризма предположил, что идеальным способом формирования научной теории из данных является заполнение трех таблиц (присутствия, отсутствия и соответствия или степеней). Социология как наука, основанная на конкретном опыте изучения общества, пытается, по мере возможностей, соответствовать предложенному идеалу, и до сей поры ей это вполне удавалось. Однако ее монопольному положению в отношении сбора эмпирики об обществе был брошен вызов в виде новых методов сбора, хранения и машинной обработки данных, обобщенно называемых «большими данными» (Big Data).

Феномен «больших данных» появился за пределами социологии и первоначально относился к обработке больших объемов графической информации в рамках 3D-моделирования [1], но наиболее заметным он стал именно в эмпирических науках. Так, в начале пути расшифровки генома человека предполагалось, что при существующих исследовательских мощностях и их распределенности в отдельных лабораториях по всему миру это займет десятки лет. Благодаря новой технологии организации коллаборативных исследований, общей методологии и открытости данных лидеры проекта The Human Genome Project заявили о полной расшифровке генома человека уже в 2003 г. В социальных науках «большие данные» стали известны благодаря качеству своего предсказательного потенциала, впервые продемонстрированного крупнейшим американским ритейлером – сетью Wal-Mart, который даже назвал свой проект обработки данных Social Genome. С помощью применения нейросетей и сбора данных о своих клиентах сеть Wal-Mart довела точность прогнозов покупательского поведения до 83%.

Возникновение феномена «больших данных» вне социологии объясняется тем, что новые онлайн-сервисы и новые возможности регистрации поведения крупных групп населения появились у большого количества агентов – от банков до социальных сетей. Так, Дж. Констин [2] указывает, что Wal-Mart каждый час регистрирует трансакции более миллиона покупателей общим объемом 2,5 петабайт данных, Facebook заявляет о том, что обрабатывает 2,5 миллиарда фрагментов контента (репостов, комментариев и т. п.), 2,7 миллиарда «лайков» и 300 миллионов фото, загружаемых каждый день. Ключевые характеристики «больших данных» были обобщены Р. Китчином в его работе «Революция данных. Большие данные, открытые данные, инфраструктуры данных и их последствия» [3]. В рамках данной статьи была поставлена цель оценить последствия появления «больших данных» для социологии.

Во-первых, предсказательный потенциал «больших данных» заметно выше возможностей индустрии массовых опросов, сбои которой в электоральной социологии активно обсуждаются с 2011 г. как в России, так и за рубежом.

Во-вторых, отсутствие выборочности исследований (а «большие данные» одной из своих черт постулируют работу с популяциями, выраженную формулой n = All) позволяет гораздо более корректно распространять выводы исследования, делать крупные, эмпирически подтвержденные обобщения.

В-третьих, «большие данные» благодаря своей основанной на персональных данных и id связности способны увеличиваться за счет интеграции новых массивов, в том числе неструктурированных данных.

Всё вышеперечисленное убедительно показывает превосходство эвристического потенциала новых «больших данных» над классическими социологическими «малыми данными», собираемыми академической наукой и организациями полстеров, что ставит перед социологией задачу повышения качества собственных познавательных возможностей.

Часть проблем, касающихся качества сбора данных массовыми опросами, и пути их решения раскрываются в рамках «методического аудита», разработкой которого занимаются Д. М. Рогозин, В. В. Картавцев, Н. И. Галиева и Е. В. Вьюговская [4]. В рамках проекта РФФИ № 15-06-02758 предлагается несколько иное решение – интеграция уже собранных баз данных различных социологических исследований количественного характера в базу данных большего объема для последующего применения к ней средств машинного анализа данных. При решении этой задачи возникло несколько основных проблем интеграции данных:

- Использование различных методов и шкал регистрации данных. Эта проблема вполне укладывается в перечень «методологических травм социолога», которые выявила Г. Г. Татарова [5], и связана с методологическим анархизмом, царящим в социологии. В сущности, одно и то же явление, анализируемое в различных исследованиях, может не только различно операционализоваться и измеряться различными шкалами, но даже иным способом интерпретироваться – это не позволяет использовать для объединения массивов такой метод, как «онтологический словарь». Возвращаясь к «табличному методу» Ф. Бэкона, можно сказать, что данные эмпирических наблюдений вносятся по разным правилам, что делает их простым набором чисел, но не таблицей. Заметным шагом к решению проблемы стала бы реализация идей Г. Г. Татаровой об интеграции методологического знания и поиске единых представлений о математической формализации в прикладных исследованиях в социологии.

- Использование выборочного метода и анонимность данных опроса. Выборочный метод и анонимность данных опроса предполагают принципиальное отсутствие персональных данных в массивах, которые может сделать публичными социолог (отдельно это оговаривается и в этическом стандарте AAPOR). Отсутствие возможности атрибутировать конкретную строку массива конкретному респонденту, выборочность исследований не позволяют интегрировать различные массивы так же свободно, как это происходит в «больших данных». Таким образом, сбор данных массовыми опросами имплицитно предполагает, что часть эмпирических феноменов останется неописанной, что делает индукцию из таких данных неполной.

Перечисленным выше проблемам было уделено много внимания в рамках предыдущих публикаций проекта РФФИ № 15-06-02758. В данной статье мы остановимся на еще одном препятствии полноценной интеграции данных в социологии – это открытость и сохранность данных.

В социологии собирается большое количество данных, организуются и дополняются новые базы данных, однако они в значительной мере закрыты и не обладают высоким потенциалом вторичного использования.

Большая часть собранных социологических данных обладает рядом уязвимостей в контексте открытости и сохранности. Во-первых, не все социологические данные представлены на тех носителях, которые могут быть эффективно перенесены на новые средства хранения данных, то есть со временем они так или иначе будут утрачены. Это легко иллюстрируется потерей значительных объемов информации о «промышленной (фабричной) социологии», которые были накоплены в советское время. Бумажный или другой устаревший носитель, например FD-disc, непродуктивные формы обработки, представления об устаревании данных прикладных исследований – всё это стало причиной утраты значимой научной информации. Хотя сегодня значительная часть данных массовых опросов хранится в табличных цифровых форматах, достаточно легко переформатируется (например, в формат*.csv) и может сохраняться с помощью облачных технологий, но сущность шкал и формулировки вопросов могут быть утрачены достаточно легко. Ярким примером того, что это происходит повсеместно, является периодическое уничтожение аудиозаписей CAPI и CATI полевыми подрядчиками массовых опросов.

Во-вторых, значительная часть данных используется только в рамках тех проектов, в которых она собирается, и после никогда не придается огласке ни в целях вторичного использования, ни в образовательных целях. Отчасти это оправдывается тем, что сбор эмпирического материала в социологии является наиболее затратной частью исследований. Делиться данными значит упускать собственное ресурсное преимущество, причем указанное не ограничено исключительно российскими исследовательскими практиками. Так, К. Боргман убедительно показывает, что существенным ограничением использования данных является то, что исследователи в социогуманитарных науках (в отличие от тех же исследований генома человека) не стремятся открывать полученные ими базы данных [6]. Отсюда закономерно следует третья уязвимость: фактически большая часть данных, регистрируемая социологами, не попадает, говоря словами Р. Китчина [7], в архивы данных, оставаясь в простом «удержании данных». По мнению Р. Китчина, важно различать два различных способа хранения информации: «удержания данных» (data holdings) и архивы данных (data archives) [8]. Архивы – это коллекции данных, которые структурированы и сопровождаются дополнительными метаданными (например, об источниках данных и их характеристиках), что позволяет активно решать вопросы хранения, доступа и возможностей поиска информации. Данные, упорядоченные и хранимые таким образом, могут быть достаточно легко вторично использоваться. «Удержания данных» – это неструктурированные, не связанные между собой массивы данных, которые собирают, обрабатывают и затем хранят исследовательские группы и отдельные ученые. Именно в «удержаниях данных» в силу несклонности научного сообщества раскрывать собственные методики и нежелания делиться собственным ресурсным преимуществом находятся основные объемы данных по результатам проведения социальных и гуманитарных исследований.

Большая часть собираемых данных остается внутри коллективов, которые занимались конкретными эмпирическими исследованиями, либо только у руководителей проектов или авторов аналитических отчетов, при этом она никак не систематизируется и тем более не учитывается как единица хранения. В западной исследовательской индустрии есть ряд проектов, которые занимаются пропагандой, координацией и распространением данных в социальных и гуманитарных науках; вот их далеко не полный перечень: The Federation of All European Academies (ALLEA), Ariadne, British an Irish Sound Archives (BISA), DataONE, Digital Service Infrastructure for Social Sciences and Humanities, International Association for Social Science Information Services and Technology (IASSIST), Open Planet Foundation, Research Data Allience и т. д. Свои данные открывают и отдельные крупные международные проекты, например World Values Survey и European Values Survey.

Конечно, в России есть отдельные центры, которые также пытаются собирать данные социологических исследований. Это базы данных «опросных фабрик» (ВЦИОМ, ФОМ, Левада-Центр), исследовательских центров Института социологии РАН, НИУ ВШЭ. В частности, свою базу данных в открытый доступ предоставляет ВЦИОМ, однако, и это общая проблема для большинства открытых архивов, в нем представлены не массивы данных, а их линейные распределения, что существенно сужает возможности вторичного использования данных и практически полностью лишает возможности интеграции этих баз в единое целое. Кроме того, большая часть данных лишена ключевых для их дальнейшего существования и использования сведений – метаданных, то есть подробных данных о конкретных процедурах сбора данных, его месте, структуре выборки и ее оснований, времени сбора данных и наличии в инструментарии индексных показателей, репрезентативности, доле неответов и т. п. Сущность проблемы открытости и сохранности данных социологических исследований кроется в доминирующем на данный момент способе их хранения.

В рамках разработки проблем интеграции баз данных очевидными становятся проблемы поиска массивов данных и метаданных к ним. Так, номер сотового телефона респондента в двух базах данных позволяет эффективно осуществлять в них поиск, но, что самое важное, позволяет получить новые данные о связях между переменными в различных массивах. Наличие геометки (GPS- или ГЛОНАСС-координаты) и даже простое указание места жительства респондента позволяет связывать массивы пространственно, а указание на время проведения опроса объединяет их во времени.

Полноценное объединение баз данных в реляционную базу возможно только при наличии общих полей и метаданных. Именно реляционные базы являются источником генерации новых данных из уже имеющихся. Они обеспечивают более эффективную и сложную организацию и запрос структурированных данных, они позволяют использовать в работе с собой запросы на основе SQL-сервисов. Именно реляционные базы данных являются не только примером эффективных архивов, они способны генерировать новые данные.

Решить проблему открытости и сохранности данных может позволить создание полноценного архива социологических данных в виде онлайн-репозитория. Computer Library Center (OCLC) и Research Libraries Group (RLG) разработали следующие требования к надежным цифровым архивам данных и репозиториям [9]:

- принимать ответственность за долговременное поддержание цифровых ресурсов от имени тех, кто предоставляет базы данных, будущих пользователей, потребителей и заинтересованных групп;

- иметь организационную систему поддержки не только системы хранения, но и той цифровой информации, за которую репозиторий взял на себя ответственность;

- демонстрировать налоговую и финансовую ответственность и надежность;

- разрабатывать свои системы в соответствии с общепринятыми конвенциями и стандартами обеспечения управления, доступа и безопасности в отношении материалов, депонированных в нем;

- устанавливать методологию для системной оценки, соответствующей ожиданиям профессионального сообщества в отношении достоверности данных;

- открыто и прозрачно выполнять свои долгосрочные обязательства как перед поставщиками данных, так и перед их пользователями;

- иметь проверяемые и измеряемые механизмы и практики, реализовывать политику существования и развития.

V Социологическая Грушинская конференция «Большая социология: расширение пространства данных» поставила перед профессиональным сообществом социологов вопрос о том, способны ли исследовательские центры, основные поставщики баз данных, к генерации больших обобщений, значимых для общества в целом выводов. Это возможно только при условии открытия собираемых данных и их интеграции в едином центре и по единым правилам.