Большие данные в исследовании науки: новое исследовательское поле
Большие данные в исследовании науки: новое исследовательское поле
Аннотация
Код статьи
S013216250013878-8-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Губа Катерина Сергеевна 
Должность: Директор Центра институционального анализа науки и образования
Аффилиация: Европейский университет в Санкт-Петербурге
Адрес: Российская Федерация, Санкт-Петербург
Выпуск
Страницы
24-33
Аннотация

Сейчас, когда обширные данные о науке и научной деятельности могут быть взяты из открытых источников, можно говорить о формировании нового направления исследований науки на основе больших данных. Масштаб данных оказался особенно важным в изучении науки, поскольку при работе с небольшими выборками существует риск неполноты образа объекта. Инструменты сетевого и текстового анализа позволяют иначе решать исследовательские задачи. С их помощью удается отказаться от проведения жестких границ исследовательского поля и заранее сформированных категорий, как это было свойственно многим традиционным исследованиям в сфере науки. Новые возможности в сборе и анализе данных о науке привлекли в эту область специалистов из разных научных областей. Результатом стало применения новых концептуальных моделей, которые уже не ограничиваются только социологическими концептуализациями.

Ключевые слова
социология науки, большие данные, наукометрия, наука
Классификатор
Получено
29.06.2021
Дата публикации
29.06.2021
Всего подписок
6
Всего просмотров
44
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf Скачать JATS
1 Введение. Расширение использования больших данных и новые инструменты анализа во многом преобразили социальные науки [McFarland, Lewis, Goldberg, 2016; Kitchin, 2014]1. Данные по науке находятся в относительно открытом доступе, пользующиеся ими исследователи могут работать со всей генеральной совокупностью и, что не менее важно, появилась возможность получать по ним значимые для публичного представления результаты. Многие авторы с разным дисциплинарным бэкграундом, которые до этого не занимались исследованиями науки, сейчас регулярно публикуют статьи по исследованиям паттернов поведения ученых в журналах уровня Science и Nature.
1. Обзор перспектив применения больших данных в социологии см.: [Губа, 2018; Одинцов, 2017]. Возможности их использования для других наук см.: [Волков и др., 2016; Берман, 2020; Сивков, 2017]. Среди всех социальных наук особое внимание к новым данным характерно для социологии. Масштаб данных о поведении людей на микроуровне меняет те научные области в социологии, для которых ранее существовали серьезные ограничения при исследовании социального поведения. Это главным образом позволило продвинуться в решении теоретической проблемы, связанной с определением природы социального влияния [Golder, Macy, 2014]. Социология меняется с приходом новых данных не только в своих отдельных областях, но и в общем видении дисциплины в связи с призывом идти от данных, а не от теории [McFarland et al., 2016].
2 В статье приводится аналитический обзор результатов исследований науки на основе больших данных, опубликованных за последнее десятилетие в англоязычных источниках. Мы сопоставим их с исследованиями, относимыми к традиционной социологии науки, альтернативой которым стала новая наука о науке (science of science). С появлением более масштабных данных и новых инструментов анализа расширились возможности изучения науки, чем занимаются теперь не одни науковеды и социологи науки. Но нам важно рассмотреть не только новые возможности, но и то, насколько новое поле отличается от традиционных социологических способов исследования науки.
3 Вначале мы рассмотрим специфику этого исследовательского направления, в основе которого лежат эмпирические исследования, проводимые на больших данных с применением новых инструментов анализа. Какие возможности получают исследователи, работая с наборами данных в миллионы статей и ссылок? В чем преимущества для изучения науки новых инструментов анализа данных, в первую очередь лингвистических методов? Далее пойдет речь о концептуальных особенностях нового поля. Его важной чертой является миграция исследователей из других наук, преимущественно естественнонаучного спектра. Она объясняется преимуществами, которые предоставили большие данные, а также возможностью повлиять на научную политику через проводимые исследования, что важно в контексте широко звучащего диагноза о кризисе современной науки. Насколько исследователи из других наук «наследуют» социологическое видение науки? Привносят ли они совершенно новые модели концептуализации?
4 Природа больших данных. Под большими данными понимаются не только большие массивы данных, но и связанные с ними технологии поиска необходимой информации и методы ее обработки. Согласно Р. Китчину, большие данные отличаются от обычных прежде всего объемами, высокой скоростью накопления (они создаются здесь и сейчас и их объем может увеличиваться каждую секунду), многообразием форм, исчерпывающим характером (зачастую представляют всю совокупность), высокой дискретностью и разнородностью (что позволяет дробить их по отдельным группам и легко идентифицировать), возможностью привязки к другим типам данных и гибкостью [Kitchin, 2014]. Однако далеко не все данные, которые в научных работах называют большими, можно описать через все эти семь характеристик, к тому же нет четких критериев, позволяющих установить, где заканчиваются обычные данные и начинаются большие данные (Big Data). Исследователи определили только две их ключевые характеристики – скорость накопления и всеобъемлющий охват [Kitchin, McArdle, 2016], однако их объем не является единственным выражением их сути. Важной особенностью является и сам способ их производства и получения – то, что они создавались не для целей исследования. Это неизбежно влияет на особенности их изучения, когда появляется потенциал для индуктивного способа (призыв «идти от данных», которые «говорят сами за себя»). Развиваются и технологии их машинной обработки, включая компьютерный анализ текстов, рассматриваемых в качестве данных.
5 Главным ограничением для следования по пути больших данных является доступ к ним, так как ими зачастую владеют большие компании, для которых запросы исследователей не являются приоритетными. Государственные ведомства, собирающие эту информацию для своих целей, также не всегда готовы предоставить ее для анализа. Университеты могут обойти ограничения, создавая специальную инфраструктуру, однако это требует больших финансовых вложений. Более простой путь – обратиться к анализу тех данных, доступ к которым имеет меньше ограничений (данные в социальных сетях, комментарии на интернет-форумах, контент веб-страниц, публикуемые в цифровом формате статьи, архивные документы и т.д.). В исследованиях науки такими данными оказывается не только совокупность сочинений ведущих ученых, но и научная периферия: массивы статей в научных журналах, диссертаций, грантовых заявок, патентов, записей по научным дискуссиям на социальных порталах и в соцсетях и т.д. Безусловно, и здесь имеются свои ограничения, к примеру, данные о публикациях доступны, только если есть оплаченная подписка к международным цитатным базам. Тем не менее, в сравнении с данными о других сферах, большие данные о науке более доступны для проведения академических исследований [Evans, Foster, 2011].
6 Новые исследования науки. Исследования науки на основе больших данных имеют свой манифест «Метазнание» (Metaknowledge), авторами которого являются социологи Дж. Эванс и Дж. Фостер [Evans, Foster, 2011]. Он содержит призыв развивать исследования на основе анализа данных о науке – больших массивов публикаций, патентов, ссылок, грантовых заявок и т.д. Они вводят новое понятие «метазнание», называя его знанием о знании. Эванс и Фостер предлагают следующий способ рассмотрения научных статей по теме исследования: мы видим название журнала, в которой она опубликована и которого для многих достаточно, чтобы определить его влиятельность в дисциплине. Имя автора может указать на научную репутацию исследователя, так же как и его аффилиация – работает ли он в престижном университете. Информация, которая превращается в данные, содержится также в названии статьи, ключевых словах, аннотации и ссылках. В некоторых дисциплинах метазнание особенно легко извлекать и анализировать. Например, в статьях по биомедицине в аннотациях нужно обязательно указать информацию об используемых в исследовании химических соединениях, заболеваниях и методах. При этом исследователям не нужно разрабатывать метод анализа содержания статей, так как основные ее характеристики уже кодифицированы.
7 Идея использовать метазнание строится на том, что производство научного знания становится все более сложным, появляются новые технологические факторы, которые в том числе влияют на социальные процессы, важные для создания, распространения и использования научного знания [Evans, Foster, 2011]. В этом смысле, сквозная тема, которая объединяет самые разные эмпирические работы – это факторы, способствующие или мешающие производству нового оригинального знания [Fortunato et al., 2018]. Один из ярких примеров – исследование соотношения оригинальных и традиционных стратегий в выборе исследовательской тематики [Foster et al., 2015], в ходе которого научные статьи рассматривались как итоги выбора автором стратегии – была ли она связана с решением традиционных исследовательских проблем или носила новаторский характер. Ссылки на статьи (6,5 млн аннотаций научных статей) и награды от профессиональных обществ в области биомедицины анализировались, чтобы узнать, какие стратегии являются более выигрышными. Главный вывод состоял в том, что исследователи чаще склонны выбирать более надежные стратегии в ущерб рискованным новаторским идеям. Во многом это соответствует часто звучащему диагнозу о том, что в современной науке редко случаются прорывные открытия.
8 В новых исследованиях науки легко можно проследить сходство с наукометрическими исследованиями, которыми занимаются ученые уже не одно десятилетие. В обоих направлениях зачастую используются схожие источники данных и методы их анализа. Однако сами адепты исследований науки на основе больших данных отграничиваются от наукометрии [Evans, Foster, 2011]. Они полагают, что различие состоит в главной задаче исследований. Если наукометрия сосредоточена на разработке метрик оценки результативности научной работы, то новые исследования науки с использованием Big Data направлены на создание моделей, которые помогут глубже понять механизмы производства научного знания.
9 Что меняют большие данные и новые инструменты? Многие проводившиеся в рамках социологии науки исследования опирались на данные, которые также, как и в новых исследованиях по большим данным не создавались исследователями. Однако имелись ограничения эффективности тех исследований, связанные, во-первых, с источниками данных, во-вторых, со способами анализа. Эванс и Фостер убеждены, что некоторые паттерны видны только на больших массивах данных [Evans, Foster, 2011]. Прежние исследования науки часто выполнялись на ограниченных выборках, так как не было возможности охвата полных данных. Более того, многие исследовательские вопросы не ставились потому, что собрать данные не представлялось возможным, или вопросы задавались, но несли в себе множество ограничений – ресурсов было достаточно только для того, чтобы прояснить детали для одной части картины, оставив остальное без внимания. Далее я приведу примеры исследований, которые стали возможными благодаря расширению набора данных и появлению новых инструментов их сбора и анализа.
10 Расширение наборов данных. В американской социологии продолжением традиции мертонианской социологии науки стали, в том числе, исследования академического рынка [Baldi, 1995; Long, 1978]. В основном анализировались данные о первом найме после получения степени с тем, чтобы установить наличие или отсутствие связи между престижем департамента, в котором была получена степень, и престижем департамента, где сейчас работает социолог. Работы опирались на справочник Американской социологической ассоциации, который сообщает сведения о преподавателях социологических департаментов вместе с информацией, где они получили степень. Исследовательские вопросы в этих статьях были сформулированы под данные, которые можно было извлечь из справочника. Мы можем представить академическую карьеру как смену позиций в одном или в нескольких университетах. Однако практически отсутствуют исследования, которые бы изучали академические траектории социологов, так как в главном источнике данных нет информации о смене позиций, указывается только, где человек получил степень и где работает сейчас. Возможен самостоятельный сбор таких данных вручную через анализ CV, но он оборачивается затратами времени, поэтому такие попытки предпринимались только на небольшой выборке.
11 Неплохим примером исследования академического рынка, в котором ограничения были сняты, является статья, посвященная карьерным траекториям физиков с ключевым вопросом о том, получают ли физики при смене работы более престижное место или же они перемещаются ниже в иерархии, и как этот переход связан с их научной продуктивностью. Главное отличие этой работы заключается в масштабе данных, которые состоят из информации о перемещениях 237038 физиков [Deville et al., 2014]. Информация извлекалась из журналов по физике, в которых было проанализировано 425 369 статей. Автор встраивает свою работу в изучение мобильности людей на большом масштабе с опорой на данные, которые основаны на «следах» перемещений. Интересно, что в статье отсутствуют ссылки на социологические работы об академической мобильности, хотя сами результаты повторяют основные выводы социологов – перемещения происходят внутри одного сегмента и не связаны с изменениями в продуктивности.
12 Меньший масштаб данных не является проблематичным сам по себе, однако современная наука отличается высокой стратификацией и сегментацией, поэтому ограничение интереса небольшим участком вызывает риск получения далеко не полной картины. Раньше преимущество меньшего масштаба заключалось в том, что на небольшом количестве данных можно собрать информацию, необходимую для объяснения феномена. Например, в исследовании паттернов соавторства среди социологов главный вопрос заключался в том, с какой целью авторы пишут статьи в соавторстве [Leahey, Reikowsky, 2008]. Мы знаем теперь, что социологи чаще пишут статьи в соавторстве не по той причине, что они дополняют исследование разными специализациями. Авторы выяснили это на данных четырех социологических журналов, изучая их статьи за один год – всего 71 статья в соавторстве. Главное ограничение – небольшая выборка, и мы не можем быть уверены, что предложенное объяснение характерно для социологии в целом. В некоторых субдисциплинах доля соавторов может оказаться больше, также как специфика исследования может порождать иные мотивы для соавторства.
13 Преимущество сбора трудоемкой информации для сложных гипотез на небольших выборках исчезает вместе с появлением новых инструментов работы с данными. Сейчас сбор сложной информации возможен на больших массивах данных, так как привлекаются новые мощности и инструменты компьютерной науки.
14 Инструменты анализа данных. Расширение данных нужно рассматривать в контексте новых возможностей по увеличению мощностей и применению новых инструментов анализа. Это позволило иначе решать исследовательские задачи, так как появилась гибкость и возможность отказаться от готовых решений, например, в определении своего объекта, что могло заметно определять итоговые результаты. Новые возможности позволили заранее не проводить жестких границ поля, как это было свойственно многим исследованиям в социологии науки, а опираться на поведение ученых. Иллюстрацией может служить статья с результатами анализа физики на протяжении ста лет на основе нескольких миллионов статей [Sinatra et al., 2015]. Её авторы задались вопросом о границах дисциплины, подвергнув сомнению распространенное представление, что физика является обособленной областью, мало связанной с остальными науками. Принадлежность к дисциплине определялась через научные статьи, причем сам факт определения текста как статьи по физике потребовал большого массива данных и специальных методов анализа. Как можно было решить задачу идентификации статей, которые появляются не в журналах по физике, однако, по своему содержанию и по тому, какое влияние они оказали на физику, их следуют считать физическими статьями? Авторы проанализировали паттерн цитирования всех статей в Web of Science, учитывая исходящие и входящие ссылки. Правило было следующим: статья является физической, если в ней цитируются статьи ядра физической науки (2,4 млн), то есть встречаются чаще, чем это предполагает гипотеза о случайном характере ссылок. Алгоритм применялся к 40 млн статей, что позволило идентифицировать еще 5 млн статей.
15 Такое исследование позволяет изучить анатомию дисциплины с опорой на данные о поведении ученых. Анализ показывает, что список журналов, классифицированный экспертами как журналы по физике, можно использовать лишь с большим ограничением. Лучше опираться на то, как распределяется внимание ученых. Если ориентироваться на ссылки, то мы можем заземлить дисциплины в пространстве отношений с другими науками, а также выявить их внутреннюю структуру. Это позволяет отказаться от традиционного анализа отношений между дисциплинами через ссылки между журналами, которые приписываются экспертами к той или иной категории в базе Web of Science или Scopus. В результате статьи, опубликованные в журналах, которые не входят в категорию, не считаются социологическими или психологическими, даже если по содержанию они таковы. Лучший результат показывает применение алгоритмов, решающих задачу определения границ научного поля на основе публикационного поведения ученых, а не по заранее определенным категориям.
16 Исследователи полагают, что один из прорывов в анализе данных связан с применением новых инструментов анализа больших массивов текстовых данных и отсылает к области вычислительной лингвистики [McFarland, Lewis, Goldberg, 2016; Dimaggio, 2015]. Главный инструмент из области вычислительной лингвистики – это тематическое моделирование, появление которого описывается как шаг революционного значения, который на данный момент пока не оценен социологами в должной мере. Этот инструмент позволяет снять ограничения для исследователя по предварительной разработке категорий и анализировать большие массивы научных текстов. Показательным примером здесь стало междисциплинарное исследование распространения идей в научных сообществах [Macfarland et al., 2013]. Главная гипотеза состояла в том, что оригинальное знание развивается на стыке наук, а значит, новые влиятельные идеи можно ожидать скорее от междисциплинарных команд. Исследователи применяли компьютерные техники и модели для того, чтобы извлекать, с одной стороны, информацию о научных идеях, измерять их новизну и оригинальность, а с другой – использовать сетевые данные о научном сотрудничестве ученых.
17 Интересное решение также можно найти в работе Вилхена и его соавторов [Vilhena et al., 2014], которая посвящена поиску «культурных дыр» в сфере науки, а также вопросу о том препятствуют ли они или способствуют формированию связей между учеными. Границы научных областей определялись на основе ссылок, а их культурная составляющая выявлялась через анализ текста статей – насколько они содержат специфический дисциплинарный язык. Для этого тексты сверялись с некоторыми кодами каждой дисциплины (ключевые для дисциплины слова). Тем самым исследование было выстроено так, что авторы избегали использовать заранее определенные категории. В недавнем исследовании [Hofstra et al., 2020] также анализировались данные из диссертаций, защищенных с 1977 по 2015 г. (около полутора миллионов текстов). Исследователи сопоставили информацию, извлеченную из диссертаций, с карьерными траекториями их авторов. Тексты анализировались с применением лингвистических методов и машинного моделирования для того, чтобы определить оригинальность научного вклада (через новаторское сочетание концептов). Анализ показал, что в диссертациях меньшинств чаще можно найти научные инновации, однако, они получают меньше признания со стороны ученых.
18 Подводя итог, отметим, что Big Data позволили анализировать всю совокупность объектов, сняв дилемму между сбором более детальной информации и сбором данных о большем количестве наблюдений. Вместе с новыми инструментами появилась возможность опираться на более гибкие подходы в анализе науки, в частности, полагаться на данные о поведении ученых без опоры на заранее заданные категории. Несмотря на бесспорность новых возможностей в сборе и анализе данных, дискуссионным остается вопрос о том, способны ли эти новые исследования науки предложить иное понимание процессов производства научного знания, которое в корне отличалось бы от социологической концептуализации.
19 Новые концептуальные модели? Характерной особенностью новых исследований является их междисциплинарность: они выполняются учеными из самых разных дисциплин, преимущественно из наук естественного полюса (компьютерные и инженерные науки, физика, математика). Вместе с инструментами анализа исследователи-естественники привносят и новые концептуальные модели, которые начинают применяться наряду с уже известными социологическими концептуализациями. Это заимствование отражает установку на то, что наука не является особой сферой, которой свойственны собственные закономерности. По словам Эванса и Фостера [2011], исследователи из широкого спектра дисциплин начали использовать науку как площадку для наблюдений за социальными феноменами, которые более универсальны, чем институты науки. Один из примеров – статья профессора неврологии, посвященная механике возникновения системы убеждений в науке [Greenberg, 2009]. Сложившаяся система убеждений может препятствовать развитию нового знания, если она подвергает сомнению устоявшиеся положения. Этот автор проанализировал систему убеждений о причинах накопления бета-амилоида в нервных клетках головного мозга при Альцгеймере и увидел в полученной им сети универсальный паттерн информационного каскада: новые статьи опираются на список статей, процитированных в предшествующих статьях. В итоге, если критические или негативные данные цитируются меньше, то они и дальше будут появляться меньше, так как воспроизводится сложившийся порядок цитирования [Greenberg, 2009]. Устойчивость в системе убеждений обеспечивается провалами в распространении негативных результатов.
20 Более того, есть исследования, в которых наука оказывается только одной из областей, сравниваемой с другими, как это видно в исследовании роли случая в четырех областях символического производства – науке, киноиндустрии, музыке и литературе [Janosov et al., 2020]. Исследование показало, что в четырех этих областях очень трудно спрогнозировать, когда карьера окажется на пике, когда ученый опубликует свою лучшую работу, режиссер снимет лучший фильм, а музыкант или литератор напишет лучшее произведение. Исследователи трактовали неожиданные флуктуации в ходе карьеры как указание на удачу и задались вопросом, отличаются ли различные области в роли случая. В анализ попало более четырех миллионов карьер на протяжении всего XX в. Результат показал, что случайность – это скорее индивидуальная особенность, а не характеристика области.
21 Социологическая концептуализация прослеживается через заметное присутствие интуиций сетевого анализа. В социологии науки еще задолго до появления больших массивов данных проводились исследования социальной структуры отдельных научных областей. Основной вопрос был связан с тем, действительно ли инновациям в науке сопутствует определенная социальная организация тех научных групп, которые их производят. Социология науки исходила из того, что научные интересы и взгляды ученого определяются коммуникацией с другими учеными [Friedkin, 1998]. Плотные личные контакты обеспечивают консенсус тем, что задают выбор интересных для исследований проблем, а также критерии оценки качества исследований. Классической работой стало исследование Дианы Крейн, которая тестировала гипотезу о существовании «невидимых колледжей» в науке [Crane, 1969].
22 Сетевая интуиция продолжает заметно присутствовать в новых исследованиях и уже не только в виде анализа связей между учеными, но также в виде анализа сложной сети, состоящей из объектов разного рода – авторов, статей, концептов [Fortunato et al., 2018; Shi et al., 2015]. За этим кроется понимание науки как разновидности сложной системы, которая создается за счет взаимодействий между отдельными компонентами и производит коллективное поведение [Shi et al., 2015]. На этой концептуализации строится анализ миллионов статей базы MEDLINE для того, чтобы определить, каким образом ученые выбирают исследовательские вопросы. Анализируя большое количество статей (9,300,182 авторов, 9159 химических продуктов, 4390 болезней и 2370 методов), можно увидеть, каким образом складываются устойчивые соединения разных элементов сети, и за счет какого ингредиента они меняются. Исследователи обнаружили, что ученые обычно соединяют новые элементы через уже знакомые элементы – они начинают изучать новые методы, заболевания или химические ингредиенты через уже изученные методы или заболевания. Это можно связать с тем, что ученые стремятся быстрее опубликоваться, а значит пишут статьи, в которых часть результатов уже известна [там же].
23 Кроме взгляда на науку как на сложную систему в исследованиях можно увидеть заметное внимание к различным формам признания. Как устроена научная репутация? К кому приходит научное признание? Действительно ли оно связано с научными заслугами? Это те же классические вопросы для мертонианской социологии науки с тем отличием, что исследования выполняются на большом объеме данных и с более тонкими инструментами их сбора. Например, всем известно, что становится все больше статей с несколькими авторами, и что это создает проблему определения, кто из всего набора авторов заслуживает признание. Шен и Барабаши [Shen, Barabasi, 2014] предлагают опереться на интуицию о том, что признание распределяют другие ученые, значит нужно посмотреть на все статьи, которые цитируются вместе с интересуемой статьей. Если в этом пуле больше статей одного из двух авторов, то основной кредит должен уйти к нему. Оказалось, что их алгоритм в 4 из 5 случаев правильно определял, кого следует считать главным автором, то есть наиболее цитируемые по этой теме статьи были написаны будущими нобелевскими лауреатами [Shen, Barabasi, 2014]. Вопросы предсказания, кто станет будущим нобелевским лауреатом, решались в исследовании Мазлумян и его соавторов [Mazloumian et al., 2011].
24 Таким образом, мы видим, что новое исследовательское поле скорее определяется через особенности работы с данными, чем через новаторское понимание процессов производства научного знания. Несмотря на примеры новых работ, в которых присутствуют идеи из других областей научного знания, самые сильные метафоры имеют явное социологическое происхождение.
25 Заключение. Интерес к большим данным в социальных науках неравномерен и пока в большей степени проявляется в тех областях, где и раньше большую роль играли данные, не предполагающие прямого участия исследователя при их создании. В социологии науки исследователи гораздо реже имели дело с традиционными источниками данных в виде результатов опросов, интервью и наблюдений, чем в иных областях социологии. Эмпирические данные брались из разных источников – справочников, журналов, библиографических баз данных. Такие данные о науке существуют в своем роде сами по себе, и даже если бы исследователи не задавали о них вопросы, ученые не перестали бы продолжать писать статьи, обновлять свои CV или цитировать научные работы. Ранее работа с такой информацией была ограничена тем, что их превращение в структурированную базу данных или создание одной базы из нескольких совершенно разных источников требовало серьезных затрат, и поэтому исследования редко включали большое количество наблюдений. Сейчас новые способы агрегирования данных позволяют сделать превращение информации в данные менее трудоемким.
26 Одновременно с большими данными в исследованиях науки используются компьютерные техники и новые способы их анализа (главным образом, тематическое моделирование). Мы видим, с каким энтузиазмом за эту идею взялись не только социологи, но и естественники и инженеры, разрабатывающие инструменты для сбора и анализа данных о науке. В этом смысле новый вариант исследований науки прежде всего заключается в том, что они должны быть эмпирическими, выполненными на больших данных и с применением арсенала компьютерной науки (в отношении как извлечения данных, так и их анализа). Здесь междисциплинарность пока не привела к тому, чтобы социологические концептуализации были полностью потеснены новыми моделями науки, однако, это возможное будущее, если продолжат доминировать исследователи с бэкграундом в компьютерных науках, физике или биологии.
27 В российском контексте мы также имеем возможность проводить эмпирические исследования науки и высшего образования. Во-первых, существует важный источник наукометрических данных – Российский индекс научного цитирования. Его особенность заключается в широте охвата журналов и других форматов научного текста, хотя и зачастую в ущерб качеству [Moskaleva et al., 2018]. Это может усложнять поиск научных источников по своей теме, однако для исследовательских задач такой подход позволяет ставить более разнообразные вопросы. В частности, мы можем исследовать в деталях, как меняется публикационное поведение ученых и организаций в ответ на требования увеличить результативность научной работы. Практики академической нечестности находятся во внимании исследователей самых разных стран, однако возможность их изучения только на международных базах данных ограничена. В свою очередь локальные базы публикаций, которые охватывают широкий круг источников, являются хорошим источником данных для поиска эмпирических закономерностей и тестирования гипотез, объясняющих паттерны публикационного поведения. Подобные исследования реализованы в итальянской академии [Seeber et al., 2019], есть немногочисленные примеры российских работ [Guskov et al., 2018]. Отдельным преимуществом РИНЦа является спектр показателей, которые рассчитываются для авторов, организаций и журналов – учет соавторства, самоцитирования, что не имеет прямых аналогов в международных базах.
28 Кроме того, ведомства собирают огромное количество информации о научных организациях, так как государство нуждается в информации об объектах, которыми оно управляет. Область высшего образования не является исключением. Министерство науки и высшего образования на постоянной основе обращается к университетам с указанием предоставить информацию о разных аспектах их деятельности: итоги приемной кампании, научные достижения, финансовую отчетность и многое другое. Информация в основном используется для решения внутренних управленческих задач – обновления статистики и оценки эффективности организаций. При этом все больше данных появляется в открытом доступе, что открывает возможности для проведения эмпирических исследований. Здесь важно учесть, какую огромную роль государственные ведомства играют в том, что оказывается внутри эти данных [Волков и др., 2016]. «Слабость» российских данных может стать их силой, если мы хотим понять поведение ученых и организаций в условиях плотного государственного регулирования. Российские исследования на больших, в том числе административных данных о науке могли бы внести свой значимый вклад.

Библиография

1. Берман Ш. Большие данные и историческая социальная наука // Социологические исследования. 2020. № 2. С. 144–149. [Bearman P.S. (2020) Вig Data and Historical Social Science. Sotsiologicheskiye issledovaniya [Sociological Studies]. No. 2: 144–149. (In Russ.)]

2. Волков В., Скугаревский Д., Титаев К. Проблемы и перспективы исследований на основе Big Data (на примере социологии права) // Социологические исследования. 2019. №. 1. С. 48–57 [Volkov V., Skugarevsky D., Titaev K. (2016) Problems and Prospects of the Studies Based on Big Data (the Case of the Sociology of Law). Sotsiologicheskiye issledovaniya [Sociological Studies]. No. 1: 48–57. (In Russ.)]

3. Губа К. Большие данные в социологии: новые данные, новая социология? // Социологическое обозрение. 2018. №. 1. С. 41–64. [Guba K. (2018) Big Data in Sociology: New Data, New Sociology? Sotsiologicheskoye obozreniye [Russian Sociological Review]. No. 1: 41–64. (In Russ.)]

4. Одинцов А.В. Открытость баз данных как условие формирования «больших данных» в социологии // Научно-методический электронный журнал «Концепт». 2017. № 12. [Odintsov A.V. (2017) Openness of databases as a condition for the formation of "big data" in sociology. Nauchno-metodicheskij elektronnyj zhurnal “Kontsept” [Scientific and methodological electronic journal “Concept”]. No. 12. (In Russ.)]: 101-106. URL: http://e-koncept.ru/2017/173020.htm (accessed 12.05.2021).

5. Сивков Д. Большие данные в этнографии: вызовы и возможности // Социология науки и технологий. 2017. Т. 8. № 1. С. 56–68. [Sivkov D. (2017) Big data and Ethnography: Challenges and Opportunities. Sotsiologiya nauki i tekhnologiy [Sociology of Science and Technology]. Vol. 8, No 1: 56–68. (In Russ.)]

6. Baldi S. (1995) Prestige Determinants of First Academic Jobs of New Sociology Ph.D.s, 1983-1992. The Sociological Quarterly. Vol. 36. No. 4: 777–789.

7. Crane D. (1969) Social Structure in a Group of Scientists: A Test of the "Invisible College" Hypothesis. American Sociological Review. Vol. 34. No. 3: 335–352.

8. Deville P. et al. (2014) Career on the Move: Geography, Stratification, and Scientific Impact. Scientific Reports. No. 4: 4770.

9. Dimaggio P. (2015) Adapting Computational Text Analysis to Social Science (and Vice Versa). Big Data & Society. December: 1–5.

10. Evans J., Foster J. (2011) Metaknowledge. Science. Vol. 331. No. 6018: 721–725.

11. Fortunato S. et al. (2018) Science of Science. Science. Vol. 359. No. 6379. URL: http://science.sciencemag.org/content/359/6379/eaao0185 DOI: 10.1126/science.aao0185 (accessed 12.05.2021).

12. Foster J., Evans J., Rzhetsky A. (2015) Tradition and Innovation in Scientists’ Research Strategies. American Sociological Review. 2015. Vol. 80. No. 5: 875–908.

13. Friedkin N. (1998) A Structural Theory of Social Influence. Santa Barbara: University of California.

14. Golder S., Macy W. (2014) Digital Footprints: Opportunities and Challenges for Online Social Research. Annual Review of Sociology. Vol. 40: 129–152.

15. Greenberg S. (2009) How Citation Distortions Create Unfounded Authority: Analysis of a Citation Network. BMJ. Vol. 339. URL: https://www.bmj.com/content/bmj/339/bmj.b2680.full.pdf (accessed 12.05.2021).

16. Guskov A., Kosyakov D., Selivanova I. (2018) Boosting Research Productivity in Top Russian Universities: The Circumstances of Breakthrough. Scientometrics. Vol. 117. No. 2: 1053–1080.

17. Hofstra B. et al. (2020) The Diversity-Innovation Paradox in Science. Proceedings of the National Academy of Sciences of the United States of America. Vol. 117. No. 17: 9284–9291.

18. Janosov M., Battiston F., Sinatra R. (2020) Success and Luck in Creative Careers. EPJ Data Sci. A Springer Open Journal Vol. 9. No. 1 URL: https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00227-w (accessed 12.05.2021).

19. Kitchin R. (2014) Big Data, New Epistemologies and Paradigm Shifts. Big Data & Society. Vol. 1. No. 1: 1–12.

20. Kitchin R., McArdle G. (2016) What Makes Big Data, Big Data? Exploring the Ontological Characteristics of 26 Datasets. Big Data & Society. Vol. 3. No. 1: 1-10.

21. Leahey E., Reikowsky R. (2008) Research Specialization and Collaboration Patterns in Sociology. Social Studies of Science. Vol. 3: 425–40.

22. Long J. (1978) Productivity and Academic Position in the Scientific Career. American Sociological Review. Vol. 43: 889–908.

23. Mazloumian A., Young H., Helbing D., Lozano S., Fortunato S. (2011) How Citation Boosts Promote Scientific Paradigm Shifts and Nobel Prizes. PLoS ONE. Vol. 6. No. 5: 1–6.

24. McFarland D. et al. (2013) Differentiating Language Usage through Topic Models. Poetics. Vol. 41. No. 6: 607–25.

25. McFarland D., Lewis K., Goldberg A. (2016) Sociology in the Era of Big Data: The Ascent of Forensic Social Science. American Sociologist. Vol. 47: 12–35.

26. Moskaleva O., Pislyakov V., Sterligov I., Akoev M., Shabanova S. (2018) Russian Index of Science Citation. Overview and Review. Scientometrics. Vol. 116. No. 1: 1076-1086.

27. Seeber M., Cattaneo M., Meoli M., Malighetti P. (2019) Self-citations as Strategic Response to the Use of Metrics for Career Decisions. Research Policy. Vol. 48. No. 2: 478–491.

28. Shen H., Barabási A. (2014) Collective Credit Allocation in Science. Proceedings of the National Academy of Sciences. Vol. 111. No. 34: 12325–12330.

29. Shi F., Foster J., Evans J. (2015) Weaving the Fabric of Science: Dynamic Network Models of Science’s Unfolding Structure. Social Networks. Vol. 43: 73–85.

30. Sinatra R., Deville P., Szell M, Wang D., Barabási A. (2015) A Century of Physics. Nature. Vol. 11. No. 10: 791–96.

31. Vilhena D. et al. (2014) Finding Cultural Holes: How Structure and Culture Diverge in Networks of Scholarly Communication. Sociological Science. Vol. 1: 221–238.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести