Параданные как показатели качества данных онлайн-опроса: опыт классификации

Корытникова Надежда В.

doi:10.31857/S013216250010298-0

Введение.

В условиях становящегося сетевого общества возникает необходимость в новых методах сбора социологической информации. Если социальная структура превращается в сеть гетерогенных киберсообществ, то онлайн-исследования более всего подходят для сбора информации об интернет-пользователях и анализа современной сетевой реальности в целом. Дигитализация пронизывает все этапы исследовательского процесса – сбор и анализ данных, представление результатов заказчику и/или общественности.

Среди множества активно используемых сегодня методов онлайн-исследований одним из самых востребованных можно считать онлайн-опрос, позволяющий не только систематически и непосредственно регистрировать ответы онлайн-респондентов с помощью интернет-технологий, но также организовывать в едином пространстве процессы оформления и распространения анкеты, передачи и обработки полученных данных. Вместе с тем, несмотря на очевидные плюсы, реализация онлайн-опросов сопряжена с рядом проблем, негативно сказывающихся на качестве получаемых с их помощью данных. Чаще всего при обсуждении этого метода критике подвергаются процедура формирования выборочной совокупности, методика набора респондентов и техника получения ответов.

Как и в случае с традиционными опросами, для проверки достоверности эмпирической информации, добытой посредством онлайн-опроса, его организаторы вынуждены прибегать к анализу метаданных – любых дополнительных сведений (размер и процедура построения выборки, время и условия проведения, фиксация и кодировка ответов и т.д.), дающих фактологическую основу для более точной интерпретации изучаемых явлений. Метаданные, собираемые в ходе онлайн-исследований, принято называть параданными. Введение этого понятия приписывают М. Куперу, который в 1998 г. использовал его для обозначения автоматически фиксируемых данных о процессе опроса, проводимого с помощью компьютера [Couper, 1998]. Со временем его значение расширилось и стало охватывать поведенческие метаданные, фиксируемые на разных этапах исследования. Если первоначально параданные рассматривались как побочный продукт процесса сбора данных, не требующий отдельных специальных действий, то в настоящее время они заранее разрабатываются и собираются с целью повышения качества получаемой информации и результатов онлайн-опроса в целом, например для корректировки неответов [Durrant, Maslovskaya, 2017].

Оценка качества данных онлайн-опроса подразумевает параллельный и систематический сбор информации об объективных характеристиках онлайн-респондентов, деятельности рекрутеров и интервьюеров-операторов [Корытникова, 2013], на основании которой реализуется функция управления исследованием, осуществляется контроль за его ходом и результатами. Другое назначение параданных – определить степень надежности, точности, воспроизводимости и достоверности собранных данных.

Для каждой опросной методики существует свой набор доступных для фиксации метаданных. Так, к метаданным очного интервью относятся внешний вид респондента, его реакция на вопрос, обстановка в месте проведения беседы, отношение окружающих, причины отказов и иная дополнительная информация [Сидоров, 2011]. В телефонных опросах это различные сведения о звонке (call record data), включающие дату и время его совершения, результат соединения, соответствие взявшего трубку квоте, характеристики голоса опрашиваемого и т.п. [Ипатова, 2014]. Для онлайн-опросов существует собственный набор показателей-параданных, каждый из которых вносит свой вклад в обеспечение качества данных и всего исследования в целом. Все их многообразие можно классифицировать по трем основаниям: 1) этап исследования; 2) способ фиксации и 3) используемое программное обеспечение.

Этап исследования.

В зависимости от этапа исследования принято различать параданные, фиксируемые на стадии рекрутинга, во время заполнения анкеты и в ходе анализа собранных данных.

В период набора респондентов и установления с ними первичного контакта особое значение приобретает любая сопутствующая информация, имеющая отношение к планируемой выборке, например характеристики площадок (интернет-форумов, групп и пабликов в социальных сетях), где будет анонсирован предстоящий опрос: количество участников/подписчиков, тем, постов/сообщений и т.д. (табл. 1).

Таблица 1. Параданные потенциальных информационных площадокдля анонсирования онлайн-опроса

Составление списка социальных медиа представляет собой самостоятельную процедуру в рамках подготовки к сбору данных, непосредственно предшествующую выбору информационных площадок. Соответственно, тематическая направленность и контекст публикации анонса – это отдельные категории параданных. Если исходить из задачи охватить объявлением о начале онлайн-опроса наибольшее количество пользователей – потенциальных респондентов, можно опираться на показатель «количество подписчиков» (площадки № 1 и № 9 в табл. 1). Однако в форумах/группах с подобным количеством тем и/или постов объявление об опросе рискует затеряться в потоке других сообщений. Кроме того, площадки с большим количеством подписчиков нередко искусственно «накручивают» число зарегистрированных пользователей/участников, что делает этот показатель ненадежным. Поэтому для размещения объявления больше подходят площадки с приемлемым количеством тем и достаточно большим числом постов (№ 2, № 3 или № 11 в табл. 1). Там анонс с большей вероятностью попадет на глаза участнику и действительно будет прочитан.

Конечно, представленные в табл. 1 три показателя – лишь небольшая часть параданных, доступных для фиксации до начала «полевого» этапа. Помимо них при выборе оптимальной для анонса и рекрутинга площадки необходимо учитывать и другие показатели, характеризующие целевую аудиторию социального медиа: дата создания, частота обновления (количество сообщений в день/неделю), модерируемость (требуется ли подтверждение администратора/модератора или публикация возможна в открытом режиме), тематическая направленность, время суток наибольшей активности участников и т.п. Чем в большей степени выбранная площадка будет соответствовать задачам и объекту исследования, тем выше окажется качество собранных в итоге данных. Также на этапе рекрутинга параданные помогают отслеживать результативность действий по привлечению потенциальных респондентов (табл. 2).

Таблица 2. Параданные для отслеживания результативности рекрутинга

Согласно приведенным параданным, довольно удачным способом объявить о предстоящем опросе стала публикация нового поста на страницах в социальных сетях, где есть возможность отслеживать комментарии и количество «лайков» непосредственно под сообщением с анонсом. Наиболее добродушной оказалась аудитория площадки 1.4 – 13 отметок «нравится». Подобная позитивная реакция как минимум привлечет внимание пользователей сообщества, а как максимум благоприятно скажется на их решении принять участие в опросе. В свою очередь активнее всего новость об опросе обсуждалась на площадке 1.5 – 23 комментария. Не исключено, что именно это обстоятельство обеспечило довольно высокие показатели по просмотрам – 486. В то же время, как показывают параданные, отследить результативность рекрутинга по объявлению в уже существующей теме на страницах в социальных сетях практически невозможно, поскольку в открытом доступе отсутствует информация о просмотрах и возможность сделать репост сообщения с анонсом (нет кнопки «поделиться»).

На этапе заполнения онлайн-анкет ведется статистика их заполняемости (табл. 3) с целью оценить качество реализованной выборки и определиться с необходимостью проведения математических процедур для повышения надежность результатов. Исследователи различают и отдельно отслеживают такие группы единиц наблюдения, как 1) полностью заполнившие анкету, 2) начавшие, но не закончившие, 3) желающие, но не успевающие это сделать, 4) не отреагировавшие на приглашение, 5) категорически отказавшиеся. «Незакончивших» и «неуспевающих» различают по показателю «количество сеансов работы» (особо актуален для анкет, состоящих из большого числа вопросов и предполагающих длительное заполнение): первые один раз заходили в онлайн-анкету и более не возвращались к ней, а вторые неоднократно приступали к заполнению, но всякий раз не заканчивали. «Неотреагировавших» на приглашение обычно вычисляют по разнице между заполнявшими анкету и прочитавшими объявление об опросе (показатель «количество просмотров»). О количестве «категорически отказавшихся» можно судить только по публичным высказываниям или личным сообщениям на адреса организаторов опроса. Для каждой из этих групп предусмотрены особые действия со стороны исследователя: «незакончившим» надо вовремя напомнить о необходимости завершить анкету; «неуспевающих» стимулировать вернуться к заполнению; по «неотреагировавшим» выяснить причины игнорирования и попытаться обратиться к ним через другие площадки; «отказавшихся» не беспокоить, установив по возможности их контрольные параметры, влияющие на какие-либо смещения.

Таблица 3. Примеры сводной статистики заполняемости анкет в онлайн-опросах

Количество частично заполненных анкет сказывается на качестве получившейся выборки и влияет на смещения в данных. Обычно даже после посещения стартовой страницы онлайн-опроса около 20–30% анкет остаются незаполненными или частично заполненными. В то же время доля неполных анкет не должна превышать некоего допустимого предела, как, например, в случае с опросом «Взаимодействие с органами власти» (табл. 3) – 54%. Такая ситуация требует отдельного выяснения причин массового нежелания завершить опрос для последующего принятия решения о качестве полученных данных.

Постоянный учет и непрекращающийся анализ параданных именно во период осуществления «полевого» этапа исследования позволяет проявить гибкость в реализации заложенной методики, успеть оперативно изменить неудачные элементы опросной технологии, решить проблемы с непредвиденными барьерами, возникающими при прохождении анкеты и, следовательно, повысить качество данных. К сожалению, на сегодняшний день детальное отслеживание хода опроса в режиме реального времени еще не вошло в обыденную практику онлайн-опросов, и в большинстве случаев к анализу параданных обращаются лишь после того, как вся информация была собрана.

Сведения, учитываемые после окончания «полевого» этапа, помогают проследить, какие действия и изменения (если они предпринимались) привели к положительным результатам, а какие оказалось бесполезным. Исходя из этого определяются способы эффективной настройки коммуникативного процесса при общении с потенциальными участниками будущих опросов, оценивается степень понимания респондентами формулировок вопросов и осознанность их ответов. На данном этапе особую важность приобретают параданные, указывающие на сложности в прохождении анкеты. Так, показатель «время заполнения» используется для выявления ошибок измерения. Поясним, как это происходит, на примере.

Анкета онлайн-опроса «Фрилансеры»¹ включала три группы вопросов, по пять вопросов в каждой. В среднем на вопросы первой группы отвечавшие тратили 39 секунд, а на вопросы второй – 1,3 минуты. Однако среди респондентов встречались и такие, кто на первую группу тратил больше одной минуты, а вторую, напротив, заполнял примерно за минуту. Ответы этих людей необходимо проверить отдельно, чтобы выяснить, насколько значимы установленные различия по времени заполнения и являются ли они свидетельством серьезных ошибок, влияющих на качество данных (рис. 1).

1. Проводился Харьковским национальным университетом имени В.Н. Каразина в ноябре 2017 г., n = 144.

Рис. 1. Время заполнения анкеты по группам вопросов (респонденты упорядочены по общему времени, затраченному на опрос)

Способ фиксации.

По способу фиксации различают параданные, собираемые вручную и автоматически. Ручная фиксация производится непосредственно интервьюером-рекрутером, составляющим подробный отчет о ходе общения: тактика ведения диалога, коммуникативные намерения, эмоциональные реакции респондентов и пр. Привлеченный к онлайн-опросу интервьюер-оператор имеет доступ к широкому спектру характеристик интернет-пользователя: 1) элементы виртуальной самопрезентации (аватарки, никнеймы, тематика подписок), 2) данные об интернет-активности (количество друзей, частота выхода в сеть и т.п.), 3) реакция на просьбу участвовать в проекте (отказ, игнорирование, жалоба, вопросы, подозрения), 4) комментарии к вопросам в виде собственных ответов или размышлений на отстраненную тему. Вся информация подобного плана вносится в бланк рекрутера, и на ее основе для каждого респондента составляется контрольный лист, который затем используется для проверки аккаунтов на подлинность с целью выявления фейковых, сопоставления социально-демографической информации в целях исключения источников ошибок и т.п. Бланки рекрутера регулярно изменяются для оптимального и полного учета дополнительных показателей, свидетельствующих о разнообразных практиках участия в онлайн-опросах. Собранная в них информация в дальнейшем используется для корректировки алгоритма рекрутинга.

Автоматизированная фиксация осуществляется как техническая запись параданных специализированной платформой и настраивается на этапе подготовки онлайн-опроса. К автоматически собираемым относятся следующие виды показателей: 1) тип интерфейса (операционная система, разрешение экрана, браузер) для оценки технических возможностей компьютера при работе с онлайн-анкетой, чаще всего содержащей множество интерактивных элементов и требующей установки соответствующих дополнительных программ; 2) параметры подключения к Интернету (IP-адрес, геолокация, способ подключения); 3) временны́е данные (время рассылки приглашений, количество и дата напоминаний, период работы с анкетой, чистое время на заполнение); 4) доступ к анкете (использование персонального ключа доступа, URL-адрес перехода на анкету, количество сеансов для заполнения всей анкеты); 5) технические сбои (недоставленное сообщение, недействительный адрес, сфальсифицированный ключ доступа), 6) результат обращения (неоднократное прохождение анкеты, законченное и отправленное, незаконченное). Как правило, сбор параданных на платформах для организации онлайн-опроса автоматизирован по временным и техническим показателям, что позволяет уже на «полевом» этапе выявлять программные сбои при работе с анкетой, обнаружить недобросовестных респондентов, исключить двойное заполнение и т.п. Например, фиксация времени заполнения анкеты дает возможность отследить спидстеров – респондентов, слишком быстро завершающих опрос, а значит, отвечающих на вопросы необдуманно, что ставит под сомнение качество полученных от них данных. Так, для ранее уже упомянутого онлайн-опроса «Фрилансеры» установленное в ходе апробирования инструментария контрольное время прохождения анкеты составило 2 мин. 20 сек., тем не менее 15 человек умудрились пройти ее за 1,5 минуты (рис. 2).

Рис. 2. Время заполнения анкеты по группам вопросов (респонденты упорядочены по общему времени, затраченному на опрос)

Программное обеспечение.

По данному основанию можно выделить три группы источников параданных. Программы для проведения онлайн-опроса позволяют отслеживать коммуникативные процессы, оперативно реагировать на аномальную деятельность пользователей, а также частично автоматизировать рутинные задачи администратора и операторов онлайн-опроса. С помощью собираемой такими программами статистики – статус и прогресс заполнения (анкета отправлена/не отправлена, опрос завершен/не завершен), IP-адрес, URL входа на веб-страницу анкеты, язык респондента, настройки компьютера, дата начала и завершения опроса, продолжительность заполнения анкеты, время прохождения отдельного вопроса, работа с напоминаниями и т.д. – можно следить за ходом взаимодействия между исследователем и респондентом, контролировать обеспечение конфиденциальности, управлять сбором данных.

Веб-статистика сайта опроса включает в себя довольно широкий спектр различных показателей. Навигация и настройка юзабилити интерфейса² дают информацию о поведении респондентов на разных этапах опроса и помогают (до определенной степени) оценить качество рекрутинга и информационной кампании по привлечению к участию в онлайн-опросе. Индикаторами проблемных моментов здесь могут выступать частые возвраты, длинные цепочки перемещений перед отправкой ответов, внезапные выходы из анкеты.

2. Характеристика того, насколько сайт удобен и эффективен для задач пользователей.

Тепловые карты и маршруты перемещений посетителей сайта опроса позволяют анализировать траектории пользователей при заполнении анкеты. Так, Google Analytics отслеживает точки входа и выхода пользователей, количество и время сессий и т.п. Данная информация способствует оперативному выявлению проблем с вопросами, например обнаружению страницы с высоким уровнем отказов. Количество посещений, сгруппированных по источнику трафика, дает понять, какая поисковая система или сайт привлекает максимальное число респондентов с той или иной интернет-площадки.

Отдельного внимания заслуживают показатели, описывающие поведение пользователей на разных устройствах: компьютерах, смартфонах, планшетах. Порой такие, казалось бы, частности – стационарный ПК или мобильный телефон – могут незаметно отразиться на восприятии как содержания анкеты, так самого процесса ее заполнения. Благодаря собираемой веб-статистике, исследователи могут «увидеть», с каких устройств респонденты чаще всего не завершают опрос, и выявить разницу в ответах в зависимости от используемой платформы.

Специальные программы по отслеживанию поведения пользователя при прохождении анкеты позволяют записывать действия, выполняемые на компьютере (движения мышки по экрану, нажатия кнопок клавиатуры и т.д.), и переводить их в формат базы данных, доступной для последующей аналитической обработки. Человек совершает подобные действия машинально, а значит, они относятся к категории объективных показателей, которые сложно подтасовать. Например, о степени спонтанности ответов можно судить по количеству изменений в выборе варианта(ов) ответа; число вкладок и частота прокрутки на ту или иную часть анкеты помогают оценить фрагментарность работы с ней; о сложностях с понимаем сути вопроса говорят факты копирования текстовой части анкеты в поисковик или переходы на внешние интернет-ресурсы. Описанные технологии предоставляют важную информацию о тактических приемах заполнения анкеты и эмоциональных реакциях на вопросы³. Проблема же заключается в том, что на сегодняшний день готовые специализированные платформы для проведения онлайн-опросов еще не обеспечивают сбор данных в формате «цифровых следов», начиная от текстовых или звуковых файлов и заканчивая готовыми к анализу переменными. И до тех пор, пока существующие программы обработки «механических» действий пользователя не будут органично интегрированы в технологию онлайн-опроса, исследователям придется сталкиваться с трудностями синхронизации дополнительно собранных сведений и основного массива данных и вручную сопоставлять разбросанные фрагменты параданных из разных источников.

3. Использование подобных технологий предполагает соблюдение определенных этических правил. Так, организаторы опроса обязаны уведомлять респондентов относительно используемых методов отслеживания их действий и дать им возможность отказаться от сбора подобной информации.

Заключение.

Представленный в настоящей статье перечень параданных, как и их классификации, не могут считаться исчерпывающими. Тем не менее это может стать основой для дальнейших поисков и систематизации показателей, позволяющих оценить качество различных аспектов онлайн-опроса. Для их полноценного использования и универсализации процедуры контроля качества данных необходимо соблюдение по крайней мере трех условий: 1) унификация ключевых показателей и стандартизация их измерения; 2) внедрение специальных программных кодов для обработки соответствующих параданных и сопоставления их с основными данными; 3) обязательное включение статистических выводов по показателям качества в отчеты и публикации с результатами. В свою очередь выполнение указанных условий сопряжено с решением целого ряда методических вопросов, касающихся целесообразности сбора тех или иных параданных: является ли определенная дополнительная информация доступной и необходимой? помогут ли эти показатели проверить достоверность и надежность данных? в каких случаях и при каких значениях показателей-параданных собранные в ходе онлайн-опроса данные нельзя считать достоверными? какие меры необходимо предпринять для повышения качества собираемых данных? Пока однозначных ответов на приведенные выше вопросы нет. Впрочем, уже сегодня введение в практику онлайн-опроса процедур сбора некоторых формальных и поведенческих параданных помогает решить проблему с неточностями, обнаруженными на этапе очистки массива, и обусловленными или ошибками на этапе интерпретации результатов и построения прогностических моделей.

ГОСТ	Корытникова Н. В. Параданные как показатели качества данных онлайн-опроса: опыт классификации // Социологические исследования. – 2021. – Номер 3 C. 111-120 . URL: https://socisras.ru/s013216250010298-0-1/?version_id=94348. DOI: 10.31857/S013216250010298-0
MLA	Korytnikova, Nadezhda V "Paradata as Indicators of Online Survey Data Quality: Classification Experience." Sotsialogicheski issledovania. 3 (2021).:111-120. DOI: 10.31857/S013216250010298-0
APA	Korytnikova N. (2021). Paradata as Indicators of Online Survey Data Quality: Classification Experience. Sotsialogicheski issledovania. no. 3, pp.111-120 DOI: 10.31857/S013216250010298-0

ООНСоциологические исследования Sotsialogicheski issledovania

Параданные как показатели качества данных онлайн-опроса: опыт классификации

Вы можете

Введение.

Этап исследования.

Способ фиксации.

Программное обеспечение.

Заключение.

Библиография

Индексирование

ООНСоциологические исследования Sotsialogicheski issledovania

Параданные как показатели качества данных онлайн-опроса: опыт классификации

Вы можете

Введение.

Этап исследования.

Способ фиксации.

Программное обеспечение.

Заключение.

Библиография

Индексирование

Войти через