25.07.14

Особенности использования краудсорсинговых данных

На сайте Directionsmag.com размещена статья Ральфа Стаумэна (Ralph Staumann) об особенностях использования краудсорсинговых данных. По его мнению, краудсорсинговые данные могут быть очень ценными, но стоит опасаться попадания в ловушку великих визуализаций».

Неделю назад я опубликовал презентацию, которую представлял во время Энергетического семинара в университете Цюриха. Я говорил о краудсорсинге и географической информации, полученной от волонтёров (VGI), об использовании краудсорсинговых данных в приложениях. 

И теперь я хотел бы более подробно рассмотреть один пример: несколько недель назад компания Strava, поставщик фитнес-приложений для велосипедистов и бегунов, опубликовала тепловую карту всех точек GPS пользователей. Похожие данные были опубликованы и другими провайдерами, такими как Runkeeper, например. 

Но для каких целей мы можем использовать такие данные? На какие вопросы они помогут ответить? В качестве примера я создал небольшую веб-карту велоинфраструктуры Цюриха и подключил к ней тепловую карту от Strava.

Как вы считаете, эта карта полезна? 
Я не знаю.

С позиций науки и мониторинга транспортной активности (в том числе велосипедистов) мне очень нравится идея выделения пробелов в велосипедной инфраструктуре города с помощью данных краудсорсинга! Однако есть несколько вопросов и потенциальных проблем:

  1. В большинстве своем данные Strava представлены велосипедными маршрутами (77688848 глобально), но не только (всего записано около 19660163 треков бега). 
  2. Как убедиться, что пользователи перевели приложение в правильный режим слежения (езда на велосипеде или бег)? 
  3. Есть ли пользователи, которые используют приложение для записи автомобильных поездок во время путешествия, мотопробегов или их воскресных прогулок с собакой? Если да, то какие меры приняты для того, чтобы удалить такие записи из своих пользовательских данных, например, провести фильтрацию на основе значений скорости/ускорения? 
  4. Сколько пользователей внесли данные на район городского округа Цюрих и окрестности? 
  5. Много ли существует часто используемых маршрутов, которые были преодолены и записаны «от и до» велосипедистами-энтузиастами? 
  6. С другой стороны: существуют и гораздо более используемые маршруты
  7. Если бы мы смогли обнаружить и отличить эти два вида маршрутов, что бы это дало? 
  8. Какие ошибки записи (например, слабый прием GPS сигнала, многократные отражения сигнала GPS от зданий или деревьев) могут присутствовать в данных? Как такие ошибки могут повлиять на анализ? 
  9. Что такое временное распределение (современность и актуальность) данных? Была ли собрана большая часть данных в течение последних трех лет, в прошлом году или за последние шесть месяцев? Как неравномерное временное распределение может повлиять на анализ? (Три года назад, сообщалось, что 10% всех существующих фотографий были получены в течение последних 12 месяцев! Временной перекос в распределении частоты фотографирования хорошо известен).

Я позволю добавить и свои собственные вопросы в список. Все эти вопросы и ответы на них могут оказывать большое, незначительное или вообще никакого влияния на результаты исследований, в зависимости от предполагаемого анализа. Я собрал некоторые интересные выдержки из своих материалов, которые иллюстрируют некоторые вопросы, поднятые выше. 

Рис. 1: Некоторые интересные места в данных по Цюриху от Strava


Верхняя левая часть: правдоподобные пробелы в данных в невелосипедной зоне около остановки трамвая Sternen Oerlikon (слева) и след велосипеда на гоночной трассе, включая небольшой «разминочный круг» (справа). 
Нижняя левая часть: сравнительно мало точек данных в окрестности Niederdorf без каких-либо сквозных маршрутов (слева) и замечательные пробелы в сети возле художественного музея Цюриха (может быть вызвано выбором способа визуализации)(справа).
Правая верхняя часть: правдоподобное распределение данных GPS по всем основным маршрутам и шоссе вблизи университетского городка (слева) и отчетливый кластер GPS-данных на площади Университета Цюриха - это место встречи велосипедистов для изучения близлежащих холмов? Отправная точка групп бегунов? (справа). 
Нижняя правая часть: линейные структуры (вероятно, GPS артефакты) в лесопарковой зоне недалеко от Dolder Hotel. 

Эти особенности могут создать проблемы для некоторых приложений, но компания предложила логичное решение: сопоставить популярные треки с основной дорожной сетью. 

В общем, выводы следующие: Будьте осторожны при использовании данных краудсорсинга и не попадайтесь в ловушки красивых картинок. Перед использованием таких данных, вы всегда должны прояснить вопросы, обозначенные выше, и другие моменты со специалистами! 

Вообще-то желательно, чтобы вы попытались получить максимальный контроль над процессом сбора и создания данных. Если вы полагаетесь на данные, предоставленные третьей стороной, пожалуйста, получите информацию о последовательности обработки (например, отбор, фильтрация, удаление «артефактов» и так далее). Только с этим знанием можно будет адекватно судить о том, можно ли использовать каждый конкретный набор данных для ваших конкретных целей. 

На мой взгляд, если вы задумались об этой проблеме, то вы уже на пути к успешному применению краудсорсинговых данных!

Источник: http://www.gisa.ru/

ВІСНИК ГЕОДЕЗІЇ ТА КАРТОГРАФІЇ