На сайте Directionsmag.com размещена статья Ральфа Стаумэна (Ralph Staumann) об особенностях использования краудсорсинговых данных. По его мнению, краудсорсинговые данные могут быть очень ценными, но стоит опасаться попадания в ловушку великих визуализаций».

Неделю назад я опубликовал презентацию, которую представлял во время Энергетического семинара в университете Цюриха. Я говорил о краудсорсинге и географической информации, полученной от волонтёров (VGI), об использовании краудсорсинговых данных в приложениях. 

И теперь я хотел бы более подробно рассмотреть один пример: несколько недель назад компания Strava, поставщик фитнес-приложений для велосипедистов и бегунов, опубликовала тепловую карту всех точек GPS пользователей. Похожие данные были опубликованы и другими провайдерами, такими как Runkeeper, например. 

Но для каких целей мы можем использовать такие данные? На какие вопросы они помогут ответить? В качестве примера я создал небольшую веб-карту велоинфраструктуры Цюриха и подключил к ней тепловую карту от Strava.

Как вы считаете, эта карта полезна? 
Я не знаю.

С позиций науки и мониторинга транспортной активности (в том числе велосипедистов) мне очень нравится идея выделения пробелов в велосипедной инфраструктуре города с помощью данных краудсорсинга! Однако есть несколько вопросов и потенциальных проблем:

  1. В большинстве своем данные Strava представлены велосипедными маршрутами (77688848 глобально), но не только (всего записано около 19660163 треков бега). 
  2. Как убедиться, что пользователи перевели приложение в правильный режим слежения (езда на велосипеде или бег)? 
  3. Есть ли пользователи, которые используют приложение для записи автомобильных поездок во время путешествия, мотопробегов или их воскресных прогулок с собакой? Если да, то какие меры приняты для того, чтобы удалить такие записи из своих пользовательских данных, например, провести фильтрацию на основе значений скорости/ускорения? 
  4. Сколько пользователей внесли данные на район городского округа Цюрих и окрестности? 
  5. Много ли существует часто используемых маршрутов, которые были преодолены и записаны «от и до» велосипедистами-энтузиастами? 
  6. С другой стороны: существуют и гораздо более используемые маршруты
  7. Если бы мы смогли обнаружить и отличить эти два вида маршрутов, что бы это дало? 
  8. Какие ошибки записи (например, слабый прием GPS сигнала, многократные отражения сигнала GPS от зданий или деревьев) могут присутствовать в данных? Как такие ошибки могут повлиять на анализ? 
  9. Что такое временное распределение (современность и актуальность) данных? Была ли собрана большая часть данных в течение последних трех лет, в прошлом году или за последние шесть месяцев? Как неравномерное временное распределение может повлиять на анализ? (Три года назад, сообщалось, что 10% всех существующих фотографий были получены в течение последних 12 месяцев! Временной перекос в распределении частоты фотографирования хорошо известен).

Я позволю добавить и свои собственные вопросы в список. Все эти вопросы и ответы на них могут оказывать большое, незначительное или вообще никакого влияния на результаты исследований, в зависимости от предполагаемого анализа. Я собрал некоторые интересные выдержки из своих материалов, которые иллюстрируют некоторые вопросы, поднятые выше. 

Рис. 1: Некоторые интересные места в данных по Цюриху от Strava


Верхняя левая часть: правдоподобные пробелы в данных в невелосипедной зоне около остановки трамвая Sternen Oerlikon (слева) и след велосипеда на гоночной трассе, включая небольшой «разминочный круг» (справа). 
Нижняя левая часть: сравнительно мало точек данных в окрестности Niederdorf без каких-либо сквозных маршрутов (слева) и замечательные пробелы в сети возле художественного музея Цюриха (может быть вызвано выбором способа визуализации)(справа).
Правая верхняя часть: правдоподобное распределение данных GPS по всем основным маршрутам и шоссе вблизи университетского городка (слева) и отчетливый кластер GPS-данных на площади Университета Цюриха - это место встречи велосипедистов для изучения близлежащих холмов? Отправная точка групп бегунов? (справа). 
Нижняя правая часть: линейные структуры (вероятно, GPS артефакты) в лесопарковой зоне недалеко от Dolder Hotel. 

Эти особенности могут создать проблемы для некоторых приложений, но компания предложила логичное решение: сопоставить популярные треки с основной дорожной сетью. 

В общем, выводы следующие: Будьте осторожны при использовании данных краудсорсинга и не попадайтесь в ловушки красивых картинок. Перед использованием таких данных, вы всегда должны прояснить вопросы, обозначенные выше, и другие моменты со специалистами! 

Вообще-то желательно, чтобы вы попытались получить максимальный контроль над процессом сбора и создания данных. Если вы полагаетесь на данные, предоставленные третьей стороной, пожалуйста, получите информацию о последовательности обработки (например, отбор, фильтрация, удаление «артефактов» и так далее). Только с этим знанием можно будет адекватно судить о том, можно ли использовать каждый конкретный набор данных для ваших конкретных целей. 

На мой взгляд, если вы задумались об этой проблеме, то вы уже на пути к успешному применению краудсорсинговых данных!

Источник: http://www.gisa.ru/