ГлавнаяData ScienceДжордан ГолдмейерРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт

Уменьшить шрифт (-) | Увеличить шрифт (+)

Джордан Голдмейер
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт

Типы данных

Существует множество способов кодирования информации, однако специалисты по работе с данными используют несколько видов кодировки для хранения информации и передачи полученных результатов. Два наиболее распространенных типа данных – числовые и категориальные.

Числовые данные в основном состоят из чисел, но могут включать дополнительные символы для обозначения единиц. К категориальным данным относятся слова, символы, фразы и (как ни странно) иногда числа – например, почтовые индексы. И числовые, и категориальные данные делятся на дополнительные подкатегории.

Существуют два основных типа числовых данных:

– Непрерывные данные могут принимать любое значение в некотором числовом диапазоне. Они представляют собой принципиально неисчисляемый набор значений. Возьмем, к примеру, погоду. Температура воздуха на улице, преобразованная в данные, будет представлять собой непрерывную переменную. Допустим, она составляет 65,62 градуса по Фаренгейту (18,67 °C). Местная новостная станция может передать это значение как 65 °F (18 °C), 66 °F (19 °C) или 65,6 °F (18,7 °C).

– Счетные (или дискретные) данные, в отличие от непрерывных, ограничивают точность целым числом. Например, количество автомобилей, которыми вы владеете, может быть равно 0, 1, 2 и так далее, но не 1,23. Это отражает основополагающую реальность измеряемой вещи^[10].

Категориальные данные также делятся на два основных типа:

– Упорядоченные (или порядковые) данные – это категориальные данные, которым присущ определенный порядок. Такие данные используют, например, организаторы опросов, когда предлагают вам оценить свой опыт по шкале от 1 до 10. Хотя эти данные напоминают счетные, мы не можем приравнять разницу между оценками 10 и 9 к разнице между 1 и 0. Разумеется, порядковые категориальные данные не обязательно кодировать в виде чисел. Например, размер рубашки относится к порядковым данным, но его можно закодировать с помощью слов: маленький, средний, большой, очень большой.

– Неупорядоченные (или номинальные) категориальные данные не имеют присущего им порядка. Например, табл. 2.1 содержит признак «Медиа» со значениями «Печать», «Интернет» и «Телевидение». Другие примеры номинальных переменных – ответы «Да» и «Нет», а также принадлежность к демократической или республиканской партии. Порядок их перечисления всегда является произвольным – нельзя сказать, что одна категория «важнее» другой.

В табл. 2.1 также есть признак «Дата», представляющий собой дополнительный тип данных, который является последовательным и может использоваться в арифметических выражениях в качестве числовых данных.

Сбор и структурирование данных

В предыдущем разделе мы говорили о типах данных в наборах, однако существуют более крупные категории для описания способа сбора и структурирования данных.

Данные наблюдений и экспериментальные данные

В зависимости от способа сбора данные могут называться экспериментальными или данными наблюдений.

– Данные наблюдений собираются в процессе пассивного наблюдения человека или компьютера за каким-либо процессом.

– Экспериментальные данные собираются в соответствии с научным методом с использованием предписанной методологии.

Большая часть данных в вашей компании и в мире вообще относится к данным наблюдений. Их примеры – число посещений веб-сайта, объем продаж на определенную дату и количество электронных писем, которые вы получаете каждый день. Иногда такие данные сохраняются с определенной целью, а иногда – просто так. Порой данные этого типа называют «обнаруженными»; очень часто они являются побочным продуктом продаж, платежей, сделанных с помощью кредитных карт, публикации сообщений в Twitter, лайков и тому подобного. То есть они находятся где-то в базе данных, ожидая, когда их обнаружат и используют с какой-то целью. Иногда данные наблюдений собираются потому, что их сбор ничего не стоит. Но иногда их собирают специально – например, с помощью опросов.

Экспериментальные данные собираются не пассивно, а намеренно и методично, чтобы ответить на конкретные вопросы. По этим причинам экспериментальные данные – золотой стандарт для статистиков и исследователей. Чтобы собрать экспериментальные данные, вы должны оказать воздействие на случайным образом выбранный объект. Распространенным примером в данном случае являются клинические испытания лекарств, в ходе которых пациентов случайным образом делят на две группы – группу активного воздействия и контрольную группу. При этом пациенты из первой группы получают настоящее лекарство, а пациенты из второй группы – плацебо. Случайное распределение пациентов позволяет сбалансировать информацию, не представляющую важность для исследования (такую как возраст, социально-экономический статус, вес и так далее), чтобы две группы были максимально похожи во всех отношениях, за исключением факта применения лекарства. Это позволяет исследователям изолировать и измерить эффект препарата, не беспокоясь о потенциальном смешении признаков, способном исказить результат эксперимента^[11].

Такой подход может применяться в разных сферах, начиная с клинических испытаний лекарств и заканчивая проведением маркетинговых кампаний. В сфере цифрового маркетинга веб-дизайнеры часто проводят над нами эксперименты, разрабатывая различные макеты веб-страниц или рекламные баннеры. Когда мы делаем покупки в Интернете, за кулисами происходит своеобразное подбрасывание монеты, от результатов которого зависит то, какой именно вариант из двух рекламных объявлений (назовем их А и Б) будет нам показан. После того как сайт посетят несколько тысяч ничего не подозревающих «морских свинок», веб-дизайнеры увидят, какой из вариантов обеспечил больше «кликов». А поскольку объявления А и Б показывались случайным образом, они могут определить, какое из объявлений более эффективно с точки зрения числа кликов, потому что все остальные потенциально смешивающиеся признаки (время суток, тип веб-пользователя и так далее) были сбалансированы путем рандомизации. Подобный метод часто называется «А/Б-тестированием» или «А/Б-экспериментом».

Подробнее о важности этого различия мы поговорим в главе 4 «Сомневайтесь в данных».

Структурированные и неструктурированные данные

Данные также могут быть структурированными и неструктурированными. Пример структурированных данных – содержимое таблиц, упорядоченное в виде строк и столбцов.

К неструктурированным данным относятся тексты обзоров на Amazon, изображения в социальных сетях, видео на YouTube, аудиофайлы и тому подобное. Преобразование неструктурированных данных в структурированные с целью дальнейшего анализа требует применения специальных методов (см. часть III данной книги).

Data – это один или много?
Настало время уточнить, какой позиции мы придерживаемся в споре, о котором вы, вероятно, даже не слышали.

На самом деле слово data (данные) в английском языке является множественным числом слова datum. (Как в случае со словами criteria (критерии) – criterion (критерий), agenda (повестка дня) – agendum (пункт повестки дня).)

Мы пытались придерживаться правил языка, говоря the data are… вместо the data is… но быстро поняли, что это не для нас. Нам кажется, что это звучит странно. И не только нам. Автор популярного блога FiveThirtyEight.com^[12] предлагает использовать слово data в качестве неисчисляемого существительного, вроде water (вода) или grass (трава).

Основы сводной статистики

Данные не всегда выглядят как набор или электронная таблица. Часто они бывают представлены в виде сводной статистики. Сводная статистика позволяет получить информацию о наборе данных.

Три самых распространенных понятия сводной статистики – среднее значение, медиана и мода, с которыми вы, вероятно, уже хорошо знакомы. Тем не менее мы хотим потратить несколько минут на обсуждение этих понятий, поскольку часто замечаем, что в разговорной речи слова «нормальный», «обычный», «типичный» и «средний» используются в качестве синонимов для них. Чтобы избежать путаницы, давайте проясним, что же означают эти понятия.

– Среднее значение – это сумма всех имеющихся у вас чисел, деленная на их количество. Нахождение среднего значения дает вам представление о том, какой вклад в общую сумму вносит каждое из наблюдений, когда все они имеют одно и то же значение.

– Медиана – это средняя точка диапазона значений, отсортированных по порядку.

– Мода – это число, которое встречается в наборе данных чаще всех остальных.

Среднее значение, медиана и мода называются мерами положения или мерами центральной тенденции. Меры вариации – дисперсия, размах и стандартное отклонение – являются мерами разброса. Номер положения указывает, где именно в числовом ряду находится типичное значение, а разброс говорит о том, насколько другие числа отклоняются от этого значения.

В качестве примера возьмем числа 7, 5, 4, 8, 4, 2, 9, 4 и 100. В данном случае среднее значение равно 15,89, медиана – 5, а мода – 4. Обратите внимание на то, что среднее значение 15,89 не присутствует среди исходных значений. Такое случается очень часто: среднее количество людей в домохозяйстве в США в 2018 году составляло 2,63 человека; звезда баскетбола Леброн Джеймс набирает в среднем 27,1 очка за игру.

Распространенная ошибка – использование среднего значения как средней точки данных, которой является медиана. Может показаться, что половина значений должна быть выше среднего, а половина – ниже. Но это не так. Чаще всего большинство значений находятся либо ниже, либо выше среднего. Например, у подавляющего большинства людей количество пальцев превышает среднее значение (которое составляет 9 с чем-то).

Чтобы избежать путаницы и недоразумений, мы рекомендуем использовать среднее значение, медиану и моду вместо таких понятий, как «обычный», «типичный» или «нормальный».

Подведение итогов

В этой главе мы преподали вам основы языка, на котором вы можете говорить о данных на рабочем месте. В частности, мы обсудили:

– данные, наборы данных и различные названия строк и столбцов в них;

– числовые данные (непрерывные и дискретные);

– категориальные данные (порядковые и номинальные);

– экспериментальные данные и данные наблюдений;

– структурированные и неструктурированные данные;

– меры центральной тенденции.

Теперь, когда вы освоили терминологию, пора приступать к статистическому осмыслению имеющихся данных.

Глава 3
Готовьтесь мыслить статистически

«Статистическим называется особый стиль мышления, который сочетает в себе элементы детективной работы и скептицизма, а также предполагает использование альтернативных подходов к решению проблемы»^[13]

– Фрэнк Харрелл, статистик и профессор

Эта глава научит вас критически воспринимать и осмыслять данные, с которыми вы сталкиваетесь на рабочем месте и в повседневной жизни. Она закладывает основу для понимания остальной части книги, и если какое-либо из описанных далее понятий окажется для вас новым, то вскоре вы, вероятно, обнаружите, что смотрите новости или читаете научно-популярные статьи сквозь новый статистический объектив.

Прежде чем мы начнем, стоит сделать два важных замечания.

Во-первых, в этой главе мы коснемся лишь поверхности. Ее чтение не заменит семестр изучения статистики и не позволит разобраться во всех аспектах процесса «мышления», как это позволяет сделать уже ставшая классической книга «Думай медленно… решай быстро»^[14]. Но мы все-таки введем несколько понятий, чтобы заложить основы для освоения статистического образа мышления, насколько это возможно.

Во-вторых, существует риск того, что при чтении следующих нескольких глав у вас сформируется довольно циничное отношение к данным. Вы можете вскинуть руки и заявить, что вся эта статистическая чепуха скрывает правду под сложными уравнениями и цифрами и начать воспринимать в штыки любые результаты анализа, попадающиеся вам на глаза. А может быть, вы начнете бросаться помидорами в каждую прочитанную статью только потому, что вы узнали несколько статистических приемов и сомневаетесь в компетентности авторов.

Пожалуйста, воздержитесь от этого. Мы хотим, чтобы вы не отвергали предложенную вам информацию, а ставили ее под сомнение, вникали в ее смысл, осознавали имеющиеся ограничения – и, возможно, даже ее ценность.

Задавайте вопросы

Основной принцип статистического мышления – «задавать вопросы».

Многие из нас делают это в повседневной жизни. Мы предполагаем, что вы как читатель книги о работе с данными не воспринимаете всерьез громкие заявления рекламодателей («Похудей на 5 килограммов за месяц!» или «Эти акции скоро будут стоить как акции Amazon!») и странные сообщения в социальных сетях. Итак, эта мышца у вас уже натренирована. Когда вы только наблюдаете со стороны, разбирать очевидную ложь может быть очень весело.

Однако все становится гораздо сложнее, когда заявления и данные касаются нас лично. Это демонстрируют любые политические выборы. Попытайтесь честно ответить себе на вопрос о том, насколько быстро утверждения или цифры, озвучиваемые представителями другой политической партии, начинают вызывать у вас подозрения^[15]. Какие мысли приходят вам на ум? «У них плохие источники. Мои источники хорошие. Их информация ложная. Моя информация верна. Они просто не понимают, что происходит».

Совершенно очевидно, что эта дискуссия может очень быстро превратиться в философский спор. Мы не стремимся разжигать политические дебаты или углубляться в те факторы, которые определяют нашу личную и политическую идеологию. Мы лишь хотим подчеркнуть тот факт, что человеку трудно подвергать сомнению то, что затрагивает сам процесс его мышления и рассуждения.

А теперь подумайте об информации, с которой вы сталкиваетесь на рабочем месте. Действительно ли вы способны скептически воспринимать содержимое электронных таблиц и презентаций PowerPoint, влияющее на успех вашей компании, результативность вашей работы и, возможно, даже на размер вашей премии? Наши наблюдения говорят о том, что зачастую это не так. В зале заседаний совета директоров цифры воспринимаются как неопровержимые факты, как истина, написанная черными чернилами и округленная до ближайшего десятичного знака.

Почему? Вероятно, это связано с тем, что у вас нет времени задавать вопросы или собирать дополнительную информацию. У вас есть ограниченное количество данных, на основе которых вы принимаете решения и на которые в случае необходимости можете списать неудачу. В условиях подобных ограничений скептицизм отключается почти рефлекторно. Еще одна причина может заключаться в том, что даже если вы понимаете связанные с данными проблемы, это не всегда можно сказать о вашем начальнике. Цепная реакция запускается тогда, когда все полагают, что остальные звенья управленческой цепочки принимают предоставляемые им цифры за чистую монету. И это предположение распространяется на всех, включая тех из нас, кто работает с электронной таблицей. Руководство не будет подвергать информацию сомнению, поэтому мы будем действовать так, будто она правдива.

Главные по данным смогут противостоять этой тенденции, если поймут суть вариации.

Комментарий по поводу «статистического мышления»
В понятие «статистическое мышление» мы вкладываем смысл из цитаты, приведенной в начале данной главы. Вы можете называть это вероятностным мышлением, статистической грамотностью или математическим мышлением. Вне зависимости от того, какую фразу вы предпочитаете, все эти понятия связаны с оценкой данных или доказательств.

Некоторые могут задаться вопросом о том, чем обусловлена важность этого стиля мышления. В конце концов, и бизнес, и жизнь в целом до сих пор обходились без него. Так почему сейчас? Почему это должно волновать главных по данным?

Ответ на эти вопросы можно найти в статье под названием «Data Science: What the Educated Citizen Needs to Know» («Наука о данных: что нужно знать образованному гражданину»), написанной гарвардским экономистом и врачом Аланом Гарбером:^[16]

Преимущества использования науки о данных реальны и как никогда заметны и важны. Рост точности прогнозов сделает продукты этой науки более ценными и повысит интерес к ней. Однако ее успехи также могут порождать самоуспокоенность и заставлять нас закрывать глаза на ее недостатки. Специалисты будущего должны осознавать не только то, как наука о данных помогает им в работе, но и то, где и когда она оказывается бесполезной… Более глубокое освоение вероятностного мышления и оценки фактов – это тот навык, который пригодится всем.

Во всем есть вариации

Результаты наблюдений различаются между собой, и это вряд ли может кого-то удивить.

Цены на фондовом рынке колеблются ежедневно, результаты политических опросов меняются в зависимости от недели (и от того, кто именно проводит эти опросы), цены на бензин то растут, то снижаются, а ваше кровяное давление резко повышается, когда вы видите врача (при этом на медсестру вы так не реагируете). Даже ваши ежедневные поездки на работу, если разбить их на части и измерить с точностью до секунды, каждый день будут немного отличаться в зависимости от загруженности дорог, погоды, необходимости подвозить детей до школы или останавливаться, чтобы выпить кофе. Вариации есть во всем. Насколько вам комфортно от этой мысли?

Вероятно, вы давно приняли или, по крайней мере, смирились с вариациями в своей повседневной жизни, а, возможно, они вам даже нравятся. (Ну, за исключением колебаний фондового рынка.) Однако в целом мы понимаем, что некоторые вещи меняются по причинам, которые мы не всегда можем объяснить. Когда дело доходит до таких вещей, как накачка шин, заправка бензобака или оплата счетов за электричество, мы готовы мириться с постоянным изменением цифр при условии, что они имеют для нас интуитивно понятный смысл. Но, как было сказано в предыдущем разделе, нам гораздо сложнее относиться столь же беспристрастно к данным, затрагивающим нашу карьеру или бизнес.

Объем продаж компаний колеблется ежедневно, еженедельно, ежемесячно и ежегодно. Результаты опроса на тему удовлетворенности клиентов могут сильно различаться в разные дни. Если мы признаем реальность вариаций в нашей жизни, нам не нужно объяснять каждый пик и каждую впадину на графике. Однако именно к этому стремится любой бизнес. «Что делалось иначе в течение недели высоких продаж? – спрашивает руководство. – Давайте повторим все хорошее и устраним плохое». Вариации заставляют людей чувствовать себя беспомощными в отношении тех самых вещей, за знание которых им платят деньги и на которые они должны оказывать влияние.

Вероятно, когда дело касается бизнеса, вариации вызывают у нас гораздо больше дискомфорта, чем нам хотелось бы думать.

Существуют два типа вариаций. Один из них связан со способом сбора данных или проведения измерений и называется вариацией измерений. Второй тип связан со случайностью, лежащей в основе самого процесса, и называется случайной вариацией. На первый взгляд разница между ними может показаться незначительной, однако именно здесь проявляется важность статистического мышления. Принимаются ли решения в ответ на случайные вариации, которые невозможно контролировать? Или имеющаяся вариация отражает какой-то основополагающий процесс, который можно контролировать при условии его правильного выявления? Все мы надеемся на последнее.

Проще говоря, вариации порождают неопределенность.

Давайте рассмотрим один гипотетический сценарий и один исторический пример таких вариаций.

Сценарий: Клиентское восприятие (продолжение)^[17]

Вы – менеджер розничного магазина, и ваше руководство внимательно отслеживает данные об удовлетворенности ваших клиентов, которые собираются, когда те звонят по номеру 1–800… указанному в нижней части квитанции. В ходе опроса клиентам предлагается оценить свою удовлетворенность по шкале от 1 до 10, где 10 означает «полностью удовлетворен». (Опрос включает ряд дополнительных вопросов, но первый – самый важный.)

При этом руководство устраивают только оценки 9 и 10. Оценка 8 для него равнозначна 0. Данные собираются еженедельно и отправляются лично вам и в корпоративный офис в файле PDF с красочными графиками, в котором слишком много страниц для представленной в нем информации. Тем не менее эти значения влияют на размер вашей премии и на размер премии вашего начальника, поэтому каждую неделю вы нервно и одержимо подсчитываете среднюю оценку удовлетворенности клиентов, надеясь, что вам удастся достичь показателя в 85 %.

Здесь нам следует остановиться и поговорить об одном из источников вариаций – о способе измерения результатов опроса. Общеизвестно, что оценить что-либо по шкале от 1 до 10 весьма проблематично. Оценка 10, выставленная одним человеком («У них не было того, что я искал, но сотрудник помог мне найти замену!»), равнозначна оценке 5, выставленной другим («У них не было того, что я искал! Сотруднику пришлось помочь мне найти замену»). Мы проигнорируем другие потенциальные источники вариаций, такие как грубость сотрудника, переполненный магазин, экономический спад, заставляющий всех нервничать, то, что покупателю пришлось отправиться за покупками вместе с детьми и так далее.

Мы вовсе не предлагаем отказываться от таких опросов. Мы лишь хотим показать, что сам способ измерения данных является источником вариаций, часто упускаемых из виду. Из-за игнорирования вариаций может показаться, что отклонения от наших ожиданий отражают некачественное обслуживание, а не те различия, которые присущи самому вопросу. И все же компании продолжают гнаться за высокими целевыми показателями (в данном случае это оценки 9 и 10), не понимая, что главная причина вариации – выбранный способ измерения.

Вот как это может развернуться. Предположим, 50 человек оставляют отзывы каждый день на протяжении 52 недель. Это значит 350 опросов в неделю или 18 200 в год. Может показаться, что такое количество участников позволяет получить хорошее представление о клиентском восприятии. В конце каждой недели происходит подсчет результатов: руководство складывает все оценки 9 и 10, делит полученную сумму на общее количество опросов за неделю (350) и наносит результаты на график, показанный на рис. 3.1. Если показатель превышает отметку 85 %, вас одобрительно похлопывают по спине, а если нет, то вы покрываетесь холодным потом.

Каждый понедельник вы получаете отчет и звоните в компанию, чтобы обсудить результаты. Представьте, какой стресс вызывают эти разговоры на 5–9 неделях, когда результаты оказались чуть ниже порогового значения. На 10-й неделе вам наконец удается превысить пороговое значение (несомненно, благодаря мотивации со стороны вашего начальника), но наступает 11-я неделя, и вы достигаете нового минимума. И так происходит снова и снова.

Однако то, что вы видите на рис. 3.1 – чистая случайность. Мы сгенерировали 18 200 случайных чисел, которые были равны 8, 9 или 10, чтобы симулировать результаты опроса об удовлетворенности клиентов, и перетасовали их, как колоду карт^[18]. Каждую «неделю» мы получали 350 оценок и рассчитывали на их основе значение метрики. Средний процент оценок 9 и 10 в наборе данных составил 85,3 % (очень близко к истинному значению в 85 %), что соответствовало корпоративному стандарту, но каждую неделю отклонялось от этого порогового значения просто из-за случайных вариаций.

Рис. 3.1. Результаты еженедельного опроса клиентов: процент положительных отзывов. Горизонтальная линия на уровне 85 % соответствует целевому показателю

Из-за того, что никто не мыслил статистически, вы, ваш начальник и руководство компании старались добиться роста произвольного показателя, значение которого в принципе не зависело от чьих-либо действий.

Подобное стремление управлять метриками, не имея четкого статистического обоснования того, что они означают, мы называем иллюзией квантификации.

Сталкиваетесь ли вы с такой иллюзией на рабочем месте?

10. Существуют дополнительные уровни непрерывных данных, называемые отношением и интервалом. Вы можете ознакомиться с ними самостоятельно, однако, согласно нашим наблюдениям, эти термины довольно редко используются в бизнес-среде. Кроме того, бывают ситуации, когда различие между непрерывными и счетными данными не имеет особого значения. Такие большие числа, как количества посещений веб-сайтов, часто считаются при анализе данных непрерывными, а не счетными. Это различие оказывается важным лишь тогда, когда речь идет о близких к нулю значениях. Мы поговорим об этом подробнее в следующих главах.

11. Пример таких искажающих результаты признаков можно найти в сфере клинических испытаний лекарств. Если группа активного воздействия состоит только из детей и никто из них не заболел, вам останется только гадать, чем это обусловлено – эффективным лекарством или особенностью детского организма. Эффект от использования препарата будет смешан с возрастом. Случайное распределение участников эксперимента на две группы позволяет этого избежать.

12. “Data Is” vs. “Data Are”: fivethirtyeight.com/features/data-is-vs-data-are

13. Ф. Харрелл, профессор и заведующий кафедрой биостатистики Университета Вандербильта: www.fharrell.com/post/introduction

14. «Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

15. В США существуют две политические партии.

16. Ссылка на статью в Harvard Data Science Review: hdsr.mitpress.mit.edu/pub/pjl0jtkp

17. Мы уделяем так много внимания клиентскому восприятию потому, что (1) его трудно измерить точно, (2) небольшая группа предвзятых людей оказывает сильное влияние на результаты и (3) руководство очень тщательно его анализирует.

18. В нашей симуляции вероятность получения оценки 8 составляла 15 %, вероятность получения оценки 9–40 %, а вероятность получения оценки 10–45 %. Поскольку мы сами сгенерировали эти данные, мы точно знаем, что истинное значение показателя удовлетворенности клиентов, то есть вероятность получения оценки 9 или 10, составляет ровно 85 %.

<< предыдущий лист

следующий лист >>

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Джордан ГолдмейерРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт