Социальный скоринг

скоринг
В связи с тем что популярные социальные сети весьма широко задействованы в повседневной жизни большинства людей, их можно рассматривать в качестве новых нетривиальных источников данных. Сознательно или нет, пользователи предоставляют материал для оценки рисков, сообщая массу информации - начиная от смены семейного положения или работодателя и заканчивая сведениями о покупках или месте отдыха. Все это отлично иллюстрирует возможную кредитоспособность человека.

На сегодняшний день многие кредитные организации стремятся понять, кем в действительности является их клиент, какие на самом деле он преследует цели при обращении за кредитом и каковы его потребности в настоящий момент времени.

Эффективно исследуя эти три вопроса, кредитная организация может качественно реализовать задачи выдачи кредита, сопровождения кредита, наращивания кредитного портфеля за счет имеющихся и новых клиентов.

Даже используя дорогие и мощные кредитно-скоринговые системы, грамотно выстроенные бизнес-процессы, обладая хорошей методологией, кредитные организации не всегда получают информацию, достаточную для принятия верных решений в процессе потребительского кредитования. Причиной служит то, что качество и количество данных недостаточно высоки для выявления в них нужной и желаемой информации. Большинство кредитных организаций ограничиваются тем, что собирают информацию только из традиционно установленных и широко признанных источников: анкет-заявлений, бюро кредитных историй, справочников служб безопасности и других внутренних и внешних списков. Все это зачастую не позволяет провести глубокий и точный анализ клиента по причине того, что данные, полученные со слов клиента, не всегда достоверны; данных, полученных из внешних источников, бывает недостаточно для принятия решения, а служба безопасности, как правило, не раскрывает полученную при проверке информацию, ограничиваясь лишь результатом проведенной экспертизы.

При изучении сложившейся ситуации перед нами встал вопрос о выявлении таких источников данных, где клиент сам мог бы рассказать о себе, причем без необходимости заведомого искажения информации, и которые были бы доступными и могли бы законно использоваться кредитными организациями.

В связи с тем что популярные социальные сети весьма широко задействованы в повседневной жизни большинства людей, было предложено рассмотреть их в качестве новых нетривиальных источников данных. При взаимодействии пользователей в социальной сети неизбежен обмен ресурсами или потоками (капитала, информации, технологий, изображений, звуков, символов и т.д.), вокруг которых построено все общество. Сознательно или нет, пользователи предоставляют материал для оценки рисков, сообщая массу информации - начиная от смены семейного положения или работодателя и заканчивая сведениями о покупках или месте отдыха. Все это отлично иллюстрирует возможную кредитоспособность человека.

На основании изученной информации было вынесено решение о формировании рабочей группы для разработки программы по взаимодействию с социальными сетями как новыми источниками данных. Подобная разработка способна модифицировать имеющуюся кредитно-скоринговую систему и тем самым снизить кредитный риск. Проект получил название "Социальный скоринг", а в рамках его реализации перед нами были поставлены следующие задачи:

1) определить социальные сети, которые будут задействованы в процессе извлечения данных профайла клиента;

2) найти способы и методы извлечения данных;

3) определить доступность и ценность данных;

4) провести трансформацию данных;

5) решить задачу анализа.

Дальнейшее разъяснение проекта изложено по всем приведенным выше пунктам.

 

Социальные сети "ВКонтакте", "Одноклассники" и Facebook

 

В рамках выбора социальной сети как нового источника данных необходимо руководствоваться такими критериями, как популярность социальной сети среди клиентов кредитной организации, доступность получения данных, набор предоставляемых данных и качество самих данных.

Востребованность той или иной социальной сети была определена как экспертным методом, так и на основе статистики, полученной из карточек клиентов. Доступность получения данных проверялась на основе размещенной информации об API на страницах сайтов социальных сетей. Качество данных проверялось в течение реализации проекта и основывалось на заключениях экспертов-аналитиков.

Руководствуясь данными критериями, в период реализации проекта мы выявили, что самым привлекательным источником данных является социальная сеть "ВКонтакте", так как она предоставляет широкий спектр данных и при этом популярна среди наших клиентов. Таким образом, при использовании данной социальной сети возникает высокая вероятность получения дополнительных данных по клиентам.

Следующим выбором в качестве источника данных стала социальная сеть Facebook, которая уступает по популярности среди клиентов, но по массиву получаемых данных приближена к сети "ВКонтакте". Следовательно, по определенной категории людей всегда есть возможность получить хороший дополнительный набор данных.

Так как проект ориентирован на российского потребителя, в качестве еще одного источника данных была рассмотрена социальная сеть "Одноклассники", которая часто используется клиентами, но в отношении получаемого объема данных сильно уступает двум предыдущим.

После определения списка задействованных социальных сетей следующим шагом стало установление того, каким образом будут получены данные по клиентам.

 

Способы и методы извлечения данных

 

Чтобы начать процесс получения данных по клиенту, необходимо реализовать три составляющие: во-первых, запросить администрацию социальной сети о предоставлении доступа к рабочей области; во-вторых, разработать приложение, которое будет способствовать извлечению данных; в-третьих, определить программу, стимулирующую пользователя разрешить доступ к извлечению персональных данных.

Каждая социальная сеть после соответствующей регистрации предоставляет разработчику доступ к рабочей области, где может быть разработано и введено в опытно-промышленную эксплуатацию необходимое приложение.

Выбирая разработчика приложения, следует учитывать тот факт, что список доступных данных, как и сами методы извлечения, может меняться, и это влечет за собой немедленное обновление функционала программы. Следовательно, понадобится постоянное сопровождение приложения. Таким образом, предпочтительнее иметь собственную команду программистов, нежели отдавать разработку на аутсорсинг.

Так как метод извлечения данных ориентирован на онлайн-аудиторию, посредником между клиентом и приложением может выступать онлайн-заявка на кредит с возможностью последующей авторизации через приложение.

В качестве стимулирования клиента к действию по авторизации были предложены следующие маркетинговые ходы:

- понижение процентной ставки;

- снижение времени обработки заявки;

- повышение максимальной суммы и срока по кредиту.

Пользователю предоставляется возможность авторизоваться через несколько социальных сетей в рамках одной заявки.

Метод извлечения данных был определен исходя из возможностей, предоставляемых социальными сетями. Так как каждая социальная сеть специфична по своей структуре, независима и не связана с остальными: имеет разное время доступа, методы извлечения и набор извлекаемых данных, потребовалась разработка трех приложений под каждую социальную сеть отдельно.

Запрос и извлечение данных реализованы по открытому протоколу авторизации, который позволяет обращаться к данным профайла в автономном режиме в течение разрешенного времени даже после закрытия пользователем браузера или ухода со страницы заявки. Таким образом, при получении большого массива данных нет необходимости задерживать пользователя на форме заявки до момента завершения загрузки данных.

Предоставленный социальной сетью доступ к среде разработки приложения позволяет моментально проводить тестирование, определять доступность и ценность данных, выявлять и устранять замечания, а в случае необходимости переопределять функциональные требования и вносить соответствующие изменения.

 

Доступность и ценность данных

 

В процессе разработки приложения необходимо учитывать ряд факторов, которые существенно влияют на процесс взаимодействия с новыми источниками данных.

Во-первых, не все данные профайла, указанные в документации API социальных сетей как доступные, получается использовать в действительности. Это обусловливается тем, что администрация социальной сети закрывает доступ к данным или вносит определенные корректировки без своевременного отражения этих изменений в документации и какого-либо оповещения об этом самих разработчиков приложения. При этом нам приходилось как можно чаще отслеживать подобного рода изменения, чтобы фиксировать их в уже сформированном наборе получаемых данных. Во-вторых, при написании алгоритма необходимо учитывать производительность приложения, так как социальные сети ограничивают срок доступа к извлечению данных. Как правило, доступ предоставляется на срок до суток в зависимости от политики социальной сети.

Учитывая описанные ограничения доступности данных, приходится принимать во внимание также факторы, влияющие на ценность данных. В процессе эксперимента нами были выявлены наиболее часто встречающиеся факторы, искажающие качество данных. Во-первых, встречается недостоверная или противоречивая информация. К примеру, это могут быть недействительные контактные данные, фамилия и имя, дата рождения, образование, место работы и др. Во-вторых, зачастую указывается неполная информация. Дата рождения может быть указана без года, или какое-либо поле может иметь пустое значение. Такие данные предлагается либо обогащать за счет информации в карточке клиента, либо исключать, предварительно используя алгоритм верификации данных (к примеру, соответствие номера телефона маске семизначного ввода и др.).

 

Трансформация данных

 

Массив извлекаемых данных характеризуется набором свойств, которые могут повлиять на эффективность работы модели и снизить достоверность результатов анализа. Факторами, ухудшающими качество данных, могут стать дубликаты, противоречия, шумы, аномальные значения, пропуски и т.д. Данные могут быть разбросаны, не упорядочены, представлены в форматах, с которыми не работает тот или иной алгоритм. Трансформация данных, то есть их преобразование к определенному представлению, формату и виду, оптимальному с точки зрения решаемой задачи, призвана решить эту проблему.

Процессу трансформации в проекте было отведено довольно много времени. Так как качество данных имеет определяющее влияние на эффективность результата, большое внимание уделялось обследованию получаемых данных и их преобразованию. В эксперименте к данным применялись следующие методы трансформации:

- квантование (разбиение диапазона возможных значений числового признака на конечное количество интервалов);

- группировка (обобщение нужной информации, объединение ее в минимально необходимое количество полей и значений);

- настройка набора данных (преобразование типов данных, имен, названий и меток полей);

- вычисляемые значения (расчет новых данных на основе полученных);

- нормализация и кодирование (преобразование данных к числовому виду);

- слияние (обогащение данных одной совокупности данными из другой совокупности);

- подстановка значений (замена одних значений другими).

В процессе обработки и анализа данных по профайлам определялись наиболее качественные, пригодные к использованию, показатели. Список показателей формировался исходя из специфики решаемой задачи.

 

Пример. В качестве примера рассмотрим трансформацию данных по показателю "Образование". На основе данного показателя можно определить специализацию пользователя, дату поступления и окончания учебного заведения, ученую степень. Но так как на практике наши клиенты нечасто указывают полную информацию об образовательном учреждении, мы провели трансформацию показателя, вычислив новый показатель логического типа "Указано учебное заведение" с признаками "да"/"нет".

 

В данной статье рассматривается трансформация с точки зрения анализа данных алгоритмами аналитической системы и не затрагивается преобразование данных в процессе ETL (extraction, transforming, loading). Этому процессу стоит посвятить отдельную тему и рассмотреть его с технической стороны. Хотелось бы заметить лишь то, что структура хранилища предполагала консолидацию данных из всех задействованных социальных сетей, учитывая тот факт, что один клиент мог авторизоваться в каждой из указанных социальных сетей.

В табл. 1 представлен список из нескольких наиболее значимых показателей, которые были выявлены при работе с извлеченными данными и применялись при решении задачи анализа.

 

Таблица 1

 

Показатели, применяемые при решении задачи анализа

 

 

Наименование поля

Социальная сеть

Метод

Результат

 

ВК

ОК

FB

 

 

1

2

3

4

5

6

Пол

1

1

1

Подстановка значений

Все значения приводятся к общему виду: "мужской", "женский"

Дата рождения

1

1

1

Настройка набора данных

Поле переводится в строковый тип данных. Принимает одно из значений: "указана полностью", "указана не полностью", "нет данных"

 

 

 

 

Вычисляемые значения

 

Совпадение личных данных

1

1

1

Вычисляемые значения

Принимает положительное значение - "true", если фамилия и имя в заявке совпадают с фамилией и именем в социальной сети, иначе - "false"

О себе

1

1

1

Вычисляемые значения

Рассчитывается количество символов, введенных пользователем. Поле переводится в строковый тип данных и формируется список возможных принимаемых значений: "нет данных", "до 250 символов", "от 250 до 700 символов", "свыше 700 символов"

 

 

 

 

Настройка набора данных

 

 

 

 

 

Квантование

 

Количество друзей

1

1

1

Вычисляемые значения

Подсчитывается количество всех доступных друзей пользователя

 

 

 

 

Настройка набора данных

Поле переводится в строковый тип данных и формируется список возможных принимаемых значений: "до 100", "от 100 до 500", "свыше 500"

 

 

 

 

Квантование

 

Наличие категорий друзей

1

1

1

Вычисляемые значения

Проверяется, заведены ли пользователем списки, разбивающие друзей по категориям, к примеру "коллеги", "близкие друзья" и т.д. Если подтверждается наличие таких списков, поле принимает значение "true", иначе - "false"

Указано учебное заведение

1

0

1

Вычисляемые значения

Если имеется информация об учебном заведении (школа, колледж, вуз и т.д.), поле принимает значение "true", иначе - "false"

Статус отношений

1

0

1

Подстановка значений

Все значения приводятся к общему виду: "нет данных", "не женат/ не замужем", "в отношениях", "помолвлен (а)", "женат/замужем"

Указано место работы

1

0

1

Вычисляемые

значения

Если пользователем указана информация о месте работы, поле принимает значение "true", иначе - "false"

Указаны

интересы

1

0

1

Вычисляемые значения

Если пользователем указана информация о личных интересах (спорте, книгах, музыке и т.д.), поле принимает значение "true", иначе - "false"

Количество видео

1

0

1

Вычисляемые значения

Определяется количество видеофайлов в аккаунте пользователя

 

 

 

 

Настройка набора данных

Поле переводится в строковый тип данных

 

 

 

 

Квантование

Формируется список возможных значений: "не указано", "до 50", "свыше 50"

Количество аудио

1

0

1

Вычисляемые значения

Определяется количество аудиофайлов в аккаунте пользователя

 

 

 

 

Настройка набора данных

Поле переводится в строковый тип данных

 

 

 

 

Квантование

Формируется список возможных значений: "не указано", "до 100", "свыше 100"

Количество фотографий

1

0

1

Вычисляемые значения

Определяется количество фотографий в альбомах пользователя

 

 

 

 

Настройка набора данных

Поле переводится в строковый тип данных

 

 

 

 

Квантование

Формируется список возможных значений: "не указано", "до 5", "от 5 до 50", "свыше 50"

Указаны политические взгляды

0

0

1

Вычисляемые значения

Если пользователем указана информация о политических взглядах, поле принимает значение "true", иначе - "false"

Указаны религиозные взгляды

0

0

1

Вычисляемые значения

Если пользователем указана информация о религиозных взглядах, поле принимает значение "true", иначе - "false"

Присутствие в публичных группах

1

0

1

Вычисляемые значения

Если имеется информация о присутствии пользователя в каких-либо публичных группах, поле принимает значение "true", иначе - "false"

Срок регистрации пользователя

1

1

1

Вычисляемые значения

Вычисляется дата первой записи на страничке пользователя и на основании этой даты формируется список возможных значений: "менее 3 месяцев", "от 3 месяцев до года", "более года"

 

 

 

В данной таблице кратко описаны методы трансформации, которые были применены к данным, и ожидаемый результат.

 

Решение задачи анализа

 

В рамках проекта "Социальный скоринг" была поставлена задача классификации клиента по типу платежеспособности с помощью статистических моделей. В основе задачи заложено понимание, что люди со схожими социально-демографическими характеристиками, привычками, статусом, стилем жизни, социальными ролями обладают схожим поведением.

Так как предполагалось построение модели на исторической совокупности данных, которая бы предсказывала поведение нового клиента в будущем на основе оценки его профайла в социальной сети и относила его в определенную категорию качества, был рассмотрен метод скоринга с использованием статистического инструмента - логистической регрессии. Логистическая регрессия позволяет не только отнести клиента к определенному классу, но и определить "степень уверенности" классификации, то есть количественно оценить степень принадлежности клиента к определенной категории.

Первые результаты наблюдения были получены спустя год, за который наша команда смогла сформировать генеральную совокупность из 1068 заявок со статусом "Кредит выдан", состоящую из клиентов, прошедших авторизацию через социальную сеть Facebook. В качестве входных параметров были использованы показатели, приведенные в табл. 1. Стоит отметить, что список сформирован из максимального числа уникальных значимых переменных под воздействием корреляционного и факторного анализа.

Выходная переменная бинарного типа была определена на основе оценки жизненного цикла кредита. Положительное значение "0" переменная принимала в том случае, если у клиента не возникала просрочка 60+ в течение первых восьми месяцев, в таком случае клиент рассматривается как "хороший", иначе переменная принимала значение "1" ("плохой" клиент). Первый опыт проведения социального скоринга для договоров с жизненным циклом не менее восьми месяцев объясняется следующей ситуацией. Во-первых, данные в профайле социальных сетей довольно быстро подвергаются изменениям; во-вторых, за первые четыре месяца было собрано достаточное для анализа количество записей; в-третьих, существует необходимость постоянного отслеживания качества модели, определения эффективности ее работы, фиксации результатов, корректировки и переобучения.

В табл. 2 представлены сведения, касающиеся построения модели классификации.

 

Таблица 2

 

Сведения о построении модели классификации

 

Продукт

Потребительский кредит

Период наблюдения

12 месяцев

Окно наблюдения

8 месяцев

Размер генеральной совокупности

1068 записей

Источник данных

Социальная сеть Facebook

Количество клиентов со статусом "хороший"

1011 (94,7%)

Количество клиентов со статусом "плохой"

57 (5,3%)

Количество входящих переменных

17

Модель классификации и регрессии

Логистическая регрессия

 

Вся генеральная совокупность была поделена на обучающее и тестовое множество в процентном соотношении 75/25 соответственно.

По результатам анализа модель на тестовом множестве смогла верно классифицировать клиентов в 79% случаев.

Для оценки качества бинарной классификации была построена ROC-кривая, которая отображает соотношение между долей верных положительных классификаций в общем числе положительных классификаций (называемой чувствительностью алгоритма классификации, Se) и долей ошибочных положительных классификаций в общем числе отрицательных классификаций (называемой специфичностью алгоритма классификации, Sp). Идеальная модель обладает 100%-ной специфичностью и чувствительностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Тем не менее при решении задачи с помощью нахождения оптимального порога отсечения (optimal cut-off value) был установлен компромисс, при котором оба показателя получают максимально возможные для себя значения: Sp = 80,8 и Se = 81,7.

Количественную интерпретацию ROC-кривой дает показатель AUC (площадь под ROC-кривой), который представляет собой площадь, ограниченную ROC-кривой и осью доли ложных положительных классификаций. Считается, что чем выше показатель AUC, тем качественнее классификатор. В эксперименте с классификацией коэффициент AUC равен 0,89; это значение объясняет хорошие прогностические силы модели.

 

Выводы

 

Социальный скоринг в потребительском кредитовании по своему происхождению близок к аппликационному скорингу (application scoring), но есть существенное отличие в обрабатываемых данных. Аппликационным скорингом оценивается не заемщик, а его ответы на вопросы, указанные в анкете-заявлении. Многие полученные таким образом характеристики могут оказаться недостоверными или небрежно заполненными. Часто клиенты не придают особого значения различным "несущественным" вопросам. Также зачастую у клиента возникает желание завысить свои определяющие характеристики, чтобы повысить степень доверия кредитной организации для получения ссуды. Возможны и мошеннические действия, когда клиент умышленно искажает информацию о себе и своих намерениях.

Но в повседневной жизни заемщик может иметь совсем иные цели, интересы и желания, не связанные с получением ссуды в кредитной организации. Использование такого источника информации, как социальная сеть, дает возможность более объективно оценить клиента и его поведение в течение продолжительного времени, не учитывая его конкретные намерения в текущий момент.

Кроме того, как показала практика, заемщики, которые предоставляли доступ к данным по профайлу, оказывались более ответственными и платежеспособными, чем заемщики, отказавшиеся от авторизации через приложение.

Таким образом, эксперимент показал, что использование социальных сетей имеет ряд преимуществ в потребительском кредитовании при решении задач прогнозирования поведения клиента и отнесения его к определенной группе с точки зрения платежеспособности.

Данная модель будет полезной тем кредитно-финансовым организациям, в которых основным инструментом принятия решения по кредитной заявке является скоринговая оценка клиента. Многие кредитные учреждения могут использовать социальный скоринг как инструмент для обогащения информации по заемщику дополнительными сведениями. Кроме того, использование профайла пользователя позволяет выстроить еще один интерактивный канал взаимодействия с клиентом.