Аналитика больших данных сделала серьезный шаг вперед, научив выявлять зарождающийся «хайп» |

Эксперт Виктор Делисов (Senior Data Analyst «АДВ Лаб») поясняет, что представляет из себя аналитика больших данных, способная выявить зарождающийся «хайп».

Эксперт рассказал, что в последнее время проявлять себя стала тенденция возникновения трудностей с выделением какого-то определенного востребованного бренда. Значимость этой проблемы нельзя недооценить, так как малейшая ошибка может сильно навредить бизнесу.

Выход из опасной ситуации поможет найти совмещение маркетинга и технологии общих данных. Такой подход позволяет как отследить, так и проанализировать темы, витающие в информационном пространстве, просчитать их вирусный потенциал и предсказать яркое будущее тренда.

С чего все начиналось?

В компанию «АДВ Лаб», специализирующуюся на инновационных разработках для рекламных холдингов, обратилась компания с задачей создать технологию, способную по информации в соцсетях находить бренды, набирающие популярность.

В результате в совместном трудовом процессе был разработан онлайн-инструмент Hype Seismometer. Ресурс на основе мессенджера Telegram позволял в реальном времени сформировать рейтинг самых «пиковых» тем.

Сбор данных

Получение информации шло из ресурса-агрегатора tgstat.ru. В качестве модели измерения трендов (скорости и пути движения) был выбран топологический анализ и теория графов. В качестве единицы измерения были приняты биграммы, то есть словосочетания с минимальной смысловой нагрузкой.

Работа с информацией

Чтобы проще перерабатывать информацию из тысяч каналов, потребовалось сделать фильтрацию:

— по языку (для русскоговорящих);

— по каналам (всегда можно выбрать каналы, где подписчиков более 200 человек);

— по каналам, где ER выше 50%.

Отделить каналы с информационным тупиком (функционирующие за счет репостинга) получилось с помощью формирования:

— каналов, приближенных к формированию своего контента;

— каналов, приближенных к репостингу;

— каналов, формирующих замкнутые контуры;

— каналов-одиночек.

Так как в каждой группе попадаются каналы, не вписывающиеся в заданную тенденцию, то был задействован кластерный анализ, классифицирующий пользователей по типу поведения.

Так были выделены 16 кластеров, с помощью которых стала возможной оценка скорости распространения сведений. Оценка канала в каждом кластере позволяла присвоить каждому посту свой коэффициент. Рассчитать вес каждого поста стало возможным с помощью машинного обучения.