Аналитика больших данных сделала серьезный шаг вперед, научив выявлять зарождающийся «хайп»

Эксперт Виктор Делисов (Senior Data Analyst «АДВ Лаб») поясняет, что представляет из себя аналитика больших данных, способная выявить зарождающийся «хайп».

Эксперт рассказал, что в последнее время проявлять себя стала тенденция возникновения трудностей с выделением какого-то определенного востребованного бренда. Значимость этой проблемы нельзя недооценить, так как малейшая ошибка может сильно навредить бизнесу.

Выход из опасной ситуации поможет найти совмещение маркетинга и технологии общих данных. Такой подход позволяет как отследить, так и проанализировать темы, витающие в информационном пространстве, просчитать их вирусный потенциал и предсказать яркое будущее тренда.

С чего все начиналось?

В компанию «АДВ Лаб», специализирующуюся на инновационных разработках для рекламных холдингов, обратилась компания с задачей создать технологию, способную по информации в соцсетях находить бренды, набирающие популярность.

В результате в совместном трудовом процессе был разработан онлайн-инструмент Hype Seismometer. Ресурс на основе мессенджера Telegram позволял в реальном времени сформировать рейтинг самых «пиковых» тем.

Сбор данных

Получение информации шло из ресурса-агрегатора tgstat.ru. В качестве модели измерения трендов (скорости и пути движения) был выбран топологический анализ и теория графов. В качестве единицы измерения были приняты биграммы, то есть словосочетания с минимальной смысловой нагрузкой.

Работа с информацией

Чтобы проще перерабатывать информацию из тысяч каналов, потребовалось сделать фильтрацию:

— по языку (для русскоговорящих);

— по каналам (всегда можно выбрать каналы, где подписчиков более 200 человек);

— по каналам, где ER выше 50%.

Отделить каналы с информационным тупиком (функционирующие за счет репостинга) получилось с помощью формирования:

— каналов, приближенных к формированию своего контента;

— каналов, приближенных к репостингу;

— каналов, формирующих замкнутые контуры;

— каналов-одиночек.

Так как в каждой группе попадаются каналы, не вписывающиеся в заданную тенденцию, то был задействован кластерный анализ, классифицирующий пользователей по типу поведения.

Так были выделены 16 кластеров, с помощью которых стала возможной оценка скорости распространения сведений. Оценка канала в каждом кластере позволяла присвоить каждому посту свой коэффициент. Рассчитать вес каждого поста стало возможным с помощью машинного обучения.