Эксперт Виктор Делисов (Senior Data Analyst «АДВ Лаб») поясняет, что представляет из себя аналитика больших данных, способная выявить зарождающийся «хайп».
Эксперт рассказал, что в последнее время проявлять себя стала тенденция возникновения трудностей с выделением какого-то определенного востребованного бренда. Значимость этой проблемы нельзя недооценить, так как малейшая ошибка может сильно навредить бизнесу.
Выход из опасной ситуации поможет найти совмещение маркетинга и технологии общих данных. Такой подход позволяет как отследить, так и проанализировать темы, витающие в информационном пространстве, просчитать их вирусный потенциал и предсказать яркое будущее тренда.
С чего все начиналось?
В компанию «АДВ Лаб», специализирующуюся на инновационных разработках для рекламных холдингов, обратилась компания с задачей создать технологию, способную по информации в соцсетях находить бренды, набирающие популярность.
В результате в совместном трудовом процессе был разработан онлайн-инструмент Hype Seismometer. Ресурс на основе мессенджера Telegram позволял в реальном времени сформировать рейтинг самых «пиковых» тем.
Сбор данных
Получение информации шло из ресурса-агрегатора tgstat.ru. В качестве модели измерения трендов (скорости и пути движения) был выбран топологический анализ и теория графов. В качестве единицы измерения были приняты биграммы, то есть словосочетания с минимальной смысловой нагрузкой.
Работа с информацией
Чтобы проще перерабатывать информацию из тысяч каналов, потребовалось сделать фильтрацию:
— по языку (для русскоговорящих);
— по каналам (всегда можно выбрать каналы, где подписчиков более 200 человек);
— по каналам, где ER выше 50%.
Отделить каналы с информационным тупиком (функционирующие за счет репостинга) получилось с помощью формирования:
— каналов, приближенных к формированию своего контента;
— каналов, приближенных к репостингу;
— каналов, формирующих замкнутые контуры;
— каналов-одиночек.
Так как в каждой группе попадаются каналы, не вписывающиеся в заданную тенденцию, то был задействован кластерный анализ, классифицирующий пользователей по типу поведения.
Так были выделены 16 кластеров, с помощью которых стала возможной оценка скорости распространения сведений. Оценка канала в каждом кластере позволяла присвоить каждому посту свой коэффициент. Рассчитать вес каждого поста стало возможным с помощью машинного обучения.