Метод «большие данные» представлен множеством различных решений продуктов, но условно можно выделить два главных сферы, которые привели к тому.
К первому разделу относится Data engineering. Направление отвечает за проектирование систем, создание массивов данных, а также создают интерфейс для работы с информацией другим подразделениям.
Сотрудники данного направления являются разработчикам и техподдержкой по своему функционалу. Они проводят оптимизацию повседневных задач, дорабатывают решения под конечного клиента, консультируют, а также тестируют новые возможности.
Вторая сфера относится к аналитике, и называется Data Analytics. Как видно из наименования, в этом подразделении занимаются анализом самой информации. Они используют все возможные технические средства, созданные коллегами из первой группы.
Сотрудники оперируют фактами, полученными из анализа больших объемов информации, прогнозируют события в зависимости от требований заказчика, а также программируют модели поведения и другие возможности.
Большинство стран поняли преимущество Big data, и стараются привлекать специалистов для работы в данной сфере. Создаются ВУЗ по каждому из направлений, разрабатываются программы обучения и прикладная литература.
Любой специалист, который хотел бы заниматься «большими данными» выбирает один из вариантов, чтобы пройти обучение на желаемую вакансию. Расскажем какие требования выдвигаются к информации, с которой будут работать специалисты.
Требования к информации
Сама информация разделяется на структурированную и неструктурированную. Первый вариант подразумевает, что данные собраны в единую логическую систему. Она имеет внутреннюю систему управления и контроля, доступны различные фильтры для сортировки данных. Любой запрос обрабатывается и выводит итоговый результат для пользователя.
Вторая модель включает в себя хаотично разбросанный поток данных, который представляется в виде файлов разных форматов и размеров, несинхронизированные данные, повторяющиеся сведения и так далее. Такая тип не применим для обработки Big Data, поэтому его стараются привести к упорядоченному виду, то есть к первой модели.
Информация поступает из разных источников, которые можно условно разделить на внешние и внутренние. В первом случае используются ресурсы внутри системы хранения данных. Например, к ним можно отнести различные CRM или ERP. К внешним источникам относят все остальные, не входящие в состав СХД: например, соцсети или новостные порталы.
Каналы, по которым собирается информация, характеризуются скоростью и размером. Чем выше значение первого, тем быстрее они поступают. Файлы малого размера обрабатываются СХД гораздо быстрее, а, значит, наилучшим вариантом будет разбивка данных на небольшие логические части.
Как создать проект Big Data?
Приведем ниже схему создания проекта, которая позволит проанализировать текущую ситуацию в мире и выдать методы для повышения уровня продаж банковских продуктов.
На первом шаге необходимо определить источники информации, из которых будут поступать данные в систему хранения данных. В данном примере это будут:
- Система внутреннего управления и обработки данных (CRM, ERP). Она содержит всю необходимую информацию как внутренний источник;
- Социальные сети клиентов финансовой структуры;
- Интернет как источник массовой информации;
- Аналитические данные поисковиков (Yandex, Google).
СХД должна быть совместима со всеми вышеуказанными источниками, и проводить сборку в автоматическом режиме, за исключение редких случаев.
На следующем этапе идет классификация входящей информации. Ее разбивают на логические блоки, и приводят к единому стандарту. Такую операцию проводит система управления СХД.
Скорость, с которой обрабатывается поступающая информация, зависит от технических характеристик системы, а также коммутации внутри СХД. Учитывая, что входящий трафик поступает из разных источников, необходимо просчитать среднюю скорость, и увеличить ее до максимально возможного значения.
После этого система будет работать эффективно, но необходимо отслеживать ее состояние. В случае каких-либо сбоев надо будет внести правки.
Специалисты, которые будут ее обслуживать должны обладать определенными навыками:
- Языки программирования: Python, Ruby, Java. Это необходимо для того, чтобы служба поддержка могла оперативно создать скрипт или дописать ПО под требования клиента;
- Умения работать с СУБД SQL. Вся информация хранится в базах данных. Наличие как минимум двух сотрудников с профессиональным знанием языка запросов необходимо;
- Знание семейства серверных операционных систем Windows или Linux. ОС, которая используется в системе для управления, администрируется специалистом;
- Служба техподдержки должна понимать принципы работы с облачными сервисами, аналитическими системами и другим вспомогательным ПО, которое будет использоваться в Big Data.