Технология «большие данные» представляют собой совокупность методов и способов обработки, хранения и анализа информации в больших объемах. Такое понятие возникло в начале нового тысячелетия, когда резко возрос объем информации.
По началу метод применялся только в узких кругах технических специалистов, но со временем стал активно интегрироваться в другие сферы. Big Data используют для расчета неструктурированных данных, чтобы привести их в соответствие согласно заданному критерию. В дальнейшем технология применяется для анализа информации.
Большинство международных компаний применяют технологию «большие данные» в сервисах. Например, крупнейшая поисковая система Google построила облачный сервис на Big Data.
Постепенно технология перешла из сферы информационных технологий в другие, расширяя возможности стандартных подходов производства, исследований и т.д.
Современный бизнес стал активно интегрировать метод «большие данные» в свои сервисы. Прогнозирование действий сотрудников, анализ рынка сбыта продукции или ценных бумаг, исследование новых технологий производства – все это возможно только при активном использовании Big Data.
Владельцы бизнеса, которые четко отслеживают любые изменения в мировом сообществе, стали внедрять новый термин в своих компаниях – Data Driven Managment. Он означает ведение бизнеса с использованием нового подхода, основанного на методе «больших данных».
Принципы работы
К системам, которые используют Big Data предъявляются три требования. Перечислим.
- Масштабируемость. Параметр отвечает за возможность увеличения объема дискового пространства без потери эффективности. Обеспечить СХД необходимым уровнем могут только крупные вендора: NetAPP, EMC, HPE;
- Скорость. Подразумевается, что обработка информации должна занимать минимальное время. Условие соблюдается только при нахождении информации в одном локальном сегменте либо при создании высокоскоростной магистрали с дополнительным программным обеспечением на СХД. К примеру, крупные вендора включают опцию тиринга, которая переносит наиболее активные данные в область SSD, а менее используемые на обычные носители;
- Отказоустойчивость. Это важный параметр, который гарантирует работоспособность системы в случае отказа одного из блоков. Для создание полноценной отказоустойчивой СХД, как правило, используют кластеры. Они позволяют удаленно разнести хранилище данных, что повышает эффективность системы в целом.
Существует и другие факторы, определяющие эффективную работу Big Data, но это основные.
Технологии Big Data
Для сбора, хранения и обработки информации «большие данные» используют разные методы, которые условно разделяются на три группы.
К первой относится способ обработки через программное обеспечение. Наиболее известные представители: SQL, MapReduce, Hadoop, Sap HANA и другие. Большинство решений предполагают, что на стороне клиента используется специализированное оборудование, которой настроено под требуемое ПО.
Ко второй категории относится оборудование, на котором стоит специализированный софт, позволяющий обрабатывать данные. Любой бренд (например, NetAPP) используется СХД только со своим программным обеспечением.
Третья категория – сервис. Категория появилась относительно недавно, когда стали активно внедряться облачные технологии. Данный пункт означает, что хранение и обработка происходят на стороне арендодателя.
Возможные проблемы
Основные принципы работы с Big Data предъявляет ряд требований к клиенту, что вызывает некоторые проблемы. Они подразделяются на три типа, под названием три V. Расшифровывается название следующим образом: Volume, Velocity и Variety (Объем, скорость и многообразие).
Первый термин говорит о том, что объем информации постоянно увеличивается, а это влечет увеличения расходов на приобретение дополнительного оборудования. Системы хранения данных, используемые для технологии «большие данные», должны соответствовать требованиям.
Вторая проблема связана со скоростью обработки поступающей информации. При высокой нагрузки, СХД не справляются с потоком данных, и вынуждены работать с меньшей скоростью. Клиенту в таких ситуациях необходимо либо уменьшать количество входящего траффика, либо приобретать дополнительное оборудование и софт для распределения нагрузки.
Многообразие в данной ситуации подразумевается, как неоднородность. ТО есть на первичном этапе обработки, данные необходимо провести к единому стандарту. Соответственно, потребуется дополнительное время и ресурсы.
Отдельно стоит упомянуть этическую сторону Big Data. Хранение и обработка данных без согласия со стороны пользователя является нарушением Конституции РФ. Сотрудники, занятые в правовой сфере, прорабатывают вопрос, но единого мнения не существует.