- За термином Big data (большие данные) имеются в виду накопленные массивы информации столь значительного объема, что найти что-нибудь полезное в них привычными инструментами становится невозможно. Нужны только специальные алгоритмы поиска, сортировки и иной обработки.
Big-data появились как естественный процесс накапливания больших объемов информации. Общее правило информационных систем, главная из которых интернет — никогда не удалять данные, поскольку это основная ценность. В результате данные все время накапливаются. Сегодня, специалисты говорят, что данные отнести в категорию Big-data можно, если объем их накапливания составляет не менее 100 Гб ежедневно.
Big-data сами по себе огромны и совершенно бесполезны, если к ним не применять машинные алгоритмы поиска, сортировки, а особенно эффективны самообучающиеся системы.
- У термина Big-data есть конкретный автор. Это Клиффорд Линч. Он в 2008 году написал статью в журнале Nature (журнал «Природа»). Большие объемы данных существовали и ранее, но в 2008 по планете шагнули социальные сети, мобильные устройства и системы видеонаблюдения, ставшие основным источником Big data.
Пример Big-data с супермаркетом
Представьте себе большой супермаркет с многотысячным ассортиментом. Причем, все товары как-то странно перепутаны. Естественно, ни у кого не хватит ни времени, ни возможностей искать и покупать там что-то вручную. Чтобы помочь в этом ориентироваться, сначала нужно записать все товара, где что находится, их технические характеристики и инструкции по эксплуатации. Это и будут большие данные. С большим массивом вручную сделать что-либо полезное нельзя. Нужный товар можно «извлекать» в общей мешанине таблиц только с помощью специальных программ.
Все пользуются одними и теми же данными
Теоретически, от использования больших данных не откажется ни одна компания, которой нужно продавать какой-либо товар или услугу. При этом все продают товары именно людям, а не деревьям в парке, поэтому все пользуются преимущественно одним банком данных. Он хранится на нескольких дата-центрах объемов петабайты и доступ к нему продают разным коммерческим компаниям.
Как защищены Big-data?
Big-data — очень дорогой ресурс. Зная их можно не только продать почти все, но и обвалить конкурентов по бизнесу. К ним огромный коммерческий интерес. Некоторые футурологи, которые не сильно ошибаются, называют Big data основной валютой или криптовалютой будущего. Кстати, именно это скрывается за новомодным термином «экономика знаний», когда богатством становится не физическое имущество (которое все больше делают роботы и от этого оно постоянно дешевеет), а знания или данные, сведения, информация.
Big-data нельзя скопировать как пиратский фильм и унести в сумке на жестком диске. Такую защитную меру никто специально не выстраивал, так получилось само собой по чисто технической причине: нет компактного и емкого хранилища. Если кто-то и захочет скопировать для себя существенный объем данных, то ему потребуется построить дата центр мегаватной мощности с двумя десятками сотрудников. Естественно, что сделать это в обход законодательных актов и нормативов нереально.
Другая защитная мера больших данных — их невозможно скачать. Опять же здесь есть чисто физические ограничения. Если какая-либо коммерческая компания, которая оплатила профиль доступа к дата-центру с Big-data, начнет их постепенно выкачивать, то на это потребуются годы времени и это будет своевременно замечено и пресечено.
Наконец, третья защитная мера для Big-data — их крайне сложно неправомерно использовать. Многие считают, что Big data — это такая большая база данных. Вроде тех, которые они покупают в интернете на черных рынках. К счастью это не так. Большие данные нельзя ни вынести на физическом носителе, ни скачать, к ним можно только получать доступ на сервере, а это означает, что все коммерческие компании, например, конкурируя друг с другом, вынуждены играть по правилам. Малейшее отклонение от правил (например, запрос в базе личной информации о руководстве компании-конкурента) будет сразу обнаружено.
- Big-data невозможно украсть, скачать. Их очень трудно использовать противозаконно, так как они хранятся на крупных дата-центрах и каждое действие с ними отслеживается. Таким образом, Big data хорошо защищены.
Как использовать Big data для коммерции?
Конечно, если к Big data допустить простого человека, начальника отдела, менеджера мелкой фирмы и не дать ему специальных инструментов, при этом, даже предоставив поисковики, то он найдет много чего интересного, например, про своих сотрудников, но он не сможет сделать прогноз продаж, не сможет сделать маркетинговое исследование, правильно рассчитать рекламный бюджет. Причина будет не в том, что менеджер плохой, а в том, что у него нет специализированных инструментов. Именно поэтому крупные компании держат целый отдел специалистов, которые постоянно разрабатывают программы для поиска нужных решений. Консалтинговая компания McKinsey рекомендует краткий набор технологий:
- Нейронные сети.
- Распознавание образов.
- Статистический анализ.
- Визуализация, графики, диаграммы.
- Имитационное моделирование.
Для бизнеса, как и для государства важен прогноз. А сколько бы данные не были большими и всеобъемлющими, в любом случае будущего в них не записано. Его можно только смоделировать. Именно это имеется ввиду в рекомендуемой методике поз названием «Имитационное моделирование». Приступить к этому этапу компания сможет только после того, как она уже разработала все предыдущие инструменты для визуализации, отбора, сортировки и поиска данных.
Еще один прогрессивный метод исследования — выявления любых закономерностей. Понятно, что при поступлении данных 100 Гб в день таких закономерностей будут многие тысячи, но современным программам это под силу. Программными методами можно выявить те закономерности, на которые человек, даже с хорошим опытом статистика, никогда бы не обратил внимание. Таким образом, объединяются усилия человека и машины в поиске оптимального решения.