Big Data
Что такое большие данные?
Определение больших данных - это данные, которые содержат все большее разнообразие, поступают в возрастающих объемах и с большей скоростью. Это определение также известно как три V
.
Проще говоря, большие данные - это большие, более сложные наборы данных, особенно из новых источников. Такие массивы данных настолько объемны, что традиционное программное обеспечение для обработки данных просто не в состоянии с ними справиться. Но эти огромные объемы данных можно использовать для решения бизнес-задач, которые раньше вы не смогли бы решить.
Три V больших данных
Объем (Volume)
Объем данных имеет значение. При работе с большими данными вам придется обрабатывать большие объемы неструктурированных данных с низкой плотностью. Это могут быть данные неизвестной ценности, такие как ленты данных Twitter, потоки кликов на веб-странице или в мобильном приложении, а также оборудование с датчиками. Для некоторых организаций это могут быть десятки терабайт данных. Для других это могут быть сотни петабайт.
Скорость (Velocity)
Скорость - это скорость, с которой данные поступают и (возможно) обрабатываются. Обычно самая высокая скорость у данных, которые поступают непосредственно в память, а не записываются на диск. Некоторые интеллектуальные продукты с поддержкой Интернета работают в режиме реального или близкого к реальному времени и требуют оценки и действий в режиме реального времени.
Разнообразие (Variety)
Разнообразие относится к множеству доступных типов данных. Традиционные типы данных были структурированы и аккуратно укладывались в реляционную базу данных. С ростом объема больших данных появляются новые неструктурированные типы данных. Неструктурированные и полуструктурированные типы данных, такие как текст, аудио и видео, требуют дополнительной предварительной обработки для извлечения смысла и поддержки метаданных.
Ценность и истинность больших данных
За последние несколько лет появились еще два V
: ценность и достоверность. Данные имеют внутреннюю ценность. Но они бесполезны до тех пор, пока эта ценность не будет обнаружена. Не менее важно и то, насколько правдивы ваши данные и насколько вы можете на них положиться?
Сегодня большие данные превратились в капитал. Вспомните крупнейшие технологические компании мира. Значительную часть стоимости их продукции составляют данные, которые они постоянно анализируют для повышения эффективности и разработки новых продуктов.
Недавние технологические прорывы привели к экспоненциальному снижению стоимости хранения данных и вычислений, благодаря чему хранить больше данных стало проще и дешевле, чем когда-либо прежде. Увеличение объема больших данных, которые теперь стали дешевле и доступнее, позволяет принимать более точные и четкие бизнес-решения.
Поиск ценности в больших данных заключается не только в их анализе (что является совершенно другим преимуществом). Это целый процесс поиска, требующий проницательных аналитиков, бизнес-пользователей и руководителей, которые задают правильные вопросы, распознают закономерности, делают обоснованные предположения и прогнозируют поведение.