大数据技术概述_2.大数据面临的5个方面的挑战

1. 大数据面临着5个主要问题

        2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书。该白皮书首先指出大数据面临着5个主要问题,分别是异构性(Heterogeneity)、规模(Scale)、时间性(Timeliness)、复杂性(Complexity)和隐私性(Privacy)

2.大数据的研究工作将面临5个方面的挑战

        大数据的研究工作将面临5个方面的挑战

        1)挑战一:        

         数据获取问题。我们需要决策哪些数据需要保持或丢弃的问题,目前这些决策还只能采用特设方法给出。

        2)挑战二: 

         数据结构问题。只有将没有语义的内容转换为结构化的格式,并进行后续处理。      

        3)挑战三: 数据集成问题。只有将数据之间进行关联,才能充分发挥数据的作用,因此数据集成也是一项挑战。        

        4)挑战四: 

         数据分析、组织、抽取和建模是大数据本质的功能性挑战。数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。       

        5)挑战五: 

        如何呈现数据分析的结果,并与非技术的领域专家进行交互。

3.一些具体问题和挑战

3.1大数据技术中常用的数据结构

          大数据技术在处理海量数据时,需要使用高效的数据结构来组织和存储数据。以下是一些在大数据技术中常用的数据结构:

  •         分布式文件系统(Distributed File System)
  •         列式存储
  •         键值存储
  •         文档存储
  •         图存储(Graph Storage)
  •         分布式数据仓库(Distributed Data Warehouse)
  •         内存数据库(In-Memory Database)
  •         时间序列数据库(Time Series Database)

3.2分析技术的冲击和挑战

        随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战,主要体现在:

        (1)数据处理的实时性:随着时间的流逝,数据中所蕴含的知识价值往往也在衰减,因此很多领域对于数据的实时处理有需求。在实时处理的模式选择中,主要有三种思路:即流处理模式、批处理模式以及二者的融合。虽然已有的研究成果很多,但仍未有一个通用的大数据实时处理框架。

        (2)动态变化环境中索引的设计:关系数据库中的索引能够加速查询速率,但是传统数据管理中的模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新的效率等。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计简单、高效,能够在数据模式发生变化时快速调整并适应。目前,存在一些通过在NoSQL数据库上构建索引来应对大数据挑战的一些方案,但总得来说,这些方案基本都有特定的应用场景,且这些场景的数据模式不太会发生变化。在数据模式变更的假设前提下设计新的索引方案将是大数据时代的主要挑战之一。

        (3)先验知识的缺乏:传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系的先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在数据分析之前就已经对数据有了一定的理解。而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断的到来,这些需要实时处理的数据很难有足够的时间去建立先验知识。

3.3数据集成的挑战

        数据集成的挑战主要有两个方面:

        (1)广泛的异构性:

        ①数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合。

        ②数据产生方式的多样性带来的数据源变化。

        (2)数据质量:

        数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。

         

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/597838.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python高级编程-DJango1

Python高级编程 灵感并不是在逻辑思考的延长线上产生 而是在破除逻辑或常识的地方才有灵感 目录 Python高级编程 1.python学习之前的准备 ​编辑 2.DJango 开发网站 3.创建项目 4.djang项目结构介绍 1&…

转行HiL测试工程师

转行没方向?0基础也能转新能源汽车HiL测试岗位! 都2024年了,不会还有同学想往软件测试、车载测试方向转吧!996、卷经验、卷待遇… ❓❓❓❓想转行没有方向? 建议选择发展前景好的行业,转行前先找好行业&…

目标检测——打架视频数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

C++ | Leetcode C++题解之第73题矩阵置零

题目&#xff1a; 题解&#xff1a; class Solution { public:void setZeroes(vector<vector<int>>& matrix) {int m matrix.size();int n matrix[0].size();int flag_col0 false;for (int i 0; i < m; i) {if (!matrix[i][0]) {flag_col0 true;}for …

【Markdown笔记】——扩展语法学习part3 表格脚注标题编号(锚点)列表删除线人物列表(todo列表)emoji等

【Markdown笔记】——扩展语法学习part3 表格&脚注等 MarkdownMarkdown 表格语法表格内容居中、左对齐、右对齐 Markdown 脚注语法Markdown 标题编号语法Markdown 列表语法Markdown 删除线语法Markdown 任务列表语法Markdown 使用 Emoji 表情 前几篇markdown相关博客&#…

基于 Spring Boot 博客系统开发(七)

基于 Spring Boot 博客系统开发&#xff08;七&#xff09; 本系统是简易的个人博客系统开发&#xff0c;为了更加熟练地掌握 SprIng Boot 框架及相关技术的使用。&#x1f33f;&#x1f33f;&#x1f33f; 基于 Spring Boot 博客系统开发&#xff08;六&#xff09;&#x1f…

2024年第十三届工程与创新材料国际会议(ICEIM 2024)即将召开!

2024年第十三届工程与创新材料国际会议&#xff08;ICEIM 2024&#xff09;将于2024年9月6-8日在日本东京举行。ICEIM 2024由东京电机大学主办&#xff0c;会议旨在材料科学与工程、材料特性、测量方法和应用等相关领域进行学术交流与合作&#xff0c;在材料的微观世界里&#…

异或的使用在机器人项目上的应用||位运算符在智能驾驶项目上的应用

目录 一、异或的使用在机器人项目上的应用 二、异或&#xff08;XOR&#xff09;操作的几个特点 三、位运算符在智能驾驶项目上的应用 一、异或的使用在机器人项目上的应用 在当时负责皮带机器人项目中&#xff0c;就有一个很好的应用。此时需要设置电机驱动模块、编码器驱动…

Leetcode—724. 寻找数组的中心下标【简单】

2024每日刷题&#xff08;129&#xff09; Leetcode—724. 寻找数组的中心下标 实现代码 class Solution { public:int pivotIndex(vector<int>& nums) {int sum accumulate(nums.begin(), nums.end(), 0);int prefix 0;for(int i 0; i < nums.size(); i) {i…

为antd design vue组件库中的表格添加斑马线、鼠标悬浮表格中字体转变颜色的效果

前言&#xff1a; 在公司完成UI设计稿时&#xff0c;需要实现antd design vue组件库中的表格展示斑马线样式&#xff0c;同时具有鼠标悬浮表格中字体转变颜色的效果&#xff0c;经过多次尝试&#xff0c;最终实现&#xff0c;总结如下&#xff1a; <style lang"scss&q…

软件测试经理工作日常随记【2】-接口自动化

软件测试主管工作日常随记【2】-接口自动化 1.接口自动化 jmeter-反电诈项目 这个我做过的一个非常有意义的项目&#xff0c;和腾讯合作的&#xff0c;主要为用户拦截并提示所有可能涉及到的诈骗类型&#xff0c;并以裂变的形式扩展用户&#xff0c;这个项目前期后端先完成&…

ubuntu22.04:软件包 wps-office 需要重新安装,但是我无法找到相应的安装文件

错误原因&#xff1a;手动在wps官网上下载的linux deb版本的wps2019,想卸载但是一直报错 解决办法&#xff1a;执行如下命令 sudo rm -rf /var/lib/dpkg/info/wps-office*sudo dpkg --remove --force-remove-reinstreq wps-office 说明&#xff1a; sudo命令是以root执行&…

FIFO Generate IP核AXI接口配置全解

当需要在设计中使用自定义IP时&#xff0c;可以通过为IP核的各种参数指定值来进行定制。以下是一般步骤的概述&#xff1a; 首先是从IP catalog中选择IP核。 然后双击这个选定的IP核&#xff0c;打开一个定制向导或参数设置窗口。或在工具栏或右键菜单中选择“Customize IP”命…

SAPUI5基础知识1 - 概览,库,支持工具,自学教程

1. SAPUI5 概览 1.1 SAPUI5 SAPUI5是一种用于构建企业级Web应用程序的开发框架。它是由SAP开发的&#xff0c;基于HTML5、CSS3和JavaScript技术。 SAPUI5提供了一套丰富的UI控件和工具&#xff0c;使开发人员能够快速构建现代化、可扩展和可定制的应用程序。 它还提供了数据…

STM32CubeMX学习笔记32---FreeRTOS资源管理

一、CPU利用率简介 1 基本概念 CPU 使用率其实就是系统运行的程序占用的 CPU 资源&#xff0c;表示机器在某段时间程序运行的情况&#xff0c;如果这段时间中&#xff0c;程序一直在占用 CPU 的使用权&#xff0c;那么可以人为 CPU 的利用率是 100%。CPU 的利用率越高&#xf…

JVM调参实践总结

JVM调优–理论篇从理论层面介绍了如何对JVM调优。这里再写一篇WIKI&#xff0c;尝试记录下JVM参数使用的最佳实践&#xff0c;注意&#xff0c;这里重点介绍HotSpot VM的调参&#xff0c;其他JVM的调参可以类比&#xff0c;但不可照搬。 Java版本选择 基于Java开发应用时&…

面向新手在无人机竞速场景下的飞行辅助系统——浙大 FAST-Lab 高飞团队 ICRA 论文三项 Best Paper 入围

恭喜浙江大学 FAST-Lab 钟宇航同学的论文 A Trajectory-based Flight Assistive System for Novice Pilots in Drone Racing Scenario 顺利发表 ICRA 2024&#xff0c;并同时入选三项 Finalist&#xff1a; the IEEE ICRA Best Conference Paper Awardthe IEEE ICRA Best Pape…

干货!Kali Linux命令大全(建议收藏)

系统信息 arch 显示机器的处理器架构 name -m 显示机器的处理器架构 name -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 -(SMBIOS/DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试读取操作 cat /proc/cpuinfo …

[综合应用]dns nfs httpd php mysql

第一步&#xff1a;搭建三台主机 主机名称 Ip地址 角色 503A 192.168.68.10 Mysql从 503B 192.168.68.11 Mysql从&#xff0c;nfs服务端&#xff0c;dns服务端 503Cmysql 192.168.68.12 MySQL主&#xff0c;web客户端 第二步&#xff1a;在503B上配置DNS 2.1 下载…

【3dmax笔记】027:配置修改器集、工具栏自定义与加载

文章目录 一、配置修改器集二、自定义工具栏三、加载工具栏 一、配置修改器集 可以把自己常用的修改命令放到右边框中的部分&#xff0c;便于自己的操作&#xff0c;省去了每次都要花半天时间找命令的尴尬。新建一个二维或者三维物体&#xff0c;点击修改面板&#xff0c;点击…