数据类型与分布式存储

发布时间:2020-05-25 13:23:30 作者:逐梦小涛
来源:网络 阅读:1219

数据类型与分布式存储

================================================================================

概述:


================================================================================

数据类型

 1.结构化数据

定义:

 2.非结构化数据

定义及作用:

 3.半结构化数据

定义及作用:

  4.数据模型

CAP理论(一致性、可用性、分区容错性)

 CAP理论在互联网界有着广泛的知名度,知识稍微宽泛一点的工程师都会把其作为衡量系统设计的准则。大家都非常清楚地理解了CAP:任何分布式系统在可用性、一致性、分区容错性方面,不能兼得,最多只能得其二,因此,任何分布式系统的设计只是在三者中的不同取舍而已

定义及作用:

高可用、数据一致是很多系统设计的目标,但是分区又是不可避免的事情

CA without P:

CP without A:

AP wihtout C:

分布式存储技术及应用

 1.海量数据的关键环节及面临的挑战

大数据下的关键环节:

海量数据的生成

海量数据应用

海量数据的管理

大数据带来的挑战

 2.大数据如何存储

   根据did you know(http://didyouknow.org/)的数据,目前互联网上可访问的信息数量接近1秭= 1百万亿亿 (1024)。毫无疑问,各个大型网站也都存储着海量的数据,这些海量的数据如何有效存储,是每个大型网站的架构师必须要解决的问题。分布式存储技术就是为了解决这个问题而发展起来的技术.

传统存储问题:

如:NFS图片存储会遇到带宽、存储空间、请求并发等问题

分布式存储的概念:

分布式存储系统的特性:

可扩展(Scalable)

可靠性(Reliable)

低成本(Cheap)

易用

分布式存储的机制分类:

通用分布式存储:

专用分布式存储:

分布式存储的挑战

分布式存储的核心点

存储一般分为两种类型:

集中式:

分布式 :

分布式存储和分布式文件系统:

分布式存储文件系统的常见实现

Google Filesystem

GFS擅长处理单个大文件

GFS+MapReduce (编程模型-运行框架-API)可以实现程序切割到多节点运行,实现分布式处理

Hadoop Distributed Filesystem

根据GFS思想开发的,擅长处理单个大文件

ClusterFS擅长处理单个大文件
Taobao Filesystem淘宝开源的文件系统,擅长处理海量小文件,适用于大规模场景。
MogileFS是一个高性能的分布式存储,擅长处理海量小文件
Ceph是一个 Linux PB级别的分布式文件系统,测试中
MooseFS分布式文件系统,兼容POSIX(FUSE),可以直接挂载使用,当节点多,并发量大环境中,可扩展性差,性能一般。
Lustre一种平行分布式文件系统

 3.具体技术及应用

  -海量的数据按照结构化程度来分,可以大致分为结构化数据,非结构化数据,半结构化数据

结构化数据的存储及应用

定义:

存储:

垂直扩展:

水平扩展:

垂直扩展与水平扩展各有优缺点,一般一个大型系统会将水平与垂直扩展结合使用。

非结构化存储及应用

定义:

存储:分布式存储

分布式文件系统是实现非结构化数据存储的主要技术,

    ·API(php,java,perl,python)

半结构化存储及应用

定义:

存储:NoSQL 数据库


推荐阅读:
  1. PostgreSQL 10数据类型与索引
  2. 分布式存储ceph

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

数据类型 分布式存储 数据类

上一篇:Oracle大裁员:为什么中国区此次裁员中受打击最严重?

下一篇:phabricator 客户端使用文档

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》