-
HBASE란 무엇일까? http://hbase.apache.org
구글의 빅 테이블을 모델로 하여 개발된 분산음 컬럼 기반 nosql 데이터베이스
-구글의 빅 테이블이란?
구글 클라우드 서비스며 기업용 구글 클라우드 서비스
-분산 컬럼 기반 데이터베이스?
-최근에 인기가 있는 데이터베이스
-오라클이나 일반 rdbms에서 row단위로 데이터를 저장했다면 hbase는 컬럼단위로 데이터를 저장
-로우단위? 컬럼단위?
1)로우 단위 : 레코드 단위로 데이터에 작업 가능 , 압축 효율이 상대적으로 낮음
ex.오라클,DB2와 같은 일반 rdbms
이름
홍길동
성별
남자
직업
모름
2)컬럼 단위 : 동일한 컬럼에 대해 대량으로 데이터를 처리할 때 적합 , 압축 효율이 상대적으로 높음
ex.hanan,hbase와 같은 분석용 rdbms
이름
홍길동
이름
임꺽정
이름
김철수
-왜 굳이 컬럼단위로 데이터를 저장할까?
특정 쿼리에 대해서는 로우의 모든 데이터가 필요하지 않다는 가정에 기반하는데 분석용rdbms에서 이런 경우가 자주발생해서
분석용rdbms에서 사용
-nosql? ( not only sql )
...이건 다음번에 더 자세하게 알아보자 일단은 관계형 데이터베이스가 아닌 다른형태의 데이터 저장 기술을 의미한다고 알아두자
왜 쓰는거야??
-대용량의 데이터를 안정적으로 다루는데에 효과적
-중앙에 전체 분산 시스템을 통제하는 마스터를 두고 전체 데이터의 일관성을 관리 ---> 복제 데이터 사이의 일관성 보장
-대량의 데이터 분석 처리 지원에 적합
-hdfs, mapreduce등과 함께 사용하기에 최적화
언제 쓸까?
-데이터 일관성을 보장하기 위해 사용하거나 분석등의 용도로 사용 (ex.facebook,ebay,adobe..etc)
-hadoop을 사용하여 대량 데이터를 분석해야 하는 경우
-대규모 sns서비스의 주 스토리지로 이용
어떻게 생겼어?
장점
-region 서버만 추가하면 성능을 유지할 수 있음
-fail over가 쉽고 관리가 용이함
-mapreduce input용으로 사용
단점
-특정 region서버에 특정 table의 region이 집중되기 쉬워서 성능저하로 이어짐
-적절한 세팅을 위한 조건자료가 있으나 클러스트 규모나 기본 스팩차이가 있어 적용을 바로하기 힘듬
출처 url
http://www.dbguide.net/index.db
http://blog.naver.com/PostView.nhn?blogId=samuelc&logNo=20186928327
위지원데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨
'2017년 > Database' 카테고리의 다른 글
ggplot에 대해 알아보자 (0) 2017.08.04 R이란? 2부 (0) 2017.08.02 R이란? (0) 2017.07.12 ORM에 대해 알아보자 (1) 2017.07.07 DB Browser for SQLite (0) 2017.07.05