-
클라우드 api를 활용한 빅데이터 분석 -공용준지음을 보고 공부한내용
빅쿼리란?
12년 3월 구글은 기존의 DB서비스인 google cloud sql외에 빅데이터 분석 플랫폼 big query(https://developers.google.com/biquery) 서비스를 출시하였다온라인 분석처리 (OLAP:Online Analytical Processing)에 적합하도록 개발된 서비스
특징
1.수십억개의 대규모 데이터 셋에 대해 sql 쿼리를 실행
2.대규모 추가 전용 테이블에서 대화시으로 분석하는데 적합
3.사용자의 데이터를 빅쿼리 전용 테이블에 올리기만 하면 되고, 구글 서비스 내부적으로 데이터를 빅쿼리에 적합하게 조절
특징
설명
속도
수십억개의 행을 몇 초만에 분석
규모
조 단위의 레코드를 포함하는 테라바이트 크기의 데이터 지원
단순성
sql 유사쿼리
공유
구글계정으로 그룹,사용자기반 권한 제공
보안
보안 ssl엑세스
엑세스 방법
빅쿼리 브라우저,bq커멘드라인 툴,rest api, goolge 스크립트
그러나..
데이터베이스 시스템이 아니기때문에 아래와 같은 특징을 지님
테이블 색인이나 그 밖의 db관리 기능을 지원하지 않음
서브쿼리를 지원하지만 이를 통한 업데이트,삭제 불가능
조인을 지원하지만 한쪽 조인이 다른쪽 조인보다 훨씬 작을 경우에만 가능
oltp 기능 없음
1) OLTP: On-Line Transaction Processing (데이터 갱신위주)
네트워크 상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위작업을 처리하는 방식
sql 클라이언트대신 rest api로 접근가능
드러멜(Dremel)
- 구글에서 개발한 데이터 분석 프레임워크
- 빅쿼리는 이를 외부서비스로 노출한것
- 인덱스가 생성되지 않은 데이터에 대해 아주빠른 full scan을 통해 빠른 결과 탐색 가능
- 컬럼 기반 스토리지와 쿼리의 분산과 조합에 트리구조를 사용
1)컬럼기반 스토리지-레코드를 컬럽 값에 따라 나눈 다음 이 값을 각기 다른 스토리지 볼륨에 저장 : 트래픽 최소화,높은 압축비-하지만 업데이트시 각 볼륨에 접근해야하므로 비효율적으로 업데이트를 제공하지 않아 순수 읽기 작업에 효율적2)트리구조
-사용자가 쿼리를 드러멜에 보내면 드러멜은 사용자가 선택한 테이블을 구성하는 태블릿(테이블을 구성하는 조각들)을 파악
-파악한 뒤 쿼리를 재생성하고 태블릿별로 구분지어서 쿼리를 수행
-아래의 구조대로 계속 레벨을 낮춰가며 끝단서버까지 수행한 후 다시 클라이언트에게 결과를 보낼 때 맵리듀스 사용
-맵리듀스는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크
'2017년 > Google Platform' 카테고리의 다른 글
구글 플랫폼ml을 써보자 1부 (0) 2017.06.27 구글 프레딕션 api (0) 2017.06.24 빅쿼리 사용하기[커멘드라인툴:CLI] (0) 2017.06.24 빅쿼리 사용하기 [브라우저] (0) 2017.06.24 google platform datalab의 설치와 실행 (0) 2017.06.23