반응형

추출, 정제하기




빅데이터 분석을 하기 위한 과정 중 시간이 가장 많이 드는 과정이 어떤 과정일까요?


안타깝게도.. 데이터 분석을 하는 시간보다

데이터를 정제하는 시간이 더 많이 든다고 합니다!


더 좋은, 명확한, 유용한 결과를 추출하기 위해서죠!


데이터 정제시간을 줄이기 위해,

데이터의 품질을 높이기 위해

DB에서 미리 제약조건으로 데이터를 CONTROL 합니다!


제약조건이란?


테이블의 데이터를 구체화하는 규칙입니다.


출처: 타위키


<제약조건의 종류>


 

     1. PRIMARY KEY: 중복된 데이터와 null값이 입력되지 않게 막는다.

 

     2. UNIQUE: 중복된 데이터가 입력되지 않게 막는다.


     3. NOT NULL: null값이 입력되지 않게 막는다.


     4. CHECK: 미리 정의된 데이터만 입력되도록 막는다.


     5. FOREIGN KEY: 참조하는 컬럼에 거는 제약




<제약조건을 생성하는 시점>


1. 테이블이 생성되는 시점


2. 테이블 생성 후


주의!

테이블 생성후 제약조건을 사용하기 위해서는

기존에 존재하는 데이터 중 제약에 위반된 데이터가 없어야 합니다.




( 테이블 생성시 )


1. PRIMARY KEY 제약조건 주기


조건: 고객테이블을 생성하며

column은 고객번호, 고객이름, 나이, MOBILE, 주소로 만든다.

PK: 고객번호


      

     SQL1> CREATE TABLE 고객

              ( 고객번호  number(10) PRIMARY KEY,

                고객이름  varchar2(20),

                나이        number(3),

                mobile     varchar2(13),

                email       varchar2(20),

                주소        varchar2(40) );




(테이블 생성 후)


2. UNIQUE 제약조건 주기


조건: 고객테이블에서 mobile 컬럼에 unique 제약조건(customer_mobile_un)을 준다.



     SQL2> ALTER TABLE 고객

               ADD CONSTRAIN customer_mobile_un

               UNIQUE(mobile);

 



(테이블 생성 후)


3. NOT NULL 제약조건 주기


조건: 중요한 데이터로, 꼭 입력받아야하는 데이터인 고객이름에

not null제약조건(customer_cname_nn)을 준다.


 

      SQL3> ALTER TABLE 고객

                MODIFY 고객이름 CONSTRAIN

                customer_cname_nn NOT NULL;




(테이블 생성 후)


4. CHECK 제약조건 주기


조건: email에 @과 .을 포함하는 데이터만 입력 또는 수정되게 한다.

(customer_email_ck)



     SQL4> ALTER TABLE 고객

               ADD CONSTRAIN customer_email_ck

               CHECK (email LIKE '%@%.%');

 



(테이블 생성시 & 테이블 생성 후)


5. FOREIGN KEY 제약조건 주기


조건:  구매 테이블에는 고객번호, 구매품목, 갯수 COLUMN을 가진 구매 테이블을 만든다.

구매 테이블의 고객번호는 고객테이블의 고객번호를 참조한다.




     SQL5_1> CREATE TABLE 구매

                ( 고객번호  number(10),

                 구매품목  varchar2(30),

                 갯수        number(5) );


     SQL5_2> ALTER TABLE 구매

                 ADD CONSTRAIN order_cname_fk

                 FOREIGN KEY(고객번호) REFERENCES 고객(고객번호);

 



<제약조건 이름>


위에서 계속 제약조건의 이름을 지정하였습니다.

order_cname_fk와 같이 말이죠.


그 이유는

이 제약 조건을 나중에 필요가 없어서 제거(DROP)하거나

잠시 중지(DISABLE)시킬 때

제약조건 이름을 사용하기 때문입니다.

 

물론 제약조건의 이름을 주지 않은

고객번호와 같이 제약조건을 준 경우


ORACLE에서 자동으로 SYS_Cn형식으로 이름을 생성합니다.


제약 조건을 확인하는 방법도 있습니다.



     SQL> SELECT table_name, constraint_name, 

                        constraint_type, status

               FROM user_constraints

               WHERE table_name = '테이블명';

 


하지만 조금 귀찮겠죠..?



오늘은 여기까지!!


뿅!

반응형

'SQL' 카테고리의 다른 글

ORACLE | 인덱스 (INDEX)  (2) 2018.04.12
ORACLE | VIEW(뷰)  (0) 2018.04.11
ORACLE | MERGE문 (DML)  (0) 2018.04.09
ORACLE | 서브쿼리 2탄 - MULTIPLE COLUMN SUBQUERY  (0) 2018.04.06
ORACLE | 서브쿼리 1탄 - SINGLE / MULTI ROW SUBQUERY & EXISTS  (0) 2018.04.06
반응형




안녕하세요~ 오늘은 DML로 돌아왔습니다~



DML이란,

(DATA MANIPULATION LANGUAGE)


데이터 조작언어는 데이터베이스 사용자 또는 응용 프로그램 소프트웨어가 컴퓨터 데이터베이스에 대해 데이터 검색, 등록, 삭제, 갱신을 위한 데이터베이스 언어 또는 데이터베이스 언어 요소입니다.


출처: WIKIPEDIA


< DML의 종류 >



SELECT: DATA 검색


INSERT: DATA 삽입


UPDATE: DATA 갱신


DELETE: DATA 삭제


MERGE


 

오늘은 이 중 MERGE에 대해 알아보겠습니다.



MERGE, 섞다출처 _ booleanstrings.com



merge문


insert, update, delete를 한번에 수행하는 명령어 입니다.


(잘 사용할 줄 안다면 굉장히 편리하고 유용한 방법입니다!)



<예제를 위한 테이블>


[ 고객 테이블 ]


고객이름

 나이

  주소 

 총구매액

 추천인

 A

 24

 서울

 30000

 null

 B

 29

 서울

 10000

 A

 C

 26

 파주

 25000

 A

 D

 27

 제주

 1000

 B



[ 등급 테이블 ]


고객등급 

 최소구매액

 최대구매액

 1

 0

 9999

 2

 10000

 19999

 3

 20000

 30000




예제1.

고객이름, 총구매액, 등급을 새로운 고객_등급 테이블로 저장하고 싶습니다.




STEP1. 우선 고객테이블에서 필요한 데이터를 선택하여 서브쿼리를 이용해 새로운 TABLE인 고객_등급 테이블을 생성합니다. (CREATE문은 DDL입니다.)


STEP2. 고객_등급 테이블에 등급 컬럼을 추가합니다. ( ALTER문은 DDL입니다)


STEP3. MERGE를 이용해 고객_등급 테이블의 등급 테이블에 DATA를 UPDATE할 수 있습니다.



< 고객_등급 테이블 결과 >


 고객이름

 총구매액

 등급

 A

 30000

 3

 B

 10000

 2

 C

 25000

 3

 D

 1000

 1





< 이때 UPDATE대신 MERGE를 쓰는 이유! >


만약 고객_등급 테이블에 고객DATA가 약 100만 건이라면?



UPDATE문의 경우 DATA를 하나씩 대조하며 등급 DATA를 업데이트합니다.


100만건의 데이터를 모두 대조해보겠죠?


0.01초에 하나씩 검사를 진행한다고 해도 과연 .. 




MERGE문의 경우 DATA를 한번에 DATA를 업데이트합니다.


따라서 훨씬 빠르게 결과를 얻을 수 있습니다.

(참고로 index를 가진 데이터는 더욱 빠르답니다~)






예제2.

고객테이블에서 총구매액에 변화가 생기면 고객_등급 테이블을 자동적으로 UPDATE가 될까요?






예제3.

(MERGE를 이용해)

고객테이블의 총구매액의 변화를 고객_등급 테이블의 총구매액에 반영하고 싶습니다.




(설명)


합치겠다.


고객_등급 테이블과 고객 테이블과


ON 조건절로


MATCH된다면


SET과 같이 UPDATE하겠다




참고) group함수를 사용하는 경우에는

using절에서 서브쿼리로 사용할 수 있다.



오늘은 여기까지!


DML은 아주 기본적이고도 중요합니다!


특히 빅데이터 분석가를 꿈꾸는 저와 많은 응용 프로그래머들에게는 더더욱! 많이 사용하는 부분이지 않을까 싶습니다!


SELECT 문을 모르신다면 여기로!

반응형
반응형



안녕하세요~


오늘은 두 집합을 연결하는 또 다른 연산자 UNION에 대해 알아보겠습니다!


UNION은 위의 사진처럼 TABLES의 행(ROW)을 위 아래로 결합하는 것입니다.


더 자세히 알아볼까요?


집합 연산자란?


두 집합 사이의 합집합 , 교집합, 차집합을 출력하는 연산자 입니다.




그렇다면 JOIN과는 어떠한 차이점이 있을까요?



JOIN            VS           UNION



JOIN절은 위와같이 옆으로! COLUMN이 추가되며 합쳐지는 형태를 갖습니다.


반면에


UNION절은 위 - 아래로 하나의 COLUMN에 ROW가 추가되는 형태를 갖습니다.


(조인을 더 알고 싶다면 여기로)



먼저, UNION 절의 종류에 대해 알아봅시다!




      - UNION ALL: 두 집합의 합집합을 출력하는 연산자

  

      - UNION: 두 집합의 합집합을 출력하는 연산자.

                    (단 중복을 제거하여 반환)


      - INTEREST: 교집합을 출력하는 연산자

                       ( 양쪽 쿼리에 공통되는 행을 반환 )


      - MINUS: 두 집합 사이의 차집합을 출력하는 연산자로

                     첫번째 쿼리에 의해 선택되지만

                     두번째 쿼리 결과 집합에는 없는 모든 행을 반환



* 참고: 위에서 의미하는 집합이란 결과 데이터를 의미합니다.




예제를 통해 UNION절의 사용방법에 대해 알아보겠습니다.


[ 고객A 테이블 ]


고객이름

 나이

  주소 

 총구매액

 추천인

 A

 24

 서울

 30000

 null

 B

 29

 서울

 10000

 A

 C

 26

 파주

 25000

 A

 D

 27

 제주

 1000

 B




예제1. UNION ALL 과 UNION의 차이를 확인해보죠!



    

    SQL1> SELECT 고객이름

                         FROM 고객

              UNION ALL

              SELECT 고객이름

                         FROM 고객; 

 

    SQL2> SELECT 고객이름

                         FROM 고객

              UNION

              SELECT 고객이름

                         FROM 고객; 





SQL1 UNION ALL 결과

 고객이름

 A

 B

 C

 D

 A

 B

 C

 D



SQL2 UNION 결과


 고객이름

 A

 B

 C

 D



참고:


INTEREST 와 MINUS 연산자의 경우

위의 UNION ALL/ UNION 자리에 입력하여 결과를 확인하면

쉽게 이해하실 수 있을 것 같아서 PASS!



집합연산자 사용시 주의사항


1. 집합 연산자 위-아래의 쿼리문의 컬럼의 갯수와 데이터 타입이 동일해야한다.


2. ORDER BY절은 맨 아래 쿼리에만 사용할 수 있으며

ORDER BY절을 사용하려면 쿼리문들의 컬럼명과 데이터 타입이 모두 동일해야합니다!

( 특히 SELECT 문에서 NULL값을 두개 이상 사용할 경우!

ALIAS로 COLUMN명을 동일하게 만들어준다!! )





두번째! UNION 절과 함께 알아두면 좋은~

레포팅 함수에 대해 알려드릴께요!



<레포팅함수 종류>


 

       - ROLLUP


       - CUBE


       - GROUPING SETS


       - GROUPING (여기서 다루지 않음)

                        : (리얼) Null ( --> 0)

                           grouping되는 결과를 보기위해

                          어쩔수 없이 null 출력되는 데이터( --> 1 )를

                   구분해 주기 위해서 사용하는 함수





예제2: 주소, 나이, 주소별 & 나이별 고객의 총 구매액을 구하고

마지막에 전체 고객의 총 구매액을 추가해주세요



        

     -- UNION 절


      SQL3> SELECT 주소, 나이, SUM(총구매액)

                            FROM 고객

                            GROUP BY 주소, 나이

                UNION

                SELECT NULL  주소, NULL 나이, SUM(총구매액)

                            FROM 고객

                ORDER BY 주소 ASC;


     -- ROLLUP절

 

     SQL4> SELECT 주소, 나이, SUM(총구매액)

                           FROM 고객

                           GROUP BY ROLLUP ( (주소, 나이) );




SQL3 & SQL4의 결과


주소

 나이

 SUM(총구매액)

 서울

 24

 30000

 서울

 29

 10000

 제주

 27

 1000

 파주

 26

 25000

 null

 null

 30000+10000+1000+25000



위와 같이 두개의 SQL문이 실행되야하는 UNION절

하나의 SQL문이 실행되는 ROLLUP으로 대신 사용하면

속도가 보다 빨라지기 때문에 성능이 더 좋다고 할 수 있겠죠?



위의 SQL2문에서 ROLLUP함수에 ( ( ) ) 두 개의 괄호가 있는 것을 눈치 채셨나요?


만약 괄호를 ( ) 한 개만 사용한다면 어떻게 될까요?



     -- ROLLUP절

 

     SQL5> SELECT 주소, 나이, SUM(총구매액)

                         FROM 고객

                         GROUP BY ROLLUP ( 주소, 나이 );



SQL5 결과


주소 

 나이

 SUM(총구매액)

 서울

 24

 30000

 서울

 29

 10000

 서울                  

 null                    

 30000 + 10000                

 제주

 27

 1000

 제주                  

 null                    

 1000                             

 파주

 26

 25000

 파주                  

 null                    

 25000                           

 null

 null

 30000+10000+1000+25000



위의 색칠되어있는 부분이 추가된 것을 볼 수 있습니다.


이것은 ROLLUP의 특징인데요



'SQL5의 실행 순서'를 보면


1. (주소, 나이)로 그룹핑하여 총합을 구한다


2. (주소)로 그룹핑하여 총합을 구한다


3. (체) 총합을 구한다



위의 SQL4, SQL5결과를 각각 GROUP SETS로 실행시켜봅시다!


 

       -- SQL4를 GROUP SETS로       


      SQL6> SELECT 주소, 나이, SUM(총구매액)

                          FROM 고객

                          GROUP BY GROUP SETS ( (주소, 나이),

                                                                        ( ) );

 

        -- SQL5를 GROUP SETS로      

       

      SQL7> SELECT 주소, 나이, SUM(총구매액)

                         FROM 고객

                         GROUP BY GROUP SETS ( (주소, 나이),

                                                                    (주소),

                                                                      ( ) );




따라서


GROUP SETS는 ROLLUP보다 GROUPING된 결과를 더 잘 예상할 수 있어 작성하기도 편하답니다! 



참고:


 CUBE는 간단히 ROLLUP의 반대라고 생각하면 됩니다!


예제2와 달리 총구매액이 맨 위로 출력됩니다!





오늘은 여기까지!


내일은 서브쿼리로 돌아올겠습니다~



(오늘이 금요일이 아니라니..)

반응형
반응형


오늘은~ JOIN절 2탄!


1탄은 ORACLE | JOIN을 사용하는 오라클만의 방법! 에 있습니다~



JOIN은 기본적으로 위의 퍼즐같이 두개 이상의 테이블의 컬럼을 합쳐서

하나의 테이블처럼 사용하는 방법입니다.


그럼~ 차근차근 따라가 볼까요?



오라클 조인 문법과 1999 ANSI 조인 문법을 모두 이용하여 문제를 풀어보겠습니다.



[ 고객 테이블 ]


고객이름

 나이

  주소 

 총구매액

 추천인

 A

 24

 서울

 30000

 null

 B

 29

 서울

 10000

 A

 C

 26

 파주

 25000

 A

 D

 27

 제주

 1000

 B



[ 주소 테이블 ]


주소 

 관할부서

 서울

 한국 A

 일산

 한국 B

 파주

 한국 C

 제주

 한국 D



[ 등급 테이블 ]


고객등급 

 최소구매액

 최대구매액

 1

 0

 9999

 2

 10000

 19999

 3

 20000

 30000




문제1. 고객 이름, 관할부서, 고객등급을 출력하시오





결과


 고객이름

 관할부서

 고객등급

 A

 한국 A

 3

 B

 한국 A

 2

 C

 한국 C

 3

 D

 한국 D

 1




중요!


TABLE이 3개일 경우 연결고리는 2 ( = 3 - 1) 개 입니다.



오라클 조인 문법에서 JOIN절의 WHERE절은 '조인 조건'으로 사용됩니다.



여기서 주의해야할 점은 1999 ANSI문법의 경우 양쪽에 연결고리가 있는 테이블명을 먼저 작성해야합니다.


또한, 1999 ANSI문법의 경우 오라클 문법과 달리 WHERE절은 그저 '검색 조건' 입니다.


따라서 JOIN절에서 조인 조건을 주기 위해서는 ON절을 사용하여 '조인 조건'을 줄 수 있습니다.




오라클 Database에서는 어떠한 문법을 사용하여도 문제가 없습니다.


하지만,


1999 ANSI 문법의 경우 '조인 조건' ON과 '검색 조건' WHERE이 별개로 구분되어 있기 때문에

보다 가독성이 좋다고 하네요~




추가) using절을 사용한 조인과 natural join



위의 정답 문법을 각각 using 절과 natural join으로 바꾼 SQL문을 먼저 확인하시죠.



 

       SQL> SELECT c.고객이름, a.관할부서, g.고객등급

FROM 고객 c JOIN 주소 a

USING ( 주소 )  

JOIN 등급 g

ON ( c.총구매액 BETWEEN 최소구매액 AND 최대구매액 );





 

       SQL> SELECT c.고객이름, a.관할부서, g.고객등급

FROM 고객 c NATURAL JOIN 주소 a

 JOIN 등급 g

ON ( c.총구매액 BETWEEN 최소구매액 AND 최대구매액 );





먼저 using절에서 주의사항이 있습니다.


 using절에서는 테이블 별칭 즉, c.주소 or a.주소를 사용하지 않습니다.



natural join의 경우 오라클이 알아서 고객 table과 주소 table의 공통의 컬럼(column)을 찾아서 조인을 합니다!


natural join에서 주의할 점은

공통 컬럼이 없는 경우 or data type이 다른 경우 오류가 발생한다는 것입니다.


(참고: data type을 모른다면 여기!)




오늘은 여기까지


내일은 집합 연산자 union으로 돌아올겠습니다!



이 글이 도움되셨다면 아래 공감 꾹~ 



반응형

+ Recent posts