(데이터 분석 입문) – Takahiro Ezaki/Mingyu Son

(데이터 분석 입문) – Takahiro Ezaki/Mingyu Son

– 중심 극한 정리
: 확률변수의 값이 더해질수록 합의 확률분포가 정규분포에 가까워짐(임의의 요소를 여러 개 더한 경우)

– 큰 수의 법칙
: 측정횟수가 증가할수록 표본평균이 참값에 가까워짐

– 무작위 응답 방식
: 예/아니오로 대답하기 어려운 질문에 대한 실제 비율 추정
: 동전을 통해 앞면은 무조건 ‘yes’, 뒷면은 원하는 대답 ‘yes/no’로 답한다.
: 솔직하게 답변해야 하는 심리적 부담을 줄여줍니다. 응답자가 적으면 사용하기 어려움

– 회귀 불연속 설계
: 쿠폰을 받은 사람(헤비유저)과 받지 않은 사람의 차년도 서비스 이용량 비교
: 헤비유저를 판단하는 서비스 이용금액을 x축으로 설정하고, y는 차년도 서비스 이용금액
: 쿠폰 분포 기준을 살펴보면 그룹별로 회귀 결과가 다른 경우 쿠폰 효과로 볼 수 있다.

– 성향점수매칭 (굿유즈X)
: 흡연 여부가 건강에 영향을 미치는지 확인하고 싶은 경우, 다른 음주 습관 등에 의한 것일 수 있습니다.
: 1) 담배피는 어부를 기타 요인으로 모델링(ex logistic regression)
: 주어진 다른 요인에 따라 그 사람이 흡연할 것으로 예상되는 양
2) 이 성향점수를 이용하여 2개의 분석군을 생성한다.
: 성향 점수가 가까운 사람들을 매칭하여 2개의 분석 대상 그룹에 포함
3) 이 데이터만 사용

– 기하 분포: 동전을 반복해서 던질 때(p의 확률로 앞면이 나올 때) k번째에 첫 번째 앞면이 나올 확률. 성공할 때까지 실행을 반복하는 프로세스에서 자주 발생
– 이항 분포: 동전을 여러 번 던졌을 때 앞면이 k번 나올 확률. 작은 샘플 크기로 샘플링할 때 나타납니다. n이 커질수록 정규분포에 가까워지는 경향이 있습니다.
– 음이항 분포: 앞면이 k 번 뒤집혔을 때 뒷면이 r 번 나올 확률. 성공할 때까지 시도를 여러 번 반복하는 프로세스에서 자주 나타납니다.
– 푸아송 분포: 특정 시점에서 발생하는 사건(독립적)이 일정 기간 내에 발생하는 횟수의 분포. 하루 수신 메일 수 또는 분당 웹 서버 연결 수
– 지수 분포: 임의의 시점에서 발생하는 이벤트의 시간 간격을 따르는 분포. 특정 메일 수신과 다른 메일 수신 사이의 시간 또는 마지막 두 번의 웹 서버 액세스 사이의 간격
– 감마 분포: 임의의 시점에서 발생하는 이벤트가 발생할 때까지의 시간을 따르는 분포 a. 여러 시스템에서 발생하는 이벤트 데이터에서 자주 발생합니다. 고장 발생 분포 등 a=1일 때 지수 분포

– 꼬리가 두꺼운 분포
: 로그정규분포
: 무시할 수 없는 확률로 매우 큰 값이 발생하는 분포를 표현할 수 있음
: 임의의 곱셈 과정이 있는 경우 대수정규분포일 수 있음
:
: 파레토 분포
: 부담금 분배
: Weibull 분포(weibull dist)
: 평균과 분산이 존재하지 않아 분석에 사용할 수 없는 경우가 있습니다.

– 시계열 데이터
1) 주기적인 성분의 분리 : 주기별 차액 계산 (매주 반복되는 경우 지난주 일요일과 이번주 일요일 매출차이 계산)
2) 자기상관: 과거의 가치가 미래의 가치에 얼마나 영향을 미치는지를 정량화하는 방법
: 해당 기간에 대한 상관도 계산 (1주일 주기 – 7일 간격의 값으로 상관도 표현)

-t 테스트
1) 관측값의 분포를 정규분포로 볼 수 있는지 검토
: Mann-Whitney U 검정: 정규분포와 다른 경우(작은 표본 크기 또는 두꺼운 데이터 꼬리가 있는 분포)
2) 정규성을 만족하면 두 집단의 분산이 같은지(Equal variance) 확인
: F-test: 분산에 차이가 있는지 검사
-> 등분산 가정: Student’s t test
-> 등분산을 가정할 수 없음: Welch의 t 검정

– 상관관계는 없으나 우연히 상관계수가 높은 경우 상관계수 r = 0(관계 없음)을 귀무가설로 설정하고 가설 검증

– tukey 방법: 여러 쌍의 평균값 차이를 비교

– 분산 분석
1) ANOVA를 통해 요인에 의한 영향이 있는지 확인
2) 다중비교 검정으로 어떤 집단이 다른지 조사

– 요인분석, 주성분분석
: 요인분석 : 변수 뒤에 숨은 잠재변수를 찾아 분석 및 분석
: 주성분 분석 : 데이터 압축 표현
– 클러스터 분석
: 비계층적 클러스터링(단순히 그룹으로 나누기)
: k-means: 각 그룹의 중심점에서 각 그룹에 포함된 관측값까지의 거리를 최소화하는 분류 방법
: Gaussian Mixture Model : 각각의 그룹이 정규분포(다차원)로부터 데이터를 생성한다고 가정하여 데이터를 군집화하기 위한 확률분포를 계산

: 계층적 클러스터링
: 면밀한 관찰을 병합하는 작업
: 덴드로그램

– y는 양적 / x는 범주 : ANOVA/다중비교분석, 설명수를 더미변수로 하여 회귀분석
– x와 y가 모두 범주형: 크로스 테이블로 카이제곱 검정을 수행하면 로지스틱도 가능