etc
[통계 기초] 추정/데이터 탐색
유코피치
2025. 4. 1. 22:19
1. 위치 추정
- 평균, 중앙값이 대표적인 위치 추정 방법
- mean, median 함수 이용
2. 변이 추정
- 분산, 표준쳔사, 범위(range)등을 사용
- 범위 = 최대값 - 최소값 (범위 = np.max (data) - np.min(data))
- 분산 : np. Var(data)
- 표준편차: np.std(data)
3. 데이터 분포 탐색
- Histogram 이랑 막대그래프랑 다름!
- 예를 들어 학생들의 시험 점수 분포를 히스토그램과 box plot(상자 그래프)로 표현
4. 이진데이터와 범주 데이터
이진데이터 : 두 가지 값을 가짐! 예시) 0혹은 1, True or False 등
범주데이터(텍스트 들어가있음): 파이, 막대그래프.
숫자데이터 : 수치형 데이터 → 히스토그램 (구간을 정해서 개수를 세야할때)
5. 상관관계
데이터들끼리 서로 관련 있는거 확인하는 방법!
그래프: 산점도
-1 혹은 1에 가까울수록 강력한 상관관계
- 0.5 혹은 0.5 를 가지면 중간정도의 상관관계임
0 에 가까울수록 상관관계 없음.
상관관계 vs 인과관계
인과관계: 원인과 결과가 분명해야함
판다스의 데이터 프레임으로 바꿔주기! (Pd. Data frame (data)
Sns.pairpiot( )을 쓰면 서로간의 상관관계 다 보여줌 → 산점도 & 히스토그랭 그려줌
보통 0.7 정도 되면 강한 상관관계라고함.
728x90