Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Tags
more
Archives
Today
Total
관리 메뉴

기록 블로그

[TIL29] 본문

카테고리 없음

[TIL29]

LHJ_ 2025. 1. 7. 22:16

변동 계수 : 단위에 대한 제약 없이 데이터가 퍼져있는 정도를 볼 수 있음

 

막대 그래프 : 범주형 데이터

히스토그램 : 수치형 데이터

막대그래프의 종류가 따로 있는게 아니라 수치형 데이터의 막대그래프를 히스토그램이라고 따로 불러줌.

범주형 데이터는 문자열로 되어있는 데이터로 그 문자열을 수치로 나타내면(개 수) 수치형 데이터가 됨.

수치형 데이터의 막대그래프는 x축의 구간을 정함 (연봉이 100~200 사이에 있는 사람의 수)

 

 

정규 분포 : 데이터 수가 충분하다

(평균은 중앙값 / 표준 편차는 데이터의 퍼짐의 정도 / 표준 편차가 적어지면 그래프가 좁아짐)

 

스튜던트 t 분포 : 데이터 수가 작다

(표본 크기가 작음 / 모집단 표준편차를 모를 때 사용)

 

롱 테일 분포(파레토 분포) : 일부 데이터가 전체적으로 큰 영향을 미친다.

(꼬리 부분의 대부분의 데이터가 몰려있음 / 데이터 수가 많아도 정규 분포와 모양이 비슷하지 않음)

 

카이 제곱 분포 : 범주형 데이터의 독립성 검정이나 적합도 검정

 

이항 분포 : 결과가 두 개(성공 or 실패)만 나오는 상황

 

푸아송 분포 : 특정 시간, 공간에서 발생하는 사건

=>자유도(K, λ)가 높아질 수록 정규분포 그래프와 모양이 비슷함

 

 

 

np.random.normal

정규 분포에 따르는 난수 생성

 

표본 오차

표본에서 계산된 통계랑과 모집단의 진짜 값 간의 차이

표본 크기가 클수록 표본오차가 작아짐

 

신뢰구간

모집단의 특정 파라미터(예: 평균, 비율)의 값이 있을 거 같은 범위

신뢰구간=표본평균±z×표준오차

95%의 z=1.96

 

 

궁금증.

정규분포의 신뢰구간을 구하는데 왜 t 분포를 사용하지..

그리고 t 분포 식을 썼는데 왜 값이 다르게 나오지..

신뢰구간은 t분포에서만 사용하는 것인가.. 그건 아닐텐데....

 

더보기

파이썬 복습을 위해... 코드카타 풀었던 문제 다시 풀어보기..

1. 하루에 파이썬 알고리즘 3문제와 SQL 1문제 풀기 / vod 통계 강의

2. 금요일 전까지 sql 개인 과제 4~6번 다시 다시 풀어보기 제발제발 내일 안 하면 난 대머리고 못 자는 거임

3. 판다스 300제 5p

4. 시간 남으면 파이썬 개인과제와 판다스 개인과제 풀기

+ 확통, 데이터리안, 데이콘...

 

번호는 우선 순위임

 

sql WHERE 서브 쿼리 금요일까지 복습

데이터리안 보면서 도메인 고민하기... 매일 매일 하나씩 보면 좋은데... 30분~1시간 정도 투자

 

프로젝트를 얼마나 이해하고 있는지에 대해서 정리하여 메니져님 앞에서 브리핑

코드 정리랑... 뭐가 이해가 안 됐는지 정리.

 

 

오늘 졸리다고 집중을 못 함... ............................................................... 다시 하면 됨