기록 블로그
[TIL29] 본문
변동 계수 : 단위에 대한 제약 없이 데이터가 퍼져있는 정도를 볼 수 있음
막대 그래프 : 범주형 데이터
히스토그램 : 수치형 데이터
막대그래프의 종류가 따로 있는게 아니라 수치형 데이터의 막대그래프를 히스토그램이라고 따로 불러줌.
범주형 데이터는 문자열로 되어있는 데이터로 그 문자열을 수치로 나타내면(개 수) 수치형 데이터가 됨.
수치형 데이터의 막대그래프는 x축의 구간을 정함 (연봉이 100~200 사이에 있는 사람의 수)
정규 분포 : 데이터 수가 충분하다
(평균은 중앙값 / 표준 편차는 데이터의 퍼짐의 정도 / 표준 편차가 적어지면 그래프가 좁아짐)
스튜던트 t 분포 : 데이터 수가 작다
(표본 크기가 작음 / 모집단 표준편차를 모를 때 사용)
롱 테일 분포(파레토 분포) : 일부 데이터가 전체적으로 큰 영향을 미친다.
(꼬리 부분의 대부분의 데이터가 몰려있음 / 데이터 수가 많아도 정규 분포와 모양이 비슷하지 않음)
카이 제곱 분포 : 범주형 데이터의 독립성 검정이나 적합도 검정
이항 분포 : 결과가 두 개(성공 or 실패)만 나오는 상황
푸아송 분포 : 특정 시간, 공간에서 발생하는 사건
=>자유도(K, λ)가 높아질 수록 정규분포 그래프와 모양이 비슷함
np.random.normal
정규 분포에 따르는 난수 생성
표본 오차
표본에서 계산된 통계랑과 모집단의 진짜 값 간의 차이
표본 크기가 클수록 표본오차가 작아짐
신뢰구간
모집단의 특정 파라미터(예: 평균, 비율)의 값이 있을 거 같은 범위
신뢰구간=표본평균±z×표준오차
95%의 z=1.96
궁금증.
정규분포의 신뢰구간을 구하는데 왜 t 분포를 사용하지..
그리고 t 분포 식을 썼는데 왜 값이 다르게 나오지..
신뢰구간은 t분포에서만 사용하는 것인가.. 그건 아닐텐데....
파이썬 복습을 위해... 코드카타 풀었던 문제 다시 풀어보기..
1. 하루에 파이썬 알고리즘 3문제와 SQL 1문제 풀기 / vod 통계 강의
2. 금요일 전까지 sql 개인 과제 4~6번 다시 다시 풀어보기 제발제발 내일 안 하면 난 대머리고 못 자는 거임
3. 판다스 300제 5p
4. 시간 남으면 파이썬 개인과제와 판다스 개인과제 풀기
+ 확통, 데이터리안, 데이콘...
번호는 우선 순위임
sql WHERE 서브 쿼리 금요일까지 복습
데이터리안 보면서 도메인 고민하기... 매일 매일 하나씩 보면 좋은데... 30분~1시간 정도 투자
프로젝트를 얼마나 이해하고 있는지에 대해서 정리하여 메니져님 앞에서 브리핑
코드 정리랑... 뭐가 이해가 안 됐는지 정리.
오늘 졸리다고 집중을 못 함... ............................................................... 다시 하면 됨