목록분류 전체보기 (38)
기록 블로그

1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기)1. 계산된 수치를 소수점 자리에 계산- 텍스트의 서식 클릭 -> 숫자(사용자 지정) 클릭 후 원하는 자리수 지정 2. Scatter Plot을 그리고 싶으면 행과 열 모두 차원으로 변경- 그래프에 다른 지표를 첨가하고 싶으면 분석탭에서 가능- 평균과 같은 라인 지표를 표시하는 글을 수정하고 싶으면 글을 더블 클릭, 우클릭 -> 레이블에서 원하는 값 선택 혹은 사용자 지정. 3. 지역별로 그래프에 색을 표시 했기 때문에 추세선을 그리면 여러갈래가 나옴.- 추세선 하나를 우클릭 하고 모든 추세선 편집하기에 들어가서 확인 후 조건을 지워줌 4. 대시보드에서 필터를 새롭게 추가 하고 싶..

1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기) 1. 태블로 csv 넣을 때 문제가 생겼음=> 파일을 여러개 선택해서 넣으면 하나의 파일로 묶어서 들어가는 것 같음. 데이터 원본에서 컬럼을 수정하고 싶으면 하나씩 넣는게 좋음.=> 파일 끼리 연결하고 싶으면 데이터 원본에서 + 누르기 2. 실행 순서와 행과 열 카운트인지 차원인지 설정하는게 중요함... 아직 이 부분이 많이 헷갈림. 레이블도 그 컬럼에 존재하는 값이면 마크 레이블 표시로 볼 수 있음. 3. 강사님이 자꾸 ctrl을 누르라고 하시는데 윈도우에서(정확히 이 차이인지는 모르겠음) 오른쪽 버튼.. 배경 제거 등등 오른쪽 버튼 눌러서 나오는 창으로 해결 가능!더보기아직 ..

1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기) EDA각 컬럼의 특성을 파악하고 주제에 맞는 기준을 선정하기 위해서 데이터에 들어 있는 노래들을 확인해 봄.이때 감정에 따른 상황에 맞춰 음악 알고리즘을 만들고 싶었음. 하나의 주제에 맞게 군집화를 하면 다른 부분들도 해결 된다고 이해하고 있었음. 이상치 확인기술적 통계더보기주요 컬럼 박스 플롯더보기각 이상치가 존재하는 데이터의 노래를 들어보고 뺄지 말지 확인.이상치가 많기 때문에 다시 스케일링 할 필요가 있어보이는데 고민해보기duration_ms를 duration_mm으로 변환 더보기def mm(x): a = x//60000 b = str(x%60000)[0:2] ..
1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기)회귀 특강 정리프로젝트에서 사용한 모델에 대해서는 명확하게 알고 있어야 함.이진 분류 다항 분류 할 때 많이 사용 됨 : 로지스틱 회귀과적합 : 너무 잘 데이터를 배움언더샘플링을 할 때 : 데이터가 엄청 많을 때(데이터를 날려도 될 때)장점 : 예측하고 싶은 비정상적인 패턴을 안 건들여도 됨/원본 그대로 가지고 예측 가능오버샘플링 : 소수의 클래스를 증가장점 : 데이터가 많이 없는 경우에도 사용 가능단점 : 비정상 데이터를 조작하기 때문에 이 조작한 데이터가 비정상(사실)인지 아닌지 확실하지 않음정확도, 정밀도, 재현율 공식 확인해보기정확도와 정밀도의 차이정확도는 전체 확율 그냥 모..
1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기)QCC내가 푼 방법. 문제 1)지역별로 매출이 가장 높은 매장의 매출을 조회하는 SQL 문을 작성해주세요. 단, 해당 지역에 매장이 두 개 이상인 경우만 결과에 포함해주세요. 결과는 지역 이름을 기준으로 오름차순으로 정렬해주세요.SELECT region_name, salesFROM ( SELECT *, ROW_NUMBER()over PARTITION BY REGION_NAME ORDER BY sales DESC) AS num_sales, count(*)over(PARTITION BY region_name) AS cnt FROM stores s ) bWHERE num..
1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기) 어떤 문제가 있었는지변동계수 뭔지 모르겠었음ㅋㅋ모집단의 표준편차, 표본 크기, 표본 평균, 신뢰 수준이 주어졌을 때의 신뢰구간을 구하는 문제.이 문제에서 표본크기가 25여서 t 검정을 사용해야 된다고 생각했음.계산한 결과값을 어떻게 담아내야하는지 모르겠었음.카이제곱검정을 이용하여 해드라인별 클릭률이 얼마나 차이가 있는지 확인하는 문제.이때 데이터를 어떻게 나눠야할지 몰랐음. 기준이 되는 데이터가 있다고 생각함.이때 갑자기 통계량이라는 개념이 헷갈림시각화를 어떻게 해야할지 아예 감도 오질 않았음...데이터를 생성할 때 np을 써야할지, stats을 써야할지 헷갈림내가 시도해 본 것들..

1. 어떤 문제가 있었는지2. 내가 시도해 본 것들(자세히 쓰기)3. 어떻게 해결했는지4. 뭘 새롭게 알았는지(자세히 쓰기) 어떤 문제가 있었는지1. 프로그래머스 SQL 76번에서 문제를 잘못 이해해서 첨부터 다시 풀었지만. 해결하지 못했음.ON과 WHERE의 차이를 정확하게 이해하지 못함2. 통계 가설 검정 걍 이해 자체를 못했음. 또 회귀 분석? 이해 못했음3. 오늘 문제는 아니지만 프로그래머스 파이썬 20번 마지막 return을 내가 원하는 값으로 어떻게 해야할지 모르겠었음.4. 뭔가 또 많이 몰랐는데 아.... 진짜 이제 열심히 써야겠음.. 내가 시도해 본 것들USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원..
변동 계수 : 단위에 대한 제약 없이 데이터가 퍼져있는 정도를 볼 수 있음 막대 그래프 : 범주형 데이터히스토그램 : 수치형 데이터막대그래프의 종류가 따로 있는게 아니라 수치형 데이터의 막대그래프를 히스토그램이라고 따로 불러줌.범주형 데이터는 문자열로 되어있는 데이터로 그 문자열을 수치로 나타내면(개 수) 수치형 데이터가 됨.수치형 데이터의 막대그래프는 x축의 구간을 정함 (연봉이 100~200 사이에 있는 사람의 수) 정규 분포 : 데이터 수가 충분하다(평균은 중앙값 / 표준 편차는 데이터의 퍼짐의 정도 / 표준 편차가 적어지면 그래프가 좁아짐) 스튜던트 t 분포 : 데이터 수가 작다(표본 크기가 작음 / 모집단 표준편차를 모를 때 사용) 롱 테일 분포(파레토 분포) : 일부 데이터가 전체적으로 큰 ..