-colab과 구글 드라이브 연동하기
-iris.csv가 생긴것을 확인 할 수 있다.
기초통계 개념
질적 변수 (Qualitative Variables)
특성
- 명목형 변수: 값들이 특정한 순서나 크기를 가지지 않는 변수입니다. 예: 성별(남/여), 혈액형(A/B/AB/O), 취미 등.
- 서열형 변수: 값들 간에 순서가 있지만, 그 차이를 정량적으로 측정할 수 없는 변수입니다. 예: 교육 수준(고졸/대졸/대학원졸), 고객 만족도(매우 불만족/불만족/보통/만족/매우 만족) 등.
적용 사례
- 시장 조사: 고객의 성별, 선호하는 브랜드, 만족도 조사 등.
- 의료 연구: 환자의 혈액형, 병의 종류, 증상의 유무 등.
- 사회 과학 연구: 사회적 계층, 교육 수준, 직업 유형 등.
양적 변수 (Quantitative Variables)
특성
- 이산형 변수: 셀 수 있는 값을 가지며, 주로 정수로 표현됩니다. 예: 학생 수, 사고 건수, 제품의 개수 등.
- 연속형 변수: 측정할 수 있는 값을 가지며, 무한히 많은 소수를 가질 수 있습니다. 예: 키, 몸무게, 온도, 시간 등.
적용 사례
- 경제 분석: 소득 수준, 물가 상승률, 주식 가격 등.
- 공학 및 물리학: 기계의 속도, 전류의 세기, 거리 등.
- 건강 및 피트니스: 체질량지수(BMI), 혈압, 운동 시간 등.
차이점
- 데이터 유형: 질적 변수는 범주형 데이터를 포함하고, 양적 변수는 수치 데이터를 포함합니다.
- 분석 방법: 질적 변수는 주로 빈도나 비율 분석에 사용되며, 양적 변수는 평균, 분산, 회귀 분석 등의 통계적 방법에 사용됩니다.
- 측정 수준: 질적 변수는 명목형 및 서열형 수준으로 측정되고, 양적 변수는 간격형 및 비율형 수준으로 측정됩니다.
예시를 통한 설명
- 질적 변수의 적용:
- 한 설문조사에서 고객의 성별(남/여), 거주 지역(도시/시골), 선호하는 제품 유형(전자 제품/의류/식품)을 조사할 때 질적 변수를 사용합니다.
- 양적 변수의 적용:
- 같은 설문조사에서 고객의 연령, 가구 소득, 한 달에 지출하는 평균 금액을 조사할 때 양적 변수를 사용합니다.
요약하자면, 질적 변수는 범주나 그룹을 나타낼 때 사용하고, 양적 변수는 수량이나 크기를 나타낼 때 사용됩니다. 각각의 변수는 연구 목적에 따라 적절하게 선택되고 분석되어야 합니다.
도수분표표 (Frequency Table)
- 일변량(변수1개) 범주형 자료를 정리하는데 있어 기본이 되는 표
분할표 (Contingency Table), 교차표 (Cross Tabulation)
- 2개 이상의 범주형 변수에 대해 교차시켜 빈도를 표시한 표
https://seunghan96.github.io/ml/latex/
Latex 문법 정리
Latex
seunghan96.github.io
데이터 시각화
-pyplot형식이 아닌 위와 같은 객체지향 방식으로 작성하길 추천
- matplotlib, seaborn, plotly중에서 메인을 정해서 집중적으로 공부하기
import matplotlib.pyplot as plt
dates = [
'2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05',
'2021-01-06', '2021-01-07', '2021-01-08', '2021-01-09', '2021-01-10'
]
min_temperature = [20.7, 17.9, 18.8, 14.6, 15.8, 15.8, 15.8, 17.4, 21.8, 20.0]
max_temperature = [34.7, 28.9, 31.8, 25.6, 28.8, 21.8, 22.8, 28.4, 30.8, 32.0]
#객체지향 형태로 문법을 시작하세요!
fig, ax = plt.subplots(figsize=(10,4))
ax.plot(dates, min_temperature, label = 'Min Temp')
ax.plot(dates, max_temperature, label = 'Max Temp')
ax.legend()
ax.set_xlabel('Date')
ax.set_ylabel('Temp')
ax.set_title('Weather')
plt.show()
- 데이터 시각화는 하나의 시각화에도 각각의 객체에 접근하여 수정하는 등 코드양이 엄청나다. matplotlib등의 메소드 중에 하나를 익히고 능숙해지자, 시각화는 가시성을 높일 수 있는 다양한 방법이 있음
import matplotlib.pyplot as plt
import seaborn as sns
iris = sns.load_dataset('iris')
fig, ax = plt.subplots(figsize=(10, 3))
sns.boxplot(data = iris, x = 'species', y = 'petal_width', ax = ax)
ax.set_title('Iris Dataset') #타이틀을 주는 코드를 확인할 것
ax.set_xlabel('Species') #x축 이름을 주는 코드를 확인할 것
ax.set_ylabel('Petal Width') #y축 이름을 주는 코드를 확인할 것
print(type(ax)) #seaborn을 이용해서 차트를 그렸는데 matplotlib으로 타입인 것임.(원리 확인할 것)
plt.show()
'한국경제 with toss' 카테고리의 다른 글
7/8 - streamlit (0) | 2024.07.08 |
---|---|
7/4 - 맷플롯립 기본 요소 (0) | 2024.07.04 |
7/2 - 크롤링 (0) | 2024.07.02 |
7/1 - 데이터 분석 기초(NumPy, Pandas) (0) | 2024.07.01 |
6/28 - 반복문, 함수, 가변 매개변수, class (0) | 2024.06.28 |