TIL/전처리, 시각화 5

전처리 <그룹 내 데이터 최빈값으로 대체하기>

결측치를 채우는 전처리는 해보았는데, null값이 없는 컬럼의 이상치를 그룹 내 최빈값으로 대체하는 과정은 처음이었다.많이 쓸 것 같아서 기억하려고 가져왔다.df['연간 소득'] = df['연간 소득'].str.replace('_', '') df['연간 소득'] = df['연간 소득'].astype(float) df['연간 소득'] = df['연간 소득'].astype(int) [연간 소득] 컬럼이 object형이고, '_'가 들어가 있는 이상값이 있어서 언더바를 삭제한 후, int형으로 변환해주었다. from scipy.stats import mode df['최빈값'] = df.groupby('고객번호')['연간 소득'].transform(lambda x: mode(x)[0])최빈값을 구하는 함수인 m..

데이터 전처리 <IQR 이상치 제거>

프로젝트 진행 중 [마감 지연 건수] 컬럼 전처리 과정df['마감 지연 건수'].describe()min 값이 -3으로 건수가 음수인 건 말이 안됨. > 이상치라고 판단은행에 대한 도메인 지식이 부족하므로 다른 행들을 본 결과 음수로 잘못 입력됐다고 판단.def remove_minus(series):     if series         return (-series)     else: return (series) df['마감 지연 건수'] = df['마감 지연 건수'].apply(remove_minus)min 값이 0으로 바뀐 것을 확인 할 수 있다. 마감 지연 건수가 4399로 이상치라고 판단하였다.IQR을 통해 이상치 값을 제거하기로 하였다.q1=df['마감 지연 건수'].quantile(0.25)..

데이터 시각화1

matplotlib이란?파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공2D 그래픽을 생성하는 데 주로 사용한다. import matplotlib.pyplot as pltimport로 matplotlib 라이브러리를 가져와준다. # 선 그래프 그리기plt.plot(x, y) plt.xlabel('X-axis') plt.ylabel('Y-axis') plt.title('Example Plot') plt.show()  1. 그래프 그리기1) 도구pandas의 plot() 메서드는 DataFrame 객체에서 데이터를 시각화하는 데 사용됨.plot() 메서드를 호출하고  x와 y인수에 각각 x축과 y축에 해당하는 열을 지정함.data = { 'A': [1, 2, ..

데이터 전처리2

3. 데이터 선택● .iloc[로우, 컬럼] : 인덱스 번호로 선택하기- 행번호(로우)와 열번호(컬럼)을 통해 특정 행과 열 데이터를 선택할 수 있음.import pandas as pd # 샘플 데이터프레임 생성 data = {      'A': [1, 2, 3, 4, 5],       'B': [10, 20, 30, 40, 50],       'C': [100, 200, 300, 400, 500] } df = pd.DataFrame(data) # iloc을 사용하여 특정 행과 열 선택 selected_data = df.iloc[1:4, 0:2] # 인덱스 1부터 3까지의 행과 0부터 1까지의 열 선택 print(selected_data)      A  B  C                        ..

데이터 전처리1

데이터 전처리내가 원하는 데이터를 보기 위해 하는 모든 활동실제 데이터는 원하는 형태로 구축되어있지 않다 > 하나하나 가공해서 활용해야 함. 데이터 전처리는 방향성을 갖고 해야함. 1) 데이터를 통해 무엇을 확인할 것인가?2) 어떤 의사결정을 위해 필요한가?3) 데이터를 통해 무엇을 얻고자 하는가? 1. PandasPython에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리대용량 데이터 처리가 가능데이터 조작 기능데이터 시각화 기능 제공데이터를 구조화하여 분석할 수 있음.Pandas에는 두 가지 구조가 있음. 1) DataFrame = 표 형태Index : 각 아이템을 특정할 수 있는 고유의 값 (엑셀에서의 좌측 열 순서)Columns : 하나의 속성을 가진 데이터 집합2) Series :..