본문 바로가기

pandas4

Do it! 데이터 분석을 위한 판다스 입문 5장 05 데이터 연결하기 05-1 분석하기 좋은 데이터 데이터 집합을 분석하기 좋은 상태로 만들어 놓기 Tidy Data: 다음 조건들을 만족하는 깔끔한 데이터 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들기 >> 누락값이나 중복값이 없는 상태로 데이터가 잘 연결되어 있어야 함 측정한 값은 행(row)로, 변수는 열(column)로 구성된 데이터 데이터 집합은 연관성이 깊은 값끼리 모여 있기 때문에, 데이터 연결을 통해 필요한 데이터를 만드는 과정이 반드시 필요함 05-2 데이터 연결 기초 데이터를 연결하기 위해 concat 메서드 사용 concat 메서드에 연결하려는 데이터프레임을 리스트에 담아 전달하면 연결한 데이터프레임을 반환 위에서 아래 방향으로 연결 전달받은 리스트의 요소 순.. 2023. 7. 5.
Do it! 데이터 분석을 위한 판다스 입문 4장 04장 그래프 그리기 04-1 데이터 시각화가 필요한 이유 앤스콤 4분할 그래프: 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프 데이터 집합은 4개의 그룹으로 구성, 모든 데이터 그룹은 x, y열을 가지고 있음 4개의 데이터는 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다 위의 결과를 보고 '4개의 데이터 그룹의 데이터는 모두 같을 것이다'고 착각할 수 있음 >> 함정 하지만 데이터 그룹을 시각화하면 데이터 그룹이 서로 다른 데이터 패턴을 가지고 있다는 점을 금방 파악할 수 있음 앤스콤 데이터 집합은 seaborn 라이브러리에 포함되어 있음 >> load_dataset 메서드에 문자열 anscombe을 전달하면 앤스콤 데이터 집합을 불러올 수 .. 2023. 7. 5.
Do it! 데이터 분석을 위한 판다스 입문 3장 03 판다스 데이터프레임과 시리즈 03-1 나만의 데이터 만들기 시리즈를 생성할 때 문자열을 인덱스로 지정 가능 >> Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열 리스트 전달 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 함 데이터프레임에서 인덱스를 따로 지정하려면 index 인자에 리스트 전달 column 인자로 데이터프레임의 열 순서 지정 딕셔너리를 전달했어도 columns 인자로 다시 열 이름 전달하면 열 순서는 columns 값을 따라감 순서가 보장된 딕셔너리를 전달하려면 OrderedDict 클래스 사용 03-2 시리즈 다루기 (기초) 데이터프레임에서 시리즈를 선택하려면 loc 속성에 인덱스 전달 index 속성: 시리즈의 인덱스가 .. 2023. 6. 23.
Do it! 데이터 분석을 위한 판다스 입문 2장 02 판다스 시작하기 02-1 데이터 집합 불러오기 판다스는 데이터를 효율적으로 다루기 위해 시리즈와 데이터프레임이라는 자료형 사용 데이터프레임이 엑셀 시트와 같은 개념이라하면 시리즈는 시트의 열 1개를 의미 데이터프레임은 시리즈들이 각 요소가 되는 딕셔너리와 마찬가지 read_csv 메서드: 데이터 집합을 읽어 들여와 데이터프레임이라는 자료형으로 반환 shape: 데이터프레임의 행과 열 크기 저장 columns: 데이터 프레임의 열 이름 확인 데이터프레임을 구성하는 값의 자료형은 데이터프레임의 dtypes 속성이나 info 메서드로 확인 가능 (print(df.columns), print(df.info())) 판다스 자료형 vs 파이썬 자료형 판다스 자료형 파이썬 자료형 설명 object string .. 2023. 6. 23.