목록데이터과학 (3)
minkylee
데이터 프레임 메서드 info() 메서드데이터 프레임을 로딩한 후 가장 먼저 실행하는 명령어 중 하나데이터셋에 대한 필수적인 세부사항 제공행과 열의 수 : 데이터 프레임에 몇 개의 행과 열이 있는지 표시한다.non-null의 수 : 각 열에 있는 nonnull의 개수를 보여준다.열의 타입 : 열의 타입 : 각 열의 데이터 타입을 보여준다. (예. 정수, 실수, 문자열 등)메모리 사용량 : 데이터프레임이 메모리에서 차지하는 용량shape 메서드append()한 데이터 프레임을 다른 데이터 프레임에 추가한다.원본 데이터프레임을 변경하지 않고, 두 데이터프레임을 결합한 새로운 데이터프레임을 복사본으로 반환temp_df = movies_df.append(movies_df, movie..
판다스의 Dataframe은 다음과 같은 인수를 가진다. pandas.DataFrame(data, index , columns , dtype , copy ) Data : ndarray, series, map, lists, dict, 상수 및 다른 Dataframe까지 올 수 있다.index : 결과 프레임에 사용할 행 레이블, 입력하지 않은 경우 기본값으로 np.arrange(n) 값이 온다.columns : 행 레이블, 기본값은 np.arrange(n)이다. dtype : 행 레이블의 데이터 타입copy : 데이터를 복사할 때 쓴다. 기본값은 FalseSerise를 사용해서 Dataframe 만들기 시리즈 객체를 만든다.import datetime as dtimport num..
판다스 (Pandas)는 파이썬 데이터 처리를 위한 라이브러리이다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져 있다. Pandas라는 이름은 "Panel Data" 와 "Python Data Analysis" 의 합성어이다. NumPy 저수준 데이터 구조(np.array) 대규모 다차원 배열 및 행렬 지원 광범위한 수학적 배열 연산 Pandas NumPy 기반으로 만들어진 RDMS(관계형 데이터 베이스)_Table 형태의 데이터 셋이다. 2차원 Table 형태로 다양한 칼럼(차원)을 관리할 수 있도록 만들어졌다. Dependencies: The Python Stack 시리즈(Series) 시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스를 부여할 수 있..