01 모듈
02.모듈 사용하기
03.패키지 : 모듈을 폴더로 구분하여 관리하는 것
01.Numpy란?
:Numerical Python
Python에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리
numpy를 사용하는 이유
1.데이터의 대부분은 숫자 배열로 볼 수 있다.
2.반복문 없이 배열 처리 가능!
파이썬 리스트에 비해,빠른 연산을 지원하고 메모리를 효율적으로 사용
numpy 사용하기
list배열 생성 및 출력 형태 확인
import(불러오다)키워드를 이용해서 numpy불러오기
numpy배열 생성 및 출력 형태 확인
ndarray = n차원의 배열
02.배열의 기초
배열의 데이터 타임 dtype
파이썬 리스트와 달리 같은 데이터 타입만 저장 가능!
ndarray의 차원 관련 속성: ndim&shape
찾고 잘라내기
indexing: 인덱스로 값을 찾아냄
slicing:인덱스의 값으로 배열의 일부분을 가져옴
Boolean indexing
Boolean indexing: 배열의 각 요소의 선택 여부를 boolean mask를 이용하여 지정하는 방식
# Boolean mask? True,False로구성된maskarray
# Boolean mask의True요소에해당하는index만을조회
Fancy indexing
Fancy indexing: 배열의 각 요소 선택을 index배열을 전달하여 지정하는 방식
원하는 요소를 지정하기 위해 indexing과 Slicing을 적절히 조합하여 사용 가능
01.Series데이터
pandas란?
-파이썬 라이브러리
-구조화된 데이터를 효과적으로 처리하고 저장
-Array 계산된 특화된 Numpy를 기반으로 설계
Series?
Numpy의 array가 보강된 형태
data와 index를 가지고 있음.
series는 값(values)을 ndarray형태로 가지고 있음
dtype인자로 데이터 타입을 지정할 수 있음
인덱스를 지정할 수 있고 인덱스로 접근 가능
#인덱스로 접근하여 요소 변경 가능
Dictionary를 활용하여 Series 생성 가능
02.데이터프레임
dataframe?
여러 개의 series가 모여서 행과 열을 이룬 데이터
Drictionary를 활용하여 dataframe 생성 가능
dataframe-속성
속성 확인 하는 방법
print(country.shape)#(4, 2)print(country.size)#8print(country.ndim)#2print(country.values)
dataframe-index, columns 이름 지정
dataframe의 index와 column에 이름 지정
03.데이터 선택 및 변경하기
데이터선택‒Indexing/Slicing데이터선택및변경하기.loc: 명시적인인덱스를참조하는인덱싱/슬라이싱
데이터선택‒Indexing/Slicing데이터선택및변경하기country.iloc[0]#인덱싱country.iloc[1:3, :2]#슬라이싱*pandas 라이브러리는이미import해둔것으로가정.iloc: 파이썬스타일의정수인덱스인덱싱/슬라이싱
데이터선택‒컬럼선택데이터선택및변경하기컬럼명활용하여DataFrame에서데이터선택가능
데이터선택‒조건활용데이터선택및변경하기country[country['population'] < 10000]#masking연산활용country.query("population> 100000")# query 함수활용*pandas 라이브러리는이미import해둔것으로가정Masking연산이나query 함수를활용하여조건에맞는DataFrame행추출가능
데이터변경‒컬럼추가데이터선택및변경하기Series도numpyarray처럼연산자활용가능
데이터변경‒데이터추가/수정데이터선택및변경하기리스트로추가or딕셔너리로추가
데이터변경‒NaN컬럼추가데이터선택및변경하기NaN값으로초기화한새로운컬럼추가
데이터변경‒컬럼삭제데이터선택및변경하기DataFrame에서컬럼삭제후원본변경
01.Matplotlib
Line plot
Line style
Color
Marker
축 경계 조정하기
범례
02.bar& histogram
bar plot
histogram
인공지능 전문가 자격증 요점정리 (0) | 2022.11.25 |
---|