상세 컨텐츠

본문 제목

AI 인공지능전문가 자격증 공부 내용 정리하기

[자격증 준비]/SQL자격증

by 데브수달 2022. 11. 25. 22:46

본문

728x90
반응형

01.데이터 분석을 위한 라이브러리 


01.파이썬의 여러가지 모듈과 패키지

01 모듈

  • 모듈의 필요성
    • 코드가 길어지는 과정에서 모든 함수, 변수를 구현하는 것은 불가능 -> 누군가 만들어놓은 함수, 변수 등을 활용!
      모듈이란 , 특정 목적을 가진 함수, 자료의 모임 

02.모듈 사용하기

  • 모듈 불러오기
    • import(불러오다) 키워드를 이용
  • 모듈 사용법 확인하기
    • 모듈 속 사용하려는 함수/변수의 사용법 확인 
      • random.randrange(start, stop) range(start,stop)중의 한 원소를 가지고 옵니다
  • 모듈 사용하기
    • .(dot)을 쓴 후에 모듈 속 함수/변수 사용
  • 모듈 만들기
    • 우리가 원하는 내용이 담긴 모듈 제작 가능 .py(파이썬 파일)로 만들기 가능
    • 1)py파일을 생성 후, 함수와 변수를 만든다.
    • 2) 다른 파일에서 만들어 둔 py 파일을 불러온다. 
    • 3)불러온 모듈 속 함수, 변수를 활용

03.패키지 : 모듈을 폴더로 구분하여 관리하는 것

  • 왜 패키지가 필요한가?
  • -모듈을 편리하게 관리하기 위해서
  • 사용 방법
  • 1)import이용해서 폴더를 불러온 후, 함수 실행
  • 2)from-import사용 함수/변수 사용시 .를 써주지않아도 된다.

 

02.데이터 핸들링을 위한 라이브러리 NumPy

01.Numpy란?

:Numerical Python

Python에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리

numpy를 사용하는 이유 

1.데이터의 대부분은 숫자 배열로 볼 수 있다.

2.반복문 없이 배열 처리 가능! 

파이썬 리스트에 비해,빠른 연산을 지원하고 메모리를 효율적으로 사용

numpy 사용하기

list배열 생성 및 출력 형태 확인

import(불러오다)키워드를 이용해서 numpy불러오기

numpy배열 생성 및 출력 형태 확인

ndarray = n차원의 배열

 

02.배열의 기초

배열의 데이터 타임 dtype

파이썬 리스트와 달리 같은 데이터 타입만 저장 가능!

ndarray의 차원 관련 속성: ndim&shape

ndarrayshape
 
03.Indexing&Slicing

찾고 잘라내기

indexing: 인덱스로 값을 찾아냄

slicing:인덱스의 값으로 배열의 일부분을 가져옴

 

Boolean indexing

Boolean indexing: 배열의 각 요소의 선택 여부를 boolean mask를 이용하여 지정하는 방식

# Boolean mask? True,False구성된maskarray

# Boolean maskTrue요소에해당하는index만을조회

 

Fancy indexing

 

Fancy indexing: 배열의 각 요소 선택을 index배열을 전달하여 지정하는 방식

원하는 요소를 지정하기 위해 indexing과 Slicing을 적절히 조합하여 사용 가능

 

03.데이터 조작 및 분석을 위한 Pandas 기본

01.Series데이터

pandas란?

-파이썬 라이브러리 

-구조화된 데이터를 효과적으로 처리하고 저장

-Array 계산된 특화된 Numpy를 기반으로 설계

 

Series?

Numpy의 array가 보강된 형태

data와 index를 가지고 있음.

series는 값(values)을 ndarray형태로 가지고 있음

dtype인자로 데이터 타입을 지정할 수 있음

인덱스를 지정할 수 있고 인덱스로 접근 가능 

#인덱스로 접근하여 요소 변경 가능

Dictionary를 활용하여 Series 생성 가능 

 

02.데이터프레임

dataframe?

여러 개의 series가 모여서 행과 열을 이룬 데이터

Drictionary를 활용하여 dataframe 생성 가능

 

dataframe-속성

속성 확인 하는 방법

print(country.shape)#(4, 2)print(country.size)#8print(country.ndim)#2print(country.values)

dataframe-index, columns 이름 지정

dataframe의 index와 column에 이름 지정

dataframe-저장&로드
to_csv /to _excel
 
pd.read_csv
pd.read_excel

03.데이터 선택 및 변경하기

데이터선택Indexing/Slicing데이터선택변경하기.loc: 명시적인인덱스를참조하는인덱싱/슬라이싱

데이터선택Indexing/Slicing데이터선택변경하기country.iloc[0]#인덱싱country.iloc[1:3, :2]#슬라이싱*pandas 라이브러리는이미import해둔것으로가정.iloc: 파이썬스타일의정수인덱스인덱싱/슬라이싱

데이터선택컬럼선택데이터선택변경하기컬럼명활용하여DataFrame에서데이터선택가능

데이터선택조건활용데이터선택변경하기country[country['population'] < 10000]#masking연산활용country.query("population> 100000")# query 함수활용*pandas 라이브러리는이미import해둔것으로가정Masking연산이나query 함수활용하여조건에맞는DataFrame추출가능

데이터변경컬럼추가데이터선택변경하기Seriesnumpyarray처럼연산자활용가능

데이터변경데이터추가/수정데이터선택변경하기리스트추가or딕셔너리추가

데이터변경NaN컬럼추가데이터선택변경하기NaN으로초기화새로운컬럼추가

데이터변경컬럼삭제데이터선택변경하기DataFrame에서컬럼삭제원본변경

 

05.Matplotlib 데이터 시각화 그래프

01.Matplotlib

Line plot

Line style

Color

Marker

축 경계 조정하기

범례

 

02.bar& histogram

bar plot

histogram

 

728x90
반응형

'[자격증 준비] > SQL자격증' 카테고리의 다른 글

인공지능 전문가 자격증 요점정리  (0) 2022.11.25

관련글 더보기