0. 필요한 라이브러리
numpy와 pandas의 설치가 필요한다.
윈도우의 명령프롬포트에서 pip install numpy와 pip install pandas로 다운로드를 진행해주자.
파이썬을 실행하는 툴로는 Anaconda의 Jupyter Notebook을 이용하였다.
1. 엑셀, csv파일을 위한 데이터표 만들기
import pandas as pd
# 표 만들기
no = []
subject_name = []
no.append(1)
no.append(2)
no.append(3)
subject_name.append('Math')
subject_name.append('Science')
subject_name.append('Big data')
subject = pd.DataFrame()
subject['SubNo'] = no
subject['Subject'] = subject_name
print(subject)
Output :
DataFrame이 생소하신분은 이전 글에 DataFrame에 대한 예제에 대한 설명이 있으니 링크를 남겨둡니다.
2022.06.02 - [파이썬/자료구조] - [Python] Series와 Dataframe의 개념, 사용법, 차이점 (in Pandas)
2. 만든 데이터표로 csv, xls형식으로 저장하기
#csv 파일로 지정
subject.to_csv("C:\\py_prac_file\\subject.csv", encoding="utf-8-sig", index=False)
#xls 형식으로 저장하기
subject.to_excel("C:\\py_prac_file\\subject.xlsx", index=False)
바로 위 코드에 이 코드를 붙여놓으면 코드가 완성된다.
그냥 바로 실행하면 directory가 없다면서 오류가 날 수 있는데, 나는 c드라이브에 py_prac_file이라는 폴더명을 만들었다.
자신이 원하는 폴더명을 만드시고, 코드의 디렉토리 부분에 코드만 경로에 맞게 변경해주면 된다.
그리고 코드가 잘 실행이 됐다면 해당 디렉토리에 파일이 잘 저장된 것을 볼 수 있을 것이다.
물론 파일안에는 코드로 만든 데이터표가 들어가 있다.
3. xlsx, csv파일 내용 읽어오기
openpyxl 패키지 : xls파일의 내용 읽어오는 패키지
기본적으로 설치되어있지 않기에 아까와 같이 명령 프롬포트에서 pip install openpyxl로 설치한다.
3-1 xlsx 파일 불러와서 읽기
# xlsx 파일 불러오기
import openpyxl
ex = openpyxl.load_workbook("C:\\py_prac_file\\subject.xlsx")
sheet = ex['Sheet1']
contents = {}
for i in range(2, sheet.max_row+1) :
SubNo = sheet.cell(row=i, column=1).value
Subject = sheet.cell(row=i, column=2).value
contents[SubNo] = Subject
print(contents)
Output :
3-2 csv파일 불러와서 읽기
# csv 파일 불러오기
import csv
f = open('C:\\py_prac_file\\subject.csv' , encoding ="utf-8-sig") #encoding부분은 인코딩형식에 따라
f_csv = csv.reader(f)
for i in f_csv :
print(i)
Output :
파일을 생성할 때 csv파일의 encoding 형식을 utf-8-sig으로 설정했으므로, 읽을 때도 그와 동일한 형식으로 읽어준다.
만약에 파일의 인코딩 형식이 utf-8이였다면 encoding = "utf-8"과 같이 적어준다.
참고문헌
완친파 완전 친절한 파이썬 웹크롤러 대마왕편 / 저자 : 가치랩스 기술연구소
'파이썬' 카테고리의 다른 글
[Python] Google 검색창 자동 검색하기 (Selenium 활용, 환경구축) (0) | 2022.06.09 |
---|---|
[Python] Selenium 오류 간단히 해결하기 (Jupyter Notebook) (0) | 2022.06.08 |