본문 바로가기

전체 글17

[python] datetime, pandas 날짜 계산 현재 금융권에서 종사하고 있다보니 기본적으로 모든 정보들이 날짜를 포함하게 된다. 게다가 시, 분, 초가 필요한 경우는 거의 없고, 일자 단위의 계산이 필요한 경우가 99%다. 따라서 파이썬 내에서 날짜 계산하는 방식을 기록으로 남기고자 한다. 파이썬에서는 기본적으로 datetime 라이브러리를 사용해서 해당 양식을 사용한다. 그런데 해당 포맷은 보통 시/분/초까지를 포함하므로, 이를 감안하여 전처리를 진행해야한다. 1. 문자열 → 날짜 (datetime.datetime.strptime : string parse time) strptime('yyyymmdd', '%Y%m%d') strptime을 이용해서 정해진 날짜형식(%Y%m%d)대로 해당 문자열을 인식해서 datetime 포맷으로 변형함 >>> im.. 2022. 8. 28.
[Python] pandas 문자열에서 컴마(,)제거 및 숫자변환 데이터를 계산하려고 보니, 숫자형 데이터가 아니라 컴마(,)가 섞여 있는 경우를 경험했을 수 있다. 아래 예제 데이터에서는 동대문구의 2012년이전 값에 컴마(,)가 섞여 있는 것을 볼 수 있다. ex) > df.head(10) 구별 2012년이전2012년2013년2014년2015년2016년2017년2018년2019년2020년2021년 0종로구81300210150126185920043 1중 구161148777236240372386155361289 2용산구34712341252212983511253076170 3성동구44812521210533931087439026246176 4광진구3557100187985267546571217532 5동대문구1,090146602911123313619720922363 6중랑구.. 2022. 1. 31.
[Python] 판다스(pandas)에서 특정 컬럼/행 제거하기(pd.drop) 아래와 같은 예시가 있다고 가정하자. > df = pd.DataFrame(np.random.randn(7,3), columns = ['A', 'B', 'C']) > df ABC 0-0.835414-1.4350910.454637 10.958041-2.863160-2.158632 2-1.685013-1.669430-0.433536 30.2570270.6235770.651457 4-0.8320480.1775820.727466 50.820029-1.1246840.690389 6-0.804758-0.959774-0.291663 1. 만약 컬럼 B와 C 를 제거하고 싶다면 pd.drop(['특정컬럼명', ㆍㆍㆍ], axis = 1) > df.drop(['B','C'], axis = 1) A 0-0.835414 10.. 2022. 1. 31.
'utf-8' codec can't decode byte 0xbc in position 12: invalid start byte pd.read_csv 로 아래와 같이 파일을 읽어들이는데 아래와 같은 오류가 떠서 당황. [입력코드] cctv_seoul = pd.read_csv('../data/01. 서울시CCTV설치운영현황(자치구)_년도별_210731기준__20210901.csv') [결과] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 0: invalid start byte 이는 판다스의 read_csv가 utf-8인코딩을 지원해주지 않아서이므로 encoding 옵션을 cp949로 조절. 하지만 동일한 오류 발생 [입력코드] cctv_seoul = pd.read_csv('../data/01. 서울시CCTV설치운영현황(자치구)_년도별_210731기준__20.. 2022. 1. 29.