STUDY/Pandas

[pandas] 데이터프레임에 전처리 일괄 적용하기 (map, apply)

2023. 1. 1. 15:39

전처리해줄 데이터프레임

이런 데이터셋에서 '감동/감탄' 등 텍스트만 뽑기 위한 전처리

전체 데이터프레임의 컬럼들을 for문으로 돌면서 apply

for col in emotion_df.columns:
    emotion_df[col] = emotion_df[col].apply(lambda x: x[1:-1].split(',')[0])

 

 

정규표현식 적용하기

- '/'문자를 살리기위해 "\/" 추가

- progress_apply와 tqdm을 사용하면 진행도 표시 가능

import re

def preprocessing(text):
    # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다.
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\/]', '', text)
    return text
# tqdm 으로 전처리 진행 상태를 표시
from tqdm import tqdm
tqdm.pandas() 

# map을 통해 전처리 일괄 적용
for col in emotion_df.columns:
    emotion_df[col] = emotion_df[col].progress_apply(preprocessing)

결과물

map

- 하나의 칼럼에만 적용할땐 map 사용

- progress_map() 가능

def full_text(content):
    return ''.join(content)
df['content_full']= df["blog_content"].map(full_text)
df['content_full']

 

'STUDY/Pandas' 카테고리의 다른 글
  • [pandas] 데이터 생략없이 전체 출력하기
  • [pandas] plotly Funnel 분석
  • 코랩에 한글폰트 적용하기
  • [Pandas] RFM 분석
둥둥런
둥둥런
대학원생의 UX, 데이터분석, 개발 공부 기록장📁
둥둥런
Done is better than Perfect
둥둥런
전체
오늘
어제

공지사항

  • About me
  • 분류 전체보기
    • TIL
      • 멋사_AI스쿨_TIL
    • 회고
      • 프로젝트 회고
    • STUDY
      • SQL
      • Python
      • Pandas
      • 태블로
      • 통계
      • 머신러닝 | 딥러닝
      • ETC
      • 그로스마케팅 | 광고
      • UX
    • BOOK
    • EVENT

인기 글

블로그 메뉴

  • 태그
  • 관리
hELLO · Designed By 정상우.
둥둥런
[pandas] 데이터프레임에 전처리 일괄 적용하기 (map, apply)
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.