TIL/멋사_AI스쿨_TIL

221213 NLP 텍스트 전처리 + 데이터리안 세미나

2022. 12. 13. 23:32

회고

사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등)

느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다

교훈(Finding): 아직 할만할 때 복습 철저히 해놓기

 

국어 좋아하고 문정과 출신인 나한테는

CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다.

전반적인 내용은 한번에 공부방에 정리해봐야겠다

 

오늘의 키워드

TF/ DF

사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer()

***정규표현식(regular expression(regex))

word cloud

concat -> merge(how, on)

불용어 (stop words)

네이버 영화리뷰 데이터셋

str.replace()

str.lower()

str.upper()

BOW(bag of words)

토큰화

형태소 분석기

출처_https://resilienteducator.com/classroom-resources/word-clouds-writing/


오늘은 드디어 데이터리안 세미나에 참석했다. (2022 12월 세미나)

 

1부

- 사이드 프로젝트(셀프 프로젝트)로 포폴을 만들어 취뽀하신 경험담

- 프로젝트 계기, 방법의 중요성 (면접 등에서는 프젝 결과보다 이유와 문제 해결 과정이 더 중요하기도!)

- GA, GTM, BigQuery를 이용한 서비스 분석 (프로젝트를 하면서 공부)

- 봤을때 비슷비슷한 프로젝트 말고, 오 이건 뭐지 신박한 프로젝트 해보기 -> 프로젝트가 궁금해서 부르도록

- 능동적으로 데이터를 수집하고, 분석하는 사람 되기

- 면접 질문 공유

- 평소에 가설을 세우고 what why how를 생각하며 분석하는 연습하기

 

2부

최규민님 블로그 (프로젝트 참고해서 읽어보기)

티스토리 https://goodvc.tistory.com/10

브런치 https://brunch.co.kr/@goodvc78/12

- 데이터 분석: 간접적으로 사용자가 서비스에 자주, 오래 접속하도록 만드는 일, 인사이트 발견의 뿌듯함

- 창의적인 주제의 데이터 분석 ⇒ 관종력 필요… 흥미로운 서사|(내러티브) 중요

(반응이 없어도 계속 수정하고, 왜 반응이 없나도 생각해보며 계속 개선하는 것 추천)

⇒ 이렇게 스스로 분석을 해보는 것은 회사를 다니면서도 계속 필요한 역량 (저스트 두잇!!)

 

발표를 잘하는 방법

- 첫 시작에 집중을 시켜서 청중의 발표 몰입도를 높이는 것이 중요하다

- 흥미를 가질수 있도록 아이스브레이킹!

- 발표자 스스로 흥미가 있어야 하고, 얼렁 발표하고 싶다고 느낄정도로 디테일이 있어야함

 

시간관리 팁

- 재미있는 넷플릭스 드라마를 보면 절대 안된다….ㅠㅠㅠ

- 시간 투자를 많이해라!

- 시간 관리가 걱정되서 시작도 안하는 것이 대부분이다. 일단 벌여놓자, 일처럼 하자

 

 

오늘의 한문장: doing is better than perfect

세미나 내용이 알차고, 재밌고, 도움이 많이 되었다!!!

나도 나만의 관심 분야, 흥미 주제를 바탕으로 데이터 분석을 해봐야겠다.

1월달에 과정이 끝나면 꼭 하나의 셀프 프로젝트를 해봐야지~!

'TIL/멋사_AI스쿨_TIL' 카테고리의 다른 글
  • [비즈니스 데이터 분석] 온라인 리테일 데이터 분석
  • TIL 12.19 RNN 시계열 데이터 실습
  • 221207 AI스쿨 TIL 전이학습, 이미지전처리 없이 CNN
  • 221206 AI스쿨 TIL CNN 이미지 전처리
둥둥런
둥둥런
대학원생의 UX, 데이터분석, 개발 공부 기록장📁
둥둥런
Done is better than Perfect
둥둥런
전체
오늘
어제

공지사항

  • About me
  • 분류 전체보기
    • TIL
      • 멋사_AI스쿨_TIL
    • 회고
      • 프로젝트 회고
    • STUDY
      • SQL
      • Python
      • Pandas
      • 태블로
      • 통계
      • 머신러닝 | 딥러닝
      • ETC
      • 그로스마케팅 | 광고
      • UX
    • BOOK
    • EVENT

인기 글

블로그 메뉴

  • 태그
  • 관리
hELLO · Designed By 정상우.
둥둥런
221213 NLP 텍스트 전처리 + 데이터리안 세미나
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.