회고
사실(Fact): 자연어처리 - 텍스트 전처리 실습 (정규표현식 등)
느낌(Feeling): 아직 텍스트 길이가 짧아서 그런지 CNN보다 재미있다
교훈(Finding): 아직 할만할 때 복습 철저히 해놓기
국어 좋아하고 문정과 출신인 나한테는
CNN보다는 단어간의 관계를 파악하거나 단어를 쪼개는 NLP가 훨씬 재미있다.
전반적인 내용은 한번에 공부방에 정리해봐야겠다
오늘의 키워드
TF/ DF
사이킷런 -> feature_extraction.text countVectorizer() + TfidTransformer() → TfdifVectorizer()
***정규표현식(regular expression(regex))
word cloud
concat -> merge(how, on)
불용어 (stop words)
네이버 영화리뷰 데이터셋
str.replace()
str.lower()
str.upper()
BOW(bag of words)
토큰화
형태소 분석기
오늘은 드디어 데이터리안 세미나에 참석했다. (2022 12월 세미나)
1부
- 사이드 프로젝트(셀프 프로젝트)로 포폴을 만들어 취뽀하신 경험담
- 프로젝트 계기, 방법의 중요성 (면접 등에서는 프젝 결과보다 이유와 문제 해결 과정이 더 중요하기도!)
- GA, GTM, BigQuery를 이용한 서비스 분석 (프로젝트를 하면서 공부)
- 봤을때 비슷비슷한 프로젝트 말고, 오 이건 뭐지 신박한 프로젝트 해보기 -> 프로젝트가 궁금해서 부르도록
- 능동적으로 데이터를 수집하고, 분석하는 사람 되기
- 면접 질문 공유
- 평소에 가설을 세우고 what why how를 생각하며 분석하는 연습하기
2부
최규민님 블로그 (프로젝트 참고해서 읽어보기)
티스토리 https://goodvc.tistory.com/10
브런치 https://brunch.co.kr/@goodvc78/12
- 데이터 분석: 간접적으로 사용자가 서비스에 자주, 오래 접속하도록 만드는 일, 인사이트 발견의 뿌듯함
- 창의적인 주제의 데이터 분석 ⇒ 관종력 필요… 흥미로운 서사|(내러티브) 중요
(반응이 없어도 계속 수정하고, 왜 반응이 없나도 생각해보며 계속 개선하는 것 추천)
⇒ 이렇게 스스로 분석을 해보는 것은 회사를 다니면서도 계속 필요한 역량 (저스트 두잇!!)
발표를 잘하는 방법
- 첫 시작에 집중을 시켜서 청중의 발표 몰입도를 높이는 것이 중요하다
- 흥미를 가질수 있도록 아이스브레이킹!
- 발표자 스스로 흥미가 있어야 하고, 얼렁 발표하고 싶다고 느낄정도로 디테일이 있어야함
시간관리 팁
- 재미있는 넷플릭스 드라마를 보면 절대 안된다….ㅠㅠㅠ
- 시간 투자를 많이해라!
- 시간 관리가 걱정되서 시작도 안하는 것이 대부분이다. 일단 벌여놓자, 일처럼 하자
오늘의 한문장: doing is better than perfect
세미나 내용이 알차고, 재밌고, 도움이 많이 되었다!!!
나도 나만의 관심 분야, 흥미 주제를 바탕으로 데이터 분석을 해봐야겠다.
1월달에 과정이 끝나면 꼭 하나의 셀프 프로젝트를 해봐야지~!