일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Level2
- 알고리즘_스터디
- 구현
- Level1
- ODQA
- U_stage
- 이진탐색
- Level2_PStage
- dfs
- 부스트캠프_AITech3기
- python3
- 주간회고
- dp
- 백준
- 백트랙킹
- 정렬
- 최단경로
- mrc
- 그래프이론
- 이코테
- 부스트캠프_AITech_3기
- 개인회고
- 다시보기
- 알고리즘스터디
- 파이썬 3
- 그리디
- 기술면접
- 프로그래머스
- 글또
- 단계별문제풀이
- Today
- Total
목록IT 견문록/2022_부스트캠프 AITech 3기(100일) (122)
국문과 유목민

1) 강의 복습 내용 Day 42 [일일리포트] Day 42 (NLP 개괄, 전처리, BERT) 해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 cold-soup.tistory.com Day 43 [일일리포트] Day 43 (단일 문장 분류) 해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 cold-soup.tistory.com Day 44 [일일리포트] Day 44 (두 문장 관계 분류) 해당 일일리포트에서는 네이..

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다. ▶ 오늘 한 일 Develop Merge 진행 팀원들과 같이 데이터 전처리 파트에 대해서 각자 수행한 코드를 Merge하기 위해 zoom을 키고 실시간으로 진행했다. git에 익숙하지 않은 팀원분들이 계셔서 같이 실시간으로 진행해봤는데 꽤 좋았었다. 그래서 앞으로 오프닝 세션이나 피어세션 시간에 그 날 PR로 올라온 사항들에 대해서 같이 보고 Merge를 진행하기로 했다. 각자 실험한 내용들과 코드를 정리하느라 시간이 꽤 오래 걸려서 오전 세션에서 거의 2시간이라는 시간..

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다. ▶ 오늘 한 일 Train_test_split 구현 팀 Competition에서 제공받은 베이스라인 코드에서는 Train_test split이 되지 않아서 default한 코드를 만들었다. 코드를 만들어서 모델을 바로 돌렸는데 성능이 별로 좋지 않게 나왔었다. Label이 30개가 있는데 데이터 불균형이 심해서 층화 추출 방법을 사용해보자는 얘기가 나왔고, 다른 팀원분께서 구현을 완료하셨다. 내일은 해당 코드를 사용해서 층화추출을 해보고자 했다. 오늘 만든 코드같은 경우..

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다. ▶ Today I Learned (핵심 요약 정리) BERT 두 문장 관계 분류 주어진 2개의 문장에 대해, 두 문장의 자연어 추론과 의미론적인 유사성을 측정하는 Task이다. 두 문장 관계 분류 Task에는 Natual Language Inference(NLI)와 Semantic-text-pair가 있다. Natual Language Inference(NLI) 모델이 자연어의 맥락을 이해할 수 있는지 검증하는 Task이다. 전체문장(P, Premise)과 가설문장(H,..

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다. ▶ Today I Learned (핵심 요약 정리) BERT Pre-Training BERT모델 학습을 하는 단계는 다음과 같다. 1. Tokenizer만들기 2. 데이터셋 확보 3. Next Sentence Prediction(NSP) 4. Masking 이미 있는 모델이 아닌 새로운 모델로 학습을 해야 하는 이유는 특정 도메인 Task에 대해. 도메인에 특화된 학습 데이터만 사용하는 것이 기존의 BERT를 Finetuning하는 것보다 성능이 더 좋게 나온다. 그리고..

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다. ▶ Today I Learned (핵심 요약 정리) 인공지능과 자연어 처리 (NLP Overview) 해당 내용은 별도의 포스팅으로 정리했습니다. 다음 포스팅 참조 [NLP OVERVIEW (Word2Vec to Transformer)] 자연어 전처리 원시 데이터를 기계 학습 모델이 학습하는데 적합하게 만드는 프로세스를 의미한다. 데이터 자체가 문제가 있다면 좋은 성능을 기대하기 어렵기 때문에 자연어 전처리는 Task의 성능을 가장 확실하게 올릴 수 있는 방법이다. 자연..