:beginner: :shipit:
This project is maintained by LegenDad
개인적으로 Discussion에 올라오는 브리핑 내용을 수집했으나
Part2에 소개한 CPMP가 상위권 유저들의 브리핑을 엮어서 글을 올렸다.
전체 내용에 대한 이해는 관련 지식 부족으로 설명은 못하지만,
응용할 수 있는 포인트만 남겨본다.
Link2의 IP Leak Problem & Solution
많은 유저들이 호평한 Idea, Score 0.0005 향상을 보장하는 기법
데이터베이스 설계에 대한 이해력으로 추론되는 결과
개인적으로 능력 부족으로 활용에는 실패
Link3은 Code Link
That’s for the gold teams. More sharing from other teams below.
더 많은 브리핑들이 있지만, 소개는 여기까지만 적겠다.
negative down-sampling
1위 팀이 사용한 샘플링 방법
is_atrributed값 0,1을 1:1 비율로 추출
test supplement 데이터 활용
matching 파일이 있지만, 내공 부족으로 auc 향상에는 실패
Psuedo Lableling
성공하면 auc 향상에 크게 기여하는 것으로 추측
CV & Ensemble
모든 상위 유저들이 시도하는데, 실질적 활용에 대한 아직 아이디어 없어서 아쉽다.
여러 차례 test supplement 활용했지만, 좋은 결과를 보지 못했고, 다른 방법들로 개선 작업 중이다.
LGBM with NextClick | 1천만 | 0.97 | 0.9715 |
LGBM with Next_Prev_Click | 1천만 | 0.97 | 0.9709 |
LGBM with NP2_Last_Click | 1천만 | 0.97 | 0.9720 |
Next, Prev 간격을 2까지 늘리고, LastClick
를 추가하여 약간의 향상이 보여서 Size를 올려서 테스트 중이다.
Part1에서 소개된 이미지 및 동영상을 통해서
어뷰징 및 Fraud 유저의 조건을 특성 지을 수 있는 조건을 알 수 있다.
이는 굳이 광고계의 fraud click
뿐 아니라
게임업계에서는 abusing user
탐색 ,
댓글 사이트에서는 작업 계정
탐색 등으로 활용할 수 있는
feature로 비슷하게 모델링한다면 목적에 맞는 유저 탐색이 가능할 것이다.