SetFit with mini1013/master_domain

This is a SetFit model that can be used for Text Classification. This SetFit model uses mini1013/master_domain as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: mini1013/master_domain
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 11 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
6.0	'스위스유스트 노간주 크림 100ml 옵션없음 무한상사' '퓨어라이트 아로니아베리 주름개선 크림 옵션없음 퓨어 리테일' '내추럴더마 프로젝트 시카 바이오 플라센타 크림 50ml 1021828 시카 바이오 플라센타 크림 1개 앤디월드'
1.0	'네오팜 제로이드 인텐시브 로션 MD 200ml 옵션없음 옐로우로켓' '[케이스훼손] 더 후 공진향 인양 로션 110ml (케이스훼손) 인양 로션. 주식회사 포러스' '크리니크 드라마티컬리 디퍼런트 모이스처라이징 젤 125ml(건성, 중복합) 옵션없음 옐로우로켓'
10.0	'하다라보 고쿠쥰 2종 세트(신형) 옵션없음 오레오' '코스트코 프리메라 오가니언스 베리어 리페어 2종 선물세트 옵션없음 하랑' '인셀덤 더마톨로지 퍼스트패키지 EX 옵션없음 보니따 주식회사'
7.0	'스킨푸드 캐롯 카로틴 카밍 워터 패드 60매 당근패드 닦토 11203452 캐롯 카로틴 카밍 워터 패드 30매 리필 캐롯 카로틴 모이스트 이펙터 52ml 메이써니' '스킨푸드 미나리 패드 토너 닥토 닦토 60매 옵션없음 찬이네마켓' '[리얼베리어] 익스트림 판테놀 토너 패드 150ml(80매) 옵션없음 (주)네오팜'
4.0	'Double Serum Eye 20ml 클라랑스 옵션없음 팬더샐러' '가히 아이밤 9g 옵션없음 엠컴퍼니' '마티나겝하르트 아보카도 아이크림 15ml [공식수입원] 옵션없음 (주)그레이스클럽'
9.0	'스킨아이 유기농 티트리 오일 옵션없음 폴슨 주식회사(FOLSN Inc.)' '티트리 오일 10ML_리뉴얼 옵션없음 (주)씨제이이엔엠' '스킨아이 유기농 티트리 오일 10ml 옵션없음 다사다 유한책임회사'
0.0	'가로목주름 세로목주름 제거 목탄력 턱살크림 우주를 담아' '[1+1] 목주름 다리미 넥스틱 펩타이드 리들 1000샷 탄력 리프팅 안티에이징 옵션없음 소중한 우리아기' 'Sisley 시슬리 젠틀 브러쉬 포 페이스 앤 넥 1pcs 옵션없음 타임투글로벌'
8.0	'AHC 누드톤업크림 내추럴글로우 40ml 옵션없음 가온' '내추럴더마 프로젝트 비타민 B9 톤업 미백 크림 65ml 옵션없음 음파 유한책임회사' '롬앤 백미 톤업 크림 세트 백미 크림 2개 이엘엠(ELM)'
2.0	'자트인사이트 울트라 셋팅 진짜 픽서 50ml 옵션없음 49행운스토어' 'ECLADO NK-CX 프로틴 포텐 부스터 세포코팅 미스트 뿌리는 단백질 정품 에끌라두 NK-CX 프로틴 포텐 부스터 하이그래' '최대 43% / 달바 옐로우 미스트 세럼 100mlX2개 [교차] 옐로우100ml+레드100ml 주식회사 달바글로벌'
3.0	'톤28 pH 균형제 토너 250ml × 1개 100ml x 2개 마켓 헤이데이' '세레코 토리든 다이브인 저분자 히알루론산 토너 300ml(지성, 복합) 옵션없음 옐로우로켓' '톤28 플러스마이너스 pH 균형제 (토너)250ml 옵션없음 퍼펙트픽스'
5.0	'CHANEL 르 리프트 프로 컨센트레이트 컨투어 50 ml 하이그래' '브링그린 알로에 99% 수딩 젤 300ml(민감성)/JL 옵션없음 주식회사 제이엘' '[설화수] 윤조 에센스 6세대 90mlss 옵션없음 빈티지브릿지'

Evaluation

Metrics

Label	Accuracy
all	0.7989

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("mini1013/master_cate_bt8_test")
# Run inference
preds = model("참존 탑클래스 리프팅 스킨 120ml 옵션없음 하루뷰티")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	4	9.2179	23

Label	Training Sample Count
0.0	18
1.0	18
2.0	22
3.0	20
4.0	32
5.0	30
6.0	40
7.0	23
8.0	17
9.0	14
10.0	23

Training Hyperparameters

batch_size: (512, 512)
num_epochs: (50, 50)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 60
body_learning_rate: (2e-05, 1e-05)
head_learning_rate: 0.01
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
l2_weight: 0.01
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0323	1	0.4874	-
1.6129	50	0.3751	-
3.2258	100	0.0862	-
4.8387	150	0.0251	-
6.4516	200	0.0101	-
8.0645	250	0.0042	-
9.6774	300	0.0045	-
11.2903	350	0.0044	-
12.9032	400	0.0041	-
14.5161	450	0.0043	-
16.1290	500	0.0042	-
17.7419	550	0.0042	-
19.3548	600	0.004	-
20.9677	650	0.0043	-
22.5806	700	0.0042	-
24.1935	750	0.004	-
25.8065	800	0.0004	-
27.4194	850	0.0001	-
29.0323	900	0.0001	-
30.6452	950	0.0001	-
32.2581	1000	0.0001	-
33.8710	1050	0.0001	-
35.4839	1100	0.0001	-
37.0968	1150	0.0001	-
38.7097	1200	0.0001	-
40.3226	1250	0.0001	-
41.9355	1300	0.0001	-
43.5484	1350	0.0001	-
45.1613	1400	0.0001	-
46.7742	1450	0.0001	-
48.3871	1500	0.0001	-
50.0	1550	0.0001	-

Framework Versions

Python: 3.10.12
SetFit: 1.1.0
Sentence Transformers: 3.3.1
Transformers: 4.44.2
PyTorch: 2.2.0a0+81ea7a4
Datasets: 3.2.0
Tokenizers: 0.19.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

mini1013
/

master_cate_bt8_test