0.65MBertopic

This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.

Usage

To use this model, please install BERTopic:

pip install -U bertopic

You can use the model as follows:

from bertopic import BERTopic
topic_model = BERTopic.load("Alprocco/0.65MBertopic")

topic_model.get_topic_info()

Topic overview

  • Number of topics: 30
  • Number of training documents: 651942
Click here for an overview of all topics.
Topic ID Topic Keywords Topic Frequency Label
-1 швейцарии - 00 - добрый - подскажите - швейцарії 226 -1_швейцарии_00_добрый_подскажите
0 беженцев - швейцарии - подскажите - добрый - украины 304403 0_беженцев_швейцарии_подскажите_добрый
1 спасибо - паляниця - слів - хвилин - обов язково 95996 1_спасибо_паляниця_слів_хвилин
2 билет - евро - франков - билеты - поезд 65451 2_билет_евро_франков_билеты
3 страховка - страховку - страховки - врачу - покрывает 33616 3_страховка_страховку_страховки_врачу
4 квартиру - жилье - жильё - квартиры - жилья 28737 4_квартиру_жилье_жильё_квартиры
5 курсы - языка - школу - переводчик - язык 24097 5_курсы_языка_школу_переводчик
6 лагере - лагерь - волонтеры - вокзале - волонтеров 18415 6_лагере_лагерь_волонтеры_вокзале
7 паспорт - паспорта - загран - крест - красный 13344 7_паспорт_паспорта_загран_крест
8 соц - детей - семьи - помощь - выплаты 11493 8_соц_детей_семьи_помощь
9 реклама - дякуємо - чат - гугл - карту 8741 9_реклама_дякуємо_чат_гугл
10 info - чату - повернути - внимательны - причина 7727 10_info_чату_повернути_внимательны
11 фото - очки - добрый - видео - доброго 6313 11_фото_очки_добрый_видео
12 знаю - девушка - девочки - людей - вопрос 5385 12_знаю_девушка_девочки_людей
13 пластик - вода - воду - свет - квартире 3909 13_пластик_вода_воду_свет
14 телефон - интернет - приложение - подскажите - телефона 3291 14_телефон_интернет_приложение_подскажите
15 контракт - получения - подскажите - онлайн - заявку 3096 15_контракт_получения_подскажите_онлайн
16 юриста - полицию - штраф - полиции - закон 2849 16_юриста_полицию_штраф_полиции
17 кг - размер - фр - розмір - см 2759 17_кг_размер_фр_розмір
18 00 - занятия - заняття - занятие - 30 2442 18_00_занятия_заняття_занятие
19 кг - франків - заказ - продукты - замовлення 2180 19_кг_франків_заказ_продукты
20 вода - воду - озера - воды - подскажите 1398 20_вода_воду_озера_воды
21 война - бронь - войны - війни - людей 1317 21_война_бронь_войны_війни
22 радио - канал - тв - канале - налог 1275 22_радио_канал_тв_канале
23 книги - взяти - чекаю - взять - почитати 756 23_книги_взяти_чекаю_взять
24 sbb - приложение - приложении - билет - купить 624 24_sbb_приложение_приложении_билет
25 кофе - чай - наличии - немножко - франков 589 25_кофе_чай_наличии_немножко
26 сайте - письмо - написать - адрес - сайті 572 26_сайте_письмо_написать_адрес
27 автобус - билеты - билет - посмотрите - дешевле 559 27_автобус_билеты_билет_посмотрите
28 развод - деньги - справи - суд - выглядит 382 28_развод_деньги_справи_суд

Training hyperparameters

  • calculate_probabilities: False
  • language: None
  • low_memory: False
  • min_topic_size: 10
  • n_gram_range: (1, 1)
  • nr_topics: 30
  • seed_topic_list: None
  • top_n_words: 10
  • verbose: True

Framework versions

  • Numpy: 1.21.5
  • HDBSCAN: 0.8.33
  • UMAP: 0.5.4
  • Pandas: 1.4.4
  • Scikit-Learn: 1.3.0
  • Sentence-transformers: 2.2.2
  • Transformers: 4.33.2
  • Numba: 0.55.1
  • Plotly: 5.9.0
  • Python: 3.9.13
Downloads last month
10
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.