[
{
_id: ObjectID("unique id"),
vacancy: {
id: "vacancy id",
link: "vacancy kink",
name: "vacancy name"
},
competencies: [
"list of competencies from vacancy"
]
}
]
HeadHunter Competencies - это программа для обработки и записи только компетенций любой вакансии по ссылке с сайтаhh.ru.
Чтобы заставить скрипт работать, вам необходимо создать и запустить контейнер docker после определения конфигурационных данных в файле окружения. В случае CI/CD - укажите данные в переменных.
Для более детальной инструкции по работе с адаптером проследуйте по ссылке.
Для того чтобы использовать данный скрипт, вам необходимо клонировать данный репозиторий, используя данную команду:
git clone https://git.miem.hse.ru/394/scripts/headhunter-competencies.git
Для корректной работы Вам необходимо установить все зависимости, указанные в requirements.txt, используя команду:
pip install -r requirements.txt --extra-index-url https://footprint.auditory.ru/pypi/simple --trusted-host https://footprint.auditory.ru/pypi
Если вы используете это приложение в этом репозитории, вы должны перейти в CI/CD -> Pipelines, затем Run Pipeline с переменной HH_LINK. Вы можете запустить скрипт с одной ссылкой на вакансию или вставить список ссылок на вакансии.
Если вы используете docker для запуска, сначала вам необходимо собрать образ:
docker build -t hh .
и далее запустить контейнер с образом:
docker run --rm --env-file .env -e HH_LINK="{link or links}" -t hh
Где .env ваш файл с переменныйми окружения.
Функции, которые выполняют наиболее важную работу, находятся в файле processor.py. Давайте кратко рассмотрим функциональность каждой функции:
get_id - возвращает id вакансии с помощью регулярного выражения;clear_description - удаляет теги и возвращает только текст со страницы вакансии;separate_text - разделяет текст на предложения или отдельные части и возвращает список;remove_stopwords - очищает текст от бесполезных слов для упрощения обработки;lemma_text - выполняет лемматизацию всех слов для дальнейшего сравнения;clear_text - вызывает функции lemma_text и remove_stopwords;get_requirements_block() - находит начальный и конечный индексы с использованием шаблонов и возвращает список требований.HH_LINK передайте ссылку: https://hh.ru/vacancy/68332541<p>Рассматриваем кандидатов на условиях удаленной работы!</p> <p><strong>Обязанности:</strong></p> <ul> <li>Проектирование технических решений для крупной распределенной информационной системы на базе платформы 1С 8.3;</li> <li>Разработка решения;</li> <li>Постановка и приемка задач на разработку;</li> <li>Проведение код-ревю, ...
clear_description:Рассматриваем кандидатов на условиях удаленной работы! Обязанности: Проектирование технических решений для крупной распределенной информационной системы на базе платформы 1С 8.3; Разработка решения; Постановка и приемка задач на разработку; Проведение код-ревю, ...
separate_text:['Рассматриваем кандидатов на условиях удаленной работы', 'Обязанности:', 'Проектирование технических решений для крупной распределенной информационной системы на базе платформы 1С 8', '3', 'Разработка решения', 'Постановка и приемка задач на разработку', 'Проведение код-ревю', ...]
clear_text:['рассматривать', 'кандидат', 'условие', 'удаленный', 'работа']
['обязанность']
['проектирование', 'технический', 'решение', 'крупный', 'распределенный', 'информационный', 'система', 'база', 'платформа', '1с', '8']
['3']
['разработка', 'решение']
['постановка', 'приемка', 'задача', 'разработка']
['проведение', 'кодревю', ...]
['От 3-х лет опыт разработки 1С',
'Желательно знание и опыт работы с: OScript, MSSMS, ELK, Graylog, Git, UML',
'Знание офисного пакета Windows, Jira, Confluence',
'Высшее образование (неоконченное высшее)',
'Приветствуется доп',
'обучение и сертификаты по 1С',
'Готовность к работе с командой по времени МСК',
'Ответственность, внимательность, самоорганизация']