Skip to main content
Announcements
Live today at 11 AM ET. Get your questions about Qlik Connect answered, or just listen in. SIGN UP NOW
cancel
Showing results for 
Search instead for 
Did you mean: 
Not applicable

Text mining

Здравствуйте коллеги, хочу уточнить можно ли  с помощью qlik решить следующую задачу. Есть документ содержащий классификатор ​и документ содержащий набор процедур.Нужно чтобы по названию процедуры производилось сопоставление с классификатором и ей (процедуре) присваивался наиболее подходящий из него код.

рис.3.png

16 Replies
Eugeny_Ilyin
Creator II
Creator II

Привет.

ОКПД2-ОКДП, конечно да.

Наименование группировки - Название процедуры, в принципе Да.

Необходимо проанализировать систему формирования названий процедур и грамотно составить ключевую таблицу сопоставления.

Файлы пока не смотрел.

Not applicable
Author

Названия процедурам дают люди, поэтому тут раз от раза по разному. вот общий список . Что скажешь? - слишком трудоемко?

Eugeny_Ilyin
Creator II
Creator II

Ну что сказать, системность в именовании процедур отсутствует, следовательно - зацепиться за слова из названия не удастся. Либо пробовать через категории, либо сажать оператора для набивки тегов в промежуточной базе.

И по ним уже стыковаться со своим классификатором.
Я так понимаю, ваша задача - сканирование лотов на автомате, с последующей стыковкой в своей системе?

Not applicable
Author

ну категории это и есть классификатор.

есть таблица, которая содержит его структуру, такого вида:

-------------------------------------------------------------------------------------------

категория | родительская категория | название категории

-------------------------------------------------------------------------------------------

96023010    96023000                        Услуги по перевозке грузов

96023000    96020000                        Перевозки грузовые автомобильным транспортом

96020000    96000000                        Услуги автомобильного транспорта

96000000    90000000                        Услуги сухопутного транспорта

90000000    0                                    Услуги транспорта, складского хозяйства и связи

а как с тегами? это для каждой категории ключевые слова писать? наверное не вариант, слишком уж их много..

да, лоты отсканированы уже, надо стыковать их в базе данных.

Eugeny_Ilyin
Creator II
Creator II

А можно узнать какая задача в целом?

Not applicable
Author

Задача сопоставить текстовую строку с 2мя образцами и получить их номера

Eugeny_Ilyin
Creator II
Creator II

Привет.
Как я вижу в клике решение подобной задачи.

Текстовая строка и образцы разбиваются на составляющие (формы слов), формы слов приводятся к словарному виду (колёсики->колесо) и дальше идет сопоставление с ключевыми словами-образцами.

Но ключевых слов из разных образцов может быть несколько, следовательно возникает еще одна задача...

Конечно, придется над алгоритмом поработать, но считаю, что решить задачу с помощью кликов можно.

Not applicable
Author

Привет.

EugenyIlyin написал(а):

Текстовая строка и образцы разбиваются на составляющие (формы слов), формы слов приводятся к словарному виду (колёсики->колесо)

Это вручную?

Eugeny_Ilyin
Creator II
Creator II

Привет, возьмем нейтральный пример:

table1:

LOAD rowno() as ID, * INLINE [

    Фразы

    В центре всей России

    Город наш красивый.

    В Жигулях привольных – это не секрет,

    С радостью большою трудимся с душою,

    И девчат Самарских краше в мире нет.

    Солнце на закате в голубом наряде

    Ярко озаряет вольные края.

    И всегда со мною летом и зимою,Милая Самара – Родина моя!

];

keywords:

load SubField(Фразы,' ') as Слова, ID resident table1;    

Проверьте таблицу keywords