Skip to main content
cancel
Showing results for 
Search instead for 
Did you mean: 
Not applicable

Text mining

Здравствуйте коллеги, хочу уточнить можно ли  с помощью qlik решить следующую задачу. Есть документ содержащий классификатор ​и документ содержащий набор процедур.Нужно чтобы по названию процедуры производилось сопоставление с классификатором и ей (процедуре) присваивался наиболее подходящий из него код.

рис.3.png

16 Replies
Eugeny_Ilyin
Creator II
Creator II

Привет.

ОКПД2-ОКДП, конечно да.

Наименование группировки - Название процедуры, в принципе Да.

Необходимо проанализировать систему формирования названий процедур и грамотно составить ключевую таблицу сопоставления.

Файлы пока не смотрел.

Not applicable
Author

Названия процедурам дают люди, поэтому тут раз от раза по разному. вот общий список . Что скажешь? - слишком трудоемко?

Eugeny_Ilyin
Creator II
Creator II

Ну что сказать, системность в именовании процедур отсутствует, следовательно - зацепиться за слова из названия не удастся. Либо пробовать через категории, либо сажать оператора для набивки тегов в промежуточной базе.

И по ним уже стыковаться со своим классификатором.
Я так понимаю, ваша задача - сканирование лотов на автомате, с последующей стыковкой в своей системе?

Not applicable
Author

ну категории это и есть классификатор.

есть таблица, которая содержит его структуру, такого вида:

-------------------------------------------------------------------------------------------

категория | родительская категория | название категории

-------------------------------------------------------------------------------------------

96023010    96023000                        Услуги по перевозке грузов

96023000    96020000                        Перевозки грузовые автомобильным транспортом

96020000    96000000                        Услуги автомобильного транспорта

96000000    90000000                        Услуги сухопутного транспорта

90000000    0                                    Услуги транспорта, складского хозяйства и связи

а как с тегами? это для каждой категории ключевые слова писать? наверное не вариант, слишком уж их много..

да, лоты отсканированы уже, надо стыковать их в базе данных.

Eugeny_Ilyin
Creator II
Creator II

А можно узнать какая задача в целом?

Not applicable
Author

Задача сопоставить текстовую строку с 2мя образцами и получить их номера

Eugeny_Ilyin
Creator II
Creator II

Привет.
Как я вижу в клике решение подобной задачи.

Текстовая строка и образцы разбиваются на составляющие (формы слов), формы слов приводятся к словарному виду (колёсики->колесо) и дальше идет сопоставление с ключевыми словами-образцами.

Но ключевых слов из разных образцов может быть несколько, следовательно возникает еще одна задача...

Конечно, придется над алгоритмом поработать, но считаю, что решить задачу с помощью кликов можно.

Not applicable
Author

Привет.

EugenyIlyin написал(а):

Текстовая строка и образцы разбиваются на составляющие (формы слов), формы слов приводятся к словарному виду (колёсики->колесо)

Это вручную?

Eugeny_Ilyin
Creator II
Creator II

Привет, возьмем нейтральный пример:

table1:

LOAD rowno() as ID, * INLINE [

    Фразы

    В центре всей России

    Город наш красивый.

    В Жигулях привольных – это не секрет,

    С радостью большою трудимся с душою,

    И девчат Самарских краше в мире нет.

    Солнце на закате в голубом наряде

    Ярко озаряет вольные края.

    И всегда со мною летом и зимою,Милая Самара – Родина моя!

];

keywords:

load SubField(Фразы,' ') as Слова, ID resident table1;    

Проверьте таблицу keywords