Nową metodę doboru zmiennych do modelu klasyfikacji wieloetykietowej zaproponował polsko-koreański zespół naukowców. Ich rozwiązanie może być przydatne np. w medycynie – w sytuacji, gdy u pacjenta współistnieje wiele chorób.
Autorami artykułu, który ukazał się w czasopiśmie Pattern Recognition, są: Tomasz Klonecki ze Szkoły Doktorskiej Technologii Informacyjnych i Biomedycznych Instytutów PAN (TIB PAN), dr Paweł Teisseyr z Instytutu Podstaw Informatyki PAN oraz prof. Jaesung Lee (Chung-Ang University, Korea Południowa). Zaproponowali oni nową metodę doboru zmiennych do modelu klasyfikacji wieloetykietowej.
Klasyfikacja wieloetykietowa dotyczy sytuacji, w której przewiduje się wiele zmiennych celu jednocześnie (na przykład różne choroby u pacjenta) na podstawie zmiennych objaśniających. W przeciwieństwie do istniejących podejść, opisana metoda umożliwia uwzględnienie informacji o kosztach związanych z pozyskaniem wartości zmiennych. Algorytm opiera się na wykorzystaniu aparatu teorii informacji do zdefiniowania miary istotności.
Opisany w pracy problem selekcji zmiennych z uwzględnieniem informacji o ich kosztach ma duże znaczenie praktyczne, szczególnie w zastosowaniach medycznych, gdzie pozyskanie wartości zmiennych wiąże się często z bardzo dużymi kosztami (wykonanie testów lub badań diagnostycznych). Przedstawiona metoda może być zastosowana w połączeniu z dowolnym modelem klasyfikacji (klasyfikatory liniowe, sieci neuronowe). Może być rekomendowana w sytuacji, kiedy budżet na pozyskanie wartości zmiennych jest ograniczony.
Artykuł pt. pt. „Cost-constrained feature selection in multilabel classification using an information-theoretic approach” jest podsumowaniem części badań prowadzonych przez Tomasza Kloneckiego w ramach przygotowania jego pracy doktorskiej.
MK, źródło: IPI PAN