Wyświetlacz Braille’a z systemem przetwarzania znaków i rozpoznawania tekstu ze zdjęcia opracowali studenci Politechniki Krakowskiej. Urządzenie, wykorzystujące m.in. sztuczną inteligencję, pozwoli na bieżące tłumaczenie książek na alfabet Braille’a, może też służyć osobom niewidomym do nauki języka.
Według badań WHO z 2019 roku u co najmniej 2,2 mld ludzi stwierdzono dysfunkcje wzroku, w tym 39 mln stanowią osoby, które całkowicie utraciły wzrok w wyniku chorób lub obrażeń. Polskie dane (GUS) mówią o 1,8 mln osób ze stwierdzonym upośledzeniem wzroku, z czego około 100 tys. to całkowicie niewidomi. Z szacunków Ministerstwa Kultury i Dziedzictwa Narodowego wynika, że nawet 300 tys. osób nie ma możliwości czytania książek wydrukowanych w formie czarnego druku.
Wraz z promotorem, dr. inż. Tomaszem Makowskim, chcieliśmy się zająć interdyscyplinarnym projektem, który rozwiąże rzeczywiste ludzkie problemy albo będzie wstępem do dalszego rozwoju badań nad ważnym społecznie tematem. Postanowiliśmy skupić się na potrzebach osób niewidomych. Nasze rozwiązanie ułatwi im codzienne życie, a także pomoże w nauce, studiowaniu i intelektualnym rozwoju – przekonuje Hubert Orlicki, jeden z autorów pomysłu.
Wraz z Bartłomiejem Szostakiem skupili się w swoich pracach dyplomowych nad urządzeniem przetwarzającym tekst na alfabet Braille’a z możliwością wykorzystania detekcji obrazu i funkcjonalnością nauczania alfabetu. Urządzenie przez nich zaprojektowane zawiera kamerę, która gromadzi w czasie rzeczywistym obraz tekstu do przetłumaczenia. Przy wsparciu algorytmów m.in. sztucznej inteligencji wyświetla następnie układ wypustek tłumaczących obraz na alfabet Braille’a. Przetłumaczony tekst jest wyświetlany od lewej do prawej strony na wyświetlaczu brajlowskim z uwzględnieniem odpowiednich zasad.
Niewielka skrzyneczka wyświetlacza kryje w sobie liczne moduły, połączone w sprawne działający mechanizm. Sercem urządzenia jest mikrokomputer Raspberry Pi.
Do niego podłączona jest kamera oraz sterownik PCA, który umożliwia podłączenie serwonapędów niezbędnych do wprawiania w ruch pasków przesuwnych. Paski ustawiają piny w odpowiedniej kolejności, którą osoba niewidoma odczytuje dotykiem. W systemie OCR (optical character recognition), czyli optycznego rozpoznawania znaków wykorzystywana jest sztuczna inteligencja. System rozpoznawania tekstu jest stworzony w oparciu o silnik Tesseract OCR. Program urządzenia został napisany w języku Python wersji 3.X, z wykorzystaniem bibliotek pomocniczych OpenCV, Adafruit, PySimpleGUI – opisuje Hubert Orlicki.
Reszta urządzenia to m.in. koła magazynujące linkę, pręty naprowadzające, slidery, linki i napinacze, czyli mechanizmy wykorzystywane w celu precyzyjnego ustawiania przepustek. Zostały zaprojektowane w Fusion 360 i wydrukowane z wykorzystaniem druku 3D.
Studencki projekt kosztował zaledwie 1000 zł. Wsparcie zapewnił FutureLab PK, specjalna jednostka uczelni służąca studenckim innowatorom. Twórcy chcą dalej rozwijać prototyp, tak, by stał się tanim urządzeniem do samodzielnego użytku osób niewidomych, najpierw z przeznaczeniem na polski rynek.
Do stworzenia niskobudżetowego prototypu i przetestowania koncepcji użyliśmy tylko 4 znaków. Teraz już wiemy, że nasz pomysł się sprawdza. Docelowo chcemy rozwinąć klawiaturę do większej liczby, np. 12–16 znaków. Chcemy też przenieść wszystkie funkcje – w prototypie obsługiwane przez zewnętrzną klawiaturę – do wnętrza urządzenia, tak, aby osoba niewidoma czy słabowidząca mogła z niego komfortowo korzystać samodzielnie – wyjaśnia Bartłomiej Szostak.
Jak dodaje Hubert Orlicki, szersze wykorzystanie algorytmów AI mogłoby rozwiązać kwestię dokładności geometrii obrazu. Tak, aby silnik do rozpoznawania tekstu, był w stanie sobie poradzić z różną geometrią i kształtem obiektów, np. produktów spożywczych, z których odczytywany jest obraz.
Niektóre pomysły na modyfikacje zrodziły się po konsultacjach z ekspertami Polskiego Związku Niewidomych. Młodzi konstruktorzy chcieliby np. ulepszyć design i ergonomię urządzenia, rozszerzyć jego możliwości tak, by umiało odczytać formaty PDF czy skanować etykiety produktów spożywczych. Inżynierowie z PK analizują także możliwości tłumaczenia stron internetowych w formie wyświetlania głównej treści w sposób zbliżony do czytania gazet. Po odpowiednim ulepszeniu wyświetlacz znalazłby nie tylko zastosowanie w codziennych sytuacjach, mógłby być także na wyposażeniu bibliotek, szkół i przedszkoli, we wszystkich miejscach, w których uczy się czytania liter brajlowskich. W tego typu placówkach przydatna byłaby np. funkcja wyświetlania dowolnego wyrazu lub litery na urządzeniu. Twórcy oceniają, że na polskim rynku wyświetlacz mógłby się pojawić w perspektywie 2 lat. W przyszłości z urządzenia mogliby korzystać ludzie z całego świata – wystarczyłoby tylko odpowiednie skonfigurowanie i wyposażenie urządzenia w dodatkowe znaki brajlowskie.
źródło: PK