Kto googla pod latarnią
poniedziałek, 5 stycznia 2009 16:30:38
Najlepszym uniwersytetem w XX wieku
jest biblioteka. — Thomas Carlyle
Takie oto (mniej więcej, gdyż cytuję z pamięci) motto zdobi bibliotekę publiczną w moim mieście. Ze wszech miar trafne, ale obecnie już nieco postarzałe i przez to niekompletne. Należałoby je moim zdaniem uzupełnić np. w taki sposób:
Najlepszą biblioteką w XXI wieku
jest Internet. — Jurgi
Temat internetowych zbiorów jest obecnie nośny, modny i powszechnie wykorzystywany. Pisze się na ten temat mądrze, np. na blogu Kultura 2.0 czy Antymatrix, pisze się też tandetnie i po łebkach, łapiąc (a raczej tworząc) dziennikarską sensację. Strony gazetowe odgrzebały akurat tekst Rizy Berkana sprzed prawie miesiąca na ten temat, pod sensacyjnym tytułem „Przyszłości nie szukaj w googlu” (dlaczego małą literą, przecież to nazwa własna?). Jakoś wcześniej mi umknął, przeczytałem dziś. I westchnąłem, bo to jest raczej ten drugi sposób pisania. Przyjrzyjmy się bliżej.
Niedługo można będzie skończyć szkołę średnią, nie otwierając żadnej książki. Dwadzieścia lat temu było to możliwe bez otwierania komputera. W ciągu paru dziesięcioleci technologia komputerowa i internet przeobraziły podstawy wiedzy, informacji i edukacji.
Dziś na twardym dysku laptopa mieści się więcej książek niż w księgarni z 60 tys. tytułów. Liczba stron sieci przekroczyła podobno 500 miliardów - dość, by wypełnić dziesięć nowoczesnych samolotów transportowych odpowiednią liczbą 500-stronicowych, półkilogramowych książek.
Pierwszy akapit – stwierdzenie raczej bezdyskusyjne, typowe zagajenie. Ja bym Internet napisał wielką literą, znaczy to co innego niż małą i chyba lepiej oddaje znaczenie (wszak chodzi raczej o ten globalny Internet, niż łączenie sieci w ogólności). Akapit drugi – efektowne porównania, ale nie chce mi się liczyć, czy się zgadza, wartości są dyskusyjne.
Analogie uwidoczniają ogrom eksplozji informacyjnej i związane z nią zagrożenia.
Ogrom eksplozji tak, ale zagrożeń mi nie uwidoczniły.
Jedynym instrumentem pozwalającym żeglować po tym oceanie informacji są wyszukiwarki internetowe, których nie należy mylić z takim czy innym oprogramowaniem, kolejnym guzikiem do naciskania pozwalającym zlokalizować najbliższą pizzerię. Wyszukiwarki są najpotężniejszym narzędziem dystrybucji informacji, bogactwa i - owszem - dezinformacji.
Zaczyna się paplanie. Wyszukiwarki nie są jedynym instrumentem, choć najpotężniejszyn owszem. Mamy jeszcze katalogi (ich znaczenie zmalało właśnie dlatego, że wyszukiwarki okazały się lepsze) oraz encyklopedie, które też odsyłają do wybranych źródeł.
Kiedy myślimy o przeglądaniu sieci, pierwszy przychodzi nam do głowy rzecz jasna Google. Nie ma przesady w stwierdzeniu, że to on uczynił internet tym, czym jest dziś. Na Google wykształciło się nowe pokolenie odmienne od pokolenia rodziców. Najlepiej docenić to może pokolenie wyżu demograficznego, które rock and rolla poznało jako dzieci, a Google jako rodzice.
Się zgadzam. Powiem więcej, nazwa Google stała się synonimem wyszukiwarki w ogóle. Nikt już nie mówi „wyszukaj”, tylko „wyguglaj sobie”. Jeśl się nie mylę, to w brytyjskim słowniku języka angielskiego znalazło się słowo „to google” w znaczeniu szukania w sieci. Marzenie każdego marketingowca. Kiedyś nazwa firmy Xerox stała się synonimem metody kopiowania, nazwa firmy Electrolux synonimem urządzenia AGD (dziś na szczęśnie mówimy odkurzacz), nazwa firmy Rover – pojazdu dwukolowego napędzanego przy pomocy pedałów (zostało, a czy nie lepsza byłaby nazwa bicykl?). Tyle, że tamte utożsamienia były lokalne, to ma zasięg ogólnoświatowy. Poza Rosją i Chinami, gdzie dominują lokalne wyszukiwarki.
Działanie Google opiera się na algorytmach statystycznych. Ale wykorzystujące je narzędzia nie zwracają uwagi na jakość informacji - po prostu dlatego, że informacja wartościowa nie zawsze jest najpopularniejsza i na odwrót. Możemy dowolnie długo gromadzić statystyki, lecz nie oczekujmy, że dadzą cokolwiek ponad to, do czego służą.
Niecała prawda, a niecała prawda to… Działanie Google opiera się głównie na algorytmach statystycznych, ale nie tylko. Jakość informacji można ocenić zresztą całkiem nieźle przy pomocy metod statystycznych. A co nam dają statystyki? Dają to, do czego służą. Statystycznie sprawdzają się dobrze. Zresztą, co nam pozostaje innego? Poza panią w bibliotece? Bardzo szanuję panie bibliotekarki, bo w moim mieście są naprawdę fachowe i kompetentne, ale nawet zespół ludzi nie jest w stanie posegregować znaczącej w dzisiejszych czasach liczby informacji. Panie w biliotece też korzystają z komputerów i wyszukiwarek. I w ramach pracy wykonują… co? Ano statystyki wypożyczeń, które są potem wytyczną dla dalszego funkcjonowania biblioteki.
Systemy gromadzenia statystyk działają retrospektywnie. Potrzebują czasu na sporządzenie odsyłaczy i na ich zebranie. Dlatego nowe publikacje i często zmieniające zawartość strony dynamicznie są poza zasięgiem instrumentów pomiaru popularności […]
Oczywiście, że potrzebują czasu. Ile dokładnie, spytajmy pana Rizę? Nie powiedział, ja wam powiem. Blog, który czytacie, znalazł się w indeksie Google i w wynikach wyszukiwania nie później niż trzy godziny po jego uruchomieniu. Trzy godziny! Inne próby, jakie podejmowałem wcześniej, dawały podobne wyniki. Pardon, gdzie tu jest „brak zasięgu pomiaru popularności”?! A to była nowo otwarta strona. Istniejące strony, często zmieniające zawartość są aktualizowane częściej. Pan Riza oczywistą zaletę usiłuje przedstawić jako wadę.
Naturalnie, jeśli ktoś publikację w sieci umieści na niepodlinkowanej nigdzie stronie, to będzie ona poza zasięgiem „instrumentów”. Ale jeśli ja sobie napiszę cokolwiek i włożę do szuflady biurka, też będzie poza jakimkolwiek zasięgiem. Zresztą spryciarze, hakerzy potrafią odszukać w sieci nawet niepodlinkowane nigdzie strony i zdarzało się, że były indeksowane przez wyszukiwarki. Powodując często skandale, bo były to np. dane poufne. Bardziej trafna byłaby lamentacja, że zasięg instrumentów jest zbyt duży.
[…] a przeglądanie takiego materiału narażone jest na wszelkie techniki manipulacji.
Przykładowo, dzięki niedoskonałości obecnych metod przeglądania sieci powstała nowa gałąź technik optymalizacji (pozycjonowania) wyszukiwania - chodzi o podwyższanie rankingu stron w wykorzystujących kryterium popularności wyszukiwarkach typu Google. To przemysł idący w miliardy dolarów. Kto ma więcej pieniędzy, może wywindować swoją stronę wyżej od innych, lepszych, bardziej godnych zaufania. Nigdy od czasu powstania Google jakość informacji nie była tak podatna na komercjalizację.
A co nie jest narażone na techniki manipulacji? I czemu „wszelkie”? Mogę pokazać takie, które się nie sprawdzą. Dla ścisłości na manipulację narażone jest chyba wyszukiwanie, a nie przeglądanie, ale mam dzisiaj wybitnie wredny humor.
Techniki optymalizacji (windowania) istnieją tak długo, jak same wyszukiwarki. Jest jedna istotna różnica: kiedyś manipulowanie było łatwe, teraz jest paskudnie trudne i coraz trudniejsze. Sama optymalizacja nie jest niczym nagannym, bo ma służyć poprawie czytelności stron i ułatwieniu ich odnajdywania. Istnieją najwyżej nieetyczne techniki, wykorzystujące niedoskonałości programów indeksujących. A te są nieustannie udoskonalane. Ledwie parę miesięcy temu był hałas w tym „idącym w miliardy dolarów” biznesie, bo nieetycznie działający optymalizatorzy dostali po tyłku od wujka Google, kiedy stare techniki przekrętów straciły skuteczność.
Powiedzcie zresztą sami, czy wyniki są jakoś strasznie nietrafne? Czy na pytanie o o film „Katyń” dostajecie np. strony z pornografią? A dawniej tak bywało, czego młodsi nie pamietają (ja też znam raczej tylko z opowiadań). Nie demonizujmy. Fajnie się krzyczy, że wszystko upada, tylko nikt jeszcze nie wyjaśnił, jakim cudem mimo ogólnego upadku wiedzie się nam coraz lepiej. Mojego bloga nikt nie optymalizował, a mimo tego, i mimo że to nowa strona, jest wysoko wyceniony przez Google, zarówno symbolicznie, jak i w wynikach wyszukiwań. Zdumiewająco wysoko, bo bym sie w życiu ćwierci tego nie spodziewał. Techniki statystyczne okazują się całkiem znośne.
Określona działaniem wyszukiwarek jakość informacji zadecyduje o przyszłości ludzkości, ale zapewnienie jakości wymagać będzie rewolucyjnego podejścia, przełomu technologicznego oznaczającego wyjście poza statystykę. Ta rewolucja trwa - nazywa się technologią semantyczną.
Pomysł polega na tym, żeby nauczyć komputery, jak funkcjonuje świat. Kiedy np. komputer napotka słowo bill, musi wiedzieć, że ma ono po angielsku 15 znaczeń. Kiedy napotka sformułowanie kill the bill, wywnioskuje, że bill może w tym kontekście oznaczać jedynie projekt ustawy, a kill jej "uwalenie".
Z kolei kill bill może być tylko tytułem filmu Tarantino. Taki ciąg wnioskowań pozwoli w końcu uchwycić i oddać precyzyjne znaczenie całych fraz i fragmentów tekstu.
Osiągnięcie takiego poziomu sprawności w ujmowaniu języków w komputerowe algorytmy wymaga stworzenia pewnej ontologii. Nie sprowadza się ona do słownika znaczeń i synonimów. Jest mapą powiązanych pojęć i znaczeń odzwierciedlającą relacje takie jak między pojęciami bill i kill.
Sprawy oczywiste, a zarazem… nie do końca prawdziwe. Żadna technologia semantyczna nie pozwoli stwierdzić, czy anonimowy internauta wpisując „kill bill” ma na myśli film, czy unicestwienie rachunku. Żadna, bo nie może tego wiedzieć nic i nikt poza pytającym, a i to nie zawsze. Można jedynie określić prawdopodobieństwo sytuacyjne: np. jeśli pyta osoba ze strefy (przeglądarki) polskojęzycznej to dobitnie przeważa pierwsze opcja, bo inaczej zapytałaby po polsku. Ale zaraz, to przecież jest znów technika statystyczna! Toż to istna siła nieczysta! A Google radzi sobie bez rewolucji semantycznej. Jeśli pytająca osoba często wyszukuje informacje o filmach, to raczej o tytuł jej chodzi. Jeśli często pyta o sprawy ekonomiczne, to może być druga opcja, ale niekoniecznie; jeśli osoby nie znamy: na wszelki wypadek serwujemy wyniki uwzględniające obie możliwości.
Zbudowanie ontologii obejmującej całą wiedzę świata jest ogromnym przedsięwzięciem wymagającym kompetencji i wysiłku porównywalnego z tym, jakiego wymaga stworzenie wielotomowej encyklopedii. Ale jest wykonalne. Podjęły się tego liczne firmy z całego świata, m.in. Hakia, Cognition Search i Lexxe. Wkrótce ujrzymy efekty.
Jak technologia semantyczna rozwiąże problem jakości informacji? Odpowiedź jest prosta - dzięki precyzji. Kiedy komputery osiągną semantyczną precyzję w obsłudze języków naturalnych, jakość informacji nie będzie musiała zamienić się w ilość, zanim - inaczej niż dziś w sieci - dotrą one do użytkownika końcowego.
Testowałem Hakię, nie było na razie żadnych rewelacji. Zapewnienia, że wkrótce ujrzymy efekty, słyszę od lat. Podobnie, jak zapowiedzi, że już lada chwila będziemy rozmawiać z komputerami głoszono od początku lat ’80. Nic z tego nie wyszło i nawet nikt już nie podejmuje się prorokować. Kiedy komputery osiągną precyzję semantyczną… i tak dalej? Ja bym raczej spytał, czy w ogóle. Bo to jest kwestia stworzenia sztucznej inteligencji. A nawet sztuczna inteligencja może tu nie pomóc. Ile razy na różnych forach dostawaliśmy prośbę o pomoc, czy pytanie, na ktore nie umiał odpowiedzieć sztab specjalistów. Nie umiał, bo nie rozumiał pytania. To nawet niekoniecznie jest kwestia inteligencji czytającego, po prostu: zapytać to „trza umić” i wiedzieć o co. Nieraz jestem proszony o pomoc w kwestiach komputerowych przez osoby początkujące, żeby dowiedzieć się o co właściwie chodzi, sam muszę przez kwadrans się dopytywać. Bywa, że bezskutecznie. Jeśli pytający nie wie, o co mu chodzi, to żadna sztuczna inteligencja, ani żadna rewulocyjna technika semantyczna nie pomoże.
Technologia semantyczna proponuje inne gwarancje jakości - wykrywa bogactwo i powiązania pojęciowe w danym tekście. Jeśli pojawia się zdanie w rodzaju: Bush killed the last bill in the Senate (Bush uwalił ostatnią ustawę w Senacie), czy reszta tekstu zawiera podobne pojęcia? Czy może ta strona to spam, w którym popularne zdanka towarzyszą reklamom? Technologia semantyczna umie to odróżnić.
Techniki statystyczne też radzą sobie z wykrywaniem powiązań pojęciowych, całkiem przyzwoicie, moim zdaniem. Odróżnić treść od spamu też nieźle potrafią. Siła nieczysta? Dowód pierwszy: filtrowanie spamu w poczcie Gmail. Przez parę miesięcy system popełniał omyłki, które musiałem poprawiać. Potem się nauczył i od chyba dwóch lat nie pomylił się ani razu. Jak widać, techniki statystyczne też mogą się uczyć (albo symulować uczenie się, na jedno wychodzi). Przykład drugi: Google Translate. Przez długie lata programy tłumaczące były tworzone przez sztaby lingwistyków, naukowcow i programistów. Efekty zawsze były co najwyżej znośne. Google postawiło na statystykę, wykorzystując furę zgromadzonych przez lata danych. Efekt? Może nieco słabszy, dużo pomyłek, błędów, ale to przecież dopiero początek. I mamy dostępne tłumaczenia między językami, dla których nigdy nie powstały programy tłumaczące.
Człowiek czyta z ograniczoną szybkością (200-300 słów na minutę). Wobec ogromu dostępnych informacji skuteczne decyzje wymagają dziś zastosowania technologii semantycznej w każdym obszarze selekcjonowania wiedzy. Nie możemy pozostawić wiedzy na łasce statystyk popularności i pieniędzy.
Czy łaska technologii semantycznej będzie lepsza, niż łaska statystyk? To nie jest „łaska” proszę pana, w jednym i drugim wypadku jest to narzędzie. Oj, pan Riza niecnie manipuluje. O co mu chodzi? Zaraz, chyba ominąłem wzrokiem wytłuszczony początek artykułu, co my tam mamy?
Nie możemy pozostawić wiedzy na łasce statystyk popularności i pieniędzy - pisze Riza Berkan, założyciel wyszukiwarki Hakia, specjalist od sztucznej inteligencji, logiki rozmytej i systemów informacyjnych.
Że pan Riza Berkan to „specjalist” od logiki rozmytej, wierzę bez zastrzeżeń po przeczytaniu artykułu. Momencik, jak? …założyciel wyszukiwarki Hakia. Ano tak, stąd to psioczenie. Cały artykuł to po prostu (krypto-?) autoreklama własnego biznesu. Taka pisanina nic nie da. Google swojej pozycji dorobił się właśnie jakością wyników, w której zostawia konkurencję z tyłu (w ogólnych zastosowaniach). Dla sieci angielskojęzycznej (i może innych) dobre są np. Yahoo!, czy MSN. Internet „rosyjski” i „chiński” zdominowały lokalne przeglądarki, którym na razie nic nie grozi. W Polsce nic takiego nie ma. Najbliżej do jakości Google na razie jest nie Hakii, ale mało u nas znanej wyszukiwarce Ask.com.
Życzę jak najlepiej Hakii i podobnym przedsięwzięciom. Nowe techniki wyszukiwania i selekcjonowania mogą naprawdę zrobić rewolucję. Ale do tego trzeba pokazać sensacyjne wyniki, deprecjonowanie innych niewiele da. Trzeba zresztą być ostatnim naiwnym, żeby sądzić, że naukowcy zatrudnieni przez Google nie pracują nad nowymi, przełomowymi technikami. A mają na to olbrzymie zasoby: kadrowe, pieniężne i informacyjne. Tylko oni pracują po cichu, nie potrzebują się chwalić naprzód, żeby przyciągnąć inwestorów. I hukną od razu gotowym produktem, na który wszyscy się rzucą, znudzeni ciągłymi samymi zapowiedziami i rozważaniami pana Rizy Berkana.
A systemy komputerowe zawsze da się oszukać. Bo człowieka też się da, to tylko kwestia pomysłowości i środków. Cały ten długaśny tekst napisałem i umieściłem tylko po to, żeby się dobrze zaindeksował w wyszukiwarkach i dał lepszą pozycję w wynikach wyszukiwania. I żadna metoda, ani statystyczna, ani semantyczna nie pozna się na tym. Bo wy też byście nie wiedzieli, gdybym się wam nie przyznał.
Dopisano dzień później:
Sprawdziłem dziś, czy Google zaindeksował ten wpis. Zaindeksował, łaskawie podając ile godzin temu. Obliczyłem, że odczytał go dwie i pół godziny po opublikowaniu, choć nie od razu pojawił sie w wynikach wyszukiwania. To tak, dla formalności, żeby jeszcze raz upewnić, że nie wyssałem z palca tego, co piszę.
Dopisano jeszcze ciut później:
Sprzwdziłem jeszcze raz, otwierając kopię strony z cache. Została odczytana niecałe 40 minut po opublikowaniu, jeszcze lepiej. Widać czas podany pod linkiem w wynikach wyszukiwania był jakiś… inny.
Również na ten temat:
• Ile rozumie Google? — część pierwsza.
• Ile rozumie Google? Exemplum drugie.
Komentarze
Niezarejestrowany użytkownik # wtorek, 6 stycznia 2009 09:15:13
Niezarejestrowany użytkownik # wtorek, 6 stycznia 2009 12:50:42
Niezarejestrowany użytkownik # wtorek, 6 stycznia 2009 15:39:09
Artur „Jurgi” JurgawkaJurgi # wtorek, 6 stycznia 2009 21:44:27
Poza tym wujcio G wykorzystuje samych użytkowników. Z tego, w co klikają, można spokojnie ocenić jakość stron (mój domysł). Segregując swoją pocztę w Gmailu uczą algorytmy rozpoznawać spam, im więcej użytkowników, tym większa skuteczność (rzecz oczywista). W Google Translate można zaproponować swoje tłumaczenie zdania – pozwala im to polepszać tłumaczenie, oferują gierkę w tagowanie obrazków – lepsze wyniki wyszukiwania w grafice (to rzeczy jawne) itd.
Samouczące się algorytmy mogą naprawdę wiele, a ludzie je szkolą. Ja bym ich nie lekceważył. Im więcej informacji do analizy, tym lepiej działają, a nikt na świecie nie zgromadził tyle informacji, co oni.
Albo Google trends — pojawiły się doniesienia, że obserwowanie statystyk zapytań pozwala nie tylk przewidzieć np. wyniki wyborów, ale też np. ruchy na giełdzie! Oczywiście analizy są dokonywane post factum, bo i statystyki publikowane są post factum. Ale przecież pracownicy mogą mieć do nich dostęp w czasie rzeczywistym. Brzmi to może nieprawdopodobnie, ale już w tej chwili obserwacja statystyczna zapytań pozwala z wyprzedzeniem wykryć np. epidemię grypy, to już jest wykorzystywane! Więc na pewno i nastroje społeczne można tak diagnozować i inne rzeczy.
Ja bym się najbardziej bał tego, że ktoś będzie miał nadmierny dostęp do wszystkich tych informacji, zarówno statystycznych, jak i prywatnych i użyje ich w niecnych celach.
Niezarejestrowany użytkownik # czwartek, 8 stycznia 2009 13:54:51
Niezarejestrowany użytkownik # wtorek, 20 stycznia 2009 01:31:05
Artur „Jurgi” JurgawkaJurgi # wtorek, 20 stycznia 2009 02:59:52
Tak, już jest. Zobacz: Midomi.com, albo Musipedia.org, albo wreszcie Songtapper.com, jeśli wolisz wystukać rytm, zamiast śpiewać. Skuteczności nie sprawdzałem, ale z pewnością będzie rosnąć. Nagrane piosenki rozpoznaje zaś doskonale program Tunatic (Wildbits.com), radzi sobie przy tym z coverami.
P.S. "la llla lalala laaaa" — czy to nie jest Offspring, Self Esteem?
Niezarejestrowany użytkownik # wtorek, 5 lipca 2011 07:33:51
Niezarejestrowany użytkownik # czwartek, 11 sierpnia 2011 05:09:29