Interesting spots
Online klasifikace webového zpravodajství. Přednáška se bude věnovat nejen teoretickým modelům klasifikujícím zpravodajství (budování ontologie, výpočet důležitosti zprávy, vytváření clusterů příbuzných zpráv), ale i zkušenostem z praktického nasazení (sledování chování uživatelů, výsledky strojového učení).
3. listopadu 2005 14.00 — 15.00
FEL ČVUT, Karlovo nám. 13, Praha 2
seminární místnost Katedry počítačů (areál sekretariátu)
Úloha dobývání znalostí z textů (text mining) v prostředí webového zpravodajství musí řešit mnohé online problémy. Nové zprávy neustále přibývají, starší ztrácejí na důležitosti, uskupení příbuzných zpráv a měřítka zajímavosti jsou různá pro různé uživatele. O přehled.netu a nejen o něm.
Možná trošku podivná...
Přehled.net tedy konečně zprovozněn, běží na jiném (nijak zvlášť novém) hardwaru, a hned takové bugy...
Na jeden jsem byl upozorněn uživatelem. Ten jsem ještě bral, prostě chyba při přenosu z jednoho serveru na druhý. Jenomže pořád se mi zdálo, že se nějak špatně propočítávají charakteristiky dokumentů...
Náznaku jsem si všiml už včera, ale až dnes to na mě vybaflo kompletně. Prošel jsem si ty nejkřiklavější příklady, a pak mi došlo, kde je chyba.
O víkendu jsem se snažil urychlit některé algoritmy, a mimo jiné jsem koukal na metodu, ve které počítám charakteristiku jednotlivých článků. A podivil jsem se, proč tak divně, když přece stačí tohle strčit sem, tuhle podmínku vyhodit a tenhle cyklus zrušit.
Tak jsem to tedy opravil a dnes mi došlo, proč jsem to tehdy napsal tak divně: aby to fungovalo. Což se o tom vylepšení bohužel říct nedá.
Poučení jsou dvě: Neopravovat kód, který spolehlivě funguje, a nevěřit vlastnímu přesvědčení, že si přeci naprosto přesně pamatuju, jak tahle datová struktura vypadá, a nepotřebuju se kvůli tomu dívat do dokumentace.
Pomalu se to tu stává logem zpráv o tom, kdy a proč zase přehled.net nejede...
Tak tedy zdá se, že ten stařičký stroj, na kterém to všechno jelo, je definitivně v ptdachu. A než se kdovíco koupí a jánevímco nainstaluje, tak jsme asi bez výpočetní síly a tedy i bez přehled.netu. Bohužel...
55 mins lecture to be prepared.
Což je milé překvapení.
Zase něco vylepšuju v přehled.netu (tentokrát je to personalizace) a jako obvykle se mi design v MSIE bortí. Tak jsem se podíval, kolik lidí s tímto prohlížečem na přehled.net vlastně chodí.
Výsledek je potěšující: 48 % pro MSIE, 41 % Mozilla, 8 % Opera. Už se těším, až přestanu s tím blbým hackováním...
Ale bohuzel s tim neumim nic udelat.
To je tak, kdyz je clovek na dovolene, vzdycky se deji veci. Treba se neco stane na tom zatracenym serveru, vy se tam ze zatracene Italie nemuzete prihlasit, nikdo jiny to spravit neumi... nema tady nekdo vetsi kladivo?
První zkušenosti s počítáním důležitosti článků podle počtu kliknutí jsou (přinejmenším) zajímavé.
Před týdnem jsem uvolnil novou verzi algoritmu výpočtu a-ranku, tedy důležitosti článku. Do důležitosti započítává kolik lidí na něj kliklo a jak je článek starý.
Původně zamýšlený poměr f(počet kliků)/stáří se neukázal nijak zvlášť dobrý, takže jsem nakonec stáří trochu zlogaritmoval, a to už dává docela slušné výsledky.
Zajímavé je, na jaké články se nejvíc kliká. Bulvár, bulvár, bulvár, ceny telefonů, bulvár. No ale nejsme tu od toho, abychom své čtenáře vychovávali, že. Koláče jsou koláče, takže dobrou chuť, pokud zrovna obědváte.
V říjnu 2004 v Brně budu na konferenci Datakon prezentovat Přehled.net.
Přehled.net je založen na algoritmech umělé inteligence, konkrétně text-miningu a strojového učení. Dobře známé základní algoritmy byly výrazně rozšířeny a upraveny, protože Přehled.net má jisté specifické vlastnosti a požadavky, pro které jsou běžně používané algoritmy příliš obecné.
Článek popisující, jak Přehled.net funguje, byl recenzenty ohodnocen velmi kladně, z čehož mám pochopitelně velkou radost.
Ještě musím ověřit, jak je to s copyrightem, a pokud by s tím nenastaly žádné komplikace, zveřejním tu reprint.
Rekompilace proběhla úspěšně, a tak jsem rovnou upgradoval na 0.9.5beta, což znamená:
Přii výpočtu důležitosti článku se bere v úvahu i jeho stáří a počet kliknutí na článek. Pokud na článek nikdo nekliká, tak se brzy propadne někam dolů, kde už ho nikdo nenajde, a tedy na něj už ani nikdo neklikne — je to takové dvojsečné.
Přehled.net dočasně nejede, protože je špatně zkompilované PHP, ale snad to brzy nahodíme...
3APL is a very promising agent language that is being developed at University of Utrecht. It exists in Haskell and Java versions.
First: To define what I'm interested in.
Danny has a good remark on so-called proper technologies for building agent systems.
This blog is written by Petr Olmer. He does a PhD research aimed at agents and the blog serves as a noticeboard for interesting opinions, projects, links, and ideas.
Even if it may be be useful to others, it helps Petr primarily. That's why some spots are in Czech instead of English.