Wolfram Alpha er en ny søkemotor – eller computational knowledge engine som de kaller det selv – som skal skjønne hva du mener og forstå naturlig språk. Det er i følge skaperne et skritt på den lange veien til å gjøre all systematisk kunnskap tilgjengelig for alle.
Hovedproblemet med alle søkemotorer er at de ikke har et forhold til meningen av søkeordene. Søker du etter ordet brus får du bare treff på den bokstavkombinasjonen selv om treff på ordet mineralvann hadde vært like bra. Du kan også risikere å få treff på brus fra en elv, uten at du er interessert i det i det hele tatt. Tradisjonelle søkemotorer er altså dumme. De gir deg det du ber om – ikke det du er ute etter.
Dette skal Wolfram Alpha bøte på. I det minste delvis. Du kan stille spørsmål: Who is president of the united states ? og få opp en god del fakta om Obama. Du kan søke på byer som New York og få opp masse fakta eller søke på Fredrikstad og få opp langt færre fakta. (Du får også vite at Fredrikstad og Sarpsborg er samme by, hvilket selvsagt er egnet til å forarge folk fra begge byene.)
Wolfram Alpha gir treff på fakta, eller informasjonbiter, i motsetning til klassiske søkemotorer som gir treff på nettsider (eller bilder eller nyheter osv). Slik sett er den nyskapende, og så lenge man holder seg til USA og engelsk både relativt bra og nyttig. Skal du søke på andre språk etter fenomener i andre land er den ikke så bra ennå.
Wolfram Alpha bøter, i det minste delvis, også på et annet klassisk søkemotorproblem: Den kan se ned i den dype webben, og henter fra resultater fra flere databaser. Men også her er det selvsagt store begrensninger i antallet baser den går gjennom.
Paul Bradshaw har testet ut flere søk med vekslende hell og skriver om det i sin Online Journalism blog.
Wolfram Alpha er laget av Stephen Wolfram ved og ble presentert på Harvard forrige uke. Den er skrevet i et kodespråk Wolfram selv har laget. Du kan følge utviklingen og tankene rundt på Wolfram Alpha-bloggen .
Her finner du selskapets introduksjon til hvordan du kan bruke søkemotoren. Og her er tvitringen om #wolfram.

Etter en lang stund med relativt lite artige nyheter hos Google Labs dukket Gaudi opp her om dagen. Det er ikke et søk om den katalanske arkitekten, men en forkortelse for Google Audio Indexing, en test av talegjenkjenning og hvordan dette kan brukes til å søke etter innhold. Foreløpig er søket begrenset til å gjelde kanaler på Youtube med amerikansk politisk innhold, åpenbart i anledning det amerikanske presidentvalget.Søket er en videreføring av Google election video serch gadget’en for iGoogle de lanserte tidligere i år.
Talegjenkjenning er ikke noe nytt. Men hittil har det vært små søkeselskaper som har hatt dette som nisjeprodukt med tildels små indekser. En gratis søketjenste som podzinger som var veldig bra, ble dessuten endret til en lukket betalingsjeneste under navnet Everyzing.
En raskt test av Gaudi viser at talegjekjenningen er overraskende god. Selv fyllord som «hum» og «um» blir funnet med god presisjon, og den finner forskjell på ord som lyder likt men skrives forskjellig, som «hart» og «heart». Det ser også ut til at de vanlige boolske operatørene virker. En annen kjekk funksjon er muligheten til å søke videre i enkeltvideoene du finner.
For flere detaljer, sjekk ut faq’en hos Google.
Automatisk oversettelse er nyttig i mange tilfeller, selv om den litterære kvaliteten på resultatet ofte varierer. Youtube har begynt med automatisk oversettelse av en del ting på sidene siden, blant annet søkeresultat som du kan få på «ditt eget språk».
Jeg har så langt jeg vet ikke bedt om annet enn engelsk, men får likevel dette pussige resultatet. Youtube insisterer nemlig på at dagsrevyen skal oversettes til engelsk som «rugby» eller i noen tilfeller «rugby leauge player». Stusset litt over dagsrevyens åpenbart noe heftige rugbydekning på youtube før jeg fant på å slå av autooversetteren. (Jeg har ikke klart å finne noen rugbyspiller med navn som ligner på Dagsrevyen, men det finnes kanskje?) Read more…
I mai lanserte Google automatisk oversettelse til norsk, både i språkverktøyene og med translate this page-lenker i resultatlista.
Nå har de også begynt med automatisk oversettelse fra norsk til engelsk. Gjør du et søk der du får treff på norske sider, som for eksempel et søk på ordet ferievær ser du at translate this page lenkene dukker opp.
Automatisk oversettelse er aldri helt bra. Stort sett er det beste du kan håpe på en sånn passe forståelig tekst. Enn så lenge ser det ut til at de sliter med ordforrådet i databasen. Det kan bli bedre, men aldri helt bra siden norsk behandler sammensatte ord helt anderledes enn engelsk, noe følgende tekstprøve viser:
Googles versjon:
Svenskene would end in October-november of last year’s journey to Thailand’s capital Bangkok and to the small Kingdom of Bhutan further north in Asia. They asked the tour operators pick and choose more specific destination for them, wrote the Stockholm-newspaper Svenska Dagbladet on Thursday.
The choice fell on the island of Koh Samui in Thailandbukta. But when they arrived there, it turned out that the island had been hit by strong monsunregn in more than a week, and according to the Swedish tourists were oversvømt the streets and entrances to shops and restaurants closed with sandsekker.
Originalen fra NTB:
Svenskene skulle i månedsskiftet oktober-november i fjor reise til Thailands hovedstad Bangkok og til det lille kongedømmet Bhutan lenger nord i Asia. De ba turoperatøren velge ut mer konkrete reisemål for dem, skrev Stockholm-avisen Svenska Dagbladet torsdag.
Valget falt på øya Koh Samui i Thailandbukta. Men da de kom dit, viste det seg at øya hadde vært rammet av sterkt monsunregn i mer enn en uke, og ifølge de svenske turistene var gatene oversvømt og inngangene til butikker og restauranter stengt med sandsekker.
En ekstra bug er at oversetteren tok med originalsetningene i resultatet. I teksten over har jeg fjernet dem manuelt. Resultatet fra Google var opprinnelig som dette:
Svenskene would end in October-november of last year’s journey to Thailand’s capital Bangkok and to the small Kingdom of Bhutan further north in Asia. De ba turoperatøren velge ut mer konkrete reisemål for dem, skrev Stockholm-avisen Svenska Dagbladet torsdag. They asked the tour operators pick and choose more specific destination for them, wrote the Stockholm-newspaper Svenska Dagbladet on Thursday. Osv…
Under digital sporhund-kursene på IJ understreker vi hele tiden hvor viktig et bevisst forhold til språk er når du søker på nettet. Søkemotorens et sentralt problem for å finne fram på nettet at søkemotoren ikke skjønner språk, mens vi bruker språk for å få den til å lete. Siden datamaskinene bare leter etter samme rekkefølge av tegn, skjønner den ikke at vi like gjerne er interessert i sider med ordet mineralvann når vi søker på ordet brus. Den skjønner forsåvidt heller ikke at vi bare vil ha informasjon drikken brus og ikke sider med informasjon om brus fra orgel eller fossefall.
Gerry McGovern presenterer en del data rundt et beslektet problem i bloggen sin. Det er en forskjell på hvilke ord folk bruker når de søker etter en vare eller tjeneste og hvilke ord de oppgir at de ønsker skal stå på nettsidene de vil fram til.
After polling over 2,000 people in 12 countries, we found that when planning a vacation, people preferred to read about “special offers” rather than “deals”. People thought that the word “deal” was a bit suspicious, like something a shady second-hand car salesman would sell you. Special offers, on the other hand, were, well, special.
According to Keyword Discovery, there were about 13,000 searches for “hotel deals” in a particular period, but NO searches for “hotel special offers.”
Dette leder selvsagt ut i elendigheten for de søk søker etter billige ferieopphold. Og siden spamdexing har vært et viktig prinsipp for søkemotorene det siste knappe tiåret, er det ikke store hjelpen å få der heller.
Så enn så lenge: Husk at du må kopiere språkbruken på den siden du er ute etter når du søker på nettet.
September 12th, 2007
tord
Google har hatt sin egen utgave, og Yahoo og Altavista har hatt det lenge gjennom babelfish. Endelig lanserer også Windows Live en automatisk oversetter. Den er så langt jeg kan se ikke like integret som hos Google og tar færre språk. Jeg har ikke fått fintestet den, men som de fleste slike automatiske tjenester oversetter også denne bare ord for ord, og ikke mening. Dermed kan det bli noen pussige utslag. Likefullt er det, om man tar det for det det er, et hendig verktøy for å orientere seg i informasjon på et språk man ikke forstår.
Som nevnt tidligere ble jeg intervjuet av P2s Språkteigen om hvordan språkbevissthet er viktig for hvor bra du søker på nettet. Nå kan du høre programmet på nettradio eller podcast. Velg 28. mai eller reprisen 3. juni på sidene til Språkteigen.
Googles oversetterverktøy har lenge gjort det mulig å lese sider på språk du ikke kan. Sammen med Googles news alters har oversetteren gjort det feks mulig å drive nyhetsovervåkning på fremmede språk og likevel få greit utbytte av det.
Nå tar Google dette et hakk videre og lar oversetterfunksjonen slå inn også når du søker. Du kan skrive et ord på engelsk og faktisk søke etter samme fenomen på andre språk.
Tjenesten er litt skjult på Googles sider men her finner du den.
Jeg har ikke fått testet dette noe særlig, men det aner meg at resultatene i visse tilfeller kan bli pussige. Problemene oppstår når søkeordene vi bruker er homonymer – ord som kan bety forskjellige ting.
For å ta et enkelt ord som “ball” – både på norsk og engelsk kan dette bety både en dansefest eller et utstyr for lek og sport. Velger man ball på engelsk får man kugel på tysk. Riktignok har du mulighet til å erstatte det oversatte ordet med et mer presist ord, men om du er språkkyndig nok til det trenger du strengt tatt ikke denne tjenesten.
Det hjelper lite om du prøver å klargjøre hvilken betydning du mener med å legge til et ord. Jeg prøvde å søke på ‘ball dance’, men det ble oversatt til tysk som ‘kugeltanz’. Sikkert en artig syssel, men søkeresultatene blir så som så.
Kanskje burde jeg skrive om overskriften på dette innlegget til “Søk på et språk verken du eller Google behersker”.
Sist jeg var i Trondheim ble jeg intervjuet av Ingri Garberg fra Språkteigen i NRK P2s om hvor viktig språkbevissthet er for å finne fram på nettet. Kort sagt: Jo bedre språkkunnskap og språklig kreativitet desto bedre muligheter for å google deg fram til det du er ute etter. Intervjuet kommer i Språkteigens sending klokka ni på morgenen andre pinsedag. Eller abonnér på podkasten fra programmet, eller hør på nettradioen til NRK .
Nye kommentarer