Search Engines | Bonaria Biancu

Archive for the ‘Search Engines’ Category

Mashup e biblioteche? Un binomio vincente

1 novembre 2009

E’ stato pubblicato Library mashups: exploring new ways to deliver library data, il libro sui mashups e le biblioteche atteso ormai da quasi un anno! Il capitolo con cui ho partecipato si intitola Behind the scenes, proprio perché intende fornire delle informazioni su ciò che accade dietro le quinte di servizi e prodotti di cui in genere vediamo solamente il front end – che sia un’interfaccia web o un client.

Il libro si compone sia di una parte teorico-tecnica sia sopratutto di esempi concreti progettati e realizzati presso biblioteche sparse per il mondo: è questo approccio molto orientato alla pratica e di respiro internazionale che me lo fa considerare – conflitto di interesse a parte ;-) – un ottimo libro su un argomento tecnico come il mashup, probabilmente finora poco sviluppato al livello di riflessione e di implementazione.

Nel libro potrete spaziare dagli esperimenti sui repository effettuati dal grande Stuart Lewis alle modalità con cui rendere un sito mashable all’immancabile hacking sugli OPAC. L’aspetto che trovo molto soddisfacente in quanto autrice è che il modello di pubblicazione proposto dalla curatrice e dall’editore è stato di stampo scientifico-accademico. La remunerazione per il capitolo è consistita in una copia omaggio del volume, ma ci è stata data per contratto la possibilità di pubblicare il contributo su archivi aperti e siti personali, e di farne uso per presentazioni o coursepack didattici.

Aiutandoci così come autori sia a far conoscere il libro e sia a far conoscere i nostri modesti contributi. Inutile dire che personalmente trovo questo modello vincente per le pubblicazioni scientifiche. Quindi… vi comunico con grande piacere che il mio capitolo è accessibile a testo pieno sul sito del Bicocca Open Archive all’indirizzo http://hdl.handle.net/10281/5117. Segnalo nuovamente il blog che fa da corredo e complemento (e che ha fatto da anticipazione) al libro, il contributo – anch’esso in open access – di Stuart Lewis e infine, come è giusto, le due case editrici: Information Today commercializza il libro in U.S.A., Facet Publishing in Europa. Potrete giudicare dai contenuti finora pubblicati in accesso aperto se il libro sia meritevole del vostro acquisto: nel caso lo fosse, commenti, osservazioni e suggerimenti sono i benvenuti!

Tag:library mashups, web of data, web services
Pubblicato su Cult, Library, Library 2.0, Library Tools, Metadata, OAI-PMH, Opac, Open Access, Open Archive, Open Source, Search Engines, Tagging / Folksonomy, Web, Web 2.0, Web Semantico, Web Tools, Wiki | 7 Comments »

Libraries need freedom

22 gennaio 2009

Perché le biblioteche non rendono ricercabili sul web quegli enormi patrimoni di record contenuti nei loro OPAC? Quante volte ve lo siete chiesti? The Geek Librarian tante. E siamo in buona compagnia!

Despite the internet‘s origins as an academic network, when it comes to finding a book, e-commerce rules. Put any book title into your favourite search engine, and the hits will be dominated by commercial sites run by retailers, publishers, even authors. But even with your postcode, you won’t find the nearest library where you can borrow that book. (The exception is Google Books, and even that is limited.)

That’s strange, because almost every library has an electronic database of its books – searchable either at the library’s own website or via its local council. The wrinkle is that at the book level, those databases aren’t accessible to the search engines; and you may not be able to search all the libraries in your area at once.

Così parlò il Guardian. The fact is… beh i fatti sarebbero diversi ma uno di essi riguarda l’esposizione e la condivisione dei dati. Tanto che l’articolo del Guardian, prende di mira proprio il grande provider OCLC che con il suo catalogo onnipresente ha rotto forse per primo il tabu degli OPAC invisibili in Rete.

Tanto più che, come sottolinea il giornalista britannico, adesso il consorzio con base a Dublin (Ohio) ha anche cambiato – in senso restrittivo – le policy sull’utilizzo dei dati e a quanto pare ha dichiarato guerra – implicita o esplicita – a una serie di soggetti tra cui Open Library, che invece di dati pubblici vive.

Confermando un modello tristemente noto a tuttì noi bibliotecari e utenti che Aaron Schwartz riassume così:

The library world is set up on this model where the library is a physical building and has a number of books and serves a geographical community […] Our model is find the book you’re interested in and give you the metadata – and then find the best way to get it to you.”

Mi premeva fare questa premessa per esaltare il seguito del post, che riguarda invece il risultato raggiunto dai Library Services dell‘Università di Huddersfield, che rilasciano i dati di utilizzo del proprio patrimonio e li mettono disponibili gratuitamente online con Licenza Open Data Commons! Per fare cosa?

I want you to imagine a world where a first year undergraduate psychology student can run a search on your OPAC and have the results ranked by the most popular titles as borrowed by their peers on similar courses around the globe.

I want you to imagine a book recommendation service that makes Amazon’s look amateurish.

I want you to imagine a collection development tool that can tap into the latest borrowing trends at a regional, national and international level.

Sounds good? Let’s start talking about how we can achieve it.

E non si tratta solo di rendere pubblici dati e informazioni che pubblici devono essere, in quanto creati e man(u)tenuti con le tasse dei cittadini. Talis infatti – e tanti altri – sull’open source, open culture e open data, ci ha costruito un business model [citato sempre dall’articolo del Guardian]:

“[It] was expensive, 20 or 30 years ago, to set up a large dataset and communications, editing, storing backup tapes, and so on.” By now, though, “a lot of the things that made it difficult are negligible costs”. Talis […] focuses on selling services, not access to data.

E, richiamando solo quanto fatto in Svezia (vedi l’ottimo resoconto di Talis) concludo con il monito lanciato da Karen Coyle, che lega in un’unica compatta e lucida visione la sua esperienza in Kosovo e la commercializzazione dei dati bibliografici (e quindi culturali) delle biblioteche:

Open records […] “could create a virtual library of books published in that geographical region, which would allow scholars to study the literature and history of that area in a way that isn’t possible today with our separate, physical libraries.”

e con la considerazione di Rob Styles, di Talis:

The main reason I think libraries need freedom to innovate is because we don’t know what they’re going to look like.

[tutti i grassetti delle citazioni sono miei – all bolds are mine]

Tag:bibliographic data, oclc
Pubblicato su Library, Library 2.0, Metadata, Opac, Open Source, Search Engines, Web Semantico | 7 Comments »

Google Books fa pace con gli editori e promette guadagni per tutti (comprese le biblioteche!)

29 ottobre 2008

Con un’azione che si riverbera su molteplici piani, Google Books risolve i suoi problemi legali, incrementa la possibilità (legittima) di trarre ricavi dai suoi progetti di digitalizzazione e implementa una modalità di pubblicazione online che (tenta di) risolve(re) l’annosa questione dei libri orfani (quei libri ancora sotto copyirght ma per i quali non si riesce a risalire al detentore dei diritti) e dei libri fuori stampa (a volte le due categorie coincidono).

Contestualmente alla composizione dei conflitti con gli editori (risoluzione di due cause pendenti), il motore di Mountain View aprirà un registro dei diritti per autori e publisher – sperando che la possibilità di guadagnare possa spingere i detentori dei diritti degli orphan works a farsi avanti e reclamare quanto di loro pertinenza senza lasciarlo nel limbo giuridico – e darà inizio alla commercializzazione dei libri fin qui digitalizzati. Dal NYT:

Libraries, universities, and other organizations will also be able to purchase an institutional subscription, which will give users the ability to access the full text of all the titles in the Google Books index. This, depending on the pricing, could turn out to be a revolutionary development for libraries.

E, dal blog dello stesso Google Books:

This agreement is truly groundbreaking in three ways. First, it will give readers digital access to millions of in-copyright books; second, it will create a new market for authors and publishers to sell their works; and third, it will further the efforts of our library partners to preserve and maintain their collections while making books more accessible to students, readers and academic researchers.

Su questa apertura di Google – che per inciso mi sembra una mossa realmente groundbreaking – non ho ancora le idee chiare, ma credo senz’altro alzi di un (altro) livello il confronto con editori, autori e anche biblioteche (per ora solo statunitensi). Devo però anche dire che avrei auspicato che il problema dei libri orfani (ma anche di quelli out-of-print, per i quali davvero le biblioteche svolgono un ruolo di conservazione della memoria insostituibile…) potesse aspirare a una risoluzione non esclusivamente orientata al ricavo economico (ma alla liberazione dei libri, per esempio – anche se il miraggio del guadagno potrebbe almeno contribuire a una chiara definizione dello status di questa particolare tipologia di testi).

Pur non condividendo la stessa idea di copyirght degli editori, alla fine Google ha trovato un onorevole compromesso sottraendosi alle cause legali ma anche proponendo una visione win-win. Perché, oltre ai libri orfani, anche i libri “in-copyright, out-of-print” ritornano ad avere un mercato che avevano perso (magari anche ingiustamente, perché obiettivamente che i libri vadano fuori stampa dopo così poco tempo è una follia!) – e questo nuovo mercato ora viene spalancato proprio grazie alle digitalizzazioni di Google.

Occorre dire che le biblioteche pubbliche e universitarie avranno la possibilità sia di sottoscrivere abbonamenti alle collezioni proposte da Google Books sia di avere accesso gratuito – solo da una postazione interna alla biblioteca – ai libri fuori commercio digitalizzati e quindi disponibili online (sorta di compensazione per tutto il lavoro di preservazione da esse svolto – lavoro onestamente e pubblicamente riconosciuto da Google).

A fronte dei pacchetti di ebooks o delle piattaforme alla ebrary, bisognerà vedere quanto la forza di milioni di digitalizzazioni e la diversificazione della provenienza dei testi (che vengono non solo da 22.000 editori ma anche dalle più importanti biblioteche al mondo!) spingerà Google più avanti dei suoi concorrenti… Sarà certamente interessante valutare, oltre al valore del mero accesso ai contenuti digitali, anche i servizi editoriali e informativi aggiuntivi offerti dai vari provider. Per esempio, ebrary offre l’integrazione delle collezioni di e-book con le altre risorse elettroniche della biblioteca (es.: con quelle di reference, con le banche dati bibliografiche etc.), ma Google ha dalla sua l’integrazione con… l’intero Web!

I suoi tool di ricerca di citazioni negli e-book così come negli articoli degli e-journal o nei siti web sono una bella finestra aperta sul mondo. L’ideale – come sempre per gli utenti di una biblioteca – sarebbe poter disporre di entrambe le soluzioni e, per esempio, poter consultare al volo le citazioni di un autore selezionando il suo nome all’interno di un e-book e scegliendo un ipotetico “verifica gli articoli di questo autore censiti in Web of Science” (-> banca dati bibliografica a pagamento), così come, con lo stesso meccanismo, scandagliare le parole più ricorrenti o trovare su una mappa i luoghi citati nel testo grazie a Google Books… E così via: su questa strada gli incroci possibili sono teoricamente infiniti.

Interessante il punto di vista dell’Open Access advocate Peter Suber sull’intera vicenda, nonché molti dei commenti seguiti all’annuncio di Google, linkati alla fine del post. Sul sito italiano di Google Libri, invece, una sintetica ma chiara spiegazione in italiano. E voi, che ne pensate?

[dimenticavo: l’accordo con editori/autori è costato a Google la modica cifra di 125 milioni di dollari]

Tag:Add new tag, copyright, google books, publishers
Pubblicato su Library, Library Tools, Search Engines, Web, Web Tools | 6 Comments »

Do it ourselves: Social Technologies for Information Retrieval

13 ottobre 2008

Il workshop Do it ourselves: Social Technologies for Information Retrieval si è svolto il mattino del secondo giorno dell’ottimo convegno ELISAD 2008: si è trattato di un incontro molto partecipato, con bibliotecari e documentalisti provenienti da diverse nazioni europee. Abbiamo cominciato con una presentazione dell’attuale panorama informativo e delle sue tendenze focalizzato sul surplus di contenuti che spesso investe l’utente medio (lo stesso che statisticamente lo ha prodotto!).

Il peso dell’information overload – che i documentalisti e i bibliotecari ben conoscono e che tanto spesso sono chiamati ad attenuare – acquista così una nuova intensità e la sovrabbondanza di contenuti online ci spinge a costruire nuovi strumenti sempre più raffinati di organizzazione e selezione dei contenuti digitali, utili sia per usi interni – auto-formazione – sia soprattutto per aiutare i nostri utenti a svolgere una navigazione consapevole, adeguata ed efficace.

Tra i tool che negli ultimi tempi i grandi o piccoli provider hanno proposto sulla scena 2.0, ho scelto di mostrare l’utilizzo di Google CSE (Customised Search Engine), una piattaforma per realizzare motori di ricerca personalizzati proposta da Google gratuitamente a tutti coloro che vogliano aprire un account presso la società di Mountain View. Google CSE è in tutto e per tutto un vero motore di ricerca, che usufruisce della raffinatezza e dell’efficacia che l’indice di Google può vantare e della semplicità che ha fatto di Google un marchio affidabile e il motore più utilizzato e amato al mondo.

CSE propone ai suoi utilizzatori un pannello di controllo nel quale è possibile stabilire i siti che andranno utilizzati nell’indice, le parole chiave per delimitare il focus delle ricerche, i perfezionamenti (refinement, nel linguaggio di Google) per restringere ulteriormente i risultati a determinati topic o tipologie di documenti, diversi strumenti per calibrare il ranking generale del risultati (per sviluppi più raffinati in CSE si può operare anche direttamente sull’XML che determina la configurazione del motore), la possibilità di personalizzare l’interfaccia e infine il codice, per coloro i quali desiderano embeddare direttamente il motore nel proprio sito o blog.

I partecipanti al workshop hanno avuto la possibilità di sperimentare l’uso di CSE: suddivisi in quattro gruppi – per ognuno dei quali era disponibile un computer collegato a Internet – hanno adoperato la griglia proposta durante la presentazione per provare a sviluppare un motore personalizzato ritagliato sulle particolari esigenze dei centri di documentazione e delle biblioteche sulle dipendenze. Durante la mezz’ora dedicata all’esercitazione diverse sono state le domande e le sperimentazioni pratiche – credo a testimonianza del fatto che Google CSE sia stato percepito come uno strumento di immediata utilità per coloro i quali si trovano ogni giorno a sperimentare le difficoltà della costruzione di filtri per circoscrivere le informazioni di qualità.

Tag:elisad 2008, google cse, gruppo abele
Pubblicato su Cult, Information Architecture, Library 2.0, Library Tools, Search Engines, Web 2.0, Web Tools | 4 Comments »

Società commerciali e biblioteche: un binomio pericoloso?

25 Maggio 2008

Sic transit gloria mundi – dicevano gli antichi… Microsoft ha realizzato – dopo più di due anni dalla sua messa in produzione – di non avere un business model per i suoi Books Search e Academics Search e si appresta ad azzerare i programmi si digitalizzazione e le interfacce di ricerca da un momento all’altro. Anzi, pur essendo l’annuncio sul blog aziendale solo del 23 u.s., alcuni servizi sono stati già tagliati. Leggo incredula nelle mailing list dedicate a Sfx (software per la gestione delle riviste elettroniche) come per esempio i link nel servizio di ricerca Academics (molto utile e devo dire da me molto apprezzato) siano già stati spenti – senza neppure una mail di preavviso!

Anche se diverse e importanti biblioteche hanno negli anni passati scannerizzato il proprio patrimonio grazie al programma di Microsoft, mi viene da ripensare a ciò che un grande uomo disse in un convegno, un anno fa a Barcelona: “le biblioteche potrebbero avere milioni di dollari dalle fondazioni per creare piani di digitalizzazione in-house e invece preferiscono affidarsi all’impresa commerciale di turno”.

Forse a volte perdiamo di vista il fatto che siamo istituzioni pubbliche, che la nostra mission è far durare gli artefatti (materiali e virtuali), che il nostro profilo istituzionale ci impone di una politica di preservazione teoricamente sine die, non agganciata ai mutevoli business model delle aziende. Poi a un (altro) convegno senti che per tramandare le informazioni sulle scorie radioattive gli scienziati si servono dei papiri e capisci che forse abbiamo imboccato una strada pericolosa.

Adesso, a fare la parte del leone, rimane Google, i suoi programmi di digitalizzazione, il suo (ottimo) Books Search. E sì che Microsoft aveva aderito inizialmente all’Open Content Alliance – pur tradendo i suoi principi dopo poco e mettendosi a fare la concorrenza a Google sul fronte del divieto agli altri motori di effettuare ricerche nei suoi contenuti (quel piccolo vizietto nel quale un po’ tutti i grandi provider di informazioni e contenuti multimediali incappano…).

A darci un altro segnale, interviene in questi giorni anche OCLC – pur da me molto ammirato, in particolare per il suo WorldCat e per le sue interessanti (e molto finanziate) iniziative per far avanzare tecnologicamente le biblioteche. OCLC è un grande consorzio internazionale di biblioteche, i cui membri usufruiscono di molte e pregevolissime funzionalità ma anche di limitazioni in merito alla piena disponibilità dei propri dati (= record bibliografici).

Ecco, ora OCLC ha deciso di essere più liberale e concede alle biblioteche di utilizzare i propri dati. Per farci cosa? Beh, per darli a Google:

OCLC and Google Inc. have signed an agreement to exchange data that will facilitate the discovery of library collections through Google search services.

Under terms of the agreement, OCLC member libraries participating in the Google Book Search™ program, which makes the full text of more than one million books searchable, may share their WorldCat-derived MARC records with Google to better facilitate discovery of library collections through Google.

Google will link from Google Book Search to WorldCat.org, which will drive traffic to library OPACs and other library services. Google will share data and links to digitized books with OCLC, which will make it possible for OCLC to represent the digitized collections of OCLC member libraries in WorldCat.

Personalmente sono molto felice dell’accordo e della possibilità che finalmente i record dei libri digitalizzati rinchiusi nei database delle biblioteche possano essere scovati con ricerche in Rete e linkati da Google Books. Però mi chiedo che succederebbe se un domani anche a Mountain View realizzassero all’improvviso che non hanno un vero undelying business model per tutti questi divertissement, oppure che quello che hanno non basta più.

Le biblioteche dovrebbero cominciare a pensare che tutto ciò che si regge su accordi con società commerciali gode di un equilibrio potenzialmente molto fragile…

Tag:academics live search, google books, microsoft, oclc
Pubblicato su Library, Library Tools, Search Engines, Web, Web Tools | 7 Comments »

Google dice addio a Oai-Pmh per Sitemaps

29 aprile 2008

Vatti a fidare dei motori di ricerca… Google ritira il suo appoggio a OAI-PMH, il protocollo adoperato negli archivi aperti per l’harvesting dei metadati, per sposare monogamicamente il Sitemap nella sua versione standard (file XML con elenco di Url del sito).

OAI-PMH è un ottimo protocollo RESTful, che consente a un harvester di sfruttare HTTP per veicolare sei tipi di verbi con cui richiedere informazioni (inclusi i record in esso contenuti) a un repository. OAI-PMH è adottato primariamente nell’ambito degli archivi aperti ma è un protocollo che può rivelarsi utile e soprattutto di facile implementazione anche per altre tipologie di servizi di ricerca.

Se ora gli archivi aperti dovranno costruire i loro elenchi di Url come previsto da Sitemap, una buona notizia arriva per chi ha adottato la piattaforma DSpace: la release 1.5 offre questa funzionalità nativamente.

E’ vero che l’obiettivo dei crawler di Google (e degli altri motori) è sostanzialmente quello di setacciare la Rete in cerca di nuove Url di cui nutrirsi, ed è chiaro che Sitemap XML è molto più conforme e immediato allo scopo. Un rovello però mi resta: il protocollo OAI-PMH è ancora troppo embrionale per rappresentare un’alternativa realisticamente praticabile ai vari Sitemap o è comunque troppo raffinato per le esigenze dei motori di ricerca?

Sono interessanti i commenti alla notizia – i pochi apparsi sul blog di Google Webmaster, e soprattutto quelli apparsi sul blog di Paul Walks. Che ne pensate?

Tag:crawlers, Search Engines, sitemaps
Pubblicato su Metadata, OAI-PMH, Open Archive, Search Engines, Web, Web Tools | Commenti disabilitati su Google dice addio a Oai-Pmh per Sitemaps

Bonaria Biancu

Archive for the ‘Search Engines’ Category

Mashup e biblioteche? Un binomio vincente

Libraries need freedom

Google Books fa pace con gli editori e promette guadagni per tutti (comprese le biblioteche!)

Do it ourselves: Social Technologies for Information Retrieval

Società commerciali e biblioteche: un binomio pericoloso?

Google dice addio a Oai-Pmh per Sitemaps

Archivio

Insights

Categorie

Bonaria Biancu

Archive for the ‘Search Engines’ Category

Mashup e biblioteche? Un binomio vincente

Libraries need freedom

Google Books fa pace con gli editori e promette guadagni per tutti (comprese le biblioteche!)

Do it ourselves: Social Technologies for Information Retrieval

Società commerciali e biblioteche: un binomio pericoloso?

Google dice addio a Oai-Pmh per Sitemaps

Archivio

Insights

Categorie

Category Cloud