Perché le biblioteche non rendono ricercabili sul web quegli enormi patrimoni di record contenuti nei loro OPAC? Quante volte ve lo siete chiesti? The Geek Librarian tante. E siamo in buona compagnia!
Despite the internet‘s origins as an academic network, when it comes to finding a book, e-commerce rules. Put any book title into your favourite search engine, and the hits will be dominated by commercial sites run by retailers, publishers, even authors. But even with your postcode, you won’t find the nearest library where you can borrow that book. (The exception is Google Books, and even that is limited.)
That’s strange, because almost every library has an electronic database of its books – searchable either at the library’s own website or via its local council. The wrinkle is that at the book level, those databases aren’t accessible to the search engines; and you may not be able to search all the libraries in your area at once.
Così parlò il Guardian. The fact is… beh i fatti sarebbero diversi ma uno di essi riguarda l’esposizione e la condivisione dei dati. Tanto che l’articolo del Guardian, prende di mira proprio il grande provider OCLC che con il suo catalogo onnipresente ha rotto forse per primo il tabu degli OPAC invisibili in Rete.
Tanto più che, come sottolinea il giornalista britannico, adesso il consorzio con base a Dublin (Ohio) ha anche cambiato – in senso restrittivo – le policy sull’utilizzo dei dati e a quanto pare ha dichiarato guerra – implicita o esplicita – a una serie di soggetti tra cui Open Library, che invece di dati pubblici vive.
Confermando un modello tristemente noto a tuttì noi bibliotecari e utenti che Aaron Schwartz riassume così:
The library world is set up on this model where the library is a physical building and has a number of books and serves a geographical community [...] Our model is find the book you’re interested in and give you the metadata - and then find the best way to get it to you.”
Mi premeva fare questa premessa per esaltare il seguito del post, che riguarda invece il risultato raggiunto dai Library Services dell‘Università di Huddersfield, che rilasciano i dati di utilizzo del proprio patrimonio e li mettono disponibili gratuitamente online con Licenza Open Data Commons! Per fare cosa?
I want you to imagine a world where a first year undergraduate psychology student can run a search on your OPAC and have the results ranked by the most popular titles as borrowed by their peers on similar courses around the globe.
I want you to imagine a book recommendation service that makes Amazon’s look amateurish.
I want you to imagine a collection development tool that can tap into the latest borrowing trends at a regional, national and international level.
Sounds good? Let’s start talking about how we can achieve it.
E non si tratta solo di rendere pubblici dati e informazioni che pubblici devono essere, in quanto creati e man(u)tenuti con le tasse dei cittadini. Talis infatti – e tanti altri – sull’open source, open culture e open data, ci ha costruito un business model [citato sempre dall'articolo del Guardian]:
“[It] was expensive, 20 or 30 years ago, to set up a large dataset and communications, editing, storing backup tapes, and so on.” By now, though, “a lot of the things that made it difficult are negligible costs”. Talis [...] focuses on selling services, not access to data.
E, richiamando solo quanto fatto in Svezia (vedi l’ottimo resoconto di Talis) concludo con il monito lanciato da Karen Coyle, che lega in un’unica compatta e lucida visione la sua esperienza in Kosovo e la commercializzazione dei dati bibliografici (e quindi culturali) delle biblioteche:
Open records [...] “could create a virtual library of books published in that geographical region, which would allow scholars to study the literature and history of that area in a way that isn’t possible today with our separate, physical libraries.”
e con la considerazione di Rob Styles, di Talis:
The main reason I think libraries need freedom to innovate is because we don’t know what they’re going to look like.
[tutti i grassetti delle citazioni sono miei - all bolds are mine]
Etichette: bibliographic data, oclc
23 gennaio 2009 alle 12:53 pm
Perché in generale i *software* utilizzati dalle biblioteche non rendono ricercabili sul web quegli enormi patrimoni…
Buttiamola in vacca: quando potrò fare in Google p.es. una ricerca del tipo “gellner site:opac.iuav.it” e non trovare solo le ricerche altri, ovviamente obsolete?
Oppure, se i dati sono in e-print “bocchi site:rice.iuav.it”…
Qualche speranza c’è con i formati OAI-PMH.
Ciao, e buon anno a tutti.
25 gennaio 2009 alle 3:17 pm
Ciao Pierre, sono parzialmente d’accordo con te. Cioè, intenzione implicita del post era dire che mancano software adeguati alla Rete (i.e. a mettere in Rete i record bibliografici – per esempio: (sia detto da una persona che non ha mai lavorato sugli OPAC ma osserva gli effetti di alcuni di essi) ma perché non è possibile inserire un controllo che verifichi se la variabile “login” è valorizzata e, nel caso non lo sia, fa in modo che l’OPAC lavori semplicemente senza sessioni o mantenendo le sessioni attraverso stringhe di query o campi di modulo nascosti?).
Però è anche vero che non tanti bibliotecari sono consapevoli e impegnati a ridurre il peso (anche il workload se vuoi) di interfacce utente non ottimizzate con l’evoluzione del Web. E quindi le biblioteche sono forse meno demanding di quello che dovrebbero, nei confronti degli stessi provider. A parte che, come ricordi giustamente tu, esistono già strumenti, ancorché rozzi, che permettono una certa visibilità – OAI-PMH e sitemap, per esempio (a questo proposito v. questo post – scusate l’autocitazione ;-) )
Insomma, mi viene da dire che occorrerebbe essere noi per primi più vigili per poi poter avanzare pretese nei confronti di chi ci fornisce i sw… Ciao e buon anno a te!
3 febbraio 2009 alle 1:15 pm
Viene prima l’uovo o la gallina?
Comunque, si non ti do torto.
Relativamente a Sitemap un breve commento.
Se OAI-PMH è grezzo, Sitemap e’ peggio, visto che non e’ strutturato.
Legge l’html in modo standard di Google.
Ho fatto comunque alcuni esperimenti.
Ho generato una sitemap standard dal mio catalogo.
Ho estratto un migliaio di record.
Li ho sottoposti a Google Sitemap, che mi li ha validati ed accettati.
Sono passati tre giorni e detti record non sono ancora ricercabili.
Aspettiamo fiduciosi.
Attenzione, ho passato la seguente stringa tipo:
http://opac.iuav.it/sbda/search.php?page=101&SOLOGET=1&NOPUNTOI=1&EW4_TBL=1&EW_FL=limits.php&EW_D=NEW&EW_T=R&EW4_DLL=50&EW4_NMI=1&EW4_CJL=1&EW_P=LT_EW&EW_RM=50&EW=cr%3DRAV0721847
L’unico aspetto significativo e’ che ho generato una Sitemap che ricerca esplicitamente il BID “cr%3DRAV0721847″.
Purtroppo invece succede che buona parte dei record (come segnalavo nella precedente) sono già indicizzati in Google, ma tramite l’identificativo del database.
Prova a cercare in Google “Ai margini della notte Friedo Lampe site:opac.iuav.it” e troverai un record che contiene tutt’altro.
Inoltre la copia Cache di Google e’ diversa da quella effettiva.
Cosa significa?
Significa che Google ha gia’ indicizzato un’altra pagina frutto di una ricerca di non si sa chi che aveva prodotto una lista che conteneva anche il nostro record e che quindi e’ stato recuperato.
Altre casistiche sono Google che indicizza la query del MFN (numero record) che cambia ogni volte che il database viene indicizzato (ma questo è una casistica credo peculiare nostra).
Piuttosto il problema serio è notevole il rumore (oltre 2.700 pagine).
Uno degli elementi genranti sono evidentemente le liste degli aggiornamenti, o di fondi specifici.
Ovviamente hanno la indicazioni specifiche per non essere indicizzate dai motori……..
Ma tuttavia non spiega completamente perché dovrebbero allora essere molti di più.
E alcune casistiche non sembrano avere nessuna logica.
Forse si tratta solo di ricerche, pagine che gli utenti si salvate da qualche parte in pubblico accesso…..
Tutto questo per concludere che portare i cataloghi in Google non è poi così semplice, anche potendo creare la sitemap.
E se invece di uova e galline, la responsabilità andasse trovata in Big Google che ha uno strano rapporto con le biblioteche?
7 febbraio 2009 alle 3:08 pm
[...] The Geek Librarian (information technology + semantic web + folksonomy + open access) * LIS « Libraries need freedom [...]
7 febbraio 2009 alle 4:09 pm
Ciao Pierre, grazie molte per il tuo commento dettagliato: come scrivevo, non sono affatto esperta di OPAC e quindi le tue osservazioni mi aiutano capire.
Concordo che sitemap è più rozzo del semplificatorio, anche se obtorto collo, OAI-PMH; il punto è che è Google-style. Anzi, per osare un ossimoro, Google-standard e quindi: perché utilizzare altri protocolli se per tutti i contenuti web il motore propone già quello (attenzione: non sto dando ragione a Google, anzi! E’ solo che la ‘forza dei numeri’ gli permette di fare anche queste scelte…). D’altronde sarebbe anche interessante allargare il discorso ai contenuti accademici censiti in Scholar, che è un motore di un’opacità pazzesca…
Ma torniamo al tuo OPAC: non ho ben capito la storia della cache: intendi riferita alla pagina del singolo record? Anche senza che sia stata modificata? Rispetto agli altri parametri veramente non so valutare, non li conosco e non conosco come vengono gestite le informazioni, gli identificativi etc. a livello di db degli OPAC. Sicuramente Google ha un rapporto non trasparente con i dati che indicizza – devo averlo scritto anche diverse volte qui.
Il modo migliore (ma a volte non basta nemmeno) sarebbe forse in teoria quello che viene proposto in Scholar: dammi tutto il tuo posseduto e io ti propongo risultati e collegamenti congrui. Il che, anche se funzionasse sempre non è come evidente una soluzione da praticare a cuor leggero…
Diciamo che il post tendeva a mettere in risalto la scarsa attenzione che c’è, a livello generale e delle aziende in particolare, su questa questione. E si sa che le aziende pedalano se sollecitate dai clienti… ;-) Ciao e grazie :-)
7 aprile 2009 alle 6:44 pm
[...] Cataloghi eXtensibili, interfacce e metadati By bonaria Il gruppo di lavoro di XC, Extensible Catalog, ha partorito, dopo alcuni studi condivisi con la comunità bibliotecaria internazionale, i primi applicativi: tool open source sviluppati per arricchire le funzionalità degli OPAC e soprattutto per lavorare a una emersione dei loro contenuti (se n’era già parlato qualche tempo fa). [...]
22 novembre 2009 alle 1:22 pm
[...] grandi quantità di record bibliografici a disposizione di tutti (di nuovo, se n’era parlato qualche tempo fa). Recod bibliografici che sono stati poi utilizzati dalla stessa LibLime per i suoi servizi e in [...]