Locatie: Geonovum, Amersfoort
Route: Route naar Geonovum
Tijdens deze Conceptual Friday willen we bespreken wat we moeten doen om ervoor te zorgen dat de server in Almere meer gebruikt gaat worden.
Theorie:
Praktijk:
Voorbeeld uit de praktijk:
De server in Almere wordt ons aangeboden door het Big Data Value Center en een aantal gebruikers hebben deze server al gebruikt, zoals voor de BGT pilot.
We willen duidelijk aan alle mogelijke gebruikers communiceren, dat de server in Almere door alle deelnemers aan Platform Linked Data Nederland gratis gebruikt mag worden, dat nieuwe datasets mogen worden toegevoegd en dat nieuwe software mag worden geïnstalleerd.
Ook moet duidelijk worden welke documentatie minimaal nodig is voor beheerders en ontwikkelaars om de server optimaal te kunnen gebruiken. Er is al documentatie beschikbaar, maar deze willen we actualiseren naar de laatste stand van zaken en zo laagdrempelig mogelijk maken dat iedereen zo makkelijk mogelijk aan de slag kan gaan met de server als men iets met Linked Data wil experimenteren in een Proof of Concept (PoC) of pilot.
Bij de onderwerpen Theorie en Praktijk hierboven staan een aantal bullets, waarvoor we tijdens deze Conceptual Friday moeten bepalen wat er minimaal aan documentatie nodig is voor beheerders en ontwikkelaars en welke huidige documentatie we goed kunnen hergebruiken.
Als laatste willen we bekijken welke praktijkcases we kunnen bedenken en welke organisaties we daarbij kunnen aanhaken om dit verder met elkaar uit te werken binnen een PoC of pilot. De BGT pilot is goed voorbeeld van een geslaagde pilot en we zoeken naar cases die we op eenzelfde manier kunnen uitvoeren met een steeds groter wordende groep Linked Data experts.
In dit verslag is ook de input meegenomen die we via de mail hebben ontvangen van Erwin Folmer, Arjen Santema, Marco Brattinga, Richard Nagelmaeker en Thijs Brentjens. Deze input is ook besproken tijdens deze Conceptual Friday met de aanwezigen.
De doelstelling van de server in Almere is het aanbieden van een open proeftuin voor iedereen binnen onze PLDN community die met Linked Data aan de slag wil. Het enige criterium om actief te mogen zijn op de server in Almere is dat de activiteit met Linked Data te maken moet hebben en dat de resultaten van deze pilot activiteiten binnen onze PLDN community gepresenteerd kunnen worden.
Om een concreet resultaat te laten zien van wat we al op de server in Almere gedaan hebben, heeft Linda eerst een korte demo gegeven van de resultaten van de BGT pilot met data uit verschillende bronnen van de stad Leiden.
De BGT als Linked Data (bericht op Geonovum site)
De BGT als Linked Data (werkende prototype)
Op de volgende Wiki pagina staat de configuratie van de server in Almere:
Als er meer capaciteit nodig is voor de PLDN pilot activiteiten dan kan deze server configuratie opgeschaald worden. Neem hiervoor contact op met Erwin Folmer om dit verder te bespreken.
Een eerste ingang van de documentatie over de server kan gevonden worden op de volgende Wiki-pagina:
De verschillende onderdelen van deze documentatie zoals we die tijdens deze sessies besproken hebben, zullen in de secties hieronder verder beschreven worden.
Op de Wiki is nog geen lijst opgenomen met de datasets die op de server in Almere beschikbaar zijn om te gebruiken. Aan de Wiki zal daarom een pagina worden toegevoegd met dezelfde lay-out als de RDF Endpoints pagina om de beschikbare datasets te benoemen en te beschrijven.
http://www.pilod.nl/wiki/Rdfendpoints
Het zou mooi zijn als we naast deze lijst een lijst kunnen vinden met alle beschikbare RDF Endpoints in de wereld. Een aantal sites geven wel een eerste overzicht, maar deze zijn nog verre van volledig. Zie bijv.
SPARQL Endpoints Status (lijst van CKAN-based openbare SPARQL endpoints)
Ook zou het mooi zijn als we meer diversiteit in de datasets kunnen aanbrengen door o.a. data te verzamelen van de NVWA (Nederlandse Voedsel- en Warenautoriteit) over bijv. markten en cafetaria, vrije tijd en amusementsdata, zoals evenementsdata van diverse steden uit verschillende bronnen, data over bijv. voetbalteams en voetbaluitslagen, bierbrouwerijen en biermerken en ga zo maar door. We kunnen van deze data dan Linked Data maken en gebruiken binnen pilot activiteiten.
We kunnen het makkelijker maken om triples toe te voegen aan de triple store door het stappenplan voor het uploaden van triples toe te voegen op de Wiki. Richard had hiervoor een beschrijving gemaakt en deze zullen we op de Wiki zetten, zodat iedereen deze dan kan gebruiken.
De volgende software staat op de server in Almere. Zie:
http://www.pilod.nl/wiki/Pilod_installed_software
Aan deze lijst moet nog de volgende software worden toegevoegd om de actuele status van de server m.b.t. de geinstalleerde software goed weer te geven:
Waarbij Oracle Graph geinstalleerd is op een aparte VM.
Bij de BGT-pilot is ook nog gebruik gemaakt van:
Daarnaast is het interessant om de volgende software op de server toe te voegen:
En kunnen we de ontwikkelde API’s op GitHub zetten om zo de mogelijkheden van de open source community beter te kunnen benutten. Dit wordt meer en meer gedaan, ook internationaal, vanuit en open en linked data communities, zodat ontwikkelaars makkelijker met elkaar kunnen samenwerken.
Beheerders en ontwikkelaars kunnen goed uit de voeten met de huidige opzet van de server. De huidige documentatie is voldoende, maar moet wel geactualiseerd worden.
Daarnaast zou het voor ontwikkelaars prettig zijn als er naast de prive users ook developer users kunnen worden aangemaakt voor een groep van ontwikkelaars die gezamenlijk aan een pilot werken.
Virtuoso is behoorlijk performance-gevoelig en kan derhalve traag worden, ook bij niet al te complexe queries (bijv. het opvragen van een lijst met alle graphs die in de triplestore zitten). Als de performance onacceptabel wordt, moet bekeken worden hoe de hardware opgeschaald kan worden.
Alle triples over verschillende thema’s en onderwerpen zitten nu in 1 triple store. Het zou mooi zijn als we met meerdere triple stores zouden kunnen werken, zodat we kunnen experimenteren met SPARQL queries over verschillende bronnen heen.
Het is nog niet gelukt om geo-data op een goede manier in Virtuoso te laden. Dit moet nog een keer bekeken worden met Virtuoso experts die ons daarbij kunnen helpen. In het verleden hebben we via Marcel contact gehad met Patrick van Kleef om een aantal zaken rondom Virtuoso geregeld te krijgen.
Ook moet duidelijk zijn wie waarvoor benaderd kan worden om vragen te kunnen stellen over de activiteiten op de server. Naast de beheerders zullen we ook een lijst moeten hebben met de aanspreekpunten van de datasets en software die op de server zijn gezet en per pilot initiatief, zodat altijd de juiste persoon benaderd kan worden als men een vraag over de server heeft.
De uitbreidingen op de BGT-pilot zouden op de korte termijn gerealiseerd kunnen worden (voor de zomervakantie). De ideeen over het doen van een pilot voor het GOAL-programma zijn meer lange termijn (na de zomervakantie).
Evenementsdata is vaak zeer gefragmenteerd als open data beschikbaar vanuit verschillende bronnen (bijv. VVV data en data op evenementen websites die vaak meer vanuit een bepaald thema zijn opgezet). Bekeken moet worden of deze dat via slimme data crawling technieken makkelijker en vollediger verzameld kan worden, zodat we deze bijv. kunnen gebruiken binnen de BGT-pilot.
Marco Brattinga, de trekker van de PLDN Linked Data Service, heeft via de mail aangegeven dat we de server in Almere meer moeten gaan gebruiken, door de scope van de Linked Data Service uit te breiden met niet alleen het omzetten van data naar Linked Data, maar ook door deze te publiceren als Linked Data op de server in Almere. Omdat je daarvoor ook publicatiesoftware nodig hebt, ligt het voor de hand om hiervoor beschikbare (open source) software te gebruiken die daarvoor geschikt is. Dit zal op een volgende Conceptual Friday, die ergens half april ingepland gaat worden, verder besproken worden.
Met behulp van de ‘making of’ van een demo moet het voor gebruikers mogelijk worden om alle stappen in het proces na te spelen en beter te begrijpen wat er allemaal voor nodig is om een demo achter de schermen goed geregeld te krijgen. Voor de BGT-pilot is dit voor een deel al goed gedocumenteerd in de presentatie die Linda gegeven heeft op de werksessie op 12 februari in Eindhoven, maar dit kunnen we verder uitbreiden met bijv. de beschrijving van het proces om data op de server te zetten, met hoe DBpedia gebruikt is binnen de pilot en meer in het algemeen welke SPARQL queries die binnen de BGT-pilot gebruikt worden om de resultaten op het scherm te kunnen laten zien. Door deze SPARQL-queries als voorbeeld queries op de Wiki te publiceren, kunnen ontwikkelaars, die nog geen of weinig ervaring hebben met Linked Data, sneller aan de slag met Linked Data gerelateerde activiteiten op de server.
De server moet meer een playground worden, waar je kunt experimenteren met Linked Data, waarbij je meerdere triple stores kunt benaderen en dus SPARQL queries kan uitvoeren over meerdere bronnen heen. Wat gebeurt er bijv. als er ergens een waarde verandert en wat zie je dan op het scherm, etc.
Voor ontwikkelaars is het veel makkelijker als je aan hen API’s aanbiedt in een formaat waar ze makkelijk mee kunnen werken (bijv. in JSON-formaat) i.p.v. data in formaten waar ontwikkelaars moeilijk mee uit de voeten kunnen. Dit kunnen we stimuleren door ontwikkelaars in de markt uit te dagen om verschillende API’s te ontwikkelen op basis van dezelfde data, waarbij de beste wint. Dit zou je ook kunnen formuleren als ontwikkel voor ons stekkers op de data die ervoor zorgen dat de data makkelijker gebruikt kan worden in applicaties. Op die manier kunnen we de marktwerking rondom open data verder stimuleren en ervoor zorgen dat overheidsorganisaties minder applicaties zelf hoeven te bouwen. De overheid biedt in deze visie alleen de data en de regels aan en de ontwikkelaars kunnen daar dan mee aan de slag. Dit is een visie zoals deze binnen de Conceptual Friday is geformuleerd door de aanwezige Linked Data experts en is dus geen officiele overheidsvisie.
We merken dat we tot nu toe te weinig en te ad-hoc over de server hebben gecommuniceerd, zodat de server niet de aandacht krijgt binnen onze PLDN community die het verdient.
Het eerste idee is om regelmatig een nieuwsbrief uit te sturen naar de deelnemers binnen onze community over de wijzigingen die op de server hebben plaatsgevonden waar gebruikers van de server rekening mee moeten houden. We moeten even kijken of we dit willen combineren met de nieuwsbrief die al verstuurd wordt aan de PLDN community (over alle PLDN activiteiten) of dat we dit toch in een aparte nieuwsbrief willen doen. Te veel verschillende nieuwsbrieven is mogelijk niet handig, maar het eventueel combineren van nieuwsbrieven moet nog verder besproken worden.
Met de uitvoering van de BGT-pilot hebben we gezien, dat we in korte tijd tot goede resultaten kunnen komen met het uitvoeren van een Linked Data pilot op de server in Almere. Dit willen we graag uitbreiden met nieuwe pilot activiteiten die op eenzelfde manier georganiseerd kunnen worden.
Ook zien we dat techneuten goed met de server uit de voeten kunnen zonder dat daar heel veel documentatie voor nodig is. Wat er nu is, is in principe genoeg om aan de slag te kunnen met de server en we zullen de verdere actiepunten uit deze sessie oppakken, zodat de documentatie op de Wiki weer up to date is en is aangevuld met de ontbrekende gegevens
Samengevat kunnen we volgende vervolgsacties in gang zetten n.a.v. deze Conceptual Friday.
Nr | Actie | Eigenaar | Status |
---|---|---|---|
1 | Verslag maken van deze Conceptual Friday (deze pagina) | Pieter van Everdingen | afgerond |
2 | Datasets pagina toevoegen op Wiki met dezelfde lay-out als de RDF Endpoints pagina | Gerard Persoon | onderhanden |
3 | RDF Endpoints pagina op de Wiki uitbreiden met alle RDF Endpoints die in de wereld beschikbaar zijn | Gerard Persoon, Pieter van Everdingen, | onderhanden |
4 | Instructie voor het uploaden van triples toevoegen op de Wiki (stappenplan van Richard) | Linda van den Brink, Richard Nagelmaeker | onderhanden |
5 | Inspectiedata van de NVWA omzetten naar Linked Data, zodat deze gebruikt kan worden als nieuwe databron binnen de BGT-pilot (cafetaria data) | Linda van den Brink, Willem Jongkind, Marco Brattinga | onderhanden |
6 | SPARQL queries van BGT pilot als voorbeeld queries op de Wiki zetten | Linda van den Brink, Richard Nagelmaeker | onderhanden |
7 | SPARQL voorbeelden van Lieke op de Wiki zetten als Lieke daarmee akkoord gaat (boekenkast data & queries) | Linda van den Brink, Lieke Verhelst | onderhanden |
8 | Nieuwe open data bronnen zoeken om de diversiteit aan data te verhogen en bepalen hoe we data crawling technieken daarbij slim kunnen inzetten | allemaal | nog verder bespreken |
9 | Ontbrekende software toevoegen op de software pagina op de Wiki | Gerard Persoon | onderhanden |
10 | Ontwikkelde pilot API’s op GitHub zetten om zo de mogelijkheden van de open source community beter te kunnen benutten | allemaal | nog verder bespreken |
11 | Lijst met aanspreekpunten toevoegen op de Wiki om ervoor te zorgen dat er voor elke pilot of PoC activiteit op de server een aanspreekpunt is | ? | nog verder bespreken |
12 | Image backup en data backup regelen voor de server in Almere. Linda bespreekt dit verder met Erwin om te bepalen wat de mogelijkheden zijn. | Linda van den Brink, Erwin Folmer | onderhanden |
13 | Afspraak inplannen met Arjen Santema om de mogelijke nieuwe cases en activiteiten op de server in Almere meer in detail te bespreken | Arjen Santema | nog verder bespreken |
14 | Conceptual Friday inplannen voor het bespreken van nieuwe activiteiten rondom de PLDN Linked Data Service en welke open source publicatiesoftware voor ons doel het meest geschikt is (ergens half april) | Marco Brattinga | onderhanden |
15 | Oracle sessie organiseren met een goede Oracle expert die hands-on ervaring heeft met Oracle Spatial & Graph (eind mei) | Linda van den Brink | onderhanden |
16 | Het verzenden van nieuwsbrieven en de verdere communicatie rondom de server afspreken, zodat gebruikers van de server regelmatig geinformeerd worden over wijzigingen op de server | ? | nog verder bespreken |
Een application programming interface (API) is een verzameling definities op basis waarvan een computerprogramma kan communiceren met een ander programma of onderdeel (meestal in de vorm van bibliotheken). Vaak vormen API's de scheiding tussen verschillende lagen van abstractie, zodat applicaties op een hoog niveau van abstractie kunnen werken en het minder abstracte werk uitbesteden aan andere programma's. Hierdoor hoeft bijvoorbeeld een tekenprogramma niet te weten hoe het de printer moet aansturen, maar roept het daarvoor een gespecialiseerd stuk software aan in een bibliotheek, via een afdruk-API.
DBpedia is a crowd-sourced community effort to extract structured information from Wikipedia and make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link the different data sets on the Web to Wikipedia data. We hope that this work will make it easier for the huge amount of information in Wikipedia to be used in some new interesting ways. Furthermore, it might inspire new mechanisms for navigating, linking, and improving the encyclopedia itself.
De activiteiten van Platform Linked Data Nederland (PLDN) worden mede mogelijk gemaakt dankzij het Kadaster, TNO, Big Data Value Center (BDVC), ECP, Forum Standaardisatie, Kennisnet, SLO, Waternet, Taxonic, MarkLogic, Triply, Franz Inc., SemmTech, Rijksdienst voor het Cultureel Erfgoed (RCE), Beeld en Geluid, EuroSDR, de KVK en ArchiXL
Wilt u op de hoogte gehouden worden van nieuws en ontwikkelingen binnen PLDN?
Schrijf u dan in voor de nieuwsbrief