4 Φεβ 2008

Στο δρόμο για το semantic web...

Καιρός να γυρίσουμε σ' ένα από τα συνηθισμένα θέματα αυτού το blog: τον σημασιολογικό ιστό.

Τα καλά νέα αυτήν τη φορά έρχονται από την Reuters (ναι, τη γνωστή εταιρία παροχής πληροφοριών). Η Reuters εξαγόρασε πέρσι τον Απρίλη την ClearForest, μια από τις πλέον γνωστές εταιρίες στον κλάδο των text analytics.

Ποιά είναι τα "καλά νέα";

Η Reuters ανακοίνωσε την περασμένη εβδομάδα την λειτουργία ενός ανοικτού Application Programming Interface (API) για το Calais, το web service της ClearForest, που παρέχει ελεύθερη πρόσβαση για τη δημιουργία semantic tagging σε διαφορετικές εφαρμογές και περιεχόμενο. Το API είναι διαθέσιμο από το OpenCalais.com.

To web service αυτό αναγνωρίζει οντότητες, γεγονότα και συσχετίσεις στο κείμενο και επιστρέφει τα αποτελέσματα σε μορφή RDF. Χρησιμοποιώντας τεχνικές όπως natural language processing και machine learning, το Calais αναγνωρίζει τις οντότητες ενός εγγράφου (ονόματα ανθρώπων, τοποθεσίες, οργανισμούς, κλπ) , τις κατηγοριοποιεί και τις συνδέει με συσχετίσεις (π.χ. person ‘x’ works for company ‘y’), και γεγονότα (π.χ. person ‘z’ was appointed chairman of company ‘y’ on date ‘x’).

Το Calais web service επιτρέπει σε παροχείς περιεχομένου (publishers, bloggers αλλά και σε απλά sites) να δημιουργήσουν μετα-δεδομένα (tags) στο περιεχόμενό τους με αυτόματο τρόπο κι έτσι να αυξήσουν σημαντικά την αποτελεσματικότητα του search. Από την άλλη μεριά, το Calais web service επιτρέπει σε καταναλωτές περιεχομένου (π.χ. search engines, news portals, bookmarking services και RSS readers) να κάνουν submit περιεχόμενο που γίνεται - πάλι αυτόματα - tagged!

Η Reuters έχει προβλέψει ώστε το αποτέλεσμα του Calais να είναι ανοικτό και να διαβάζεται απευθείας από εφαρμογές του semantic web όπως τα Powerset, Freebase, Twine, Hakia, Wikia, Blue Organizer κλπ.

Μπορεί τα μετα-δεδομένα που υποστηρίζει το Calais να μην είναι πάρα πολλά (εμπλουτίζονται βέβαια συνεχώς) και η εξαγωγή περιεχομένου να απέχει πολύ από την πλήρη κατανόηση γλώσσας, δεν παύει όμως να είναι μία state of the art προσέγγιση για domain-independent information extraction, και άρα ένα σημαντικό βήμα στο δρόμο για το semantic web...


Update: Η κίνηση της Reuters προς το semantic web τράβηξε το ενδιαφέρον και του Tim O'Reily σε μία εξαιρερικά ενδιαφέρουσα συνέντευξη με τον Devin Wenig (που τώρα είναι Chief Operating Officer της Reuters και προορίζεται για Chief Executive Officer, όταν ολοκληρωθεί η συγχώνευση της Reuters με την Thomson). Εκτός από το posting στο blog του O'Reily, αξίζει κανείς να διαβάσει τις ερωτήσεις που έγιναν - σε μερικές από τις οποίες απάντησε ο ίδιος ο Wenig.

Δεν υπάρχουν σχόλια:

 
Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.