14 Μαΐ 2008

Semantic Digg

Το digg το ξέρετε! Είναι από τις πλέον επιτυχημένες περιπτώσεις του web 2.0. Tο πλέον διαδεδομένο σύστημα για voting web content έχει εξαιρετικά facilities για να σχολιάσει κανείς ιστορίες, videos και podcasts, ενώ η χρήση που κάνει των "thumbs up" και "thumbs down" έχει επηρεάσει πολλά reputation συστήματα.

Αυτό που ίσως να μην ξέρατε είναι ότι το Digg γίνεται semantic!

Η επίσημη ανακοίνωση έγινε με ένα πολύ σύντομο (έως τηλεγραφικό) posting του Steve Williams στο blog του Digg: "We’ve added RDFa, making Digg part of the 'semantic web' where Web pages become more sophisticated, beyond simply words and pictures".

Για να ενσωματώσει semantics το Digg χρησιμοποιεί RDFa (Resource Description Framework attributes). Η RDFa είναι ένα σύνολο από επεκτάσεις της XHTML και επιτρέπει annotations των XHTML markup elements ώστε να μπορούν να εξαχθούν RDF triples από την XHTML σελίδα. Πρακτικά, η RDFa είναι ένας εύκολος τρόπος για να χρησιμοποιηθεί η γλώσσα RDF σε εφαρμογές - μετατρέποντάς την σε XML format.

Για το semantic digg δείτε το video του FreeLineReport και την ανάλυση στο BetaNews.

Κινήσεις σαν αυτή είναι πολύ σημαντικές για την ένωση του web 2.0 με το semantic web.

3 σχόλια:

Ανώνυμος είπε...

Πολύ χρήσιμο ποστ, και με απλά λόγια όσο το δυνατόν. Τελευταία ασχολούμαι κι εγώ περισσότερο με το Semantic Web. Ματαίως ψάχνω να βρω παρόμοιες δουλειές αλλού, για την Ελληνική γλώσσα και δεν βρίσκω.

Σήμερα έβαλα ειδική αναφορά σε αυτό το ποστ σας, μέσα στο μπλογκ μου, ΕΔΩ (με scroll down).

Θα ήθελα να σας ρωτήσω όμως μερικά πράγματα.
1) ΤΙ έγινε τελικά με την Ελληνική έκδοση του Wordnet? Πριν πολύ καιρό μιλώντας με στέλεχος της Neurosoft μου είπε ότι υπάρχει αλλά είναι ακόμη ημιτελές και δεν γνωρίζει γιατί άλλοι το φτιάχνουν, κυρίως ακαδημαϊκοί. Εχετε κάτι να πείτε για αυτό; Μπορεί κανείς να το προμηθευτεί (έστω την ημιτελή του έκδοση);
2) Υπάρχει κάπου κάποια συστηματική και ΠΛΗΡΗΣ δουλειά NLP για την Ελληνική γλώσσα, ίσως κάποια πλήρης γραμματική σε Prolog ή ALE, κλπ? Οσα βρήκα μέχρι τώρα φαίνονται ημιτελή και υποτυπώδη.
3) Γνωρίζετε κάποιους άλλους (πλην της αξιέπαινης ερευνητικής σας ομάδας) που να ασχολούνται με το Ελληνικό Σημασιολογικό δίκτυο;

Αυτή τη στιγμή υλοποιώ ακόμη κάποιες πολύ low-level ρουτίνες για text-tokenization / part-of-speech tagging, και τις γράφω σε Assembly. Αυτό έχει εφαρμογές σε μία εταιρεία με την οποία συνεργάζομαι part-time. Αν κανείς ενδιαφέρεται για τέτοιου είδους δουλειές (που αυξάνουν δραματικά την ταχύτητα για όγκους δεδομένων)... εδώ είμαστε! :) Πάντως το σημαντικότερο ίσως κομμάτι της δουλειάς που κάνω σε λίγο θα αφορά σχεδόν αποκλειστικά τη χρήση της SWI-Prolog για RDF και inferences.

Καλή συνέχεια!

gmentzas είπε...

Για να είμαι ειλικρινής δεν ξέρω τις απαντήσεις σε όλες τις (πολύ καίριες) ερωτήσεις σου:

(1) η ελληνική version του Wordnet φτιαχνόταν στο πλάισιο του ερευνητικού έργου BalkaNet που είχε σκοπό την ανάπτυξη ενός πολύγλωσσου σημασιολογικού λεξικού (σύμφωνα με τις αρχές του EuroWordNet) για τις εξής γλώσσες: βουλγαρικά, τσεχικά, ελληνικά, ρουμανικά, σερβικά, τουρκικά. Ομως το url του έργου
http://www.ceid.upatras.gr/Balkanet/
δεν δουλεύει και το μοναδικό "χρήσιμο" link
http://blum.sabanciuniv.edu:8888/balkanet/
Που βρήκα απλώς υποστηρίζει μετάφραση λέξεων απο τη μία γλώσσα στην άλλη.

(2) Απ'όσο ξέρω όχι - δεν υπάρχει "πλήρης" δουλειά σε NLP για ελληνικά (φαντάζομαι ότι λέγοντας "πλήρης", εννοείς κάτι αντίστοιχο του GATE
http://gate.ac.uk/
- ετσι δεν είναι;)

(3) Στον ελληνικό ερευνητικό χώρο υπάρχουν πολλές ερευνητικές ομάδες που κάνουν αξιόλογη δουλειά σε τεχνολογίες semantic web (π.χ. η ομάδα του Γρηγόρη Αντωνίου
http://www.ics.forth.gr/~antoniou/
στην Κρήτη - με εστίαση σε defeasible logic και reasonins, η ομάδα του Γιάννη Κομπατσιάρη
http://mklab.iti.gr/
στη Θεσσαλονίκη
και του Στέφανου Κόλλια
http://www.image.ntua.gr/
στο ΕΜΠ - και οι δύο με έμφαση σε semantics για multimedia, και άλλοι που ξεχνώ αυτή την στιγμή...).

Βέβαια, είναι άλλο το να κάνεις έρευνα στις τεχνολογίες και άλλο το να αναπτύσσεις (έστω και μέρη) των απαιτούμενων συστημάτων επεξεργασίας γλώσσας για τα ελληνικά - που είναι αυτό που κυρίως ψάχνεις εσύ!

ΓρΜ

Ανώνυμος είπε...

Ευχαριστώ ΠΑΡΑ πολύ για τις εκτενείς και κατατοπιστικές απαντήσεις. Π.χ. το (3) απαντήθηκε με πολύ χρήσιμα link!

Για το (1) (περί Wordnet) δεν με εκπλήσσει ότι καλύπτεται από το γνωστό μυστήριο και το Balkan-net. Τα ίδια περίπου ανακάλυψα κι εγώ πριν καιρό. Τείνω να πιστέψω ότι το project κόλλησε κάπου ή ότι... δόθηκε (κάτω από το τραπέζι) σε κάποια εταιρεία που μέχρι στιγμής αδρανεί.

Για το (2) πολύ καλή η υπενθύμιση του Gate, που το είχα ψάξει πριν πολλά χρόνια και έκτοτε το αμέλησα (ενώ αποτελεί standard tool πλέον). Πάντως η φράση μου "πλήρης NLP" ΔΕΝ ήταν σωστή, γιατί φυσικά κανένα τέτοιο σύστημα δεν είναι 100% πλήρες. Το θέμα είναι να υπάρχει ένα έστω στοιχειώδες parser που να αναλύει με επιτυχία έστω ένα 90% οποιουδήποτε Ελληνικού κειμένου. Προσανατολίζομαι (ελλείψει αυτής της πολυτέλειας) σε χρήση Partial Parsing methods, σε parsers που μαθαίνουν από διορθώσεις λαθών τους, κ.ο.κ. (αχανής ο χώρος και απολύτως ανεπαρκής για τα Ελληνικά).

Πάντως έχω ήδη τώρα υλικό να ψάξω με τα χρήσιμα λινκ και ευχαριστώ θερμά! :)

 
Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.