8 Μαΐ 2010

Social Media Predict the Oscars

Στα social media (blogs, social networks, microblogs, κλπ) υπάρχει ένας πλούτος πληροφορίας και γνώσης που εάν τον επεξεργαστούμε κατάλληλα μπορεί να μας βοηθήσει να πάρουμε αποφάσεις ή/και να υποστηρίξουμε συγκεκριμένες επιλογές.

Με αφετηρία αυτήν την υπόθεση και χρησιμοποιώντας σαν τεχνολογική πλατφόρμα τις αγορές πρόβλεψης - που είχα περιγράψει και παλιότερα εδώ - μια εργασία της ερευνητικής ομάδας μου οδήγησε σε ένα εξαιρετικά ενδιαφέρον πείραμα: την επεξεργασία πληροφορίας από social media για την πρόβλεψη του βραβείου Oscar καλύτερης ταινίας.

Πήραμε δεδομένα από social media sites που περιέχουν κριτικές, σχόλια και αξιολογήσεις κινηματογραφικών ταινιών όπως to Imdb.com, to Flixster.com, to RottenTomatoes.com, to YahooMovies.com, αλλά και από γενικότερα social media όπως Twitter και google trends.

Χρησιμοποιώντας μία πληθώρα από υπολογιστικές τεχνικές (π.χ. opinion mining για την ανάλυση των απόψεων που εκφράζονται στα κείμενα των posts, τεχνητούς πράκτορες που "παίζουν" στις αγορές πρόβλεψης, κλπ) το σύστημα που αναπτύξαμε προέβλεψε σωστά το βραβείο Oscar καλύτερης ταινίας στις έξι από τις επτά χρονιές για τις οποίες είχαμε δεδομένα (2004-2010).

Η χρονιά που κάνουμε λάθος είναι το 2006, όταν το Oscar το πήρε το Crash, το οutsider εκείνης της χρονιάς, που νίκησε ταινίες όπως το Brokeback Mountain.

Αύριο (12.05.10) ο Θύμιος παρουσιάζει αυτην τη δουλειά στο διεθνές συνέδριο για Autonomous Agents and Multiagent Systems στο Τορόντο.

Για όσους ενδιαφέρονται για τις τεχνικές λεπτομέρειες η παρουσίαση είναι online και ο πλήρης τίτλος του άρθρου είναι:


27 Νοε 2009

E-government services

Ενα κριτήριο αξιολόγησης των ερευνητικών εργασιών, που χρησιμοποιούμε συχνά στην ακαδημαϊκή κοινότητα, είναι τα λεγόμενα citations: πόσοι (και ποιοί) αναφέρουν / χρησιμοποιούν τα αποτελέσματα της έρευνάς σου.

Βέβαια, εκτός από τα citations από άλλους ερευνητές, έχει αξία να σε κάνουν "cite" και μελέτες που ξεφεύγουν από τα στενά ακαδημαϊκά πλαίσια.

Οπότε είδα με μεγάλη χαρά ότι η τελευταία μελέτη του ΟΟΣΑ για την ηλεκτρονική διακυβέρνηση ("Rethinking e-Government Services: User-centred Approaches"), στο 4ο κεφάλαιο που αφορά στην παρακολούθηση, μέτρηση και αξιολόγηση της ποιότητας των υπηρεσιών ηλεκτρονικής διακυβέρνησης (Chapter 4: Monitoring and Evaluating User Take-up), υιοθετεί το μοντέλο που αναπτύξαμε και δημοσιεύσαμε σε ένα διεθνές συνέδριο το 2006.

(Η μελέτη του ΟΟΣΑ είναι διαθέσιμη εδώ, ενώ το μοντέλο που χρησιμοποιεί παρουσιάζεται στο: Papadomichelaki, X., Β. Magoutas, C. Halaris, D. Apostolou, G. Mentzas (2006) "A Review of Quality Dimensions in E-government Services", Fifth international EGOV conference 2006, September 4-8, 2006).

24 Νοε 2009

Semantic infrastructure for research

Είχα γράψει και παλιότερα για τη δουλειά του Σάββα Παραστατίδη στη Microsoft Research σε semantic εργαλεία.

Το τελευταίο τεύχος του Communications of the ACM (Δεκέμβριος 2009) έχει ένα άρθρο του Σάββα και των συνεργατών του στη Microsoft, όπου παρουσιάζουν ορισμένα από τα "semantic-aware" εργαλεία που αναπτύσσουν για την υποστήριξη των ερευνητών.

Keep up the good work!


(Το άρθρο είναι διαθέσιμο online στο site του ACM).

22 Οκτ 2009

Open government data

Ολα ξεκίνησαν μέσα Σεπτέμβρη όταν ο Tim Berners-Lee με τον Nigel Shadbolt συνάντησαν τον Gordon Brown στο νούμερο 10 της Downing Street για να του παρουσιάσουν την πρότασή τους για το "άνοιγμα" των δεδομένων της κυβέρνησης.

Βέβαια, η πολιτική δέσμευση προϋπήρχε: ο Brown είχε ήδη δεσμευθεί για την παροχή πρόσβασης στα δεδομένα της κυβέρνησης στο πλαίσιο του Building Britain’s Future, μιμούμενος την αντίστοιχη προσπάθεια του Obama.

Μετά από μερικές μέρες το UK Cabinet Office κάλεσε τους "open data" developers να συμμετέχουν στην προσπάθεια (η συμμετοχή όμως απαιτεί εγγραφή σε ένα google group - κάτι που σχολιάστηκε πολύ αρνητικά!).

Τώρα πιά το θέμα έγινε πρωτοσέλιδο στα media, όπως στο BBC News.

Θέλετε κι εσείς να κάνετε ένα SPARQL query στα δεδομένα της Αγγλίας; Το blog της Talis έχεις όλες τις λεπτομέρειες.

Αντε... και στα δικά μας :-)

20 Οκτ 2009

"Εξυπνη" Ηλεκτρονική Διακυβέρνηση

Το τεύχος του περιοδικού IEEE Intelligent Systems Σεπτεμβρίου/Οκτωβρίου 2009 περιλαμβάνει το special issue - αφιέρωμα στην ηλεκτρονική διακυβέρνηση που επιμεληθήκαμε με τον Βασίλη Περιστέρα, τον Ντίνο Ταραμπάνη και τον Andreas Abecker.

Ο τίτλος του αφιερώματος είναι "Transforming E-government and E-participation through IT" και η εισαγωγή στο τεύχος είναι downloadable από το site του περιοδικού.

Enjoy!

18 Οκτ 2009

Networks, Crowds, Markets

"Η διασυνδεσιμότητα ('connectedness') της σύγχρονης κοινωνίας είναι κάτι που αποδεικνύεται εύκολα από την ραγδαία ανάπτυξη του Internet και του Web, την ευκολία επικοινωνίας της πληροφορίας αλλά και την ευκολία εξάπλωσης των επιδημιών ή των οικονομικών κρίσεων. Τα φαινόμενα αυτά εμπεριέχουν την ευρεία ανάπτυξη κοινωνικών δικτύων και προϋποθέτουν την συνάθροιση της συμπεριφοράς πολλών ατόμων. Είναι βασισμένα στις συνδέσεις που μας ενώνουν και στους τρόπους με τους οποίους οι αποφάσεις μας έχουν επιπτώσεις στους άλλους."

Με τέτοιο σύγχρονο και ενδιαφέρον θέμα είναι σίγουρο ότι το νέο βιβλίο των David Easley και Jon Kleinberg με τίτλο "Networks, Crowds, and Markets: Reasoning About a Highly Connected World" που θα κυκλοφορήσει το 2010 από τον εκδοτικό οίκο Cambridge University Press δεν θα περάσει απαρατήρητο.

Το βιβλίο συνδυάζει προσεγγίσεις απο τα εφαρμοσμένα μαθηματικά, τα οικονομικά, την κοινωνιολογία και την επιστήμη των υπολογιστών για να περιγράψει πως διασυνδέονται οι κόσμοι της τεχνολογίας, της οικονομίας και της κοινωνίας.

Τα θέματα του βιβλίου περιγράφουν αρκετά από τα θέματα με τα οποία ασχολούμαστε ετευνητικά στην ομάδα μου, όπως prediction markets, recommendation engines αλλά και search engines.

Και - ευτυχώς - δεν χρειάζεται να περιμένουμε μέχρι το 2010: οι Easley και Kleinberg έκαναν διαθέσιμη για download μία free pre-publication version του βιβλίου τους. Κατεβάστε τις 828 σελίδες (!) του draft από το site του Kleinberg στο πανεπιστήμιο Cornell.

9 Ιουν 2009

Microsoft's Zentity

Πιστεύω ότι η πρόσφατη προσπάθεια της ομάδας Education and Scholarly Communication του ερευνητικού τμήματος της Microsoft να αναπτύξει εργαλεία και τεχνικές που υποστηρίζουν τον κύκλο ζωής της "επιστημονικής επικοινωνίας" (Scholarly Communication), δηλαδή το σύνολο των διαδικασιών που περιλαμβάνουν τη συλλογή και επεξεργασία δεδομένων, τη συγγραφή άρθρων, τη δημοσίευσή τους και την αποθήκευση και αρχειοθέτησή τους, είναι αξιοπρόσεκτη.

Κι αυτό για τουλάχιστον δύο λόγους.

Πρώτον γιατί τα εργαλεία που αναπτύσσει η Microsoft σε αυτήν την περιοχή αποτελούν πολύ καλά παραδείγματα της ευρύτερης προσπάθειας για την ανάπτυξη του σημασιολογικού ιστού. Δείτε το Zentity. Το Zentity αποτελεί τη βασική πλατφόρμα για την αποθήκευση του υλικού που παράγεται κατά τη διάρκεια της επιστημονικής έρευνας (άρθρα, παρουσιάσεις, videos, κλπ). Ο Σάββας Παραστατίδης (που ήταν ο architect του Zentity) πιστεύει ότι η προσέγγιση που ακολουθεί το Zentity είναι αρκετά γενική ενώ δεν διστάζει να δηλώσει: "We believe in the value of semantics".

Ο δεύτερος λόγος είναι ότι - σύμφωνα με τον Lee Dirks, director της ομάδας, τα εργαλεία αυτά θα είναι διαθέσιμα σαν open source (μία μάλλον καινοτόμα προσέγγιση για την Microsoft). Ισως για την Microsoft να είναι η αρχή αυτού που ο Dirks λέει "we represent a new Microsoft".

[Βέβαια έχω και έναν τρίτο - περισσότερο προσωπικό - λόγο που ενθουσιάζομαι με την προσέγγιση της Microsoft: με εντυπωσίασε το Research Desktop από την πρώτη φορά που είδα τα σχετικά videos και από τότε ανυπομονώ να δω πότε θα γίνει πραγματικότητα]

1 Ιουν 2009

Consultants and the Semantic Web


Εδώ και χρόνια διάφορες εταιρίες technology analysts και consultants (όπως η Gardner και η Forrester) είχαν παρουσιάσει τις προβλέψεις και τις αναλύσεις τους για το semantic web.

Ηρθε και η σειρά της Price Waterhouse Coopers.

Το τελευταίο τεύχος του τριμηνιαίου Technology Forecast journal της εταιρίας είναι αφιερωμένο στο Semantic Web. Αρκετά ενημερωτικό, με άρθρα που περιγράφουν ενδιαφέρουσες εφαρμογές π.χ. για το BBC Earth ή ακόμη και για την ολοκλήρωση των folksonomies με οντολογίες.

Το κυριότερο συμπέρασμα της PwC είναι ότι ο σημασιολογικός ιστός μπορεί να προσφέρει ένα πρακτικό τρόπο για large-scale data integration στις επιχειρήσεις.

(Μπορείτε να κατεβάσετε όλο το τεύχος από εδώ)

3 Απρ 2009

Google vs Semantic web

Τι γίνεται όταν ερευνητές της Google δημοσιεύουν άρθρο σε ένα από τα πιο γνωστά περιοδικά τεχνητής νοημοσύνης (το IEEE Intelligent Systems) στο οποίο περιγράφουν δύο διαφορετικές προσεγγίσεις για σημασιολογική ανάλυση (την "συμβολική / δομική" - που χρησιμοποιείται από το semantic web - και την "στατιστική") και πρακτικά δείχνουν τη σαφή προτίμησή τους για μία από τις δύο (τη δεύτερη!);

Η απάντηση είναι: χαμός στα blogs που υποστηρίζουν το semantic web :-)

Τι έγινε; Οι Alon Halevy, Peter Norvig και Fernando Pereira, ερευνητές της Google Research, δημοσίευσαν το άρθρο τους "The Unreasonable Effectiveness of Data" στο τελευταίο τεύχος του IEEE Intelligent Systems, αλλά κσι στο blog της Google Research.

Στο άρθρο "μιμούνται" τη λογική (αλλά και τον τίτλο) ενός άρθρου του Eugene Wigner που δημοσιεύθηκε στο Communications in Pure and Applied Mathematics τον Φεβρουάριο του 1960 με τίτλο "The Unreasonable Effectiveness of Mathematics in the Natural Sciences".

Σε μεγάλο βαθμό το άρθρο των ερευνητών της Google μπορεί να θεωρηθεί "καταπέλτης" για την προσέγγιση του semantic web.

Και βέβαια, δεν είναι ότι καλύτερο αυτός ο καταπέλτης να προέρχεται από ερευνητές της μεγαλύτερης εταιρίας στο web!

Η συζήτηση μόλις άρχισε (δείτε π.χ. τα postings του Stefano Mazzocchi και του Frank van Harmelen) και αναμένεται συναρπαστική...


Update: Οπως αναμενόταν, τα blogs πήραν φωτιά μετά από τη δημοσίευση του άρθρου. Ξεχωρίζω δύο postings που έχουν ενδιαφέρον:

  • του Mike Bergman στο "Massive Muscle on the ABox at Google", όπου πολύ σωστά ξεκαθαρίζει ότι το άρθρο αναφέρεται στα στιγμιότυπα (instances) των δεδομένων και στη δομή του ABox, σε αντίθεση με τις οντολογίες που εφαρμόζονται στο TBox της περιγραφικής λογικής. Και, βέβαια, επισημαίνει ότι είναι λογικό (μόνον) εταιρίες σαν τη Google να έχουν τον όγκο δεδομένων που απαιτείται για την ανάλυση του ABox.
  • και το posting του Daniel Tunkelang που μας θυμίζει ότι αυτή η οπτική γωνία που υιοθετούν οι ερευνητές της Google είχε εμφανιστεί και παλιότερα (ίσως σε πιο ακραία μορφή) σε ένα άρθρο του Wired με τον τίτλο “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete“. Το άρθρο αναφερόταν σε μια φράση του Peter Norvig ότι “All models are wrong, and increasingly you can succeed without them” και κατέληγε με την ερώτηση: "It's time to ask: What can science learn from Google?" :-)

29 Μαρ 2009

Semantic Microsoft

Στο φετεινό Emerging Technology Conference που διοργάνωσε ο O’Reilly η Microsoft έκανε μία ανακοίνωση που μπορεί να αποδειχτεί σημαντική για το semantic web: ένα νέο add-in για το Word 2007 που επιτρέπει στους συγγραφείς να κάνουν "annotate" μια λέξη ή μία φράση με όρους που προέρχονται από εξωτερικές οντολογίες.

Ο τρόπος που γίνεται το annotation σηκώνει πολύ συζήτηση (γίνεται με ένα custom XML schema το οποίο μετά μπορεί να γίνει mapped σε RDF - το add-in είναι διαθέσιμο για download απο το codeplex της Microsoft).

Το θέμα όμως δεν είναι αυτό (έτσι κι αλλιώς υπάρχουν εδώ και χρόνια ontology add-ins για το Word και το Excel).

Το σημαντικό είναι πρώτον ότι η ίδια η Microsoft προχωρά σε μία τέτοια κίνηση και δεύτερον ότι την ανακοινώνει σε ένα συνέδριο με μεγάλο visibility.


ΥΓ. Και επειδή πίσω από κάθε τι πρέπει να βρούμε και το ελληνικό στοιχείο :-) ένας από τους developers του add-in είναι ο Σάββας Παραστατίδης.

13 Μαρ 2009

Sixth sense

Η Pattie Maes, Καθηγήτρια στο MIT Media Lab (και γνωστή στους παλιότερους ως ερευνήτρια σε θέματα collaborative filtering) παρουσίασε στο πρόσφατο TED (Technology, Entertainment, Design) conference τα πρώτα αποτελέσματα από το Sixth Sense project που δουλεύει με την ομάδα της για Fluid Interfaces στο MIT.

Μπορείτε να διαβάσετε τα σχόλια στο Fast Company, το Crunch Gear, ή to Engadget, αλλά μην παραλείψετε να δείτε το video της παρουσίασης στο συνέδριο!

Enjoy!!!

(thanks Κώστα για το link!)

17 Φεβ 2009

Yahoo Semantic Search

Η πρόσφατη ανακοίνωση της Yahoo ότι το Search σύστημα BOSS (Build your Own Search System) θα υποστηρίζει δομημένα δεδομένα σε μορφή RDF μπορεί να αποδειχθεί ένα σημαντικό βήμα προς το όραμα του σημασιολογικού ιστού για το “web of data” .

Το Yahoo! Search BOSS παρέχει πρόσβαση στα δεδομένα που βρίσκει το SearchMonkey, το semantic search της εταιρίας.

Το SearchMonkey είναι το "πνευματικό παιδί" του Peter Mika ενός από τους πλέον αξιόλογους, ταλαντούχους και εξαιρετικά σεμνούς ερευνητές στην περιοχή της τεχνητής νοημοσύνης (ο Peter ήταν πέρσι στη λίστα AI's 10 to Watch του περιοδικού IEEE Intelligent Systems).

Δείτε το post στο Yahoo search blog που περιγράφει πως δουλεύει αυτή η τεχνολογία με ένα παράδειγμα από τη σελίδα του Barack Obama στο LinkedIn.

 
Creative Commons License
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.