Institut for Nordiske Studier og Sprogvidenskab

Semantic Processing across Domains

Projektet er afsluttet.

Hvis den næste generation af informationsteknologi skal kunne håndtere sprog på en mere altomfattende måde, er det nødvendigt at indarbejde semantisk processering i de teknologiske løsninger.

Projektet fokuserede på semantisk processering af dansk, og den særlige udfordring vi møder her er at dansk ikke er særlig godt dækket ind mht. semantisk opmærkede sprogdata, og at eksisterende systemer ikke i tilstrækkelig grad er robuste når man skifter fra et domæne til et andet. Vi eksperimenterede med et skalérbart betydningsinventar baseret på Den Danske Ordbog og DanNet hvor vi kunne arbejde med forskellige niveauer af finkornethed, og vi opmærkede en afgrænset mængde danske tekster med semantisk viden.

Projektet tog udgangspunkt i den nyeste viden inden for semantisk processering men gik skridtet videre idet det udvikler maskinlæringsmetoder der kan arbejde med færre annoterede data end hidtil set og samtidig er robust på tværs af domæner. Disse opmærkede data vil blive udnyttet til automatisk at lære ordbetydning og semantisk analyse. Dette vil ske ved brug af nye, semisuperviserede teknikker, som kan klare sig med færre data, og med metodisk håndtering af det bias der opstår når ens opmærkede data kommer fra et andet domæne end det, som man er interesseret i.

Den semantiske model blev afprøvet i to prototyper: dels på Det Danske Sprog- og Litteraturselskabs sprogtjeneste ordnet.dk hvor man kunne søge semantisk i danske tekster, dels i det danske spørgsmål/svar-system som er under udvikling af CST-KU og DTU i ESICT-projektet.

SemDaX-korpus

SemDaX-korpusset er nu tilgængeligt til forskningsformål på https://github.com/kuhumcst/semdax.

Korpusset indeholder 90.000 ord, dækker 6 teksttyper (blog, chat, forum, avis, ugeblad, folketingstaler) og er håndopmærket med leksikalske betydninger baseret på Den Danske Ordbog og det danske wordnet, DanNet.

Formål med korpusset er at tilvejebringe danske træningsdata til udvikling af sprogteknologi der kan skelne mellem ords forskellige betydninger i dansk. I materialet anvender vi betydningsinventarer af varierende grovhed. Således indeholder korpusset opmærkninger med både et finkornet inventar med hoved- og underbetydninger, samt grovere inventarer hvor der kun skelnes imellem de mest umiddelbare betydninger. Pålideligheden ved de forskellige inventarer måles bl.a. ud fra annotørenighed, hvorfor 60% materialet er opmærket af flere annotører (se annotørenigheden for de forskellige teksttyper).

De metodiske overvejelser bag korpusset præsenteres i Bolette S. Pedersen, Anna Braasch, Anders Johanssen, Hector Martinez Alonso, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Hartvig Sørensen: The SemDaX corpus – sense annotations with scalable sense inventories. (under udgivelse til LREC 2016)

Publikationer

Sanni Nimb (2018). The Danish FrameNet Lexicon: method and lexical coverage. In Proceedings of the International FrameNet Workshop at LREC 2018, Miyazaki, Japan.

Pedersen, B. S., Nimb, S., Søgaard, A., Hartmann, M., & Olsen, S. (2018). A Danish FrameNet Lexicon and an Annotated Corpus Used for Training and Evaluating a Semantic Frame Classifier. In Proceedings of the 11th edition of the Language Resources and Evaluation Conference, Miyazaki, Japan.

Pedersen, B. S., Nimb, S., Olsen, S., & Sørensen, N. H. (2018). Combining Dictionaries, Wordnets and other Lexical Resources - Advantages and Challenges. In Globalex Proceedings 2018, Miyasaki, Japan.

Pedersen, B. S. (2018). Semantisk processering og leksikografi. In Nordiske Studier i leksikografi, Skrifter udgivet af Nordisk Forening for Leksikografi.

Pedersen, B. S., Aguirrezabal Zabaleta, M., Nimb, S., Olsen, S., & Rørmann, I. (2018). Towards a principled approach to sense clustering – a case study of wordnet and dictionary senses in Danish. In Proceedings of Global WordNet Conference 2018 Singapore.

Nimb, S., Braasch, A., Olsen, S., Pedersen, B. S., & Søgaard, A. (2017). From Thesaurus to Framenet. In I. Kosem, C. Tiberius, M. Jabobicek, J. Kallas, S. Krej, & V. Baisa (Eds.), Electronic Lexicography in the 21st Century : Proceedings of eLex 2017 conference (pp. 1-22). Lexical Computing CZ.

Pedersen, B. S. (2017). Leksikografisk viden som væsentlig medspiller i ny, intelligent teknologi. In Bók Jógvan (pp. 351-371). Torshavn: Faroe University Press. Annales Societatis Scientiarum Færoensis Supplementum 68.

Augenstein, Isabelle; Søgaard, Anders. 2017. Multi-task learning of keyphrase boundary classification. The 55th Annual Meeting of the Association for Computational Linguistics (ACL). Vancouver, Canada.

Levy, Omer; Søgaard, Anders; Goldberg, Yoav. 2017. A strong baseline for learning cross-lingual word embeddings from sentence alignments. The 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL). Valencia, Spain.

Martínez Alonso, Héctor; Anders Johannsen; Sanni Nimb; Sussi Olsen; Bolette Sandford Pedersen. 2016. An empirically grounded expansion of the supersense inventory. In Proceedings of Global Wordnet Conference 2016.

Nimb, Sanni. 2016. Der er ikke langt fra tanke til handling. In Simon Skovgaard Boeck & Henrik Blicher (red.): Danske Studier 2016, København, Universitets-Jubilæets danske Samfund 2016, s. 25-59.

Nimb, Sanni. 2016. Semantic Processesing across Domains. In Det Danske Sprog- og Litteraturselskabs årsberetning DSL 2015-16. s. 65-67.

Nimb, Sanni; Bolette Sandford Pedersen. 2016. Fra begrebsordbog til sprogteknologisk ressource: verber, semantiske roller og rammer – et pilotstudie. In Nordiske Studier i Leksikografi, Vol. 13, København, Danmark.

Pedersen, Bolette Sandford; Nimb, Sanni; Braasch, Anna; Olsen, Sussi. 2016. Betydningsinventarer – i ordbøger og i løbende tekst. In Nordiske Studier i Leksikografi, Vol. 13, København, Danmark.

Pedersen, Bolette Sandford; Braasch, Anna; Johannsen, Anders Trærup; Martínez Alonso, Héctor; Nimb, Sanni; Olsen, Sussi; Søgaard, Anders; Sørensen, Nicolai. 2016. The SemDaX Corpus - sense annotations with scalable sense inventories. In Proceedings of the 10th edition of the Language Resources and Evaluation Conference. Portorož, Slovenia.

Søgaard, Anders. 2016. Evaluating word embeddings with fMRI and eye-tracking. In RepEval, The 54th Annual Meeting of the Association for Computational Linguistics (ACL). Berlin, Germany.

Gouws, Stephan; Søgaard, Anders. 2015. Simple task-specific bilingual word embeddings. In North American Chapter of the Association for Computational Linguistics (NAACL). Denver, CO.

Johannsen, Anders; Héctor Martínez Alonso; Anders Søgaard. 2015. Any-language frame-semantic parsing. In Proceeding of emnlp2015.

Martínez Alonso, Héctor; Anders Johannsen; Sussi Olsen; Sanni Nimb; Nicolai Hartvig Sørensen; Anna Braasch; Anders Søgaard; Bolette Sandford Pedersen. 2015. Supersense tagging for Danish. In Proceedings of the 20th Nordic Conference of Computational Linguistics NODALIDA 2015, Linköping Electronic Conference Proceedings #109, ACL Anthology, Linköping University Electronic Press, Sweden.

Martínez Alonso, Héctor; Barbara Plank; Anders Johannsen; Anders Søgaard. 2015. Active learning for sense annotation. In Proceedings of the 20th Nordic Conference of Computational Linguistics NODALIDA 2015, Linköping Electronic Conference Proceedings #109, ACL Anthology, Linköping University Electronic Press, Sweden.

Olsen, Sussi; Bolette Sandford Pedersen; Héctor Martínez Alonso; Anders Johannsen. 2015. Coarse-grained sense annotation of Danish across textual domains. In Proceedings of the Workshop on Semantic resources and Semantic Annotation for Natural Language Processing and the Digital Humanities at NODALIDA 2015, Linköping University Electronic Press, Sweden.

Pedersen, Bolette Sandford (Redaktør); Olsen, Sussi (Redaktør); Borin, Lars (Redaktør): Proceedings of the Workshop on Semantic resources and Semantic Annotation for Natural Language Processing and the Digital Humanities at NODALIDA 2015. Linköping University Electronic Press, 2015. 43 s. (Linköping Electronic Conference Proceedings).

Pedersen, Bolette Sandford; Nimb, Sanni; Olsen, Sussi. 2015. Eksperimenter med et skalérbart betydningsinventar til semantisk opmærkning af dansk. In Rette ord: Festskrift til Sabine Kirchmeier-Andersen i anledning af 60-årsdagen. red. Dorthe Duncker; Eva Skafte Jensen; Ole Ravnholt. Vol. 46 Dansk Sprognævns skrifter. s. 247-261.

Fromreide, Hege; Søgaard, Anders. 2014. NER in tweets using bagging and a small crowdsourced dataset. In The 9th International Conference on Natural Language Processing (PolTAL), Lecture Notes in Computer Science, Vol. 8686, Springer.

Fromheide, Hege, Søgaard, Anders (2014): Crowdsourcing and annotating NER for Twitter #drift. In Proceedings of Language Resources and Evaluation Conference 2014. ELRA, Reykjavik, Iceland.

Johannsen, Anders; Hovy, Dirk; Martínez Alonso, Héctor; Søgaard, Anders. 2014. More or less supervised super-sense tagging of Twitter. In The 3rd Joint Conference on Lexical and Computational Semantics (*SEM). Dublin, Ireland. Received Best Paper Award.

Pedersen, Bolette Sandford, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Sørensen (2014): Semantic Annotation of the Danish CLARIN Reference Corpus.In Proceedings of the isa-10, 10th Joint ACL - ISO Workshop on Interoperable Semantic Annotation, LREC 2014, ELRA, Reykjavik, Iceland.

Søgaard, Anders; Johannsen, Anders; Plank, Barbara; Hovy, Dirk; Martínez Alonso, Héctor. 2014. What is in a p-value in NLP? In The 18th Conference on Computational Natural Language Learning (CoNLL). Baltimore, MD.

Workshops

Workshop på NODALIDA 2015: Semantic resources and semantic annotation for Natural Language Processing and the Digital Humanities

Vilnius, Litauen, den 11. maj, 2015

Beskrivelse af workshoppen på engelsk

Præsentationer

Johan Bos: Issues in Parallel Meaning Banking

Magnus Norrby og Pierre Nugues: Extraction of Lethal Events from Wikipedia and a Semantic Repository

Sussi Olsen, Bolette Pedersen, Héctor Martínez Alonso og Anders Johannsen:Coarse-Grained Sense Annotation of Danish across Textual Domains

Natalia Loukachevitch og Ilia Chetviorkin: Determining the Most Frequent Senses Using Russian Linguistic Ontology RuThes

Karin Friberg Heppin og Dana Dannells: Polysemy and questions of lumping or splitting in the construction of Swedish FrameNet

Lars Borin, Luis Nieto Piña og Richard Johansson: Here be dragons? The perils and promises of inter-resource lexical-semantic mapping

Workshop on Semantic Annotation and Processing 2014

København, den 3. november 2014
Arrangeret af Københavns Universitet i samarbejde med Göteborgs Universitet.
Co-funded by the Danish Research Council via the project Semantic Processing across Domains

Præsentationer

Eneko Agirre: Word Sense Disambiguation and Named Entity Detection using graph-based algorithms

Pierre Nugues: Question Answering and the development of the Hajen system

Bolette S. Pedersen: Semantic annotation of the Danish CLARIN Reference Corpus

Yvonne Adesam, Gerlof Bouma, Lars Borin, Markus Forsberg, Richard Johansson: The Koala project

Anders Johannsen & Hèctor Martínez Alonso: Cross-domain and cross-language super sense tagging

Lars Borin, Dana Dannélls, Markus Forsberg, Maria Toporowska Gronostaj, Karin Friberg Heppin, Richard Johansson,Dimitrios Kokkinakis: The Swedish FrameNet

Sanni Nimb: A new Danish Thesaurus: some ideas on computational use of the data

Anders Søgaard: Semantic parsing for the 99%

Advisory board

Advisory Board for Semantic Processing across Domains består af:

Professor Pierre Nugues, Lunds Universitet, Sverige
Associate prof. Christina Lioma, Københavns Universitet, Danmark
Associate prof. Eneko Agirre, University of the Basque Country, Spanien
Director Sabine Kirchmeier, Dansk Sprognævn, Danmark
Senior editor Jørg Asmussen, Det Danske Sprog- og Litteraturselskab, Danmark

Partnere

Projektet udgøres af to projektpartnere

Center for Sprogteknologi, Københavns Universitet

Navn	Titel	Telefon	E-mail
Bolette Sandford Pedersen	Professor, viceinstitutleder	+4535329078	E-mail

Støttet af

Semantic Processing across Domains er støttet af Forskningsrådet for Kultur og Kommunikation med en bevilling på 5,7 mio. kr (DFF-1319-00123)

Samarbejde

Projektet udføres i samarbejde med Det Danske Sprog og Litteraturselskab

Projektperiode: 2013 - 2017

Kontakt

Projektet ledes af professor Bolette Sandford Pedersen og lektor Anders Søgaard, Center for Sprogteknologi, Københavns Universitet.

Projektet i pressen

Læs artiklen om projektet "Maskiner skal lære at forstå dansk" på Videnskab.dk.

Det Danske Sprog- og Litteraturselskab

Navn	Titel	Telefon	E-mail
Sanni Nimb	Seniorredaktør		E-mail

Øvrige projektmedarbejdere

Anders Johannsen, postdoc, Center for Sprogteknologi
Héctor Martínez Alonso, postdoc, Center for Sprogteknologi
Sussi A. Olsen, videnskabelig medarbejder, Center for Sprogteknologi

Nicolai Hartvig Sørensen, seniorredaktør, Det Danske Sprog- og Litteraturselskab

Ida Hauerberg Wolthers, studentermedhjælper
Sara Lee Naldal, studentermedhjælper
Selma Rosenfeldt-Olsen, Studentermedhjælper