Handling metadata in the scope of coreference detection in data collections

Widok

Metadane zasobu

Tytuł	Handling metadata in the scope of coreference detection in data collections Wariant tytułu: Zastosowanie metadanych przy wykrywaniu podobieństwa w kolekcjach danych
Osoby	Autorzy: Marcin Szymczak Partner: Instytut Badań Systemowych PAN w Warszawie
Opis	Exchange of information is extremely important in the rapidly and unpredictably changing world. The amount of data is growing very fast and is often distributed over heterogeneous systems or databases. As a consequence, the same piece of information can be represented in different ways, called coreferent data. This may be a serious problem in data processing, hampering the interoperability of distributed systems. Due to the volume of data processed and its required multilevel analysis, it is usually very difficult, and often just impossible, to remedy this problem “manually”. Thus, it is important to identify coreference in automatic fashion on different levels to secure the interoperability, i.e. the ability of systems and organizations to work together. We can distinguish two major levels in coreference detection, namely, the metadata and the data level, which are strongly related to each other. On the one hand, metadata, e.g. a knowledge base (such as an ontology or taxonomy) or a database schema that defines structure and properties, provide additional information about data and can support the coreference detection on the data level. On the other hand, the data, more specifically data which are described by metadata, can be used to construct metadata or detect coreference in metadata. In the first part of this dissertation we propose two novel schema matching techniques. The first technique is based only on XML schema information, more specifically on names (tags) of schema elements and their sequences, called here paths, as elements may be nested in other elements. This method compares element names lexically and considers their relative importance. That makes it a very efficient solution. The second schema matching technique is only based on content data and is a composition of a vertical and a horizontal schema matching. Firstly, attributes domains are statistically and lexically compared in the vertical matching. Secondly, a horizontal matching is applied which is based on detecting coreferent tuples. This allows to address the attribute granularity and coverage problems. In the second part of this work a novel automated method (DOC) is proposed to construct a knowledge base with semantic information on the domain of an attribute. Such a knowledge base then supports the semantic comparison of domain values that can be sorted by means of an order relation reflecting a notion of generality. The use and impact of this method on the mapping and transformation of attribute values across heterogeneous data collections, the detection of coreferent tuples and data fusion (merging coreferent representations of an entity into a single representation) are investigated. Our novel technique has the advantage that there is no need for a priori taxonomical knowledge on the attribute domains. Instead, this knowledge is dynamically constructed and hence only depends on the con tent data, which means that it can be automatically reconstructed when these data change. All proposed methods are extensively evaluated on large real-life data collections. By studying the selected research problems we aim to contribute to the scientific developments in the areas of data integration and interoperability. (Angielski) Opis w innym języku: Wymiana informacji jest niezwykle istotna w nieprzewidywalnym i ciągle zmieniającym się świecie. Wciąż powiększa się ilość danych i są to często dane rozproszone w niejednorodnych systemach lub bazach danych. W konsekwencji, ta sama informacja może być przedstawiana na różne sposoby i dane ją na te różne sposoby przedstawiające nazywamy danymi koreferentnymi (ang. coreferent data). Dla sprawnego przetwarzania informacji pochodzących z różnych źródeł istotne jest automatyczne wykrywanie koreferencji na różnych poziomach reprezentacji danych oraz rozwiązanie problemu interoperacyjności - zdolności do efektywnej współpracy systemów i organizacji. Możemy wyróżnić dwa główne poziomy reprezentacji, na których można prowadzić wykrywanie koreferencji: poziom danych i poziom metadanych, przy czym działania te na obydwu poziomach są ze sobą silnie powiązane. Z jednej strony, metadane opisują dane i mogą wspomagać proces wykrywania ich podobieństwa. Z drugiej strony, dane, a konkretnie dane opisane przez metadane (np. schematy baz danych), mogą zostać wykorzystane do konstrukcji dodatkowych metadanych lub wykrywania koreferencji na poziomie metadanych. W pierwszej części rozprawy zostały zaproponowane dwa nowatorskie rozwiązania problemu dopasowania metadanych i, na tej podstawie, wykrywania koreferencji na ich poziomie w przypadku danych zapisanych z użyciem języka XML. Pierwsza metoda operuje wyłącznie na informacji zawartej w schematach XML, a konkretnie na znacznikach (tagach) elementów schematu i ich sekwencjach, zwanych ścieżkami (ang. paths), prowadzących od korzenia dokumentu XML do danego elementu. Metoda ta porównuje znaczniki i ścieżki jako ciągi znaków, z uwzględnieniem ich zróżnicowanej ważności. Dzięki intuicyjności i względnej prostocie implementacyjnej tej metody uzyskuje się efektywne i wydajne narzędzie do wykrywania koreferencji. Druga metoda operuje wyłącznie na danych, które są opisane przez porównywane metadane. Jest ona realizowana w dwóch krokach. Najpierw, w ramach pierwszego kroku, porównuje się wartości poszczególnych atrybutów z użyciem zarówno narzędzi statystycznych, jak i poprzez leksykalne porównywanie pojedynczych wartości tychże atrybutów. Drugi krok bazuje na wykrytych w pierwszym kroku koreferentnych atrybutach i obiektach w bazie danych. Pozwala to przezwyciężyć problem różnej granulacji informacji (ang. attribute granularity problem) oraz problem stopnia pokrycia informacji (ang. data coverage problem). W drugiej części pracy zaproponowany został nowatorski algorytm, nazwany DOC, który automatycznie tworzy bazę wiedzy dotyczącą dziedziny wybranego atrybutu. Baza ta przyjmuje postać relacji porządku częściowego, określonej na dziedzinie danego atrybutu. Znajduje to zastosowanie przy porównywaniu elementów tej dziedziny, pozwalając na uwzględnienie większej lub mniejszej ich ogólności. W pracy opracowano i przebadano zastosowanie takiej bazy wiedzy do mapowania i transformacji wartości atrybutów o niejednorodnych dziedzinach oraz do wykrywania danych koreferentnych, jak również do integracji danych - połączenia wielu reprezentacji danej informacji w pojedynczą reprezentację. Zaletą zastosowania zaproponowanej nowatorskiej metody DOC we wspomnianych wyżej zadaniach jest fakt, iż pozwala ona stworzyć automatycznie bazę wiedzy, która znacznie podnosi efektywność realizacji tych zadań, co pokazano w ramach przeprowadzonych eksperymentów obliczeniowych. Wszystkie opisane metody zostały szczegółowo przetestowane na dużych zbiorach danych o charakterze praktycznym. (Polski)
Słowa kluczowe	"metadane"@pl, "dane koreferentne"@pl, "jakość danych"@pl, "wykrywanie duplikatów"@pl
Klasyfikacja	Typ zasobu: praca dyplomowa Dyscyplina naukowa: dziedzina nauk technicznych / informatyka (2011) Grupa docelowa: naukowcy, studenci, przedsiębiorcy Szkodliwe treści: Nie
Charakterystyka	Miejsce powstania: Poznań Czas powstania: 2015 Liczba stron: 240 Promotor: Guy De Tré, Sławomir Piotr Zadrożny Język zasobu: Angielski
Licencja	CC BY-SA 4.0
Informacje techniczne	Deponujący: Anna Wasilewska Data udostępnienia: 18-10-2018
Kolekcje	Kolekcja Instytutu Badań Systemowych PAN w Warszawie, Kolekcja e-Biblio IBS PAN

Cytowanie

Skopiowano

Marcin Szymczak. Handling metadata in the scope of coreference detection in data collections. [praca dyplomowa] Dostępny w Atlasie Zasobów Otwartej Nauki, . Licencja: CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0/legalcode.pl. Data dostępu: DD.MM.RRRR.

Podobne zasoby

Charakterystyka i przetwarzanie zasobów urzędowych związanych z czasem i przestrzenią

Tomasz Kubik, Jaromar Łukowicz, Maciej Tobjasz, Jadwiga Borzuchowska, Iwona Kaczmarek, książka, Uniwersytet Przyrodniczy we Wrocławiu, dziedzina nauk technicznych (2011)