Looking for Course 631 test answers and solutions? Browse our comprehensive collection of verified answers for Course 631 at online.iscap.ipp.pt.
Get instant access to accurate answers and detailed explanations for your course questions. Our community-driven platform helps students succeed!
A expansão de contrações aumenta o número de termos.
Overfitting é um problema usual em Machine Learning e acontece quando a função que explica os dados de treino se ajusta demasiado a estes dados e perde a capacidade de generalizar para dados que não foram apresentados durante o treino.
Dados organizados em folhas de calculo, bases de dados relacionais, data warehouses, sistemas integrados de gestão, constituem exemplos de:
A técnica de oversampling consiste na replicação aleatória das amostras da classe minoritária até perfazer o número de amostras da classe maioritária. Apresenta como vantagem, o facto de não levar à perda de informação relevante do conjunto de dados original, mas tem como principal desvantagem a hipótese de se verificar overfitting do algoritmo, onde este tende a especializar-se na classificação dos casos replicados, diminuindo a precisão na classificação de novos dados.
A Tokenização ou Atomização consiste em transformar o texto em Tokens (termos) individuais.
Qual das seguintes técnicas de pre-processamento tem impacto na redução do número de termos para dar ao classificador:
Indique qual a sequência correcta de passos, para dado um conjunto de textos (dataset), contruir um classificador que aprenda com esses exemplos e nos permita também avaliar o desempenho do classificador criado.
O que representa a sigla KDT?
Um conjunto de dados diz-se não balanceado se uma das classes tiver mais dados do que as outras classes, o que pode influenciar o processo de classificação.
O POS-Tagging (Part of Speech Tagging) permite classificar os tokens de acordo com a sua categoria lexical: nome, pronome, verbo, preposição, advérbio, ...