سبق 1ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਕਦਮ: ਸਫ਼ਾਈ, ਸਮਮਿੱਤੀਕਰਨ, ਸੈਲਫ਼-ਲੂਪਸ/ਮਲਟੀਐਜ ਨਾਲ ਨਜਿੱਠਣਾ, ਸਮੇਂ ਦੀ ਏਕ੍ਰਿਤੀ, ਅਤੇ ਸਬਗ੍ਰਾਫ ਐਕਸਟ੍ਰੈਕਸ਼ਨਇਹ ਭਾਗ ਕੱਚੇ ਨੈੱਟਵਰਕ ਡਾਟਾ ਲਈ ਜ਼ਰੂਰੀ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਵੇਰਵੇ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਫ਼ਾਈ, ਡੁਪਲੀਕੇਸ਼ਨ ਹਟਾਉਣਾ, ਸਮਮਿੱਤੀਕਰਨ, ਸੈਲਫ਼-ਲੂਪਸ ਅਤੇ ਮਲਟੀਐਜ ਦਾ ਇਲਾਜ, ਸਮੇਂ ਦੀ ਏਕ੍ਰਿਤੀ ਰਣਨੀਤੀਆਂ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਅਰਥਪੂਰਨ ਸਬਗ੍ਰਾਫ ਦੀ ਸਿਧਾਂਤਕ ਐਕਸਟ੍ਰੈਕਸ਼ਨ ਸ਼ਾਮਲ ਹੈ।
Detecting and removing invalid or duplicate edgesHandling missing, noisy, or inconsistent node attributesSymmetrization strategies for directed interaction dataPolicies for self-loops and multiedges in simple graphsTemporal aggregation windows and subgraph extractionسبق 2ਡੋਮੇਨ ਐਂਟੀਟੀਜ਼ ਨੂੰ ਗ੍ਰਾਫ ਐਲੀਮੈਂਟਸ ਵਿੱਚ ਮੈਪ ਕਰਨਾ: ਨੋਡਸ, ਐਜ਼, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ, ਅਤੇ ਮਲਟੀ-ਰਿਲੇਸ਼ਨਲ ਲਿੰਕਸ ਨੂੰ ਫਾਰਮਲਾਈਜ਼ ਕਰਨਾਇਹ ਭਾਗ ਵਿਆਖਿਆ ਕਰਦਾ ਹੈ ਕਿ ਡੋਮੇਨ ਸੰਕਲਪਾਂ ਨੂੰ ਗ੍ਰਾਫ ਢਾਂਚਿਆਂ ਵਿੱਚ ਕਿਵੇਂ ਅਨੁਵਾਦ ਕੀਤਾ ਜਾਵੇ, ਨੋਡ ਅਤੇ ਐਜ ਟਾਈਪਸ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਐਨਕੋਡ ਕਰਨਾ, ਮਲਟੀ-ਰਿਲੇਸ਼ਨਲ ਲਿੰਕਸ ਨੂੰ ਮਾਡਲ ਕਰਨਾ, ਅਤੇ ਯਕੀਨੀ ਬਣਾਉਣਾ ਕਿ ਨਤੀਜੇ ਵਾਲੀ ਸਕੀਮਾ ਮੂਲ ਸਿਸਟਮ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਅਤੇ ਅਰਥਸ਼ਾਸਤਰ ਨੂੰ ਵਫ਼ਾਦਾਰੀ ਨਾਲ ਫੜਦੀ ਹੈ।
Identifying domain entities as node typesDefining edge semantics and interaction typesDesigning node and edge attribute schemasModeling multiplex and multi-relational networksValidating the graph model with domain expertsسبق 3ਗ੍ਰਾਫ ਟਾਈਪ ਫੈਸਲਾ: ਨਿਰਦੇਸ਼ਿਤ vs ਅਨਿਰਦੇਸ਼ਿਤ, ਵਜ਼ਨੀ vs ਅਵਜ਼ਨੀ, ਸਾਧਾਰਨ ਗ੍ਰਾਫ vs ਮਲਟੀਗ੍ਰਾਫ; ਜਾਸੂਸੀ ਸਿਧਾਂਤਕਇਹ ਭਾਗ ਢੁਕਵੇਂ ਗ੍ਰਾਫ ਟਾਈਪ ਨੂੰ ਚੁਣਨ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦਾ ਹੈ, ਨਿਰਦੇਸ਼ਿਤ ਅਤੇ ਅਨਿਰਦੇਸ਼ਿਤ, ਵਜ਼ਨੀ ਅਤੇ ਅਵਜ਼ਨੀ, ਸਾਧਾਰਨ ਗ੍ਰਾਫ ਅਤੇ ਮਲਟੀਗ੍ਰਾਫ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਹੈ, ਅਤੇ ਡਾਟਾ ਸੈਮੈਂਟਿਕਸ ਅਤੇ ਯੋਜਨਾਬੱਧ ਵਿਸ਼ਲੇਸ਼ਣਾਂ ਵਿੱਚ ਜੜ੍ਹੀ ਜਾਸੂਸੀ ਸਿਧਾਂਤਕ ਬਣਾਉਂਦਾ ਹੈ।
When to model interactions as directed or undirectedDeciding between weighted and unweighted edgesSimple graphs versus multigraphs and hypergraphsImpact of graph type on algorithms and metricsDocumenting and defending modeling choicesسبق 4ਪਬਲਿਕ ਨੈੱਟਵਰਕ ਡਾਟਾ ਸੈੱਟਾਂ ਲਈ ਸਰੋਤ (SNAP, KONECT, Network Repository, OpenFlights, BioGRID, ਆਦਿ.) ਅਤੇ ਵਿਸ਼ੇਸ਼ ਨੈੱਟਵਰਕ ਨੂੰ ਕੁਆਰੀ/ਡਾਊਨਲੋਡ ਕਿਵੇਂ ਕਰਨਾਇਹ ਭਾਗ ਨੈੱਟਵਰਕ ਡਾਟਾ ਸੈੱਟਾਂ ਦੇ ਮੁੱਖ ਪਬਲਿਕ ਰਿਪੋਜ਼ੀਟਰੀਜ਼ ਦੀ ਸਰਵੇਖਣ ਕਰਦਾ ਹੈ ਅਤੇ ਵਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇੱਛਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਾਲੇ ਗ੍ਰਾਫ ਨੂੰ ਖੋਜਣ, ਫਿਲਟਰ ਕਰਨ ਅਤੇ ਡਾਊਨਲੋਡ ਕਿਵੇਂ ਕੀਤਾ ਜਾਵੇ, ਜਦੋਂ ਕਿ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਗੁਣਵੱਤਾ, ਲਾਇਸੈਂਸ ਸ਼ਰਤਾਂ, ਅਤੇ ਅਡਵਾਂਸਡ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਢੁਕਵੇਂਤਾ ਜਾਂਚਦੇ ਹੋਵੋ।
Overview of SNAP, KONECT, and Network RepositoryDomain-specific sources such as OpenFlights, BioGRIDQuerying repositories by size and graph propertiesDownloading, parsing, and validating dataset formatsChecking licenses, usage limits, and documentationسبق 5ਡਾਟਾ ਸੈੱਟ ਚੋਣ ਲਈ ਮਾਪਦੰਡ: ਨੋਡ ਗਿਣਤੀ, ਐਜ ਘਨਤਵ, ਮੈਟਾਡਾਟਾ ਉਪਲਬਧਤਾ, ਨਿਰਦੇਸ਼ਤਾ, ਵਜ਼ਨ, ਸਮੇਂ ਦੀ ਰੇਜ਼ੋਲੂਸ਼ਨਇਹ ਭਾਗ ਢੁਕਵੇਂ ਨੈੱਟਵਰਕ ਡਾਟਾ ਸੈੱਟ ਚੁਣਨ ਲਈ ਮਾਪਦੰਡ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਪੈਮਾਨੇ, ਐਜ ਘਨਤਵ, ਮੈਟਾਡਾਟਾ ਅਮੀਰਤਾ, ਨਿਰਦੇਸ਼ਤਾ, ਵਜ਼ਨਾਂ, ਸਮੇਂ ਦੀ ਰੇਜ਼ੋਲੂਸ਼ਨ, ਅਤੇ ਖੋਜ ਸਵਾਲਾਂ ਨਾਲ ਲਾਈਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਗਣਨਾਤਮਕ ਅਤੇ ਨੈਤਿਕ ਰੁਕਾਵਟਾਂ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹੋਵੋ।
Relating research questions to network structureNode count, sparsity, and computational feasibilityRole of metadata richness and attribute coverageDirectedness, weights, and temporal resolution needsEthical, privacy, and domain-specific constraintsسبق 6ਮੂਲ ਅਤੇ ਪੁਨਰੁਤਪਾਦਕਤਾ ਦੀ ਦਸਤਾਵੇਜ਼ੀਕਰਨ: ਡਾਟਾ ਸੈੱਟ ਸਿਟੇਸ਼ਨ, ਵਰਜ਼ਨਿੰਗ, ਅਤੇ ਵਾਤਾਵਰਣ ਫੜਨਾ (ਲਾਇਬ੍ਰੇਰੀਆਂ, ਰੈਂਡਮ ਸੀਡਸ)ਇਹ ਭਾਗ ਡਾਟਾ ਮੂਲ ਅਤੇ ਵਰਕਫਲੋ ਦੀ ਸਖ਼ਤ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਕਵਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਡਾਟਾ ਸੈੱਟ ਸਿਟੇਸ਼ਨ, ਵਰਜ਼ਨਿੰਗ, ਵਾਤਾਵਰਣ ਫੜਨਾ, ਰੈਂਡਮ ਸੀਡ ਨਿਯੰਤਰਣ, ਅਤੇ ਪੂਰੀ ਪੁਨਰੁਤਪਾਦਕਤਾ ਅਤੇ ਨੈੱਟਵਰਕ ਅਧਿਐਨਾਂ ਦੀ ਪਾਰਦਰਸ਼ੀ ਸਾਂਝੀਕਰਨ ਨੂੰ ਸੰਭਵ ਬਣਾਉਣ ਵਾਲੇ ਆਟੋਮੇਟਿਕ ਪਾਈਪਲਾਈਨ ਸ਼ਾਮਲ ਹਨ।
Recording dataset origin, licenses, and citationsVersioning raw, cleaned, and derived graph dataCapturing software environments and dependenciesManaging random seeds and stochastic proceduresPackaging workflows for reproducible publication