20 основных команд Linux для Data Scientist специалистов.
Базовые команды Linux для улучшения рабочего процесса обработки данных. Это даст вам возможность автоматизировать задачи, создавать конвейеры, получать доступ к файловым системам и эффективно использовать команды для работы с данными. @linuxkalii - лучшие linux гайды 1. ls Команда ls используется для отображения списка всех файлов и папок в текущем каталоге.
$ ls
Вывод:
AutoXGB_tutorial.ipynb binary_classification.csv requirements.txt
Images/ binary_classification.csv.dvc test-api.ipynb
LICENSE output/
README.md output.dvc
2. PWD
PWD отобразит полный путь к текущему каталогу
$ pwd
Вывод
C:\Repository\HuggingFace
3. CD
Команда cd означает изменение каталога. Введя новый путь к каталогу, вы можете изменить каталог, котором находитесь. Эта команда необходима для работы с несколькими папками и переключением между ними.
$ cd C:/Repository/GitHub/
4. wget
Wget позволяет загружать любые файлы из Интернета. В науке о данных она используется для загрузки датасетов.
$ wget https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
Результат команды:
5. cat
Cat(concatenate) — часто используемая команда для создания, подключения и просмотра файлов. Команда cat считывает CSV-файл и отображает содержимое файла в качестве выходных данных.
$ cat iris.csv
Output
sepal_length,sepal_width,petal_length,petal_width,species
5.1,3.5,1.4,0.2,setosa
4.9,3,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5,3.6,1.4,0.2,setosa
………………………..
6. wc
wc (счетчик слов) используется для получения информации о количестве слов, количестве символов и строк. В нашем случае он отображает 4 столбца в качестве вывода. Первый столбец — количество строк, второй — количество слов, третий — количество символов, а четвертый — имя файла.
$ wc iris.csv
Output
151 151 3716 iris.csv
7. head
Команда head показывает первые n строк в файле. В нашем случае отображаются первые 5 строк в файле iris.csv.
$ head -n 5 iris.csv
Output
sepal_length,sepal_width,petal_length,petal_width,species
5.1,3.5,1.4,0.2,setosa
4.9,3,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
8. find
Команда find используется для поиска файлов и папок, а с помощью -exec
вы можете выполнять другие команды Linux для файлов и папок. В нашем случае мы находим все файлы с расширением «.dvc».
$ find . -name "*.dvc" -type f
Output
./binary_classification.csv.dvc
./output.dvc
9. grep
grep используется для фильтрации определенного шаблона и отображения всех строк, содержащих этот шаблон.
Находим все строки, содержащие «vir» в iris.csv
$ grep -i "vir" iris.csv
10. history
history покажет журнал прошлых команд. Мы ограничили вывод отображением 5 последних команд.
$ history 5
Output
494 cat iris.csv
495 wc iris.csv
496 head -n 5 iris.csv
497 find . -name "*.dvc" -type f
498 grep -i "vir" iris.csv
11 zip.
zip используется для сжатия файла в Первый аргумент команды zip — это имя zip-файла, а второй — имя файла или список имен файлов. Команда zip в основном используется для сжатия и упаковки наборов данных.
$ zip ZipFile.zip File1.txt File2.txt
12. unzip.
unzip распаковывает файлы и папки. Просто укажите имя файла .zip
, и он извлечет все файлы и папки в текущем каталоге.
$ unzip sampleZipFile.zip
13. cp
cp позволяет скопировать файл, список файлов или каталог в другой, необходимый вам каталог. Первый аргумент в команде cp — это файл, а второй аргумент — это путь к целевому каталогу.
$ cp a.txt work
14. mv
Подобно cp, команда mv позволяет переместить файл, список файлов или каталог в другое место. Оан также используется для переименования файлов и каталогов. Первый аргумент в команде mv — это файл, а второй — путь к целевому каталогу.
$ mv a.txt work
15. rm
rm удаляет файлы и каталоги из файловой системы. Вы можете добавить файл или список имен файлов после команды rm.
$ rm b.txt c.txt
16. mkdir
mkdir позволяет создать папуи. Просто напишите путь к папке после команды mkdir.
$ mkdir /datascience
Примечание. Пользователь должен иметь разрешение на создание папки в родительском каталоге.
17. rmdir
Вы можете удалить каталог или несколько каталогов с помощью rmdir. Просто добавьте папку с именем в качестве первого аргумента.
$ rmdir -v /datascience
Вывод:
VERBOSE: Performing the operation "Remove Directory" on target "C:\datascience".
18. man
Команда используется для отображения руководства любой команды в системе Linux. В нашем случае мы собираемся узнать о команде echo.
$ man echo
19. diff
Он используется для отображения построчных различий между двумя файлами. Просто добавьте оба файла после команды diff, чтобы увидеть различие в файлах.
$ diff app1.py app2.py
Output
31c31
< solar_irradiation = loaded_model.predict(data)[1]
---
> solar_irradiation = loaded_model.predict(data)[0]
20. alias
alias -это инструмент повышения производительности. Команда alias используется для создания псевдонима команды или списку команд, то есть присваиваем им новые названия. Это нужно для того, чтобы избежать необходимости запоминать длинные и сложные команды. Таким образом, мы можем повысить скорость работы в терминале.
В приведенном ниже примере терминал отображает текст «я люблю науку о данных» всякий раз, когда я запускаю команду love.
$ alias love="echo 'i love data science'"
Памятка по Linux для науки о данных
Настоящая хитрость в освоении командной строки Linux, помимо изучения доступных команд, состоит в том, чтобы иметь под рукой справочные материалы по этому вопросу. Вот тут и вступает в игру последняя шпаргалка .
Эта шпаргалка описывет наиболее полезные команд терминала Linux, и этого достаточно, чтобы вы прямо сейчас могли выполнять большую часть своих повседневных операций с ОС из командной строки. Немного потренировавшись, вы обнаружите, что все это делает вашу повседневную работу более быстрой, легкой
топ